<aside> <img src="/icons/report_gray.svg" alt="/icons/report_gray.svg" width="40px" /> 生成AIのデータは、Web上のあらゆるコンテンツのスクレイピングデータから成り立っています。テキスト、画像、動画などの多くのものが該当します。
また海賊版サイトや転載サイトからスクレイピングされている場合もあります。
Midjourneyは公式が画風を得るために公開したアーティスト名一覧、NovelAIは検証でトレーニングされたイラストレーター名一覧が明らかになっています。(アーティスト名などは画像を生成するときにプロンプトで指示できるようになっている)
またNovelAIは転載が数多くされているDanbooruのデータを使用していることを公式が認めています。
MetaはInstagram、Facebookのデータを生成AIのトレーニングに使用している、今後も使用することを明言しています。X(Twitter)も利用規約を変更しており、投稿したものを生成AIのトレーニングに使用できる状態になっています。
</aside>
ChatGPTなどの大規模言語モデルの(LLM)問題の問題は以下のページでまとめています。
児童性的虐待画像(CSAM)の問題についても別ページでまとめていますので、そちらをご覧ください。
MidjourneyがAIトレーニングに用いた6歳児を含む1万6000人のアーティストリストの存在が発覚
MidjourneyがAIトレーニングに用いた6歳児を含む1万6000人のアーティストリストの存在が発覚
スクリーンショットでは、Midjourneyのデイビッド・ホルツCEOがトレーニングデータにアーティストが追加されるのを歓迎しているほか、メンバーが著作権問題について「あなたがしなければならないのは、スクレイピングされたデータセットを使うことだけで、モデルのトレーニングに何を用いたかはきれいさっぱり忘れてしまうことです」と言及しています。
AIジェネレーターのトレーニングに使われた有名アーティストのリストが話題に
A list going viral reveals famous artists whose work was used to train AI generator
「Andersen v. Stability AI Ltd.」訴訟の添付資料 EXHIBIT J (Midjourney Name List)
2022年にMidjourneyの開発者達がアーティストの画風を偽造するために作成したアーティスト名一覧が記載されている訴訟添付資料
アーティストリストのスプレッドシートアーカイブ(開くのに少し時間がかかる場合があります)