データ汚染

AIディープフェイクによる社会と科学の沈没を阻止する方法

学者は数年以内にインターネット上の全コンテンツの約90％が合成コンテンツになる可能性があるという見積りをよく引用している。「他のすべてがこのノイズにかき消されてしまうでしょう」

「生成的近親交配」と人類文化へのリスク

‘Generative inbreeding’ and its risk to human culture

人間の文化のコピーで訓練された新しいAIシステムは、ますます歪んだ人工物で世界を埋め尽くし、次世代のAIシステムが人間の文化のコピーのコピーで訓練するようになる。

AIシステムは過去のスタイルや内容を模倣するよう明確にトレーニングされており、強い後ろ向きのバイアスがかかっているからだ。（中略）現在のAIシステムは、何を生み出すにも個人的なインスピレーションをもたらさない。

対話型AIの学習に使われているGoogleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している

対話型AIの学習に使われているGoogleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している

Googleが作成した巨大データセット「Colossal Clean Crawled Corpus(C4)」が使用されています。C4は名前の通り「クリーン」なデータで構成されているはずですが、海外メディア・The Washington PostとAI研究者の分析により、このC4に有害なコンテンツが大量に紛れ込んでいることが発覚しました。

ChatGPTが既成事実化するウソ　深刻化するネットの情報汚染（有料記事）

ChatGPTが既成事実化するウソ　深刻化するネットの情報汚染

生成AIによるウソの中には半ば既成事実と化し、上場企業のウェブサイト上やメディア報道にも用いられる事例まで現れた。

生成AIがGoogleを混乱させている（有料記事）