<aside> <img src="/icons/report_gray.svg" alt="/icons/report_gray.svg" width="40px" /> 日本だと問題として取り上げられることが少ないですが、大規模言語モデルでも様々な問題が発覚しています。

Books3などの書籍海賊版サイトのデータを使用していることが明らかになり、アメリカでは訴訟が起きている状況
大規模言語モデル（LLM）で著作権で保護されたコンテンツの出力が確認された
LLMにおいて、方言の特徴だけで引き起こされる人種差別が発見された
学術論文に、ChatGPTの出力がそのまま掲載されている

など

</aside>

LLMのセキュリティに関するの問題は以下でまとめています。

セキュリティ・脆弱性

著作権の問題

AIによる著作権侵害を調べるPatronus AIの「CopyrightCatcher」によるとGPT-4の出力の44％が著作権で保護されたコンテンツで他の大規模言語モデル(LLM)と比べて最悪であることが判明

テストの結果、著作権で保護されたコンテンツを最も多く出力したのがOpenAIのGPT-4です。GPT-4は特定の書籍の本文を完成させるように求められたところ、60％の確率で出力に成功しています。書籍の最初の一節を出力する確率は約4回に1回のペースです。なお、GPT-4が著作権で保護されたコンテンツを出力する確率は約44％でした。

↓元記事

研究者らが人気書籍を使用し、著作権侵害に関するテストを主要なAIモデルにしたところ、GPT-4が最も悪い結果だった

Researchers tested leading AI models for copyright infringement using popular books, and GPT-4 performed worst

以下は大規模言語モデルの評価とテストを専門としているPatronus AI社の共同設立者兼CTOのRebecca Qian氏の発言。

「オープンソースかクローズドソースかに関わらず、評価したすべてのモデルにおいて、著作権で保護されたコンテンツが全体的に見つかった」

差別問題

Dialect prejudice predicts AI decisions about people's character, employability, and criminality

Dialect prejudice predicts AI decisions about people's...

新しい論文。LLMにおいて、方言の特徴だけで引き起こされる人種差別が発見されたとのこと。論文のAbstractによると言語モデルはアフリカ系アメリカ人の英語を話す人に対し、あまり評価されない仕事を担当させたり、犯罪で有罪判決や死刑判決を受けたりすることを提案する可能性が高いらしい。

225,000件以上の漏洩したChatGPT認証情報が、ダークWeb市場で売りに出されている