【AIの洪水】氾濫するAIコンテンツがもたらすモデル崩壊の懸念【AI汚染】

2024.02.20
AI

生成AIの技術が進歩し、より高品質な偽造画像やテキストが生成できるようになったことで、AI生成コンテンツがインターネットに氾濫しています。その中でも、労力を惜しみ低品質なコンテンツを大量生産し、利益を上げようとする怠け者のコンテンツ制作者が溢れていることが、ウェブ上の「本物の」人間が作ったデータを信用できなくなっている状況を「AIの洪水」とし、誤った情報や有害コンテンツの拡散を「AI汚染」として、大きな懸念を呼んでいます。

それとともに、汚染されたデータ（人間の作成したと思われるデータが、実は部分的にでもAIが作成したデータ）を使用した場合、「モデル崩壊」と呼ばれるモデルのパフォーマンスを低下させるリスクがあるとされています。

1. AIの洪水
2. AI汚染
3. AI汚染がもたらす問題
4. AIの検出とすみ分け
5. モデル崩壊
6. 対策

AIの洪水

IBM、「世界のAI導入状況 2022年(日本語版)」を発表 – 日本経済新聞 (nikkei.com)

最近ではAIによって生成されたコンテンツがインターネット上をあふれ返る状況となっており、「AIの洪水」と呼び警告が出されています。例を挙げると以下の通りです。

文章生成AI「GPT」を利用した自動ブログサービスの登場により、AI生成コンテンツがネット上に大量に流布
深層偽造(ディープフェイク)技術を応用し、実在の人物にそっくりな合成動画の生成が可能に
AIアーティストの登場で、多数のAI生成画像・イラストが画像共有SNS上で拡散
音声合成と会話AIを組み合わせ、自然な会話が可能な「仮想インフルエンサー」の開発など

こうしたAIコンテンツの洪水が、フェイクニュースの増幅や個人情報のなりすましといった弊害を招く恐れが指摘されています。また、人間のクリエイティビティと機械的生成物の境界が曖昧化し、社会的混乱も生じかねません。今後この問題への対処が喫緊の課題であると言えます

AI汚染

AI汚染という言葉の定義は明確にはなっていませんでした。（調べた限りですが）

ここでは２つの意味を考えてみたいと思います。

人の作ったコンテンツと、AIの生成したコンテンツがわからなくなること

AI生成の際に、誤った情報/モラルに反した情報により、AIの生成物が間違ったもの/倫理に反するものになること

AI汚染がもたらす問題

AI汚染がもたらす問題は、大きく分けて以下の3つです。

情報の信頼性低下：AI生成コンテンツは、人間が作成したコンテンツと見分けがつかないものも多く、情報の信頼性が低下しています。これにより、フェイクニュースや誹謗中傷などの拡散が容易になり、社会に混乱をもたらす可能性があります。

知的財産権の侵害：AI生成コンテンツは、著作権法や商標法などの知的財産権の対象となる可能性があります。しかし、AI生成コンテンツの著作権者や権利者は不明な場合が多く、知的財産権の侵害が横行しています。
セキュリティリスクの増大：AI生成コンテンツは、サイバー攻撃やフィッシング詐欺などの犯罪に悪用される可能性があります。例えば、AI生成の偽造IDや偽造パスワードを用いて、不正アクセスや不正ログインを試みる攻撃が行われています。

AIの検出とすみ分け

EUのAI法案（AI Act）では、生成AIコンテンツであることを証明させるような透明性の義務が課されるなど、生み出す側にAI生成物の識別ができるような働きかけが求められています。

また、すでに世に放たれている生成AIコンテンツに対し、ろ過するような検知ツールの開発が求められます。しかしLMMの進化が「いかに人と同じように会話できるか」となっている限り、検知機能は、AIのベンチマークにはなれど、識別機能メインのツールにななりえないかもしれません。（検知機能自体は有益であり、それを突き詰めるメリットは、経済的にも大きいはずなのですが・・・）

モデル崩壊

AI検出不能に直面し、汚染されたデータ（つまり、人間が作成したと思われるデータだが、少なくとも部分的にはAIが作成したデータ）を使用した場合、「モデル崩壊」と呼ばれるモデルのパフォーマンスの低下のリスクがあります。

AIモデルは、大量のデータを使って学習することで、特定のタスクを実行するように訓練されます。しかし、学習データに汚染が含まれていると、AIモデルは汚染されたデータに適応し、誤った結果を出力するようになってしまいます。

モデル崩壊は、AI汚染によって引き起こされる可能性があります。AI生成コンテンツは、人間が作成したコンテンツと見分けがつかないレベルにまで達しているため、AIモデルが学習データとして誤って利用される可能性があります。

モデル崩壊がもたらす問題は、大きく分けて以下の2つです。

誤った結果の生成：モデル崩壊によって、AIモデルは誤った結果を生成するようになってしまいます。これにより、人間の意思決定に誤りが生じ、重大な事故や被害につながる可能性があります。
AIモデルの信頼性低下：モデル崩壊によって、AIモデルの信頼性が低下します。これにより、AIモデルの利用が制限され、AI技術の普及が阻害される可能性があります。

対策

AI汚染とモデル崩壊を防ぐためには、以下の対策が必要です。

AI生成コンテンツの識別技術の開発：AI生成コンテンツを人間の目で識別することは困難です。そのため、AI生成コンテンツを自動的に識別できる技術の開発が急務です。

AIモデルの学習データの管理：AIモデルの学習データには、人為的なミスや意図的な汚染が含まれている可能性があります。そのため、AIモデルの学習データは適切に管理し、汚染を防ぐ必要があります。
AI倫理の遵守：AIの開発・利用において、AI倫理の遵守が重要です。AI倫理とは、AIの開発・利用において、人間の尊厳や社会の安全を守るために遵守すべき原則です。

AI汚染とモデル崩壊は、AI技術の普及に伴って深刻化する可能性があります。そのため、AI汚染とモデル崩壊に対する対策が重要となっています。

今後、世に放たれたAIがどのような進化をするのか、楽しみな反面、不安もあります。