【AI検知ツール】AIを見破る技術とその課題
- 2024.02.20
- AI
過去の記事にてAIの洪水と汚染という記事を書きました。
AIによる生成物を違和感を持ってとらえられる人はそう多くないと考えています。AIによる生成物のうち、AI生成であることをアピールする方が、より広告効果が高いもの以外、じつは普段触れているものの中に、AIは潜んでいるかと思います。
これほどAIが生活に浸透する中でAIを検知・識別する必要性とは。またそのために現在世にあAI検知ツールはどんなものがあるのか見ていきたいと思います。
AI検出が求められる分野
- テキスト : 応答や文章がAI生成かどうか。偽ニュース検出にも必要。
- 映像・音声 : ディープフェイクと呼ばれるAI生成の人工映像や音声。
- イメージ : AI生成画像、イラストの出所の確認。肖像権も関連。
- ソーシャルメディア : SNS上でのボットや自動投稿の検出。
- エンターテイメント : AI作曲や原画などコンテンツの生成ソース判断。
- 開発・産業 : GitHub CopilotなどAIコードやデータの使用判断。
- その他 : 顔認証や自動運転などの舞台裏でAI生成データが使われていないか。
各種検出ツール例
テキスト
- Classifier:OpenAI製判別するツール。「精度が低い」という理由でサービス終了。
- Writer:ライターの原稿作成と文章の推敲を支援するウェブサービス。独自のAIコンテンツ検出ツールが搭載。AIが生成した可能性のあるコンテンツを検出可能。
- Copyleaks:イスラエルのAI企業Copyleaksが開発したテキストのAI検出ツール。AIの生成モデルを学習した機械学習モデルを用いて、AIが生成したテキストかどうかを判定。精度は、90%以上とされている。
- Originality.AI:Google Chromeの拡張機能で、AIによりページが作成されたかどうかをリアルタイムで簡単に確認できるのが特徴です。
- GPTZero:教育関係者の間で知られたサービス
- Sapling:50ワードの評価から、GPT-3またはChatGPTで記事が書かれたかどうかを判別
- Corrector App:閾値300ワードからAI生成コンテンツの可能性を判定
- Crossplag:総合的なAI検出ツール。記事がどの程度疑わしいのかを示す、目盛りでの表記が特徴。
- Smodin: 100 以上の言語での多言語サポート
音声・映像
FakeCatcher:ディープフェイクで作られたフェイク映像を96%の精度で検出
DEEPFAKE DETECTION:Sensity
Video Authenticator:Microsoft2020年発表
イメージ
HIVE:AIの生成モデルを学習した機械学習モデルを用いて判定。精度は、90%以上。
AI or Not:オンライン上で画像を選ぶかURLを入力し、その画像がAI生成か否かを95%の高確率で判定。
SNS
応用範囲の広がりに伴い検出の重要性が増す一方、技術競争や倫理面での課題も伴っていると言えるでしょう。
AI検知ツールの仕組み
AI検知ツールの仕組みは、大きく分けて2つあります。
1つは、AIが生成したテキストに特徴的なパターンを検出するパターンマッチング方式です。
もう1つは、AIの生成モデルを学習した機械学習モデルを用いて、AIが生成したテキストかどうかを判定する機械学習方式です。
パターンマッチング方式
単語の繰り返し:AIの生成したテキストには、同じ単語が繰り返し出現する傾向があります。そのため、単語の繰り返しを検出することで、AIが生成したコンテンツかどうかを判定することができます。
単語の選択:AIが生成した文章には、人間が生成したテキストと異なる単語が選択されやすい傾向があります。一般的に使用されない単語や、頻繁に使用される単語ばかりが出現しやすくなります。そのため、単語の選択傾向を検出することで、AIが生成したコンテンツかどうかを判定することができます。
文法:AIテキストには、人間が生成したテキストと異なる文法の特徴がでることあります。AIが生成したテキストでは、誤字脱字や、文法的に不自然な表現が、人の書いたものとは別のかたちで出現しやすくなります。また、同じ構文の繰り返しが発生しやすくなります。そのため、文法の特徴を検出することで、AIが生成したコンテンツかどうかを判定することができます。(上記3文はそのための前後で同じ主語述語展開だったため、リライトしています)
近年、パターンマッチング方式の精度は向上しています。これは、AIの生成モデルの進化によって、AIが生成したコンテンツに特徴的なパターンが出現しやすくなったこと、また、AIの生成モデルを大量のデータで学習させることで、パターンマッチングを行うためのアルゴリズムの精度が向上したことなどが原因と考えられます。
機械学習方式
AIの生成モデルは、大量のテキストや画像、音声などのデータを学習することで、人間が生成したコンテンツと区別できる特徴を学習します。機械学習方式は、この特徴を学習した機械学習モデルを用いて、AIが生成したコンテンツかどうかを判定します。
機械学習方式は、パターンマッチング方式と比較して、より高度な特徴を検出することができます。そのため、AIの生成モデルの進化に伴い、AI検知ツールにおいても、機械学習方式の採用が進んでいます。
機械学習方式を用いるAI検知ツールの具体的な手法としては、以下のようなものが考えられます。
- サポートベクターマシン:サポートベクターマシンは、機械学習の一種で、分類や回帰などの問題を解決するために使用されます。
- 決定木:決定木は、機械学習の一種で、分類や回帰などの問題を解決するために使用されます。
- ニューラルネットワーク:ニューラルネットワークは、近年急速に進歩している機械学習の一種で、画像認識や自然言語処理などの問題を解決するために使用されます。
生み出す側への働きかけ
検知ツールの開発が進む一方で、生み出す側への働きかけもあります
- Anthropicが立ち上げた「Constitutional AI(憲法AI)」では、AIシステムの出力元が人間かAIかを明示的に示すことを義務づけている。
- GitHub Copilotなどの大規模言語モデルを使用したツールでは、コードの出所を明示するなど知的財産権の保護にも配慮がなされつつある。
一方で、生成元を偽装する技術も登場しつつあり、検知競争の様相を呈してきている。より高度な検知技術が求められている。
検知だけでなく、生成モデル自体に人権等への配慮を組み込んでいく「アライメント」の研究も進んでいる。※アライメント:入力と出力の間の対応関係を特定することを指す
AI検知ツールの今後
AI検知ツールの今後の展望としては、以下のようなことが考えられます。
精度の向上
AIの検知ツールの精度は、今後も向上していくと考えられます。これは、AIの生成モデルの複雑化や、AIの生成モデルを大量のデータで学習させるための技術の進歩などが原因と考えられます。
多様化
AI検知ツールは、現在、テキストを検出するものが主流ですが、今後は、音声や画像など、さまざまな形式のコンテンツを検出できるツールが開発されると考えられます。
低価格化
AI検知ツールは、現在、比較的高価なものが多いですが、今後は、低価格で利用できるツールが開発されると考えられます。
AI検知ツールは、AIの普及に伴い、ますます重要度が高まっていくと考えられます。
-
前の記事
AIを分解してみる 構成要素の アルゴリズム、学習データ、パイプラインとは 2024.02.20
-
次の記事
【AIの洪水】氾濫するAIコンテンツがもたらすモデル崩壊の懸念【AI汚染】 2024.02.20