【LLM】ハルシネーション調査報告【AIの嘘】

【LLM】ハルシネーション調査報告【AIの嘘】

LLM(Large Language Model)が誤った情報を出力してしまうことがあるという問題があります。これをハルシネーション(幻覚)と呼びます。

ハルシネーションは、LLMの実用性や信頼性に影響を与える重大な課題です。そこで、最近、ハルシネーションに関する網羅的な調査報告が発表されました。この報告では、ハルシネーションの原因や検出方法、評価ベンチマーク、将来へのロードマップなどが詳しく分析されています。

[2311.05232] A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions (arxiv.org)

2311.05232.pdf (arxiv.org)

ハルシネーションの分類

ハルシネーションは、LLMが生成する内容が、ソースコンテンツ(入力や外部情報源など)と矛盾するかどうかによって、次のように分類されます。

内在的ハルシネーション

LLMが生成する内容が、ソースコンテンツと一致する場合です。例えば、LLMが生成するテキストが、入力された質問やトピックに沿っている場合です。

外在的ハルシネーション

LLMが生成する内容が、ソースコンテンツと矛盾する場合です。例えば、LLMが生成するテキストが、入力された質問やトピックと関係ない場合や、現実の事実と異なる場合です。

外在的ハルシネーションは、さらに、次のように細分化されます。

論理的ハルシネーション

LLMが生成する内容が、論理的に矛盾する場合です。例えば、LLMが生成するテキストが、自己矛盾や常識に反する場合です。

事実的ハルシネーション

LLMが生成する内容が、事実に基づいていない場合です。例えば、LLMが生成するテキストが、実在しないエンティティやイベントに言及する場合や、実在するエンティティやイベントについて誤った情報を提供する場合です。

信頼的ハルシネーション

LLMが生成する内容が、信頼できない情報源から得られている場合です。例えば、LLMが生成するテキストが、不正確な引用や参照を含む場合や、信頼できないウェブサイトやニュース記事から情報を引用する場合です。

ハルシネーションの原因

ハルシネーションの原因は、LLMのライフサイクルの中で、データ、訓練、推論の三つの段階に分けられます。

データ段階

データ段階では、LLMが学習するデータセットにノイズやバイアスが含まれていることが問題となります。例えば、ウィキペディアの記事には、事実とは異なる内容や、悪意のある編集が含まれている可能性があります。

訓練段

訓練段階では、LLMのアーキテクチャや訓練戦略に欠陥があることが問題となります。例えば、LLMは、前訓練とアライメントの二つの段階で学習しますが、このときに、LLMの内部表現がタスクに適切に調整されないことがあります。

推論段階

推論段階では、LLMのデコーディング戦略に不備があることが問題となります。例えば、LLMは、生成するテキストの確率的なスコアに基づいて、最も適切な単語を選択しますが、このときに、事実性や一貫性が損なわれることがあります。

ハルシネーション検出方法

ハルシネーションの検出方法は、主に、事実性信頼性の二つの観点から考えられています。

事実性

事実性とは、LLMが生成するテキストが、事実に基づいているかどうかを判断することです。例えば、LLMが生成するテキストに含まれるエンティティやイベントが、実在するかどうかを確認することです。

信頼性

信頼性とは、LLMが生成するテキストが、信頼できる情報源から得られているかどうかを判断することです。例えば、LLMが生成するテキストに含まれる引用や参照が、正確であるかどうかを検証することです。

ハルシネーションの検出方法には、いくつかの手法が提案されています。例えば、以下のような手法があります。

事実性検出のための手法

  • 知識ベースやウェブ検索などの外部情報源を利用して、LLMが生成するテキストの正確さを検証する手法
  • LLMが生成するテキストに含まれるエンティティやイベントの時系列的な整合性を検証する手法

信頼性検出のための手法

  • LLMが生成するテキストに含まれる引用や参照の出典を確認する手法
  • LLMが生成するテキストに含まれる引用や参照の内容と一致するかどうかを確認する手法

ハルシネーション評価ベンチマーク

ハルシネーションの評価は、ハルシネーション自体の評価と、ハルシネーション検出方法の評価の二つに分けられます。

ハルシネーション自体の評価は、LLMが生成するテキストの事実性を中心に行われています。ハルシネーション自体の評価のために、いくつかのベンチマークが提供されています。例えば、以下のようなベンチマークがあります。

TruthfulQA:質問応答タスクにおいて、LLMが生成する回答の事実性を評価するベンチマークです。LLMが生成する回答に含まれるエンティティやイベントが、実在するかどうかを人間の評価者が判断します。

HalluQA:質問応答タスクにおいて、LLMが生成する回答の事実性を評価するベンチマークです。LLMが生成する回答に含まれるエンティティやイベントが、質問と関連するかどうかを人間の評価者が判断します。

ハルシネーション検出方法の評価は、ハルシネーション検出方法の有効性やロバスト性(環境の変化に対するしなやかな強さ・体制/外部要因に対する安定性など)を測るために行われています。ハルシネーション検出方法の評価のために、いくつかのベンチマークが提供されています。例えば、以下のようなベンチマークがあります。

HaluEval:LLMが生成するテキストの事実性を検出する手法の評価ベンチマークです。LLMが生成するテキストに含まれるエンティティやイベントが、知識ベースやウェブ検索などの外部情報源と一致するかどうかを自動的に判断します。

FELM:LLMが生成するテキストの信頼性を検出する手法の評価ベンチマークです。LLMが生成するテキストに含まれる引用や参照が、正確であるかどうかを自動的に判断します。

将来へのロードマップ

ハルシネーションは、LLMの実用性や信頼性にとって大きな障害となっています。そのため、ハルシネーションを減らすための方法を探ることが、今後の研究の重要な課題となります。

以下のようなロードマップが示されています。

  • 長文テキスト生成、検索での補強、ビジョンタスクにおいて、ハルシネーションが特に問題となるため、これらのタスクに対応する方法を開発する。
  • 長文テキスト生成においては、手動注釈ベンチマークが不足しているため、これを補強することも必要。
  • RAG(Retrieval-Augmented Generation:外部ソースから取得した情報を用いて、生成 AI モデルの精度と信頼性を向上させる)は、知識ベースやウェブ検索などの外部情報源を利用して、LLMの生成を補強できる。しかし、RAGは、誤った証拠が生成フェーズに伝播することで、ハルシネーションを生じさせるリスクもある。そのため、RAGの改善や、他の補強戦略の探索が必要。RAGに関する記事はこちら
  • 引用の不正確さから、事実性と多様性の間でトレードオフが生じることがある。例えば、LLMが生成するテキストに含まれる引用や参照が、正確であるということは、多様性が低いということを意味する可能性がる。事実性と多様性のバランスをとる方法を考えるなければならない。
  • 自己修正メカニズムは、LLMが生成するテキストを自ら検証し、修正することができるようにするものでこれは、ハルシネーションを減らすための有効な方法と考えられる。しかし効果はまだ明らかではないため、自己修正メカニズムの実装や評価を行うことです。
  • LLMに知識の境界に関する理解をさせることは重要なステップである。LLMは、自分が知っていることと知らないことを区別することができないため、誤った情報を出力してしまうことがある。LLMに知識の不確実性や不完全性を認識させる方法を開発することです。
  • 創造性と真実性のバランスについては、検討の余地がある。LLMは創造的なテキスト生成が可能だが、必ずしも真実であるとは限らない。一方で、正しいテキスト生成もできるが、それが必ずしも創造的とは限らない。そのため、創造性真実性両立を目指す方法を探ることです。

以上が、ハルシネーションに関する網羅的な調査報告の紹介でした。ハルシネーションは、LLMの発展にとって大きな課題ですが、それを克服するための方法も多く提案されています。LLMの技術は、まだまだ進化の途中です。私たちは、LLMの可能性と限界を探りながら、より良いテキスト生成を目指していきたいと思います。