【MLLM】マルチモーダルとは Geminiのデモ動画から見える、AIのコミュニケーション

【MLLM】マルチモーダルとは Geminiのデモ動画から見える、AIのコミュニケーション

先日GoogleからGemniが発表され、そのデモ動画は多くの感心を呼びました。それは、これまでプロンプトを打ち込み、データファイルをつくりぶち込んできたチャットAIとは別次元で情報のやり取りを行い、まさにコミュニケーションをAIととっている様だったからです。

人がコミュニケーションを図る際には、様々な情報をやり取りしています。

声色、表情、姿勢、仕草、アイコンタクト・・・そういった多数のチャンネルでの情報のやり取りによって、コミュニケーションをとっています。

AIとコミュニケーションをとるとは、そういった多数のチャンネルでの情報をやり取りするということ。この多数のチャンネルでの情報のやり取りを「マルチモーダル」といいます。マルチモーダルとはどんなものなのか見ていきます。

マルチモーダルAIとは

マルチモーダル(multimodal)とは、複数のモダリティ(情報伝達の形態:視覚、聴覚、触覚、嗅覚、味覚など)を組み合わせることを指します。

最近のAI分野では、テキスト、画像、音声など、異なる種類のデータを統合的に理解し活用できるマルチモーダルAIに大きな注目が集まっています。

マルチモーダルLLM (MLLM) は、自然言語処理と画像処理を組み合わせたモデルで、より自然な対話や、より高度なタスクの解決が期待されています。

MLLM の例

  • GPT-4V: OpenAI のGPT-4に、音声や画像、テキストなどの複数のモダリティを処理できるようになたモデル。
  • LLaVA-1.5: ウィスコンシン大学と Microsoft が開発したマルチモーダルLLM で、視覚情報と自然言語処理を組み合わせたモデルです。
  • Ferret: Apple が開発したマルチモーダルLLM で、画像とテキストを組み合わせた検索が可能です。
  • MiniGPT-v2: キング・アブドラ科学技術大学 (KAUST) と Meta が開発したマルチモーダルLLM。 チャットAI「Vicuna-13B」と、画像にキャプションを付けられる「BLIP-2」を組み合わせることで、アップロードした画像についてAIと会話できるようにした
  • PaLI-3: Google が開発したマルチモーダルLLM で、画像と自然言語処理を組み合わせたモデルです。

マルチモーダルモデルの応用例

マルチモーダルモデルの応用例としては、以下が挙げられます。

  • 画像や動画の説明文生成
  • 音声や動画の翻訳
  • 自然言語による画像検索
  • 視覚障害者向けの音声合成

これらの応用例において、マルチモーダルモデルは、テキストと画像や音声などの情報を組み合わせることで、より高い精度や自然な表現を実現することが期待されています。

代表的なマルチモーダルAIの応用として、文章と画像の両方を解析してより正確な意味理解を実現する画像キャプション付けや、会話AIに画像理解能力を加えてよりインテリジェントな対話を可能にすることなどがあげられます。

最新の研究動向としては、以下が挙げられます。

  • マルチモーダルモデルの学習方法の改善
  • マルチモーダルモデルの応用範囲の拡大

マルチモーダルモデルの学習方法としては、近年、Transformerベースのモデルが主流となっています。Transformerベースのモデルは、テキストと画像などの情報をシームレスに処理できるため、マルチモーダルモデルの学習に適しています。

また、マルチモーダルモデルの応用範囲は、画像や動画の説明文生成や翻訳などの従来からある領域に加えて、音声認識自然言語処理などの領域にも拡大しています。

マルチモーダルAIを実現するためのアプローチとして、異なるモダリティの表現を共通の空間に写像するCross-modal Embeddings(※Embeddings)や、Attentionメカニズム(注意機構:機械翻訳(Machine Translation)のために提案されたモデル。例えば、英語から日本語に翻訳する場合、どの英単語がどの日本語の単語に訳されているか?というのに注意しながら学習するモデル。)を用いて必要なモダリティに適応的にフォーカスするCross-modal Attentionなどの技術が重要視されています。

※Attentionメカニズムとは

Attentionメカニズムを理解する | 楽しみながら理解するAI・機械学習入門 (data-analytics.fun)

【深層学習】図で理解するAttention機構 #DeepLearning – Qiita

マルチモーダルモデルの成熟

過去に、AIを分解すると「アルゴリズム」「学習データ」「パイプライン」という構成要素からなるという記事を書きました。マルチモーダルモデルの発展の上で、この構成要素はどのように必要になってくるのでしょうか。

アルゴリズム

マルチモーダルモデルのアルゴリズムは、複数の情報源から得られたデータを効率的に表現し、関連付けし、統合することができるものでなければなりません。例えば、CLIPやPaLi-3などのモデルは、画像とテキストを同じベクトル空間に埋め込み、類似度を測ることで、画像とテキストの対応関係を学習するアルゴリズムを採用しています。また、マルチモーダルモデルのアルゴリズムは、異なる情報源の間の相互作用や依存関係を考慮することで、より高度な推論や生成を行うことができます。

  • 複数のデータ形式を組み合わせる能力: 画像、テキスト、音声など、異なる形式のデータを統合・解釈できるアルゴリズムが必要です。これには、マルチモーダル情報を処理し、相互作用させるための深層学習モデルや、特に設計されたニューラルネットワークが含まれます。
  • 特徴の抽出と統合: 異なるモードのデータから有用な情報を抽出し、それらを統合するためのアルゴリズムが必要です。例えば、画像の特徴、テキストの意味、音声の波形など、異なる形式のデータを効果的に結合する手法が必要です。

異なるモダリティ間の効果的なAlignment(並び)を取るCross-modal AttentionやFusionのメカニズムが重要です。モダリティごとの表現学習も同時に実現するマルチタスク学習が求められます。

学習データ

マルチモーダルモデルの学習データは、複数の情報源のデータを含み、それらのデータが正しく対応付けられているものでなければなりません。例えば、画像とテキストのマルチモーダルモデルの場合、画像とその画像に関するテキストがペアになっているデータセットが必要です。また、学習データは、マルチモーダルモデルが解くべきタスクに応じて、品質や量、多様性などの観点で適切なものでなければなりません。

  • 多様なデータセット: さまざまなモードのデータを含む、幅広いトピックやコンテキストでのデータが必要です。これにより、モデルは異なる情報を組み合わせて学習し、適切な関連性を把握できます。
  • ラベル付けされたデータ: マルチモーダルなデータに対して正確なラベル付けがされたトレーニングデータが必要です。例えば、画像とその説明文、動画とそのキャプションなどがペアとなったデータが有用です。

各モダリティのデータが豊富に含まれ、かつそれらが整合的にアノテーションされた高品質のマルチモーダルデータセットが必要不可欠です。データのバイアスも大きな課題の1つです。

パイプライン

マルチモーダルモデルのパイプラインとは、マルチモーダルモデルの開発や運用に関わる一連の工程手順のことです。マルチモーダルモデルのパイプラインには、データの収集や前処理、モデルの設計や学習、モデルの評価や改善、モデルのデプロイや更新などが含まれます。マルチモーダルモデルのパイプラインは、効率的かつ安全にマルチモーダルモデルを実現するために、最適化や自動化、監視や管理などの工夫が必要です。

異なるモダリティの前処理、データローディング、モデル統合といった一連の工程を効率的かつ柔軟に実行できる枠組みが重要だとされています。

  • データの前処理: 異なるデータ形式を統合するためのデータ変換や正規化のプロセスが必要です。例えば、テキストをトークン化し、画像を特徴ベクトルに変換し、音声を波形から特徴量に変換するなどが含まれます。
  • モデルの統合: 異なるモードのデータを受け入れ、統合し、処理するためのモデル統合のパイプラインが必要です。これには、モデルのアーキテクチャ設計、異なる入力形式の組み合わせ方法などが含まれます。

各LLMに「どれが一番重要?」って聞いてみた

Claude回答

マルチモーダルモデルにおいて最も重要なのは「学習データ」だと考えます。

なぜなら、マルチモーダル AI の目的は、人間の持つ柔軟な知性の実現です。そのためには文字や音声、画像など、多様なデータを統合的に理解する必要があります。

アルゴリズムやパイプラインは重要ですが、質と量の両面で優れたマルチモーダルデータがなければ、モデルの上限自体が決まってしまいます。

一方、膨大かつ高品質のデータを利用できれば、単純なアルゴリズムでもある程度の性能は出せます。最近の動向を見ても、大規模データとスケーリングが精度向上のカギとされています。

ですので、マルチモーダルモデル作成に際して最も重視すべきは、多様で整合性のとれた高品質の学習データを大量に準備することだと結論づけられます。これがモデルの成熟度を決定づける最も重要な要素といえるでしょう。

GPT回答

マルチモーダルモデルの重要性を特定するのは少々難しいですね。各要素は全体の成功に寄与しますが、重要性はプロジェクトや利用目的によって異なる場合があります。

  • マルチモーダルデータの統合や相互作用を処理するために特化したアルゴリズムは重要です。異なるデータ形式の情報を組み合わせるために、柔軟性がありながらも高度な解釈力を持つモデルが必要です。
  • 多様なデータセットとラベル付きデータは、モデルの汎化性能と性能向上に必須です。幅広い情報を含むデータセットがあれば、モデルはさまざまな情報を組み合わせて学習することができます。
  • パイプラインは、データの前処理、統合、モデルへの入力などを管理し、効率的な処理を可能にします。正確で効率的なパイプラインがあれば、モデルの開発や運用をスムーズに行えます。

これらの要素は相互に関連しており、一つが欠けると全体の性能に影響を及ぼす可能性があります。ただし、特に重要なのはプロジェクトのコンテキストや目的によります。例えば、新しいアルゴリズムを使用することが革新的な成果をもたらす場合もありますし、豊富で多様なデータセットが利用可能な場合は、学習データの重要性が高まります。

Bard回答

マルチモーダルモデルの最も重要な箇所は、アルゴリズム、学習データ、パイプラインのいずれか一つではなく、3つの要素がすべて相互に関連し合っているため、どれか一つだけが欠けても機能しません。しかし、その中でも特に重要な箇所は、アルゴリズムと学習データの組み合わせであると考えられます。

アルゴリズムは、マルチモーダルモデルの基本となる部分です。アルゴリズムが適切でなければ、いくら学習データが豊富であっても、モデルは十分に学習できません。また、アルゴリズムが進化することで、モデルの精度や応用範囲をさらに向上させることができます。

学習データは、アルゴリズムが学習するための素材です。学習データが十分でなければ、モデルは十分に学習できません。また、学習データの質が悪いと、モデルが誤った情報に学習してしまう可能性があります。

アルゴリズムと学習データが適切であれば、パイプラインはモデルの性能を最大化するための要素となります。パイプラインは、テキストと画像や音声などの情報をどのように処理するかを決定します。パイプラインが適切でなければ、モデルの性能が十分に発揮されません。

したがって、マルチモーダルモデルの成熟のためには、アルゴリズムと学習データの両方の開発が重要です。アルゴリズムの開発により、モデルの精度や応用範囲を向上させることができます。学習データの開発により、モデルが十分に学習できるようにし、データの偏りを軽減することができます。

Bing回答

マルチモーダルモデルの最も重要な箇所は、アルゴリズム、学習データ、パイプラインのどれかというのは、そのモデルが解決しようとしている問題によって異なります。

例えば、音声認識の場合、音声データの前処理が重要であることが知られています。一方、画像とテキストを同時に扱う場合、畳み込みニューラルネットワーク(CNN)と再帰ニューラルネットワーク(RNN)を組み合わせたモデルが有効であることが知られています。

また、マルチモーダルモデルの学習には、膨大な量のデータが必要であることが多いため、データの収集や前処理も重要な要素となります。

人と比べて

質問の意図として、マルチモーダルをコミュニケーション能力ととらえ、その成長に必要なものを、人間でいう知力(アルゴリズム)経験(学習データ)応用力(パイプライン)にした場合のどれかが見えるかとおもったからです。

それぞれたとえが間違っている可能性が大いにあるのですが、その点はご指摘いただくとありがたいです。

結果、学習データが最も重くアルゴリズムも取り上げられました。パイプラインを応用力ととらえたこと自体が間違っている可能性が高いですね。

では、人にたとえた場合のコミュニケション力の比重はどうなのでしょうか。

知力:賢い人間はコミュ力が高いというイメージはなく、相手の思考に合わせなければならないストレスが顔に出るのが想像できます。

経験経験豊富な人がコミュ力が高いのは説得力があります。しかしその「経験豊富」というものも、「あらゆる車を運転できる」ではなく、「あらゆる人間と会話したことがある」というデータの質が問われます。

応用力:人生経験を別分野に活かせられる人間、ととらえていましたが、「パイプライン」は応用力ではなく「成育環境」に近いかもしれません。それでみたとしてもどのような環境にいても、人とかかわり、パフォーマンスを発揮する人間はいると考えます。

マルチモーダルまとめ

マルチモーダルは、あらゆるチャンネルでAIへ情報を渡す仕組みでした。

将来人とAIがよりコミュニケーションを深め、発展していくことを夢見ます。