【マジで会話】Googleの新AI Geminiで見える未来:最新技術とその影響

  • 2024.02.20
  • AI
【マジで会話】Googleの新AI Geminiで見える未来:最新技術とその影響

Googleは12月6日(現地時間)、新AI「Gemini」を発表しました。Geminiは、画像、テキスト、音声、動画、コードとマルチに処理できる多目的AIモデルです。画像からテキストを生成したり、テキストから画像を生成したり、画像とテキストの両方を分析したりと、これまでのチャットAIよりも、より人との会話に近いやり取りをすることができます。

この映像、ウケを狙ったフェイクだったとのこと報道が出ました。

我々は騙されていたのか⁉

新AIGeminiの性能

テクニカルレポート

公開されているGemini テクニカル レポートでは以下の性能がうたわれています。

  •  Geminiは1400億のパラメータを持つ汎用言語モデルで、LaMDAの約2倍の規模
  • 高度な会話と事実検索の能力を兼ね備え、論理的で一貫性のある対話が可能
  • 他者の感情理解や共感といった「心の理論」の能力もある程度示した
  • 大量のデータで学習するため、バイアスや有害性も内包している可能性が懸念点
  • Googleは安全性と有用性のバランス実現に努めており、外部の監視体制も整備
  • 公開時期は未定だが、Searchへの適用が視野に入っており段階的な実装が見込まれる

Gemini は、テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができます。動画のパフォーマンスでは、その場で描いた絵や動画からの会話が滑らかに展開していき、「シームレス」がコミュニケーション能力の高さを演出しています。

モデルの最初のバージョンである Gemini 1.0 では 3 つのサイズのLLMが用意されています。

  • Gemini Ultra — 非常に複雑なタスクに対応する、高性能かつ最大のモデル
  • Gemini Pro — 幅広いタスクに対応する最良のモデル
  • Gemini Nano — デバイス上のタスクに最も効率的なモデル

Gemini Ultra

Gemini Ultra は、 MMLU (大規模マルチタスク言語理解:数学、物理学、歴史、法律、医学、倫理など 57 の科目の組み合わせて知識と問題解決能力をテストする) で 90.00% をスコアし、人間の専門家を上回るパフォーマンスを示したとされます。

 MMMU ベンチマーク(意図的な推論を必要とする、異なるドメインにまたがるマルチモーダル タスクで構成)でも、59.4% という最高水準のスコアを達成。テストした画像ベンチマークでは、Gemini Ultra はオブジェクト文字認識 (OCR) システムの支援なしで、以前の最高水準のモデルを上回ったとのこと。

Gemini Pro

特別に調整した英語版のGemini Proを「Google Bard」上で5日から利用できるようにしたとされています。Gemini Proは8種のベンチマークのうち6種で、OpenAIの「ChatGPT」を支えているLLM「GPT-3.5」を上回ったとされています。

日本時間2023年12月7日現在、Gemini Proを搭載したBardは英語のみ。170以上の国と地域から利用可能となっているが、さらに多くの言語と地域に対応していくとのこと。

Gemini Nano

スマートフォンなどには、小規模だがデバイス上だけでAIの能力を引き出す「Gemini Nano」が導入されます。Googleの「Pixel 8 Pro」が初のGemini Nano搭載スマートフォンとして、5日からすぐに利用可能とのこと。

Gemini Nanoはオンデバイスでのタスクに最適なモデルで、音声データの内容をテキストで要約できる他、キーボードアプリ「Gboard」のスマートリプライがPixel 8 Proで生成できるようになります。ただし、当面の間は英語のみの対応。

公式ブログにて、Geminiの紹介ページが公開されています⇒最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに

AIとのコミュニケーション

先の動画のプレゼンのように、チャットAIは人との会話の精度を高め進化しています。

今回のGemini で視聴者が感じたのは、コミュニケーションとは多角的な情報のやり取りであるということでしょう。

音声ないし文字情報の他に、表情や目線、仕草、姿勢といった四角情報、声色といった音声情報、そこにシチュエーションといったマルチな情報を踏まえ、我々はコミュしケーションを取ります。

Gemini の持つ「心の理論」

これまでのAIチャットは文字情報が大半であり、だからこそ、通常の人とのコミュニケーションで邪魔になる感情などの情報が阻害でき、ツールとして活用されてきました。

今回Gemini が謳った「心の理論」が今後AIを単なるツールから別のものに変えるのか、注目点の1つになるかもしれません。