【マジで会話】Googleの新AI Geminiで見える未来:最新技術とその影響
- 2024.02.20
- AI
Googleは12月6日(現地時間)、新AI「Gemini」を発表しました。Geminiは、画像、テキスト、音声、動画、コードとマルチに処理できる多目的AIモデルです。画像からテキストを生成したり、テキストから画像を生成したり、画像とテキストの両方を分析したりと、これまでのチャットAIよりも、より人との会話に近いやり取りをすることができます。
この映像、ウケを狙ったフェイクだったとのこと報道が出ました。
新AIGeminiの性能
テクニカルレポート
公開されているGemini テクニカル レポートでは以下の性能がうたわれています。
- Geminiは1400億のパラメータを持つ汎用言語モデルで、LaMDAの約2倍の規模
- 高度な会話と事実検索の能力を兼ね備え、論理的で一貫性のある対話が可能
- 他者の感情理解や共感といった「心の理論」の能力もある程度示した
- 大量のデータで学習するため、バイアスや有害性も内包している可能性が懸念点
- Googleは安全性と有用性のバランス実現に努めており、外部の監視体制も整備
- 公開時期は未定だが、Searchへの適用が視野に入っており段階的な実装が見込まれる
Gemini は、テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができます。動画のパフォーマンスでは、その場で描いた絵や動画からの会話が滑らかに展開していき、「シームレス」がコミュニケーション能力の高さを演出しています。
モデルの最初のバージョンである Gemini 1.0 では 3 つのサイズのLLMが用意されています。
- Gemini Ultra — 非常に複雑なタスクに対応する、高性能かつ最大のモデル
- Gemini Pro — 幅広いタスクに対応する最良のモデル
- Gemini Nano — デバイス上のタスクに最も効率的なモデル
Gemini Ultra
Gemini Ultra は、 MMLU (大規模マルチタスク言語理解:数学、物理学、歴史、法律、医学、倫理など 57 の科目の組み合わせて知識と問題解決能力をテストする) で 90.00% をスコアし、人間の専門家を上回るパフォーマンスを示したとされます。
MMMU ベンチマーク(意図的な推論を必要とする、異なるドメインにまたがるマルチモーダル タスクで構成)でも、59.4% という最高水準のスコアを達成。テストした画像ベンチマークでは、Gemini Ultra はオブジェクト文字認識 (OCR) システムの支援なしで、以前の最高水準のモデルを上回ったとのこと。
Gemini Pro
特別に調整した英語版のGemini Proを「Google Bard」上で5日から利用できるようにしたとされています。Gemini Proは8種のベンチマークのうち6種で、OpenAIの「ChatGPT」を支えているLLM「GPT-3.5」を上回ったとされています。
日本時間2023年12月7日現在、Gemini Proを搭載したBardは英語のみ。170以上の国と地域から利用可能となっているが、さらに多くの言語と地域に対応していくとのこと。
Gemini Nano
スマートフォンなどには、小規模だがデバイス上だけでAIの能力を引き出す「Gemini Nano」が導入されます。Googleの「Pixel 8 Pro」が初のGemini Nano搭載スマートフォンとして、5日からすぐに利用可能とのこと。
Gemini Nanoはオンデバイスでのタスクに最適なモデルで、音声データの内容をテキストで要約できる他、キーボードアプリ「Gboard」のスマートリプライがPixel 8 Proで生成できるようになります。ただし、当面の間は英語のみの対応。
公式ブログにて、Geminiの紹介ページが公開されています⇒最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに
AIとのコミュニケーション
先の動画のプレゼンのように、チャットAIは人との会話の精度を高め進化しています。
今回のGemini で視聴者が感じたのは、コミュニケーションとは多角的な情報のやり取りであるということでしょう。
音声ないし文字情報の他に、表情や目線、仕草、姿勢といった四角情報、声色といった音声情報、そこにシチュエーションといったマルチな情報を踏まえ、我々はコミュしケーションを取ります。
Gemini の持つ「心の理論」
これまでのAIチャットは文字情報が大半であり、だからこそ、通常の人とのコミュニケーションで邪魔になる感情などの情報が阻害でき、ツールとして活用されてきました。
今回Gemini が謳った「心の理論」が今後AIを単なるツールから別のものに変えるのか、注目点の1つになるかもしれません。
-
前の記事
【Attention】現在のAIの起爆剤?Transformerってなに? 2024.02.16
-
次の記事
AIを分解してみる 構成要素の アルゴリズム、学習データ、パイプラインとは 2024.02.20