【マジで会話】Googleの新AI Geminiで見える未来:最新技術とその影響

2024.02.20
AI

Googleは12月6日(現地時間)、新AI「Gemini」を発表しました。Geminiは、画像、テキスト、音声、動画、コードとマルチに処理できる多目的AIモデルです。画像からテキストを生成したり、テキストから画像を生成したり、画像とテキストの両方を分析したりと、これまでのチャットAIよりも、より人との会話に近いやり取りをすることができます。

この映像、ウケを狙ったフェイクだったとのこと報道が出ました。

1. 新AIGeminiの性能
- 1.1. テクニカルレポート
2. Gemini Ultra
3. Gemini Pro
4. Gemini Nano
5. AIとのコミュニケーション
6. Gemini の持つ「心の理論」

新AIGeminiの性能

テクニカルレポート

公開されているGemini テクニカルレポートでは以下の性能がうたわれています。

Geminiは1400億のパラメータを持つ汎用言語モデルで、LaMDAの約2倍の規模
高度な会話と事実検索の能力を兼ね備え、論理的で一貫性のある対話が可能
他者の感情理解や共感といった「心の理論」の能力もある程度示した
大量のデータで学習するため、バイアスや有害性も内包している可能性が懸念点
Googleは安全性と有用性のバランス実現に努めており、外部の監視体制も整備
公開時期は未定だが、Searchへの適用が視野に入っており段階的な実装が見込まれる

Gemini は、テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができます。動画のパフォーマンスでは、その場で描いた絵や動画からの会話が滑らかに展開していき、「シームレス」がコミュニケーション能力の高さを演出しています。

モデルの最初のバージョンである Gemini 1.0 では 3 つのサイズのLLMが用意されています。

Gemini Ultra — 非常に複雑なタスクに対応する、高性能かつ最大のモデル
Gemini Pro — 幅広いタスクに対応する最良のモデル
Gemini Nano — デバイス上のタスクに最も効率的なモデル

Gemini Ultra

Gemini Ultra は、 MMLU (大規模マルチタスク言語理解：数学、物理学、歴史、法律、医学、倫理など 57 の科目の組み合わせて知識と問題解決能力をテストする) で 90.00% をスコアし、人間の専門家を上回るパフォーマンスを示したとされます。

MMMU ベンチマーク（意図的な推論を必要とする、異なるドメインにまたがるマルチモーダルタスクで構成）でも、59.4% という最高水準のスコアを達成。テストした画像ベンチマークでは、Gemini Ultra はオブジェクト文字認識 (OCR) システムの支援なしで、以前の最高水準のモデルを上回ったとのこと。