Googleが物理世界で動作するAIエージェント「Gemini Robotics 1.5」を発表、複雑なタスク実行を可能にする2つのモデルを提供
最終更新日:2025年09月26日

Googleは2025年9月25日、ロボットが物理世界で複雑な多段階タスクを実行できるAIモデル「Gemini Robotics 1.5」ファミリーを発表した。
視覚・言語・行動モデル「Gemini Robotics 1.5」と推論特化モデル「Gemini Robotics-ER 1.5」の2つで構成され、開発者向けにはGemini APIを通じてER 1.5が提供開始となった。
- 行動前に思考プロセスを生成し複雑なタスクを透明性高く実行する視覚・言語・行動モデルの提供開始
- 空間理解ベンチマークで最高性能を達成し物理環境での計画立案に特化した推論モデルの投入
- 異なるロボット形状間での動作学習転移を実現し汎用的なロボット開発を加速する技術の確立
Googleが発表したGemini Robotics 1.5ファミリーは、従来の命令応答型ロボットを超えた自律的思考能力を持つAIエージェントを実現する。システムは2つのモデルで構成される。
「Gemini Robotics-ER 1.5」は高次元の脳として機能し、物理環境での計画立案と論理的判断を担当する。このモデルは自然言語での対話、成功度と進捗の推定、Google検索やサードパーティ機能の呼び出しが可能だ。
一方「Gemini Robotics 1.5」は具体的な行動実行を担い、視覚・言語理解を通じて直接的なアクションを実行する。両モデルが連携することで、ロボットは「場所に応じてコンポスト、リサイクル、ゴミ箱に物を分別する」といった、インターネット検索と物理的分類を組み合わせた複雑なタスクを完遂できる。
新モデルの最大の特徴は「行動前の思考」機能だ。従来のVLAモデルが指示を直接動作に変換していたのに対し、Gemini Robotics 1.5は内部で自然言語による推論と分析のシーケンスを生成する。
例えば「色別に洗濯物を分ける」タスクでは、まず色分けの意味を理解し、白い服は白いカゴに、その他の色は黒いカゴに入れるべきと判断する。次に赤いセーターを黒いカゴに入れるという段階的行動を計画し、セーターを取りやすくするために近づけるといった詳細な動作まで考慮する。
この多層的思考プロセスにより、長期タスクを短期セグメントに分割し、新しいタスクへの汎化能力と環境変化への頑健性を向上させる。
Gemini Robotics-ER 1.5は15の学術ベンチマークで最高性能を達成し、特に空間理解において卓越した能力を示す。評価にはEmbodied Reasoning Question Answering(ERQA)やPoint-Benchが含まれ、ポインティング、画像質問応答、動画質問応答での性能が測定された。
安全性においても、ASIMOV ベンチマークでの評価で最高性能を記録し、思考能力がセマンティック安全性の理解向上と物理的安全制約の遵守に大きく寄与することが確認された。
また、異なるロボット形状間での学習転移能力も実証され、ALOHA 2ロボットで学習したタスクがApptronik社のヒューマノイドロボットApolloや双腕Frankaロボットでも実行可能となっている。
AI Marketの見解
Gemini Robotics 1.5の発表は、汎用人工知能(AGI)の物理世界への展開において重要なマイルストーンと位置づけられる。従来のロボットAIが特定タスクに特化していたのに対し、思考能力と異機種間学習転移を実現したことで、ロボット開発の効率化と応用範囲の大幅な拡張が期待される。
特に空間理解と推論能力の向上は、製造業から家庭用途まで幅広い分野での実用化を加速すると想定される。ただし、高度な思考能力を持つ自律ロボットの普及には、技術的安全性に加えて社会的受容性の課題も解決する必要があり、段階的な導入と継続的な安全評価が重要となる。
Googleが開発者向けAPIを提供開始したことで、エコシステム形成と技術の民主化が進み、ロボティクス産業全体の発展に寄与すると想定される。
参照元:Google DeepMind
Gemini Roboticsに関するよくある質問まとめ
- Gemini Robotics 1.5は現在どのように利用できるか?
Gemini Robotics-ER 1.5はGoogle AI StudioのGemini APIを通じて開発者が利用可能となっている。
一方、Gemini Robotics 1.5は現在選定されたパートナーのみに提供されており、一般的な利用開始時期は明示されていない。
- 従来のロボットAIとGemini Robotics 1.5の主な違いは何か?
従来のVLAモデルが指示を直接動作に変換していたのに対し、Gemini Robotics 1.5は行動前に自然言語で推論・分析を行う思考機能を持つ。
これにより複雑なタスクの透明な実行と、異なるロボット形状間での学習転移が可能となった。

AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp
