SIMA 2とは?できること・AIエージェントとしての特徴、性能、SIMA 1との違いまで徹底解説!
最終更新日:2025年12月24日

- Gemini統合により、指示の目的を理解し推論しながら3D環境で行動できるエージェント
- 未学習のゲーム環境でもタスク成功率が大幅に向上し、高い汎化性能を示す
- 自己プレイとフィードバックで継続的に成長する研究段階の次世代AI
Google DeepMindが2025年11月に発表したSIMA 2は、Geminiを中核に統合した対話しながら行動できるAIエージェントです。
従来の「指示に従うだけのAI」から進化し、人間の意図を理解し、高度に推論しながら3D仮想環境内で行動できる点が大きな特徴です。
本記事では、SIMA 2の特徴、機能、使い方、注意点、活用事例まで徹底解説します。
AIエージェントに強い会社の選定・紹介を行います 今年度AI相談急増中!紹介実績1,000件超え! ・ご相談からご紹介まで完全無料 完全無料・最短1日でご紹介 AIエージェントに強い会社選定を依頼
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
AI開発会社をご自分で選びたい方はこちらで特集していますので併せてご覧ください。
SIMA 2とは?
SIMA 2は、初代SIMAの「600以上の言語指示に対する操作スキル」を土台に、GoogleのマルチモーダルモデルGeminiを統合することで推論力と汎化能力を大幅に強化したAIエージェントです。3D仮想環境において人間の自然言語による指示を理解し、実行します。
ユーザーと自然に対話しながら、目的を説明し、自律的に学習して能力を高めることが可能であり、汎用的なエージェント研究における重要なマイルストーンとなっています。
高レベルな目標を理解し、複雑なタスクを計画・実行し、API不要で画面を見てキーボード・マウスで操作して、行動の意図を説明できる点が特徴です。研究目的で開発されており、特に3D仮想環境を活用したAIの学習・評価の分野で活用されることを想定しています。
単なるゲーム3DゲームAIではない
一見、ゲームAIの形式で研究されていますが、SIMA 2の本質は「3D空間で目的を達成する汎用労働力」です。
製造業や物流、建設業におけるデジタルツイン環境において、SIMA 2のようなエージェントを投入することで、複雑な作業手順の検証やトラブル対応の自動シミュレーションが可能になります。
また、物理的なロボットを動かすための学習コストは莫大ですが、SIMA 2のような仮想空間で磨かれたエージェントは、現実世界の物理演算に近い環境で高度なスキルを習得できます。これを物理デバイスに移植する(Sim-to-Real)アプローチは、今後のロボティクス事業の主軸となるでしょう。
研究段階での限定提供
SIMA 2は現在、研究目的での限定公開となっており、一部の研究者やゲーム開発者に早期アクセスが提供されています。
これは、エージェントが多様な3D環境でどのように振る舞うかを責任ある形で評価するために設けられた慎重なステップです。特に自己改善機能に関する安全性が重視され、Google DeepMindの責任ある技術開発チームと連携して検証が進められています。
また、SIMA 2には長いタスク処理や視覚理解などの課題が明確にされており、現段階では商用ではなく研究向けの技術として扱われています。
SIMA 2のライセンス・料金体系
SIMA 2は現在、商用展開を目的とした製品ではなく、研究段階の技術として扱われています。公開範囲も限定されており、一般向けのAPI提供や料金体系は公開されていません。
SIMA 2のできること・特徴
以下では、SIMA 2の特徴と、それによって実現されている主なできること・機能を解説します。
AIエージェントに強い会社の選定・紹介を行います 今年度AI相談急増中!紹介実績1,000件超え! ・ご相談からご紹介まで完全無料 完全無料・最短1日でご紹介 AIエージェントに強い会社選定を依頼



・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
高度な推論能力の統合
SIMA 2は、エージェントの中心にGeminiモデルを組み込むことで、従来の「指示をそのまま実行する」仕組みから大きく進化しています。
上記の動画は、SIMA 2がユーザーの質問に答えつつ、自身の行動理由まで説明できることを示した例です。このように、Geminiを統合したことで、単なる指示実行を超えて高い推論能力を発揮します。
SIMA 1では600以上の基本的な言語指示をこなすことに重点が置かれていましたが、SIMA 2は指示を受け取ったあと、その目的を理解し、環境と結びつけて推論しながら行動できます。
また、ユーザーに対して行動の意図や進め方を説明できるため、対話しながらタスクを進めるエージェントとして設計されています。
マルチモーダルな指示への対応
従来のテキストによるコマンドに加え、SIMA 2は以下のようなマルチモーダル入力を解釈できるようになりました。
- 音声による指示: リアルタイムでの音声対話。
- スケッチと絵文字: 画面上に「ここをこうして」と図示したり、絵文字でニュアンスを伝えたりすることが可能です。
- 抽象的な表現の理解: 「熟したトマトのような色の家へ行け」といった、視覚的特徴と色の概念を組み合わせた複雑な指示を理解します。
3Dゲーム環境での複雑タスク実行
SIMA 2は、商用ゲームを含む多様な3D仮想環境の中で、人間と同じように画面を認識し、キーボードとマウス操作を用いてタスクを実行できます。
単に「左に曲がる」「はしごを登る」といった基本操作を行うだけでなく、ユーザーの言語指示に基づいて、目的に沿った一連の行動を連続して実行することも可能です。
また、Geminiの推論能力を組み込んだアーキテクチャにより、SIMA 2はユーザーの高レベルな目標を理解し、その達成に必要なステップを自ら考えながらタスクを進めることができます。
長く複雑な指示にも対応可能で、「焚き火を見つける」といった抽象度の高いゴールに対しても、ゲーム内で適切な行動シーケンスを生成し、実行まで結びつけることができます。
高い汎化性能
SIMA 2は、以前のバージョンよりも多様で複雑な環境に対応できるように訓練されており、これまで見たことのないゲームでも行動を成功させる能力が向上しています。
たとえば、ASKAやMineDojoのような未学習環境でも複雑なタスクを達成するなど、指示理解の幅と実行力が強化されています。
この特徴は、特定のゲーム専用のAPIを使うのではなく、「画面(ピクセル)を見て、キーボードとマウスで操作する」という人間と同じインターフェースを貫いていることで可能になっています。
これは、将来的にあらゆるソフトウェアや3Dシミュレーター、さらには物理ロボットへ転用する際の大きな強みとなります。
上記の動画では、SIMA 2が絵文字だけで与えられた指示を正しく解釈し、行動につなげている様子が示されています。
さらに、あるゲームで学んだ概念を別のゲームに応用する概念転用能力も示されており、人間に近い理解が進んでいます。
自己改善能力(Self-improvement)
SIMA 2は、人間のデモ映像とGeminiによるラベルに加え、自分自身のプレイ経験を利用して学習を進めることができます。
最初は人間のデータで学びますが、その後は新しいゲームを自らプレイし、Geminiのフィードバックを取り入れて能力を向上させます。「教師役のGemini」と「学習役のSIMAエージェント」が相互作用するフィードバックループを持っています。
教師役が新たな課題を生成し、エージェントの行動を評価・報酬化することで、自己成長を遂げます。これにより、未知の環境への適応力が飛躍的に向上しました。
さらに、SIMA 2が生成した経験データは次世代のエージェントの訓練にも利用され、世代を重ねるごとにタスク成功率が改善されていきます。
Genie 3が生成した新しい3D世界でも自己改善が確認されており、人間の追加データなしで成長する仕組みが機能しています。
参考:SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds
SIMA 2の性能
SIMA 2の性能向上は、タスク成功率や未学習環境での適応能力に明確に表れています。以下のグラフを基に、進化のポイントを解説します。
タスク完了率の大幅向上

SIMA 2は、タスク完了能力においてSIMA 1から大きく向上しています。上のグラフでは、SIMA 1の成功率が31%であるのに対し、SIMA 2は65%と、約2倍の成功率を示しています。
これは、複数のゲーム環境を対象とした評価タスクで、SIMA 2がより安定して指示を理解し、実際の行動に結びつけられるようになったことを示しています。
また、グラフには人間の成功率を示す基準線も描かれており、SIMA 2は大きく改善しているものの、まだ人間レベルには到達していないことが分かります。これにより、SIMA 2は着実に進歩しつつも、まだ成長の余地があることが示されています。
未学習環境での性能改善

SIMA 2は、これまで一度も見たことのないゲーム環境(Previously unseen environments)でも大幅な性能向上が確認されています。
ASKAとMineDojoでの比較では、SIMA 1がほぼタスクを達成できていないのに対し、SIMA 2は以下のように改善を示しています。
- ASKA:成功率が約3% → 約15%(+12ポイント)
- MineDojo:成功率がほぼ0% → 約13%(+13ポイント)
この結果は、SIMA 2が訓練データに存在しない新しい環境においても、学んだ概念を応用しながらタスクを遂行できる高い汎化能力を持つことを示しています。
AIエージェントに強い会社の選定・紹介を行います 今年度AI相談急増中!紹介実績1,000件超え! ・ご相談からご紹介まで完全無料 完全無料・最短1日でご紹介 AIエージェントに強い会社選定を依頼



・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
SIMA 1との違い
以下では、公式デモ映像と比較表をもとに、SIMA 1とSIMA 2の違いを具体的に整理します。
未学習環境におけるタスク遂行能力の比較
上記の動画は、SIMA 1とSIMA 2のタスク遂行能力の違いを、未学習のゲーム環境における実例で比較したものです。
左側の例(MineDojo)では、SIMA 1はユーザーから「少し上に進んで左の小さな洞窟で石炭を採掘する」という指示を受け取り、操作自体は試みています。しかし、タスクを最後まで正確に完了できていません。
一方、SIMA 2は同じ指示に対して周囲の環境を把握し、洞窟内で石炭を見つけ出し、「石炭を見つけた」と行動結果を説明しながらタスクを完了しています。
おおざっぱな指示でも理解して遂行する
右側の例(ASKA)では、「キャンプファイヤーを探す」という比較的抽象的な指示が与えられています。SIMA 1は指示に反応して探索行動を行うものの目的の達成には至っていません。
それに対してSIMA 2は、これまで一度も学習していないゲーム環境にもかかわらず、周囲を探索し、キャンプファイヤーを見つけ出すことでタスクを成功させています。
この比較から、SIMA 2は単に指示に従って操作するだけでなく、指示の目的を理解し、未知の環境でも適切な行動を組み立てて実行できる能力を備えていることが分かります。
SIMA 1と比べて、SIMA 2の方が汎化性能とタスク完了能力が大きく向上していることを、視覚的に示した例となっています。
SIMA 1とSIMA 2の設計・性能の違い
以下の表は、SIMA 1とSIMA 2の違いを比較したものです。Gemini統合の有無、推論能力、自己改善機能など、SIMA 2の進化点が分かりやすく整理されています。
| 項目 | SIMA 1 | SIMA 2 |
|---|---|---|
| 中心となるモデル構造 | 指示追従型トランスフォーマー(Gemini統合なし) | Geminiを中核に統合 |
| 推論能力 | 指示に従うレベル 推論は限定的 | 指示の目的を推論し、行動理由を説明できる |
| 学習方法 | 人間のプレイ動画からの学習 | 自己生成タスクと報酬による自己改善 |
| 入力形式 | 主にテキスト | テキスト、音声、画像(スケッチ)、絵文字 |
| 指示への対応範囲 | 基本操作中心(600以上の技能) | 複雑な指示・抽象概念・論理コマンドに対応 |
| マルチモーダル理解 | 記載なし | スケッチ・画像・絵文字・多言語にも対応 |
| 未学習ゲームでの性能 | 成功率が極めて低い(ASKA・MineDojo) | ASKA: 約15% / MineDojo: 約13% に向上 |
| 総合タスク成功率 | 31% | 60%超(約2倍) |
| 自己改善能力 | 無し | 自己プレイにより継続的に成長 |
| 3D世界での適応 | 記載なし | Genie 3が生成した新規世界でも適応し学習 |
SIMA 2に関するよくある質問まとめ
- SIMA 2は現在誰でも利用できるのですか?
SIMA 2は現在、研究目的での限定公開となっており、一部の研究者やゲーム開発者に早期アクセスが提供されている段階です。一般向けのAPI提供や料金体系は示されておらず、商用展開を目的とした製品ではなく研究段階の技術として扱われています。
- SIMA 2の自己改善能力とは具体的にどのような仕組みですか?
SIMA 2は人間のデモ映像で初期学習した後、新しいゲームを自らプレイし、Geminiのフィードバックを取り入れて能力を向上させます。生成した経験データは次世代エージェントの訓練にも利用され、世代を重ねるごとにタスク成功率が改善される仕組みです。
まとめ
SIMA 2は、Geminiの推論力を取り込み、仮想3D環境での指示理解・推論・行動実行・自己改善を可能にする次世代エージェントです。高度な汎化性能とマルチモーダル対応を持ち、未学習環境でも柔軟に適応できる点が特徴です。
一方で、商用利用や料金体系に関する情報は現在のところ公開されていません。研究用途としての提供を通じ、今後の汎用エージェント開発の基盤となることが期待されています。


AI Market 運営、BizTech株式会社 代表取締役|2021年にサービス提供を開始したAI Marketのコンサルタントとしても、お客様に寄り添いながら、お客様の課題ヒアリングや企業のご紹介を実施しています。これまでにLLM・RAGを始め、画像認識、データ分析等、1,000件を超える様々なAI導入相談に対応。AI Marketの記事では、AIに関する情報をわかりやすくお伝えしています。
AI Market 公式𝕏:@AIMarket_jp
Youtubeチャンネル:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp

