GoogleがGemini 2.5 Computer Useモデルを公開、ウェブとモバイルUIの自律操作を実現する専門AIモデル
最終更新日:2025年10月10日

Googleは2025年10月7日、Gemini 2.5 Proをベースにユーザーインターフェース操作に特化したGemini 2.5 Computer Useモデルをプレビュー公開した。
クリックやタイピング、スクロールなどの操作を通じてウェブページやアプリケーションを人間のように操作でき、複数のベンチマークで既存モデルを上回る性能と低レイテンシを実現している。
- Gemini APIを通じて提供されるUI操作専門モデルで、フォーム入力やドロップダウン操作などの複雑なタスクを自動実行可能
- Online-Mind2WebやWebVoyager、AndroidWorldなどの主要ベンチマークで競合モデルを上回る精度を達成
- 安全性を重視した設計で、危険な操作には確認プロセスを組み込み、段階的安全サービスとシステム指示による制御機能を提供
Gemini 2.5 Computer Useモデルは、Gemini APIの新しいcomputer_useツールを通じて公開され、Google AI StudioとVertex AIから利用可能だ。
モデルはユーザーのリクエスト、環境のスクリーンショット、最近の操作履歴を入力として受け取り、クリックやタイピングといったUI操作を表す関数呼び出しを生成する。
購入などの特定操作では、エンドユーザーの確認を要求する仕組みも備えている。操作実行後は新しいスクリーンショットとURLがモデルに送信され、タスク完了やエラー発生まで反復処理が継続される。
モデルは主にウェブブラウザ向けに最適化されているが、モバイルUI制御タスクでも高い性能を示している。
ベンチマーク評価では、Gemini 2.5 Computer Useモデルは、Online-Mind2Webで約70%の精度を達成し、Latency(回答が返ってくるまでにかかる時間)は約225秒と競合モデルの中で最も低い値を記録した。
WebVoyagerやAndroidWorldなどの複数のベンチマークでも、自己報告データ、Browserbaseによる評価、Google自身の評価のいずれにおいても、既存の主要モデルを上回る結果を示している。
これらの性能指標は、実用的なエージェント開発において、精度と速度の両面で優位性があることを示している。
安全性の観点では、GoogleはコンピュータAIエージェントが持つ固有のリスクに対処するため、モデルに安全機能を直接組み込んだ。
ユーザーによる意図的な悪用、予期しないモデル動作、ウェブ環境でのプロンプトインジェクションや詐欺の3つの主要リスクに対応している。開発者向けには、システム整合性の侵害、セキュリティの脅威、CAPTCHA回避、医療機器制御などの高リスク操作を防ぐ安全制御機能を提供する。
具体的には、モデルが提案する各操作を実行前に評価する推論時安全サービスと、特定の重要操作で拒否または確認を求めるシステム指示の2つの制御メカニズムが用意されている。
実用面では、GoogleチームがUI自動テストに本モデルを本番環境に導入し、ソフトウェア開発の大幅な高速化を実現している。
Project MarinerやFirebase Testing Agent、検索のAI Modeにおけるエージェント機能にも活用されている。
早期アクセスプログラムの参加企業からは、Poke.comが競合ソリューションと比較して50%高速であると評価し、Autotabは複雑なケースでのデータ解析性能が最大18%向上したと報告している。
Google決済プラットフォームチームでは、従来は修復に数日を要したUI自動テストの失敗の60%以上を本モデルで自動復旧できるようになった。
AI Marketの見解
Gemini 2.5 Computer Useモデルの登場は、AI技術が構造化されたAPIだけでなく、人間が使用するグラフィカルユーザーインターフェースを直接操作できる段階に到達したことを示す重要な進展だ。
従来のRPA(ロボティック・プロセス・オートメーション)は事前にプログラムされた手順に依存していたが、本モデルは視覚理解と推論能力を組み合わせることで、動的なウェブ環境やモバイルアプリケーションにも柔軟に対応できる。
技術的観点では、ループベースのアーキテクチャとスクリーンショット分析による状態把握が特徴的で、これにより環境変化に対する適応性が高まっている。
ベンチマーク結果が示す低レイテンシと高精度の両立は、実用的なエージェント開発において重要な要素であり、リアルタイム性が求められる業務自動化や顧客対応などの分野で競争優位性をもたらすと想定される。
ビジネス的には、UI自動テストやワークフロー自動化などの既存ユースケースに加え、カスタマーサポートやデータ入力業務、ウェブスクレイピングなど幅広い適用可能性がある。
特にGoogle決済プラットフォームチームの事例が示すように、テスト失敗の自動復旧により開発サイクルが大幅に短縮される効果は、ソフトウェア開発組織全体の生産性向上に寄与する可能性が高い。
一方で、安全性への配慮が徹底されている点は、企業が本技術を採用する際の懸念事項を軽減し、導入障壁を下げる効果があると想定される。
今後、Computer Use機能を持つAIモデルが増加することで、ノーコード・ローコード開発の次の段階として、自然言語によるアプリケーション操作が一般化していく可能性がある。
参照元:Google DeepMind
Gemini 2.5 Computer Useに関するよくある質問まとめ
- Gemini 2.5 Computer Useモデルはどのようなプラットフォームで利用できるのか?
Gemini 2.5 Computer Useモデルは、Gemini APIを通じてGoogle AI StudioとVertex AIから利用可能だ。
プレビュー版として公開されており、開発者はBrowserbaseのデモ環境で試用したり、PlaywrightやBrowserbaseのクラウドVMを使用してローカルまたはクラウド上で独自のエージェントループを構築できる。主にウェブブラウザ向けに最適化されているが、モバイルUI制御にも対応しており、デスクトップOSレベルの制御にはまだ最適化されていない。
- Gemini 2.5 Computer Useモデルの安全機能にはどのようなものがあるのか?
モデルには3つの主要リスク(ユーザーによる意図的悪用、予期しないモデル動作、プロンプトインジェクション)に対応する安全機能が組み込まれている。
開発者向けには、各操作を実行前に評価する推論時安全サービスと、高リスク操作で拒否または確認を求めるシステム指示の2つの制御機能が提供されている。購入などの特定操作では自動的にユーザー確認が要求される。

AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp
