OpenAI、AIがコンピュータを操作するエージェント「Operator」を発表!
最終更新日:2025年01月24日
2025年1月23日(現地時間)、OpenAIはComputer-Using Agent(CUA)の研究プレビュー版「Operator」を米国のProユーザー向けに提供開始したことを発表した。
CUAは、GPT-4oの視覚能力と強化学習による高度な推論を組み合わせ、グラフィカルユーザーインターフェース(GUI)を介してコンピュータを操作できるAIモデルだ。
OSや特定のAPIに依存せず、画面、マウス、キーボードという普遍的なインターフェースを通じて、人間が日常的に使用するツールを操作可能にする。
<本ニュースの10秒要約>
- コンピュータ操作の汎用AIモデルCUAをOperatorとして米国で研究プレビュー版の提供を開始、人間と同様のGUI操作が可能に
- OSWorldでのコンピュータ使用タスクで38.1%、WebArenaで58.1%、WebVoyagerで87%の成功率を達成し、既存手法を上回る性能を実現
- 安全性を重視し、有害なタスクの拒否やユーザー確認の要求など、複数層の保護機能を実装してリスク軽減を図る
CUAの基本機能と特徴
CUAは画面上のピクセルデータを処理して状況を理解し、仮想マウスとキーボードを使用してアクションを実行する。
このプロセスは知覚、推論、行動の3段階で構成され、ユーザーの指示に基づいて反復的に実行される。画面のスクリーンショットを文脈として取り込み、チェーン・オブ・ソート推論により次のステップを検討し、クリックやスクロール、タイピングなどのアクションを実行する。
ログイン情報の入力やCAPTCHA対応など、機密性の高い操作に関してはユーザーの確認を求める仕組みを備えている。
ベンチマーク評価での性能
CUAは複数のベンチマークテストで既存の手法を上回る性能を示した。
コンピュータ使用のベンチマークOSWorldでは38.1%の成功率を達成し、これは従来の最高性能22.0%を大きく上回る結果だ。ブラウザ使用のベンチマークでは、WebArenaで58.1%、WebVoyagerで87.0%の成功率を達成した。
特にWebVoyagerでの高い成功率は、比較的単純なタスクにおけるCUAの有効性を示している。
ただし、WebArenaのような複雑なベンチマークでは人間の性能78.2%には及ばず、さらなる改善の余地が残されている。
安全性への取り組み
CUAの開発では安全性を最優先事項として、誤用、モデルの誤り、フロンティアリスクの3つの主要なリスク分類に対する対策を実施した。
誤用に対しては、有害なタスクの拒否や特定サイトのブロック、リアルタイムのモデレーションなどを導入。
モデルの誤りに対しては、重要な操作前のユーザー確認要求や、高リスクタスクの実行制限などの対策を講じた。また、敵対的攻撃に対する防御策として、プロンプトインジェクションの識別や実行監視システムも実装している。
AI Market の見解
CUAは、AIエージェントの行動範囲を大きく拡張する重要な技術の進展だ。特定のAPIに依存せず、人間向けに設計された既存のソフトウェアツールを操作できる点が大きな特徴だ。
この汎用性により、既存のAIモデルでは対応できなかった多様なデジタルユースケースへの対応が可能になる。
ただし、現時点での性能はタスクの複雑さに依存し、人間レベルの操作能力には達していない。
今後のユーザーフィードバックを通じた改善と、安全性の確保が普及の鍵となるだろう。企業のデジタル業務自動化や、個人のコンピュータ操作支援など、幅広い分野での活用が期待できる。
参照元:OpenAI
AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp