Anthropic、コンピュータ操作が可能な新機能を発表、AI Claude 3.5がマウス操作とキーボード入力で人間のようにPC操作が可能に
最終更新日:2024年10月23日
Anthropicは2024年10月23日(現地時間)、最新版のAIモデル「Claude 3.5 Sonnet」にコンピュータ操作が可能な新機能を追加したと発表した。
この機能により、Claudeはユーザーのコンピュータ画面を見て、マウスカーソルの移動やクリック操作、仮想キーボードによる入力など、人間のような方法でコンピュータを操作できるようになった。現在パブリックベータ版として提供されており、AIの新たな進歩を示す重要な一歩だとAnthropicは位置付けている。
目次
<本ニュースの10秒要約>
- コンピュータ画面を認識し、ピクセル単位で正確なマウス操作とキーボード入力が可能なAI機能の実現
- 単純なソフトウェアでの訓練から、複雑なタスクへの対応や障害時の自己修正能力までを獲得した画期的な技術進展
- 現時点での性能は人間の20%程度だが、安全性を確保しながら段階的な機能拡張を目指す開発方針
コンピュータ使用機能の開発背景と意義
現代の仕事の大半がコンピュータを介して行われる中、AIがコンピュータソフトウェアを直接操作できる能力は、既存のAIアシスタントでは不可能だった多くのアプリケーションを実現する。
この機能は、AIによる論理的推論や画像理解の能力を基盤として開発された。特に、画面上のピクセル数を正確にカウントする能力の獲得が、マウス操作の精度向上に重要な役割を果たした。
技術的特徴と現状の性能
開発チームは、計算機やテキストエディタなど単純なソフトウェアでの訓練から始め、その経験を他のソフトウェアにも応用できる汎用的な能力を獲得することに成功した。現在のClaudeは、コンピュータ使用の評価指標「OSWorld」で14.9%のスコアを達成しており、次点の7.7%を大きく上回っている。
ただし、人間の一般的なスコア70-75%には及ばず、ドラッグやズームなどの操作はまだ実現できていない。
安全性への取り組みと今後の課題
Anthropicは、この機能をAI Safety Level 2に位置付け、現時点では深刻なリスクを伴わないと判断している。しかし、プロンプトインジェクション攻選挙関連活動などの悪用防止に向けた対策を実施している。
また、画面のスクリーンショットを断続的に確認する方式のため、短時間の通知や動作を見逃す可能性があるなど、技術的な制約も存在する。
AI Market の見解
本機能の登場は、AIとコンピュータの関係性、そして人間とAIの関係性を根本から変える可能性がある。これまではAIに合わせてツールを作る必要があったが、今後はAIが既存のソフトウェアを使いこなす方向に進化すると予想される。
現時点での性能は限定的だが、AIの操作スキルが向上すれば、プログラミングやデータ分析、デザイン作業など、様々な業務の自動化が加速する可能性が高い。
参照元:Anthropic
生成AI(ジェネレーティブAI)について詳しく知りたい方はこちらの記事もご参考ください。
AIに関するご相談はAI Marketへ
AI Marketでは
メルマガ会員登録(無料)
AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp