Amazon Nova Act徹底解説!AIエージェント開発向けSDKの特徴や性能、料金、OpenAI Agents SDKとの違いとは?
最終更新日:2025年04月02日

- Nova Actは、Amazonが開発したWebブラウザ操作に特化したAIエージェントSDKで、Pythonから自然言語で操作指示ができる
- Playwrightとの連携や、データ抽出・ログ記録・並列処理といった機能により、実務でも使える実用性を備えている
- OpenAI Agents SDKと比べると、Nova ActはWeb操作に強みがあり、OpenAI SDKはツール連携や汎用的なワークフロー構築に向いている
- Nova Act SDKはApache-2.0ライセンスでGitHub上に公開されており、誰でも無償で利用できる
Amazonが2025年3月31日に発表した「Nova Act」は、Webブラウザ上での複雑な操作を自動化するためのPython SDKです。AIエージェントが自然言語での指示に従い、検索やクリック、情報取得、そしてAPIの呼び出しまで行えるツールです。
本記事では、Nova Actの特徴や機能、性能、できること、料金体系、導入方法、そして実際の活用例までを徹底解説します。初めて触れる方でもわかりやすく理解できるよう構成していますので、ぜひご参考にしてください。
AI Marketでは
AIエージェントに強いAI開発会社をご自分で選びたい場合はこちらで特集していますので併せてご覧ください。
目次
Nova Actとは?
Nova Act(ノヴァアクト)は、Amazonが提供するPython SDKで、Webブラウザ上で実行可能なAIエージェントの構築を可能にする開発ツールです。
これにより、検索・クリック・情報抽出などの操作を自然言語で自動化でき、再現性の高い業務フローの構築が可能となります。
Amazon Novaとは
Amazon Novaは、Amazonが開発した次世代の基盤モデル群(大規模生成AIモデル)です。
用途や性能別に複数のバリエーション(Nova Micro, Lite, Pro, Canvas, Reel)があり、テキスト生成・画像生成・動画生成などさまざまなタスクに対応します。
尚、Amazon Novaは、2025年4月現在、アメリカ国内のユーザーのみが利用できるようになっています。
Amazon NovaとNova Actの関係
Nova Actは、このAmazon Novaシリーズの一部として開発された「Webブラウザ操作に特化したエージェントモデル」です。
Novaシリーズが持つ「理解・推論・操作」の能力を、実際のWeb操作という具体的なユースケースに落とし込んだ実装です。
Nova Actは、Nova基盤モデルをベースとしたAIエージェントとして構築されており、モデル自体はNovaの技術を利用して訓練・動作しています。
Amazonはこれを「実世界のデジタル環境で動くエージェント」の第一歩と位置づけており、Nova Actはそのプロトタイプ的役割を果たしています。
▼累計1,000件以上の相談実績!お客様満足度96.8%!▼
Nova Actの機能・できること
以下の表は、Nova Actが提供する主要な機能とその詳細です。
機能 | 詳細 |
---|---|
act()による操作命令 | 自然言語での命令を逐次的に実行可能。例:「検索」「クリック」など。 |
スキーマ指定でのデータ抽出 | Pydanticのスキーマを指定することで、構造化されたデータ(リストやブール値など)を抽出できる。 |
Playwright APIとの併用 | Playwrightを直接呼び出して、キーボード入力やスクリーンショット取得などの高度な操作が可能。 |
ログと動画の記録 | 実行のたびにHTML形式の操作ログや動画を保存することで、後から確認・検証が容易。 |
ユーザーデータディレクトリの指定 | Chromeのユーザープロファイルを指定することで、ログイン状態やCookieを保持したまま操作可能。 |
並列処理の実行 | 複数のNova ActインスタンスをThreadPoolExecutorなどで同時に動作させることが可能。 |
Nova Actの性能
Nova Actは、Web UIベンチマークで非常に高い性能を示しています。たとえば、テキストベースUI操作(ScreenSpot Web Text)では0.939、視覚要素操作(ScreenSpot Web Icon)では0.879というスコアを記録しており、これは業界最高レベルのUI操作精度にあたります。
また、Claude 3.7 SonnetやOpenAI CUA(Operator)といった他のLLMエージェントが苦手とする日付選択やドロップダウン、ポップアップ操作といった場面でも90%以上の成功率を誇ります。
▼累計1,000件以上の相談実績!お客様満足度96.8%!▼
Nova Actの特徴
Nova Actの特徴は以下の通りです。
高信頼なステップ制御
Nova Actでは、タスクを1つの大きな目標として指示するのではなく、操作を「検索する」「クリックする」「情報を取得する」といった細かいステップに分解して実行します。
そのため、従来のエージェントが苦手とするドロップダウンや日付入力なども高い精度で処理でき、Amazon社の内部評価では90%以上の成功率を記録しています。
Playwrightとのシームレス連携
Nova Actは、Playwrightと統合されており、自然言語での操作指示に加えて、Playwright APIを用いた直接的なブラウザ制御が可能です。
たとえばログインフォームへのパスワード入力や、ファイルのダウンロード処理など、AIのみでは難しいタスクにも柔軟に対応できます。
Pythonとの深い統合性
Python SDKとして提供されているため、既存のPythonコードと容易に統合できます。
操作の合間にテストコードやエラーハンドリングを挿入したり、スレッドプールによって非同期処理を実装したりと、開発者が業務要件に応じたフレキシブルな制御が可能です。
軽量かつ並列実行に最適化
1インスタンスが1ブラウザセッションに対応するシンプルな設計でありながら、複数のNova Actインスタンスを並列に実行することが可能です。
これにより、大量のWebページを対象としたスクレイピングや自動操作を高速かつ効率的に実行できます。
操作ログと実行動画の記録
すべての操作ステップは自動でHTMLログとして保存され、オプションで動画として記録することも可能です。
結果として、実行結果のトレースや異常時の分析、ユーザートレーニング用途など、可視化を重視する業務でも安心して活用できます。
Nova Actの料金
Nova Act SDKは、GitHub上でApache-2.0 licenseで公開されており、無償でダウンロードして利用することが可能です。
Nova Actの使い方
前提条件
– 対応OS:MacOSまたはUbuntu
– Pythonバージョン:3.10以上
インストール
以下のコマンドでpipからインストールできます。
pip install nova-act
認証とAPIキーの設定
以下のサイトにアクセスし、APIキーを生成します。(2025年4月現在はアメリカ国内ユーザーのみ)
https://nova.amazon.com/act
生成したAPIキーを環境変数として設定します。
export NOVA_ACT_API_KEY="your_api_key"
クイックスタート(例:Amazonでコーヒーメーカーをカートに追加)
from nova_act import NovaAct
with NovaAct(starting_page="https://www.amazon.com") as nova:
nova.act("search for a coffee maker")
nova.act("select the first result")
nova.act("scroll down or up until you see 'add to cart' and then click 'add to cart'")
このコードにより、以下の操作が自動で行われます。
・Chromeを起動
・指定のページにアクセス
・商品を検索し、選択
・「カートに追加」ボタンをクリック
・Chromeを閉じる
対話的な実行(Pythonシェルを使用)
Pythonの対話シェルから段階的に操作を試すこともできます。
python
python
from nova_act import NovaAct
nova = NovaAct(starting_page="https://www.amazon.com")
nova.start()
nova.act("search for a coffee maker")
# ブラウザ上で動作確認後、次の操作
nova.act("select the first result")
詳細は公式ドキュメントをご確認ください。
GitHub|Nova Act
Nova Act SDKとOpenAI Agents SDKの違い
Amazonの「Nova Act SDK」とOpenAIの「Agents SDK」は、いずれもLLMを活用したAIエージェント開発を支援するためのツールキットですが、それぞれ異なるアプローチと強みを持っています。
以下の比較表では、両者の特徴や機能、対応ユースケースを整理しています。
項目 | Nova Act SDK | OpenAI Agents SDK |
---|---|---|
主な目的 | Webブラウザを操作できるLLMエージェントを構築 | ツール連携と複雑なLLMフローを簡潔に構築 |
実行対象 | ブラウザ操作(クリック・入力・情報抽出など) | 任意のPython関数や外部ツール |
構成要素 | act()(操作単位)、Playwright連携、並列実行 | Agent / Tool / Guardrail / Handoff |
トレース機能 | 各actの実行結果をHTML形式で出力・確認 | OpenAIトレーシングツールと統合(可視化・デバッグ) |
GUI操作 | 実際のWebページ上のUI要素を操作(ボタン・入力欄など) | 操作対象はテキストやAPIベースが主 |
開発言語 | Python(Playwright + SDK) | Python(軽量な構文でエージェントを記述) |
対象ユースケース | ECサイトでの購入、フォーム入力、情報収集など | 複数ツールの連携、業務プロセスの自動化、AIアプリケーション |
Nova Actの活用例
以下は、公式で紹介されている活用例です。
活用例 | 内容 |
---|---|
不動産検索+距離条件 | 各物件と駅の距離を検索して統合表示。並列処理による高速実行も可能。 |
Sweetgreenでの注文 | 認証済みブラウザを使用し、サラダの注文から配達依頼までを自動化。 |
定期注文の自動実行 | 「毎週火曜夜に夕食を注文する」といった非同期実行型のスケジュール実行エージェントを構築。 |
Amazon Nova Actについてよくある質問まとめ
- Nova Actとは何をするためのものですか?
Nova Actは、Webブラウザの操作を自動化するためのツールです。
- Nova Actはどのような種類のWebブラウザ操作を自動化できますか?
検索、クリック、テキスト入力、スクロール、情報抽出などの基本的な操作に加え、Playwright連携によるキーボード入力やファイルダウンロードも可能です。
例として、ECサイトでの商品検索とカート追加、不動産サイトでの物件情報収集などが挙げられます。
まとめ
Nova Actは、Amazonが提供する次世代型のWeb操作自動化SDKであり、複雑なブラウザ操作を高精度かつ安定して実行できる特徴があります。
特に、逐次的なアクション制御やPlaywrightとの連携により、従来のLLMエージェントが苦手としていたシナリオにも強みを発揮します。
業務効率化、自動化、そして高度なプロトタイピングを目指す開発者にとって、Nova Actは非常に魅力的なツールです。今後の正式リリースや拡張機能に注目しつつ、ぜひ一度その性能を体験してみてください。
AI Marketでは

AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
弊社代表 森下𝕏:@ymorishita
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp
