xAI、多言語対応の音声エージェントAPI「Grok Voice Agent API」を開発者向けに提供開始
最終更新日:2025年12月19日

xAIは2025年12月17日、音声エージェント構築用API「Grok Voice Agent API」の提供を開始した。
同APIは数十の言語に対応し、リアルタイムデータ検索やツール呼び出し機能を搭載、分あたり0.05ドルの業界最安値で提供され、Big Bench Audioベンチマークで首位を獲得している。
- Big Bench Audioで首位、音声応答時間1秒未満を実現する高速音声エージェントAPI
- 分あたり0.05ドルの業界最安値、OpenAI比で約半額のコスト効率を達成
- 数十言語対応で会話中の言語切替可能、多言語評価でOpenAIを上回る結果
xAIは独自に音声活動検出(VAD)、トークナイザー、音声モデルを開発し、音声スタック全体を内製化した。この統合的なアプローチにより、音声エージェントの知性と速度を迅速に改善できる体制を構築している。

同APIは音声推論ベンチマークBig Bench Audioで1位を獲得し、最初の音声応答までの平均時間は1秒未満と、競合他社の約5倍の速度を実現した。料金体系は接続時間1分あたり0.05ドルの単一フラットレートで、OpenAI Realtime APIの推定0.10ドル/分、Bland AIの0.14ドル/分と比較して業界最安値となっている。

Grok Voice Agentは数十の言語をネイティブレベルの流暢さで話し、方言や発音のニュアンスを正確に捉える。ユーザーが話す言語を自動認識して応答し、会話の途中でシームレスに言語を切り替えることが可能だ。
OpenAI Realtime APIとの盲検ヘッドトゥヘッド評価では、発音、アクセント、韻律などの指標で一貫して高評価を獲得している。英語では54.3%、スペイン語で67.2%、ロシア語で85.4%の勝率を記録したが、日本語では34.2%とOpenAIに劣る結果となった。
同APIはテスラの数百万台の車両でGrokを動作させており、テスラは重要な設計パートナーとして開発に参画した。
車両ステータスへのアクセス、経路検索、ナビゲーション制御などの専用ツールを通じて、ロードトリップの計画時にはX上のレコメンデーション検索、最適ルート計算、立ち寄り地点の追加を数秒で実行する。開発者は独自のカスタムツールを統合するか、xAIのリアルタイム検索機能をXやウェブ全体で活用できる。
同APIはAra、Eve、Leoなど複数の表現豊かな音声を提供し、日常会話で自然に聞こえるだけでなく、医療、金融、法律などの専門用語の発音にも優れている。開発者は[whisper]、[sigh]、[laugh]などの聴覚的手がかりをプロンプトに含めることでリアリズムを高めることができる。
同APIはOpenAI Realtime API仕様と互換性があり、公式xAI LiveKitプラグイン経由でも利用可能だ。xAIは今後数週間でスタンドアロンのテキスト読み上げおよび音声テキスト変換エンドポイント、発音とレイテンシーがさらに強化された音声モデルをリリースする予定だ。
AI Marketの見解
xAIのGrok Voice Agent APIは、音声AI市場において技術面とコスト面の両方で競争力の高いポジションを確立したと想定される。
Big Bench Audioでの首位獲得と1秒未満の応答時間は、音声活動検出から音声モデルまでの完全内製化による最適化の成果であり、他社が外部コンポーネントに依存する中で差別化要因となっている。
分あたり0.05ドルという価格設定は、OpenAIの半額程度であり、大規模な音声アプリケーション展開のコスト障壁を大幅に下げる可能性がある。テスラ車両での実装実績は、エンタープライズ向けの信頼性を示す重要な事例だ。
一方で日本語評価での低い勝率は、アジア言語圏での採用拡大における課題を示唆している。今後予定されているスタンドアロンエンドポイントの追加により、既存の音声パイプラインへの部分的統合が容易になり、開発者の選択肢が広がると想定される。
音声AI市場では低レイテンシーとコスト効率が重要な競争軸となっており、本APIはこれらの要求に応える有力な選択肢として市場シェアを獲得していく可能性が高い。
参照元:xAI
Grok Voice Agent APIに関するよくある質問まとめ
- Grok Voice Agent APIの料金体系はどうなっているか?
接続時間1分あたり0.05ドルの単一フラットレートで課金される。これはOpenAI Realtime APIの推定0.10ドル/分、Deepgram AIの0.08ドル/分、ElevenLabs Agentsの0.088ドル/分、Bland AIの0.14ドル/分と比較して業界最安値となっている。
- どのような言語に対応しているか?
数十の言語に対応しており、英語、スペイン語、ドイツ語、ロシア語、ベトナム語、ヒンディー語、日本語などが含まれる。ユーザーが話す言語を自動認識して応答し、会話の途中でシームレスに言語を切り替えることが可能だ。システムプロンプトを通じて特定の言語で常に応答するよう指示することもできる。

AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp
