OpenAI、リアルタイムAPI機能を大幅強化した音声対話AI「gpt-realtime」を一般提供開始
最終更新日:2025年09月02日

OpenAIは2025年8月28日、最新の音声対話AI「gpt-realtime」とリアルタイムAPIの一般提供を開始したと発表した。
新モデルは従来比で指示理解と自然な音声生成能力が向上し、画像入力やSIP電話対応など企業向け音声エージェント開発に必要な機能を追加した。
- OpenAIが企業向け音声対話AI「gpt-realtime」を一般提供開始、従来比で大幅な性能向上を実現
- リアルタイムAPIに画像入力とSIP電話対応機能を追加、音声エージェントの実用性が向上
- 価格を20%削減し月32ドル/100万トークンに設定、企業での導入コスト負担を軽減
OpenAIは音声対話分野での競争力強化を目的として、従来の「gpt-4o-realtime-preview」から大幅にアップグレードした「gpt-realtime」モデルを発表した。
新モデルは複雑な指示理解、正確なツール呼び出し、より自然で表現豊かな音声生成において顕著な改善を示している。
内部評価によると、推論能力を測定するBig Bench Audioベンチマークでは82.8%の精度を達成し、従来の65.6%から大幅に向上した。また指示理解精度も30.5%に達し、前バージョンの20.6%を上回る結果となっている。
リアルタイムAPIの機能拡張により、開発者は音声エージェントに画像認識機能を統合できるようになった。ユーザーが画像や스ク린샷을 共有し、「これは何が見える?」や「このスクリーンショットのテキストを読んで」といった質問が可能となる。
さらにSIP(Session Initiation Protocol)対応により、既存の電話システムやPBXとの直接接続が実現し、企業の通信インフラとの統合が容易になった。またMCPサーバー対応により、外部ツールとの連携も簡素化されている。
価格面では従来比20%の削減を実現し、音声入力トークン100万個あたり32ドル、出力トークン100万個あたり64ドルに設定された。
長時間の会話セッションに対応するため、会話コンテキストの詳細制御機能も追加され、開発者はトークン制限の設定や複数ターンの一括削除が可能となり、運用コストの大幅削減が期待される。
ZillowやT-Mobile、StubHubなど大手企業が既に同APIを活用し、顧客サポートやパーソナルアシスタント、教育分野での実用化を進めている。
AI Marketの見解
OpenAIの今回の発表は、音声AI市場における技術的成熟度と企業導入への実用性を大きく前進させるものと想定される。
特に画像入力機能の追加により、マルチモーダル対話エージェントの実現が可能となり、カスタマーサポートや技術支援分野での活用範囲が拡大すると想定される。
SIP対応は既存の企業通信インフラとのシームレスな統合を可能にし、従来の電話システムを置き換えることなくAI機能を追加できる利点がある。
参照元:OpenAI
gpt-realtimeに関するよくある質問まとめ
- gpt-realtimeと従来モデルの主な違いは何か?
gpt-realtimeは推論能力が82.8%(従来65.6%)、指示理解精度が30.5%(従来20.6%)に向上し、画像入力やSIP電話対応などの新機能が追加されている。また価格も20%削減されている。
- 企業での導入にはどのような利点があるか?
既存の電話システムとの統合が容易になり、画像を含む多様な情報に基づいた対話が可能となる。MCPサーバー対応により外部ツールとの連携も簡素化され、カスタマーサポートや技術支援での活用が期待できる。

AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp
