GPT-5.4とは?料金・従来モデルとの違い・性能・使い方・実際に利用した使用感も解説!
最終更新日:2026年04月05日
記事監修者:森下 佳宏|BizTech株式会社 代表取締役

- GPT-5.4は知識業務(GDPval 83.0%)とコンピュータ操作(OSWorld-Verified 75.0%・人間平均超え)で特に顕著な性能向上
- スプレッドシート・プレゼンテーション・ドキュメントといった実務成果物の品質においてGPT-5.2比で個別の事実誤りが33%、回答全体の誤りが18%減少
- コーディング単体性能ではClaude Opus 4.6が依然として強いが、GPT-5.4は純粋なコーディング用途よりも、知識業務・コンピュータ操作・ツール利用の統合が強み
GPT-5.4は、OpenAIがChatGPT、API、Codexで2026年3月5日に提供を開始したモデルです。推論・コーディング・エージェント型ワークフローの進歩を一つに統合し、業務用途に向けた高性能と高効率を両立しているのが最大の特徴です。
GPT-5.2からの移行を検討している方、あるいはClaude CodeやGeminiと比較してどの用途に適しているか判断したい方にとって、意思決定の根拠となる情報を解説します。料金・性能・使い方・実際の使用感まで順を追って解説します。
LLMに強い会社・サービスの選定・紹介を行います
今年度LLM相談急増中!紹介実績1,000件超え!

・ご相談からご紹介まで完全無料
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
・GPT、Claude、Gemini、Llama等の複数モデルに対応
完全無料・最短1日でご紹介 LLMに強いAI会社選定を依頼する
ChatGPT導入に強いAI開発会社をご自分で選びたい方はこちらで特集していますので併せてご覧ください。
目次
GPT-5.4とは?
GPT-5.4 Thinking and GPT-5.4 Pro are rolling out now in ChatGPT.
GPT-5.4 is also now available in the API and Codex.
GPT-5.4 brings our advances in reasoning, coding, and agentic workflows into one frontier model. pic.twitter.com/1hy6xXLAmJ
— OpenAI (@OpenAI) March 5, 2026
GPT-5.4は、OpenAIが「業務用途向けとして最も高性能かつ効率的なフロンティアモデル」と位置づけるモデルです。GPT-5.3-Codexが持つ最先端のコーディング能力を取り込みながら、推論・知識業務・コンピュータ操作・ツール利用といった実務直結の領域を横断的に強化しています。
特に、スプレッドシート・プレゼンテーション・ドキュメントを扱うプロフェッショナルなタスク全般でモデルの動作が改善されており、複雑な実務を正確かつ効率よくこなせるよう設計されています。OpenAIはGPT-5.2比で応答品質の面でも大きく改善しており、個別の事実誤りが33%減少、回答全体での誤りは18%減少したと発表しています。
やり取りの回数を増やさずに求める成果を得やすくなっている点も、業務利用における実用上の強みです。
ChatGPTではGPT-5.4 ThinkingまたはGPT-5.4 Proとして提供され、回答冒頭で思考の進め方を示せるようになっています。これにより、返答の途中でも方針調整がしやすくなり、追加のやり取りなしに求める回答を得やすくなっています。
OpenAI初のコンピュータ操作ネイティブモデル
APIとCodexでは、GPT-5.4はOpenAI初の「ネイティブで最先端のコンピュータ操作能力を備えた汎用モデル」とされています。エージェントがコンピュータを操作し、複数のアプリケーションにまたがる複雑なワークフローを実行できる点が、従来モデルとの大きな違いです。
なお、最大100万トークンのコンテキストウィンドウはCodexおよびAPIでの利用時に適用されるものです。ChatGPTでのコンテキストウィンドウはGPT-5.2 Thinkingから変更されていない点に注意が必要です。
また、APIで272,000トークンを超える入力を行う場合は通常の2倍の料金が適用されます。
ChatGPTでの提供対象
GPT-5.4 Thinkingは、ChatGPT Plus・Business(旧Team)・Proのユーザーが利用できます。EnterpriseおよびEduプランのユーザーは、管理者設定から早期アクセスを有効にすることで利用可能です。
GPT-5.4 ProはProおよびEnterpriseプランで利用できます。
また、2026年3月17日にはGPT-5.4 miniおよびGPT-5.4 nanoが追加リリースされています。GPT-5.4 miniは以下ケースで使用されます。
- Freeプランを含む幅広いユーザーがThinking機能から利用可能
- GPT-5.4 Thinkingの利用上限に達した場合のフォールバックとしても機能
GPT-5.4 nanoはAPIでのみ提供されており、分類・データ抽出・ランキングといった大量処理や、サブエージェントとしての用途に適した最軽量モデルです。コスト最適化を重視する業務システムへの組み込みを検討している場合は、これらの小型モデルも選択肢に入れた設計が有効です。
API料金
API料金の比較をまとめると以下の通りです。
GPT-5.4はGPT-5.2より単価が高く設定されています。しかし、OpenAIはtool searchによるトークン使用量の最適化(最大47%削減)により多くのタスクで必要なトークン総数を抑えられると説明しています。
コスト評価にあたっては、単価だけでなくタスクあたりの総トークン消費量を基準に比較することを推奨します。
| APIモデル | 入力料金 | キャッシュ入力料金 | 出力料金 |
|---|---|---|---|
| gpt-5.2 | $1.75 / 100万トークン | $0.175 / 100万トークン | $14 / 100万トークン |
| gpt-5.4 | $2.50 / 100万トークン | $0.25 / 100万トークン | $15 / 100万トークン |
| gpt-5.2-pro | $21 / 100万トークン | – | $168 / 100万トークン |
| gpt-5.4-pro | $30 / 100万トークン | – | $180 / 100万トークン |
API料金はOpenAI Developersの料金ページをご確認ください。
なお、ChatGPTのGPT-5.2 Thinkingは2026年6月5日に廃止される予定です。現在GPT-5.2 ThinkingをAPIや業務フローに組み込んでいる場合は移行スケジュールの確認が必要です。
LLMに強い会社・サービスの選定・紹介を行います
今年度LLM相談急増中!紹介実績1,000件超え!

・ご相談からご紹介まで完全無料
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
・GPT、Claude、Gemini、Llama等の複数モデルに対応
完全無料・最短1日でご紹介 LLMに強いAI会社選定を依頼する
GPT-5.4の性能のすごいところは?
GPT-5.4は、知識業務・コーディング・コンピュータ操作・ツール利用・学術評価・抽象的推論など、幅広い領域で前世代モデルからの性能向上が確認されています。
下表はOpenAI社内モデル間の主要ベンチマーク比較です。GPT-5.4はGPT-5.3-CodexおよびGPT-5.2をすべての指標で上回っています。
ただし、コーディング領域ではClaude Opus 4.6が依然として競合上位に位置しており、用途によって最適なモデルは異なります。
| 評価 | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval(知識業務) | 83.0% | 70.9% | 70.9% |
| SWE-Bench Pro(コーディング) | 57.7% | 56.8% | 55.6% |
| OSWorld-Verified(コンピュータ操作) | 75.0% | 74.0% | 47.3% |
| Toolathlon(ツール利用) | 54.6% | 51.9% | 45.7% |
| BrowseComp(ウェブ検索) | 82.7% | 77.3% | 65.8% |
知識業務での性能

知識業務の性能評価において、GPT-5.4はGPT-5.4が最も強みを発揮する領域です。44職種にまたがる実務タスクを対象にしたベンチマーク「GDPval」で83.0%を記録しており、GPT-5.2の70.9%から大きく向上しています。
OpenAIによれば、業界専門職と同等以上の成果を出せるタスクが過半数に達したとされています。
OpenAIは特に、スプレッドシート・プレゼンテーション・ドキュメントの作成・編集能力の強化に注力したと述べています。社内ベンチマークの投資銀行モデリングタスクではGPT-5.4が87.3%を記録し、GPT-5.2の68.4%を大幅に上回りました。
OfficeQAでも68.1%(GPT-5.2は63.1%)と高い数値を示しており、財務・法務・営業資料といった実務成果物の品質が求められる業種での活用に適性が高いと言えます。
なお前述のとおり、GPT-5.2比での事実誤りは個別の主張で33%、回答全体で18%それぞれ減少しており、知識業務においては回答精度と信頼性の両面で実用水準が引き上げられています。
コーディング性能
公式リリースから引用
SWE-Bench Pro(公開版)においてGPT-5.4は57.7%を記録しており、OpenAI社内モデルではGPT-5.3-Codex(56.8%)・GPT-5.2(55.6%)を上回っています。あわせて、各推論負荷設定においてGPT-5.3-Codexより低いレイテンシを実現しており、コーディング性能と応答速度のバランスが改善されています。
一方で、SWE-benchにおける競合比較ではClaude Opus 4.6が引き続き優位なポジションを維持しています。純粋なコーディング単体性能を最優先する場合は、Claude Codeとの比較検討が推奨されます。
GPT-5.4のコーディング領域における強みは、コーディング単体性能よりも、知識業務・コンピュータ操作・ツール利用を組み合わせた統合的なエージェント処理にあります。
上記動画は、GPT-5.4が細かな指定を含まない単一のプロンプトから生成したテーマパーク経営シミュレーションゲームです。Playwright(Interactive)を活用することで、構築したアプリをその場でテストする機能を備えており、コードの生成からデバッグ・動作確認までを一連の流れで完結できます。
コンピュータ操作と視覚認識
GPT-5.4の差別化が最も明確に現れているのが、コンピュータ操作と視覚認識の領域です。デスクトップ環境をスクリーンショットとキーボード・マウス操作で扱う能力を測定するベンチマーク「OSWorld-Verified」において、GPT-5.4は成功率75.0%を記録しました。
これはGPT-5.2の47.3%を大幅に上回り、さらに人間の平均成績72.4%も超えています。この結果は、画面を認識しながら操作を判断するタスクにおいて、GPT-5.4が人間と同等以上の精度で動作できることを示しています。
GUIベースのレガシーシステム操作やAPIを持たないSaaSの自動化など、従来はRPA等でなければ自動化が難しかった領域への適用可能性を広げるものです。
ツール利用とウェブ検索

外部ツールやウェブ検索を活用するエージェント型タスクでも、GPT-5.4は前世代モデルから大きく向上しています。
ウェブ検索能力を評価する「BrowseComp」では82.7%を記録し、GPT-5.2の65.8%を上回りました。上位モデルのGPT-5.4 Proは89.3%に達しており、高度な情報探索・リサーチ業務への適性が示されています。
複数ツールを組み合わせた多段階処理能力を評価する「Toolathlon」でも54.6%(GPT-5.2は45.7%)と改善されており、複数システムをまたぐ業務フローの自動化に向けた実用水準が引き上げられています。
これらのエージェント性能を支える仕組みとして、GPT-5.4では「tool search」が新たに導入されました。
従来はエージェントが利用しうるすべてのツール定義を事前にコンテキストへ含める設計が一般的でしたが、tool searchではモデルが必要なタイミングで該当ツールの定義を動的に検索・読み込む方式に変わっています。
OpenAIの検証では、同等の精度を維持しながらトークン使用量を最大47%削減できることが確認されており、MCPサーバーなど大規模なツールエコシステムを運用している環境でのコスト・レイテンシ改善に直接つながります。
GPT-5.4は、知識業務、コーディング、コンピュータ操作、ツール利用、学術評価、抽象的推論など、広い領域で性能向上が示されています。
主要ベンチマークの比較を整理すると以下の通りで、他のモデルと比較してすべての指標において優れた成績を残しています。
| 評価 | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval | 83.0% | 70.9% | 70.9% |
| SWE-Bench Pro(公開版) | 57.7% | 56.8% | 55.6% |
| OSWorld-Verified | 75.0% | 74.0% | 47.3% |
| Toolathlon | 54.6% | 51.9% | 45.7% |
| BrowseComp | 82.7% | 77.3% | 65.8% |
LLMに強い会社・サービスの選定・紹介を行います
今年度LLM相談急増中!紹介実績1,000件超え!

・ご相談からご紹介まで完全無料
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
・GPT、Claude、Gemini、Llama等の複数モデルに対応
完全無料・最短1日でご紹介 LLMに強いAI会社選定を依頼する
GPT-5.4の使い方は?
GPT-5.4の使い方は、ChatGPT、API、Codexの3つで整理できます。
ChatGPTで使う方法

ChatGPTでは、Plus、Team、ProのユーザーがGPT-5.4 Thinkingを利用できます。画面左上のモデル選択トグルを展開し(画像①)、Thinkingを選択(画像②)することでGPT-5.4 Thinkingを利用することができます(2026年3月時点での情報です)。
一方GPT-5.4 Proは、ProおよびEnterpriseプランで利用可能です。Thinkingの場合と同様にモデル一覧を開き、Proを選択することで利用可能です。
APIで使う方法
APIでは、GPT-5.4は「gpt-5.4」、GPT-5.4 Proは「gpt-5.4-pro」というモデル名で利用できます。
APIでは、文章生成や要約、コード生成といった通常のAI利用に加えて、ツール呼び出しやエージェント型ワークフローにも対応しています。これにより、外部APIや社内システムと連携しながら複数ステップの処理を自動化することが可能です。
以下はPythonのコード例になります。
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.4",
input="生成AIの今後の発展について簡潔に説明してください"
)
print(response.output[0].content[0].text)
Codexで使う方法
CodexでもGPT-5.4が順次提供されています。Codexのアプリケーションのインストールが済んでいない方はこちらからインストールをしてください。

Codexを開いたら、テキストボックスの左下(上画像参照)からモデルをGPT-5.4にすることで利用可能となります。
GPT-5.4を試してみた結果
ChatGPTでGPT-5.4 Thinkingの思考力や文章力を確認し、コーディングに特化した環境であるCodexを使いGPT-5.4のコーディング性能を試しました。
ChatGPTでGPT-5.4 Thinkingを利用
推論モデルは実行に時間がかかる傾向にあり、GPT-5.4 Thinkingも例外ではなく、回答の作成に数分から十数分程度かかります。その代わりに、回答内容のクオリティは高い傾向にあります。
以下はトヨタ自動車の決算短信を元にレポートを作成してもらい、さらにxlsx形式で出力させたものを抜粋したものになります。
細かい指示は全くしていないのにも関わらず、プロンプト一つでファイルをプレビュー・ダウンロード可能な状態で出力してくれました。ページも活用しながら多角的に見やすく情報をまとめており、Office系の利用に力を入れていることが伺えます。


また、従来のモデルでもかなりできるようになってはいましたが、大学レベルの数学の問題なども正確かつ分かりやすく解法を説明することができており、改めて性能の高さを実感しました。
CodexでGPT-5.4を利用
上記の動画は、GPT-5.4がCodexで作成したスネークゲームです。
作成に10分程かかっており早いとは言えませんが、エラーが発生した場合には、自ら原因を特定し解決していたため手間はかかりませんでした。一回の指示で0からTypescriptベースのブラウザアプリを完成させ、次の指示でテスト用のローカルホストのURLを出力できており、やり取りが少なく済む点が長所と言えます。
CursorやClaude Code等と比較し、特別優れた点があるというわけではないように感じましたが、少なくとも同程度の性能や使い勝手ではあり、好みがわかれる部分です。
ユーザーの声
以下ではGPT-5.4を使ったユーザーの感想をご紹介します。概ね肯定的な意見が多く、特にGPT-5.4自立性について言及してる投稿が目立ちました。
一方で、コーディングという面では、使い慣れたClaude Codeといったツールの方が使いやすい方もいるようです。
GPT-5.4 が 自己判断で行動を変更したことが海外で大きな話題になっています。
「Microsoft PaintでOpenAIのロゴを描いて」 と頼んだだけなのに、 AIはロゴをうまく書けず「この方法じゃダメだ」と判断。
そして 自動でブラウザを開いて別の方法で解決します。
衝撃の結末を解説します👇 pic.twitter.com/ftxrFtUa2u
— えいと (@7_eito_7) March 11, 2026
Codex + GPT-5.4使ってみて、やっぱり自分にはClaude Codeの方が合っていると思った週末だった。
— Oikon (@oikon48) March 8, 2026
LLMに強い会社・サービスの選定・紹介を行います
今年度LLM相談急増中!紹介実績1,000件超え!

・ご相談からご紹介まで完全無料
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
・GPT、Claude、Gemini、Llama等の複数モデルに対応
完全無料・最短1日でご紹介 LLMに強いAI会社選定を依頼する
GPT-5.4についてよくある質問まとめ
- GPT-5.4とはどのようなモデルですか?
GPT-5.4は、OpenAIがChatGPT、API、Codexで提供を開始したモデルであり、推論、コーディング、エージェント型ワークフローなどの能力を統合した業務向けの高性能モデルです。
GPT-5.3-Codexのコーディング能力を取り込みながら、知識業務やツール利用など実務タスクでの性能が強化されています。
GPT-5.2との主な違いは以下の通りです。
- 推論・コーディング・エージェント型ワークフローを単一モデルに統合
- GPT-5.3-Codexのコーディング能力を取り込みつつ、知識業務・コンピュータ操作を強化
- 個別の事実誤りがGPT-5.2比33%減少、回答全体の誤りは18%減少
- APIとCodexでは最大100万トークンのコンテキストウィンドウに対応(ChatGPTはGPT-5.2 Thinkingから変更なし)
- GPT-5.2 Thinkingは2026年6月5日に廃止予定
- GPT-5.4はどこで利用できますか?
GPT-5.4はChatGPT、API、Codexで利用できます。
2026年3月時点でChatGPTではPlus、Team、ProユーザーがGPT-5.4 Thinkingを利用でき、ProおよびEnterpriseプランではGPT-5.4 Proも利用できます。
APIでは「gpt-5.4」「gpt-5.4-pro」として提供されています。
なお、GPT-5.4 miniはFreeプランを含む幅広いユーザーが利用でき、GPT-5.4 nanoはAPI専用の最軽量モデルとして提供されています。
- GPT-5.4の性能はどの領域で特に向上しましたか?競合モデルと比べた場合はどうですか?
OpenAI社内モデルとの比較では、GPT-5.4はすべての主要ベンチマークでGPT-5.3-CodexおよびGPT-5.2を上回っています。領域別の主な向上点は以下の通りです。
- 知識業務(GDPval):83.0%(GPT-5.2は70.9%)、投資銀行モデリングタスクでは87.3%
- コンピュータ操作(OSWorld-Verified):75.0%(人間平均72.4%を超える水準)
- ウェブ検索(BrowseComp):82.7%(GPT-5.2は65.8%)
- ツール利用(Toolathlon):54.6%(GPT-5.2は45.7%)
一方、コーディング単体性能(SWE-Bench Pro)ではClaude Opus 4.6が競合上位を維持しています。
- 現在GPT-5.2を業務システムに組み込んでいます。GPT-5.4へ移行するタイミングと判断基準を教えてください。
移行を検討すべき状況として特に優先度が高いのは、以下のケースです。
- スプレッドシート・レポート・スライド生成など実務成果物の品質改善が目的の場合(GDPval・投資銀行モデリングでのスコア差が大きい)
- GUIを介した操作自動化やMCPエコシステムとの連携を新たに導入する予定がある場合
- エージェント型処理でのトークンコストを最適化したい場合(tool search効果が大きい)
一方、純粋なテキスト生成や基本的なコード補完が主用途であれば、GPT-5.2との差分は小さく移行の緊急性は低い判断になります。なお、GPT-5.2 Thinkingは2026年6月5日に廃止されるため、移行スケジュールはこのタイムラインを起点に逆算することを推奨します。
移行要件の整理や対応可能なベンダー選定を効率よく進めたい場合は、AI Marketへの無料相談が選択肢の一つです。1,000件超の相談実績をもとに、移行フェーズごとに適した開発会社を1〜3営業日でご紹介しています。
- Codex+GPT-5.4とClaude Codeで迷っています。自社の開発フローに合う方をどう判断すればいいですか?
判断の起点として有効な基準は以下の通りです。
- コーディング単体の精度を最優先する場合 → Claude Opus 4.6をバックエンドに持つClaude Codeが現時点で競合上位
- コーディング+知識業務・コンピュータ操作・ウェブ検索を統合して処理させたい場合 → GPT-5.4(Codex)の強みが活きる
- OpenAIエコシステム(ChatGPT、Responses API)との統一運用を重視する場合 → GPT-5.4側がワークフロー管理上の利点がある
- 既存の開発チームがどちらのツールに慣れているか → 移行コストとして考慮が必要
どちらの選択肢が自社の開発スタックや案件特性に合うかは、個別要件によって異なります。判断に迷う場合は、AI Marketでの無料相談をご利用ください。ツール選定の相談から、GPT-5.4やClaude Codeに対応した開発会社の紹介まで、相談内容に合わせた案内が可能です。
まとめ
GPT-5.4は、推論、コーディング、コンピュータ操作、ツール利用、ウェブ検索を横断して強化された推論モデルです。特に知識業務、エージェント型ワークフロー、スプレッドシートやプレゼンテーションなどの実務成果物の作成において、従来モデルより高い性能と効率を示しています。
ChatGPT、API、Codexのいずれでも使い道が明確であり、特に複雑な業務や長時間のワークフローを扱いたい場合に、有力な選択肢になりえます。
ただし、自社の業務フローへの具体的な組み込みや、Claude Code・Geminiとの比較選定は、開発スタック・チーム体制・既存システムの条件によって最適解が変わります。ツール選定から開発会社の選定まで、専門的な観点で整理したい場合はAI Marketへの無料相談をご活用ください。
累計1,000件超の導入相談実績をもとに、要件整理のうえで1〜3営業日以内に候補企業をご紹介しています。

AI Market 運営、BizTech株式会社 代表取締役|2021年にサービス提供を開始したAI Marketのコンサルタントとしても、お客様に寄り添いながら、現場のお客様の課題ヒアリングや企業のご紹介を5年以上実施しています。これまでにLLM・RAGを始め、画像認識、データ分析等、1,000件を超える様々なAI導入相談に対応し、参加累計5,000人を超えるAIイベントを主催。AIシステム開発PM歴8年以上。AI Marketの記事では、AIに関する情報をわかりやすくお伝えしています。(JDLA GENERAL 資格保有)
▶ 監修者の実績・経歴を詳しく見る
AI Market 公式𝕏:@AIMarket_jp
Youtubeチャンネル:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp
