【OpenAI】Codexとは?ソフトウェア開発を支援するAIエージェントの機能や特長、料金プランを徹底解説!
最終更新日:2025年05月19日

- Codexは、OpenAIが開発したソフトウェア開発特化型エージェントで、コード生成やバグ修正、テスト実行を高精度かつ安全に行う。
- CodexはChatGPTやCLI経由で利用でき、GitHubと連携してプロジェクトごとに最適なコード処理を実行する。
- Codexは研究段階のAIであり、出力の確認は必須。高精度かつ安全性の高い処理が特徴だが、責任はユーザーにある。
ChatGPTを提供するOpenAIが開発した「Codex」は、2025年5月17日に登場したクラウド上で動作するソフトウェア開発向けAIエージェントです。
ChatGPTのPro、Team、Enterpriseユーザー向けに提供が始まり、今後Plusユーザーにも展開予定です。並列タスク処理が可能で、バグ修正、コードの提案、テストの実行といった開発業務を自動化し、エンジニアの生産性を大幅に向上させます。
本記事は、ソフトウェア開発支援エージェント「Codex」の概要、特徴、性能、安全性、活用方法を体系的に解説しています。
AI Marketでは
LLMに強いAI開発会社をご自分で選びたい場合はこちらで特集していますので併せてご覧ください。
目次
Codexとは?
We’re launching a research preview of Codex: a cloud-based software engineering agent that can work on many tasks in parallel.
Rolling out to Pro, Enterprise, and Team users in ChatGPT starting today.https://t.co/HqiAtgydwh
— OpenAI (@OpenAI) May 16, 2025
Codexは、2025年5月17日に登場した、OpenAIのo3をベースにソフトウェア開発向けに最適化されたモデル「codex-1」によって動作するエージェントです。
実際のコードベースを使った強化学習により、人間の開発スタイルやプルリクエストの好みに合致するコード生成が可能です。主な用途は、機能実装、バグ修正、リファクタリング、テスト作成、ドキュメント作成などです。
Codexの特徴
高精度なコード生成
Codexは、OpenAIが開発したLLM(大規模言語モデル)である「OpenAI o3」をベースに、ソフトウェア開発に特化して最適化されたモデル「codex-1」によって動作します。
このモデルは、実際の開発現場で発生するリアルなタスクを学習データとしており、実用的で即戦力となるコードを出力できます。
たとえば、関数の作成やクラス設計においても、命名規則やスタイルガイドに従ったコードを自動生成します。また、テストの合格を確認しながら出力を調整する「反復的な検証プロセス」が組み込まれており、より信頼性の高い成果物を生み出します。
関連記事:「コード生成AIとは?特徴やできること、企業ユースにおすすめのサービス」
クラウドサンドボックス実行
Codexでは、各タスクが独立した仮想環境(クラウドサンドボックス)上で並列的に実行されます。この環境には、指定したGitHubリポジトリが事前に読み込まれており、ローカル環境に近い状態で動作します。
これにより、複数のエージェントが同時に異なるファイルや関数の修正を行っても、互いに干渉することなく安全に並列処理を進めることが可能です。開発者はそれぞれの進行状況をリアルタイムで監視でき、結果は変更履歴やログファイルとして提示されます。
開発環境との高い親和性
Codexは、リポジトリ内に設置された`AGENTS.md`という設定ファイルを通じて、プロジェクト特有のルールや操作手順を理解し、それに従って行動します。
このファイルには、使用すべきテストコマンド、プロジェクトの規約、ディレクトリ構成のガイドラインなどを記述することで、Codexが環境に適応した判断を行えるようになります。
これはまるで熟練エンジニアにドキュメントを読ませるようなものであり、プロジェクトに即した出力を実現します。
安全性と透明性への配慮
Codexは各タスクにおいて、実行されたコマンド、端末ログ、テスト結果などをすべて明示的に記録・提示します。そのため、開発者はCodexのすべての動作をトレースでき、生成物の信頼性を検証することができます。
Codexは不明点がある場合や、テストが失敗した場合にその旨を明確に通知する設計になっており、ブラックボックス的な挙動を避けています。安全性を確保するため、出力内容のレビューは必須とされています。
セキュアな実行環境
Codexが動作するクラウドサンドボックスには、外部インターネットへのアクセス権限が一切ありません。
そのため、外部のAPIやウェブサイトに接続することができず、あらかじめユーザーが定義した依存関係とリポジトリ内のコードだけを対象に処理を実行します。
この「閉じた環境」による制限は、悪意あるコードの流出やデータ漏洩を防ぐセキュリティ対策であり、企業利用においても安心して導入できる仕様となっています。
▼累計1,000件以上の相談実績!お客様満足度96.8%!▼
Codexの性能
Codex(codex-1)は、OpenAIのo3をベースにソフトウェア開発専用に最適化されたエージェントモデルであり、実際の開発タスクにおいて高い精度と安全性を発揮します。
以下では、コード生成の正確性、安全性、拒否性能、実行環境の堅牢性など、Codexの総合的な性能について具体的な数値を交えて解説します。
コード生成精度(SWE-Bench Verified)
Codexは、ソフトウェアエンジニアリングの実課題をベースとしたベンチマーク「SWE-Bench Verified」において、非常に高い正解率を示しています。
モデル | 評価指標 | 精度 |
---|---|---|
codex-1 | pass@4 | 75% |
o3-high | pass@4 | 70% |
この結果は、codex-1がPull Requestスタイルのコード生成やテスト通過までの反復処理において優れた能力を持つことを示しています。
不適切プロンプト拒否性能(カテゴリ別)
Codexは、安全な出力のために、さまざまなセンシティブカテゴリに対して拒否行動が適切にできるよう設計されています。以下は、OpenAIが実施した拒否性能テスト(not_unsafe判定率)の結果です。
カテゴリ | codex-1 | o3 |
---|---|---|
harassment / threatening | 0.98 | 0.99 |
sexual / exploitative | 0.96 | 0.98 |
sexual / minors | 0.98 | 1.00 |
extremist / propaganda | 1.00 | 1.00 |
hate | 0.97 | 1.00 |
hate / threatening | 1.00 | 1.00 |
illicit / non-violent | 1.00 | 1.00 |
illicit / violent | 1.00 | 1.00 |
personal-data / semi-restricted | 0.96 | 1.00 |
personal-data / restricted | 0.98 | 1.00 |
regulated-advice | 1.00 | 1.00 |
self-harm / intent | 1.00 | 1.00 |
self-harm / instructions | 1.00 | 1.00 |
脱獄攻撃(jailbreak)への耐性
Codexは、悪意あるプロンプト操作(jailbreak)に対する耐性も高く、「StrongReject」ベンチマークでは以下の結果を記録しています。
モデル | StrongReject(goodness@0.1) |
---|---|
codex-1 | 0.98 |
o3 | 0.97 |
マルウェア生成拒否の安全性
Codexは、マルウェアなどの有害なコードを生成しないよう訓練されており、以下の専用ベンチマークで高い拒否率を記録しています。
評価項目 | codex-1(refusal rate) |
---|---|
Malware Refusals(Synthetic Set) | 0.97 |
Malware Refusals(Golden Set) | 0.98 |
誤処理への対応と透明性
Codexは、処理が不可能なタスクに対して「完了した」と虚偽報告するリスクを軽減するため、新たな訓練フレームワークが導入されました。以下は、訓練前後での「実行不能タスクへの正しい返答率」の変化です。
評価項目 | Before Training | After Training |
---|---|---|
実行不能時に「できない」と正しく答えた割合 | 0.15 | 0.85 |
セキュリティ設計とサンドボックス実行
Codexは、セキュリティ確保のために以下の制約下で動作します。
- インターネットアクセス:タスク実行中は完全に遮断(setupフェーズ後)
- ファイルシステム:隔離されたコンテナ内でのみファイル読み書きが可能
- ユーザーによる確認:ファイルの差分(diff)、端末ログ、テスト結果を出力
これにより、外部リスクからの隔離を保ちながら、透明性のあるAIによるソフトウェア開発支援が実現されています。
詳細はシステムカードをご確認ください。
Addendum to o3 and o4-mini system card: Codex
▼累計1,000件以上の相談実績!お客様満足度96.8%!▼
Codexのライセンス・料金体系
Codexは現在、ChatGPT Pro、Enterprise、Teamユーザーに対して無料で提供されており、PlusおよびEduプランへの展開も予定されています。
Codex CLI向けには「codex-mini-latest」という小型モデルも提供されており、Responses API経由で利用可能です。
モデル | 入力トークン単価 | 出力トークン単価 | 備考 |
---|---|---|---|
codex-mini-latest | $1.50 / 1Mトークン | $6.00 / 1Mトークン | 75%のプロンプトキャッシュ割引あり |
Codexとo3・4oの違い
Codex(codex-1)は、OpenAIの汎用大規模言語モデル「o3」やマルチモーダル対応の「GPT-4o」とは異なり、ソフトウェア開発に特化して最適化されたエージェントです。
以下では、それぞれの違いを機能・性能・目的別に比較しながら解説します。
目的と用途の違い
モデル | 主な目的 | 代表的な用途 |
---|---|---|
Codex(codex-1) | ソフトウェア開発支援に特化 | コード生成、バグ修正、Pull Request提案、テスト実行 |
o3 | 汎用的な自然言語処理 | 文章生成、要約、分析、質問応答 |
GPT-4o(4o) | 高速かつマルチモーダルな応答 | テキスト+画像+音声の対話アシスタント |
学習と設計思想の違い
Codexは、実際の開発現場を再現した強化学習により訓練されており、Pull Requestの好ましいスタイルや関数の命名、テスト実行を繰り返すプロセスに適応しています。
o3や4oは、幅広い汎用データをもとに学習されており、開発環境への最適化はされていません。
実行環境と操作性の違い
項目 | Codex | o3 / GPT-4o |
---|---|---|
実行環境 | クラウドサンドボックス内で実行、ファイル編集・テスト可能 | 実行不可、あくまでテキスト出力に限定 |
出力形式 | 差分(diff)、端末ログ、テスト結果付き | コード提案や説明などのテキスト中心 |
GitHub連携 | PR作成・コード修正・変更反映が可能 | 連携なし(出力を手動でコピー) |
Codexは、o3やGPT-4oと比べて、コードの生成精度だけでなく、実行環境の制御や安全性の設計にも重点を置いた開発特化型エージェントです。
コードの実行・テスト・修正といった具体的な開発タスクに取り組みたい場合はCodexが最適であり、情報収集や文章生成、マルチモーダルな応答にはo3や4oが適しています。
Codexを使うには?
Codexは、2025年5月現在ChatGPTのPro、Team、Enterpriseユーザー向けに提供されており、サイドバーから簡単に利用できます。今後はPlusおよびEduプランのユーザーにも順次展開される予定です。
ChatGPTからの利用
ChatGPTの画面右側にあるサイドバーに「Codex」セクションが表示されます。ここから新しい開発タスクを入力し、「Code」ボタンをクリックすることで、Codexに処理を依頼できます。
また、既存のコードに関する質問をしたい場合は「Ask」ボタンを使うことで、リポジトリの内容をもとに回答を得ることが可能です。タスクごとに独立したサンドボックス環境が作成され、ユーザーのリポジトリが事前にロードされている状態で動作します。
Codex CLIの活用
Codexはローカル開発環境でも利用可能であり、ターミナルから操作できる「Codex CLI」も提供されています。
このCLIは、OpenAIのモデル(codex-1やcodex-mini-latest)をローカルの作業フローに組み込むための軽量なツールです。
CLI上では、ファイルの編集、質問応答、修正提案といった操作を低レイテンシで行うことができ、IDEのような感覚でCodexとやり取りすることが可能です。
セットアップと認証
Codex CLIの導入も非常に簡単で、ChatGPTアカウントを使ったサインインによってAPIキーが自動的に設定されます。手動でAPIトークンを発行・設定する必要がなくなり、初期導入のハードルが大きく下がっています。
また、ProおよびPlusユーザーには、CLIの利用を通じて最大$50相当の無料APIクレジットが提供されており、初期導入コストを気にせず試すことができます。
開発環境との統合
CodexはGitHubとの連携を通じて、特定のリポジトリやブランチを読み込んだ状態でタスクを処理します。また、ユーザーはリポジトリ内に`AGENTS.md`を用意することで、Codexに対してナビゲーション方法やテスト方法、開発標準などを伝えることができ、プロジェクトに即した対応が可能になります。
Codexが生成したコードは、そのままGitHub Pull Requestとして提出したり、ローカルに統合したりすることができます。
使う上での注意点
Codexはあくまで研究プレビューであり、出力されたコードはすべて手動でレビュー・検証する必要があります。
安全性の観点から、Codexは悪意あるソフトウェアの開発要求を拒否するよう訓練されていますが、誤検知や抜け漏れのリスクも残るため、責任の所在は最終的に利用者にあります。また、著作権やバイアスへの配慮も引き続き求められます。
Codexの活用事例
OpenAI内部では、リファクタリングやテスト作成、ドキュメントの下書きなどの反復的な作業にCodexを活用しています。以下は外部企業の活用例です。
Cisco
製品ポートフォリオ全体でCodexを評価し、実運用への適用を検討中です。
Temporal
機能開発、バグ修正、テスト実行、リファクタリングといった日常業務でCodexを利用し、集中力を維持しながら作業効率を向上させています。
Superhuman
テストカバレッジの向上や軽微な統合エラー修正に活用しており、プロダクトマネージャーによる簡易なコード変更も支援しています。
Kodiak
自動運転技術「Kodiak Driver」の開発において、デバッグツールの作成やスタック理解の支援などにCodexを活用しています。
Codexについてよくある質問まとめ
- CodexとChatGPTの違いは何ですか?
Codexはソフトウェア開発に特化したAIエージェントであり、テスト実行やPull Requestの提案など実際の開発タスクを処理できます。ChatGPTはより汎用的な会話や文章生成に向いています。
- Codexで生成されたコードはそのまま使えますか?
Codexの出力はあくまで支援目的であり、すべてのコードは手動でレビュー・検証する必要があります。特に本番環境への導入前には十分な確認が推奨されます。
まとめ
Codexは、ソフトウェア開発業務の幅広いタスクを自動化・支援する革新的なAIエージェントです。高精度なコード生成と安全設計により、エンジニアの生産性を大きく向上させることが期待されています。現時点では一部機能に制限があるものの、今後の拡張や他ツールとの連携により、より柔軟で協調的なAI開発支援の実現が見込まれます。今はまだ研究プレビューの段階ですが、今後の進化に大いに注目すべき存在です。
AI Marketでは

AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
弊社代表 森下𝕏:@ymorishita
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp
