OpenAIがGPT-4.1シリーズを発表、コーディングと指示精度が大幅向上し100万トークンの文脈理解に対応
最終更新日:2025年04月15日

2025年4月14日(現地時間)、OpenAIはAPIで利用可能な新しいモデルシリーズ「GPT-4.1」「GPT-4.1 mini」「GPT-4.1 nano」を発表した。
これらのモデルはコーディング能力や指示への従順性、長文脈理解において大幅な改善を実現し、最大100万トークンの文脈ウィンドウをサポートする。
- GPT-4.1はSWE-bench Verifiedで54.6%のスコアを達成し、GPT-4oから21.4%向上したコーディング能力の大幅強化
- 最大100万トークンの長文脈ウィンドウをサポートし、Video-MMEのロングコンテキスト理解ベンチマークで新記録となる72.0%を達成
- GPT-4.1 miniはGPT-4oよりも多くのベンチマークで優れた性能を示しながら、レイテンシを半減、コストを83%削減
OpenAIは2025年4月14日、API向けの新モデルシリーズ「GPT-4.1」「GPT-4.1 mini」「GPT-4.1 nano」を発表した。これらのモデルはGPT-4oおよびGPT-4o miniと比較して全面的に性能が向上しており、特にコーディングと指示への従順性において大きな進歩を遂げた。
また、最大100万トークンという大幅に拡張された文脈ウィンドウを持ち、長文脈理解能力も向上している。知識の更新日も2024年6月までとなっている。
GPT-4.1はSWE-bench Verifiedで54.6%のスコアを達成し、GPT-4oと比較して21.4%、GPT-4.5と比較して26.6%向上しており、コーディング能力において業界をリードするモデルとなっている。
特筆すべきは、GPT-4.1 miniが多くのベンチマークでGPT-4oを上回る性能を発揮しながら、レイテンシを約半分に削減し、コストを83%も削減していることだ。
また、最小モデルであるGPT-4.1 nanoも、低レイテンシを要する作業に最適化されており、MMMLUで80.1%、GPQAで50.3%、Aiderのポリグロットコーディングで9.8%というGPT-4o miniよりも高いスコアを達成している。
これらのモデルは指示への従順性と長文脈理解が大幅に向上しており、エージェントとして独立して複雑なタスクを実行する能力も強化されている。
実際のテスト結果も印象的だ。
コード開発ツールのWindsurfによれば、GPT-4.1は同社の内部コーディングベンチマークでGPT-4oよりも60%高いスコアを記録し、ツール呼び出しが30%効率的になり、不要な編集を繰り返す確率が約50%減少した。
法律サービスのBlue Jでは、GPT-4.1は最も難しい実世界の税務シナリオに関する内部ベンチマークでGPT-4oよりも53%正確であり、長文脈での複雑な規制の理解と微妙な指示に従う能力が向上している。
データ分析プラットフォームのHexでは、最も挑戦的なSQL評価セットで2倍近い改善を実現した。
価格面でも、GPT-4.1シリーズはインフラの効率化により、従来モデルよりも低コストで提供される。
GPT-4.1は中央値のクエリでGPT-4oよりも26%安く、GPT-4.1 nanoはOpenAIで最も安価で高速なモデルとなっている。同じコンテキストを繰り返し渡すクエリでは、プロンプトキャッシングの割引が従来の50%から75%に増加し、長いコンテキストのリクエストも標準のトークンあたりのコスト以上の追加費用なしで提供される。
AI Market の見解
OpenAIによるGPT-4.1シリーズの発表は、実用的なAI開発における重要な進歩と評価できる。
特に注目すべきは、ハイエンドモデルだけでなく、GPT-4.1 miniやnanoといった軽量モデルも大幅に性能向上している点だ。これにより、AIのデモクラティゼーション(普及)が加速し、コスト面での制約が緩和されることで、より多くの企業がハイレベルなAI機能を実装可能になると想定される。
長文脈理解能力の拡張は、法務文書分析や大規模コードベースの処理など、専門性の高い業務での実用性を高める重要な改善だ。
また、指示への従順性向上は、エージェントとしての自律的な動作の信頼性を高め、AIシステムの実用領域を拡大する効果がある。特にGPT-4.1 miniがGPT-4oを上回りながらコストを大幅に削減している点は、企業のAI導入判断において重要な転換点となると想定される。
参照元:OpenAI
GPT-4.1の使用制限に関するよくある質問まとめ
- GPT-4.1とGPT-4oの違いは何ですか?
GPT-4.1はGPT-4oと比較して、コーディング能力(SWE-benchでGPT-4oの33.2%から54.6%に向上)、指示への従順性(MultiChallengeで10.5%向上)、長文脈理解能力(最大100万トークンに拡大)が大幅に改善されています。
また、文脈ウィンドウ全体で関連情報を確実に認識し、コードの差分形式での出力が2倍以上信頼性が向上しています。コスト面でも中央値のクエリでGPT-4oより26%安価になっています。
- GPT-4.1 miniとGPT-4.1 nanoはどのような用途に向いていますか?
GPT-4.1 miniは多くのベンチマークでGPT-4oを上回りながら、レイテンシが約半分、コストが83%削減されており、高性能と低コストのバランスが求められる一般的なAIアプリケーションに最適です。
GPT-4.1 nanoは最も高速で安価なモデルで、分類や自動補完などの低レイテンシが重要なタスクに適しています。100万トークンの文脈ウィンドウを持ちながら、MMMLUで80.1%、GPQAで50.3%というGPT-4o miniより高いスコアを達成しています。

AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp
