OpenAI、マルチモーダルモデルGPT-4oに新しい画像生成機能を統合したことを発表
最終更新日:2025年03月26日

OpenAIは2025年3月25日、マルチモーダルモデルGPT-4oに新しい画像生成機能を統合したことを発表した。
従来のDALL·Eに代わりChatGPTのデフォルト画像生成ツールとして提供される本機能は、美しいだけでなく実用的な画像生成を実現し、テキスト描画の正確性、複雑な指示への対応力、チャット文脈を活かした画像編集など、より実践的なユースケースに焦点を当てている。
- GPT-4oをベースとした新画像生成機能がChatGPTに統合され、テキスト描画の高精度化と複雑な指示への追従性向上により実用的な画像生成を実現
- 自然な会話を通じた画像の多段階生成・編集や、アップロードした画像の分析・参照といったシームレスなマルチターン対話が可能に
- Plus、Pro、Team、Free全ユーザーに即時提供開始し、Enterprise/Edu向けにも近日提供予定、開発者向けAPI対応も数週間内に実装へ
OpenAIが新たに発表したGPT-4o画像生成機能は、「単に美しいだけでなく、実用的な画像生成」を実現することに焦点を当てている。同社は、洞窟壁画から現代のインフォグラフィックまで、人類は視覚的イメージを装飾だけでなく、情報伝達や説得、分析のために使用してきたと指摘する。
これまでの生成AIモデルは幻想的な風景や超現実的なシーンを生成できるものの、ロゴやダイアグラムなど、情報共有や創造に使用される「実用的な画像」の生成には課題があった。
GPT-4o画像生成の特筆すべき点は、テキストの正確な描画能力、複雑な指示への追従性、GPT-4o自体の知識ベースとチャットコンテキストの活用能力にある。
これにより、アップロードした画像の変換や視覚的インスピレーションとしての活用も含め、ユーザーが思い描く正確な画像の作成が容易になり、視覚を通じたより効果的なコミュニケーションが可能になった。
本画像生成機能の技術的特徴として、オンラインの画像とテキストの共同分布をトレーニングし、画像と言語の関係だけでなく、画像同士の関係も学習している点が挙げられる。積極的なポストトレーニングと組み合わせることで、有用で一貫性があり、コンテキストを認識できる画像を生成する視覚的流暢さを実現している。
特に「テキストレンダリング」能力が強化され、標識、メニュー、招待状などのテキストを含む画像を高い精度で生成できる。また「マルチターン生成」機能により、自然な会話を通じて画像を洗練することが可能になり、GPT-4oがチャットコンテキスト内の画像やテキストを基に一貫性を保ちながら画像を生成・編集できる。
GPT-4oの「世界知識」を活用した機能も特徴的で、テキストと画像間の知識をリンクさせることで、より賢く効率的なモデルを実現している。さらに「指示追従」性能も大幅に向上し、他のシステムが5-8個の物体を処理するのに苦労する中、GPT-4oは10-20の異なる物体を処理できる。
この新機能は、「コンテキスト内学習」能力も備えており、ユーザーがアップロードした画像を分析・学習し、その詳細をシームレスにコンテキストに統合して画像生成に活用できる。また、様々な画像スタイルを反映した画像の学習により、説得力のある画像の生成や変換も可能だ。
一方で、長い画像のトリミングや情報の捏造、10-20以上の概念の正確な描画、非ラテン系言語のレンダリング、特定部分の編集精度など、いくつかの制限も認識されており、OpenAIは今後のモデル改善で対応する意向を示している。
安全面では、C2PAメタデータによる出所の透明性確保や、コンテンツポリシーに違反する画像生成リクエストのブロックなど、複数の対策が講じられている。
この新機能は即時にPlus、Pro、Team、Freeユーザー向けにChatGPTのデフォルト画像生成ツールとして提供開始され、Enterprise/Eduユーザー向けには近日提供予定だ。開発者はAPI経由でGPT-4o画像生成を数週間以内に利用できるようになる。
AI Market の見解
OpenAIによるGPT-4o画像生成機能の導入は、画像生成AIの実用性を大きく前進させる重要な展開だ。技術的には、マルチモーダルモデルの強みを活かした言語理解と視覚生成の統合により、これまでの専用画像生成モデルとは異なるアプローチを示している。
特にテキスト描画の正確性と複雑な指示への追従性向上は、ビジネス文書、教育資料、技術図面など実務的な用途での活用可能性を大きく広げる。さらに、チャットインターフェース内でのシームレスな画像生成・編集フローは、専門知識のないユーザーにとっての利用障壁を下げる効果がある。
ビジネス面では、マーケティング、プロダクトデザイン、コンテンツ制作などの分野で、イテレーションの高速化と創造的探索の効率化をもたらすと想定される。
市場全体としては、ChatGPTの無料ユーザーを含む幅広い層への提供により、画像生成AIの普及が加速し、専門的な画像編集ツールと生成AIの境界がさらに曖昧になっていくと考えられる。
今後は実用的な画像生成の標準として、様々な業界でのワークフローに組み込まれていく可能性が高い。
参照元:OPEN AI
GPT-4o画像生成に関するよくある質問まとめ
- GPT-4o画像生成は従来のDALL·Eとどのように違いますか?
- どのようなユーザーがGPT-4o画像生成を利用できますか?

AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp
