Grok 4とは?xAIの高知能LLMの使い方・性能・料金プラン・Grok3との違いを徹底解説!
最終更新日:2025年08月21日

- Ph.D.レベルの推論力を備え、HLEやARC-AGIといった難関ベンチマークで他モデルを大きく上回る成績を記録
- ツールの活用やマルチエージェント推論(Grok 4 Heavy)を通じて、複雑なタスクの実行や精度の高い意思決定が可能
- 最大256Kトークンの長文処理に対応し、APIやWebプラットフォーム経由で柔軟に利用できる料金プランが整備
xAIが発表した最新のAIモデル「Grok 4」は、前世代から計算資源を10倍に増強し、驚異的な推論能力を獲得した次世代型のLLM(大規模言語モデル)です。
人文学、自然科学、工学、言語などあらゆる学問領域において大学院レベルの理解力を有し、複数のAIエージェントによる協調推論も実現しています。
【完全無料】LLMに強い会社・サービスが見つかる
今年度LLM相談急増中!紹介実績1,000件超え!

・ご相談からご紹介まで完全無料
・AIのプロが最適な会社を選定
・お客様満足度96.8%超
・GPT、Claude、Gemini、Llama等の複数モデルに対応
完全無料・最短1日でご紹介 AIのプロに紹介してもらう
LLMカスタマイズに強いAI開発会社をご自分で選びたい場合はこちらで特集していますので併せてご覧ください。
目次
Grok 4とは?
Introducing Grok 4, the world’s most powerful AI model. Watch the livestream now: https://t.co/59iDX5s2ck
— xAI (@xai) July 10, 2025
Grok 4は、xAIが開発し、2025年7月に発表したGrokシリーズのLLM(大規模言語モデル)であり、前モデル(Grok 3)から計算量を10倍に増加させた形で訓練されています。
xAIは世界最大規模のH100 GPUクラスタ「Clauses」を用いて、強化学習(RL)と理由付けの性能向上に特化したトレーニングを実施。複雑な学問問題の解決や、複数エージェントによる協調型推論「Grok 4 Heavy」など、多様な応用を視野に開発されています。
Grok 3との違い
Grok 4は、Grok 3と比較して以下の点が大きく異なります。
- 計算資源の10倍増加(Grok 2比で100倍)
- ツールの使用が訓練に組み込まれており、より高度な推論が可能
- マルチエージェント推論(Grok 4 Heavy)による性能向上
- より厳密なデータ削減手法とアルゴリズム最適化が実施されている
Grok 4を使う方法
Grok 4は、xプラットフォームまたはxAIが提供するAPIを通じて利用可能です。
利用にはSuper Grokプランへの加入が必要ですが、順次アクセスが拡大される予定です。
【完全無料】LLMに強い会社・サービスが見つかる
今年度LLM相談急増中!紹介実績1,000件超え!

・ご相談からご紹介まで完全無料
・AIのプロが最適な会社を選定
・お客様満足度96.8%超
・GPT、Claude、Gemini、Llama等の複数モデルに対応
完全無料・最短1日でご紹介 AIのプロに紹介してもらう
Grok 4の特徴
Grok 4で押さえておくべき特徴は以下です。
- 強化学習を活用した大規模トレーニングと高精度な推論能力
- ツール統合による実用的な推論
- マルチエージェント「Grok 4 Heavy」
各ポイントを説明します。
強化学習を活用した大規模トレーニングと高精度な推論能力
Grok 4は、Grok 2と比較して100倍の訓練量を実施しています。特にGrok 3からGrok 4への移行においては、強化学習(RL)に膨大な計算資源を投じ、モデル自身が誤りを自己修正しながら「第一原理」に基づいた推論を行う能力を獲得しました。
Grok 4は、単なる文脈補完ではなく、推論を伴った回答を生成するよう設計されています。
そのため、数学的な問題や論理的な課題に対して、複数ステップにわたる思考を経て解答を導き出します。これは、一般的な言語モデルとは異なり、「考える」工程を重視したモデルアーキテクチャの特性に基づくものです。
ツール統合による実用的な推論
Grok 4は訓練段階でツールの使用を学習しており、以前のGrok 3よりも大幅に信頼性の高いツール利用が可能です。ブラックホールの可視化、経済予測、社内人物の顔写真評価といった多様なタスクに対応します。
マルチエージェント「Grok 4 Heavy」による高精度出力
Grok 4 Heavyでは、複数のエージェントが並列に問題に取り組み、最適解を協議・統合するマルチエージェントの仕組みが導入されています。
人類最難関とされる「Humanity’s Last Exam(HLE)」のテキスト問題の過半数に正解するなど、顕著な精度向上が実現されています。
Grok 4でできること
Grok 4でできることを以下に挙げます。
- 外部ツールとの連携(Function calling)
- 構造化された形式での応答(Structured outputs)
- API経由でのチャットアプリケーション構築
- 最大256,000トークンの長文処理
- リアルタイムAPI連携による自動化
それぞれのポイントを説明します。
外部ツールとの連携(Function calling)
Grok 4は、Function calling機能により、外部ツールやシステムと連携した処理を実行できます。これにより、API経由でデータベースにアクセスしたり、リアルタイムな業務アクションをトリガーしたりすることが可能です。
例えば、Grok 4に指示を出して在庫を照会し、外部システムからの応答をもとにレポートを生成するような高度な連携が想定されます。
構造化された形式での応答(Structured outputs)
Grok 4は、JSONなどの形式で構造化された出力を生成することが可能です。
Webアプリケーションや業務システムでの活用に適したフォーマットで応答を取得でき、LLMの出力をそのまま他システムに受け渡すといった運用が容易になります。
API経由でのチャットアプリケーション構築
公式のPython SDKを用いることで、開発者はGrok 4を使ったチャットアプリケーションを迅速に構築できます。
ユーザーとGrok 4の対話履歴を管理しながら、カスタマイズ可能なプロンプト設計や応答処理を実現できます。
最大256,000トークンの長文処理
Grok 4は最大256Kトークンのコンテキストウィンドウに対応しており、非常に長いドキュメントや複雑なやり取りにも耐えうる処理能力を備えており、長大な法的文書、学術論文、設計仕様書などの一括処理や分析が可能です。
リアルタイムAPI連携による自動化
トークン単位での料金体系に加え、リクエスト毎分60回、毎分16,000トークンという利用制限内で、高速かつ大量のAPI呼び出しに対応しています。
【完全無料】LLMに強い会社・サービスが見つかる
今年度LLM相談急増中!紹介実績1,000件超え!

・ご相談からご紹介まで完全無料
・AIのプロが最適な会社を選定
・お客様満足度96.8%超
・GPT、Claude、Gemini、Llama等の複数モデルに対応
完全無料・最短1日でご紹介 AIのプロに紹介してもらう
Grok 4の性能
Grok 4は、Ph.D.レベルの高度な推論力を問うベンチマーク「Humanity’s Last Exam(HLE)」において、従来の主要モデルを大きく上回る成績を記録しています。
HLEは、自然科学、数学、言語学、人文学など複数分野から構成される非常に難易度の高い評価セットで、従来の大規模言語モデルでは正答率が一桁台にとどまる問題も含まれています。
Grok 4は、このHLEのフルセットにおいて38.6%の正答率を達成しており、これはOpenAIのGPT-4(o3)やGoogleのGemini 2.5 Proといった他の先進モデルを大きく上回る結果です。
また、Grok 4 Heavy(複数のAIエージェントによる協調推論を行うバージョン)では、正答率が44.4%にまで向上しています。
ツールを使用せずに純粋な言語モデルとして動作させた場合でも、Grok 4は25.4%の正答率を記録しており、これはツールなしでのGPT-4(21.0%)やGemini 2.5 Pro(21.6%)を上回っています。
人間のように思考する知能を持つ
「テキストのみで構成されたサブセット」(例:文章読解、論理パズル、数学の文章題)においては、Grok 4 Heavyが50.7%の正答率を記録しています。
この結果は、テスト時の計算資源をスケーリングすることで、モデルの思考プロセスと出力精度が飛躍的に向上することを示しています。
つまり、計算資源を増やすと、Grok-4はより複雑で深い「思考」ができるようになるのです。いきなり答えを出すのではなく、問題解決のステップを一つ一つ考え、検証しながら最終的な答えを導き出す人間に近い思考プロセスを実行します。
Grok 4は、これらの評価結果により、現行のAIモデルの中でも最先端の推論性能を持つ、「知能」そのものが高いモデルのひとつであることが明確となっています。
汎用人工知能(AGI)ベンチマーク「ARC-AGI」における性能
Grok 4は、推論力と抽象化能力を測る難関ベンチマーク「ARC-AGI」においても、他の主要なLLMを大きく上回る成績を記録しています。
ARC-AGIは、GPT-4、Claude、Geminiといった各社のフラッグシップモデルでも解答困難な問題群で構成されており、v1およびv2の2種類のセミプライベート評価セットが存在します。
ベンチマーク (テスト名) | Grok-4 | Claude 3 Opus | Gemini 1.5 Pro | O3 |
---|---|---|---|---|
ARC-AGI v1 (セミプライベート) | 66.60% | 35.70% | 41.00% | 60.80% |
ARC-AGI v2 (高難易度・セミプライベート) | 15.90% | 8.60% | 4.90% | – |
2つの異なる難易度のテストにおいて、Grok-4が一貫して他の最先端AIモデルよりも高いスコアを記録していることが分かります。
特に、「ARC-AGI v2」では全モデルのスコアが大幅に低下しています。その中でGrok-4が他モデルの2倍近いスコアを出している点は特に注目に値します。
さらに、1タスクあたりのコスト(推論単価)と性能(スコア)をプロットしたグラフでは、Grok 4が高精度かつ低コストの領域に位置しており、「知能あたりのコスト効率」でも他の先端モデルを圧倒しています。
Grok 4の料金プラン・ライセンス
Grok 4は、xAIが提供するプラットフォームを通じた月額課金プラン、またはAPI経由の従量課金のいずれかで利用可能です。
用途や技術レベルに応じて、ユーザーは柔軟に利用方法を選択できます。
プラットフォーム(月額課金)での利用
xAIの提供する「SuperGrok」サブスクリプションに加入することで、Webベースの専用UIまたはX(旧Twitter)プラットフォーム上でGrok 4を利用できます。
プラン名 | 月額料金 | 利用可能なモデル | 主な特徴 |
---|---|---|---|
基本(Free) | $0 | Grok 3 |
|
SuperGrok | $30/月 |
|
Freeプランのすべての機能を含む |
SuperGrok Heavy | $300/月 |
|
SuperGrokの全機能を含む |
年額払いを選択することで16%の割引が適用され、よりコストパフォーマンスの高い利用が可能です。
API利用時の従量課金(トークンベース)
Grok 4は、開発者向けにAPIでも提供されており、トークン単位で課金される従量課金制が採用されています。
項目 | 単価(100万トークンあたり) |
---|---|
入力 | $3.00 |
キャッシュ済み入力 | $0.75 |
出力 | $15.00 |
この料金は128,000トークン以下のコンテキストウィンドウ利用に適用されます。
Grok 4は最大256,000トークンのコンテキスト長をサポートしており、超長文の理解やドキュメント処理、対話履歴の維持が可能です。128Kを超える場合には追加レートが適用される可能性があります。
なお、APIを通じた利用の際には、次のような特徴を持つ機能も提供されています。
- Function calling(外部ツールとの連携)
- Structured outputs(構造化された応答形式)
- 高度な推論能力(Reasoning)
利用にあたってはAPIキーの取得が必要であり、Python SDKが提供されています。
詳細については、公式ドキュメントをご確認ください。
【完全無料】LLMに強い会社・サービスが見つかる
今年度LLM相談急増中!紹介実績1,000件超え!

・ご相談からご紹介まで完全無料
・AIのプロが最適な会社を選定
・お客様満足度96.8%超
・GPT、Claude、Gemini、Llama等の複数モデルに対応
完全無料・最短1日でご紹介 AIのプロに紹介してもらう
Gork 4の今後の展望
xAIは、2025年7月のGrok 4リリースを皮切りに、以下の3つの主要な技術開発を段階的に進める計画を明らかにしています。
コード生成特化モデル(Coding Model)の公開
xAIは、Grok 4の汎用モデルとは別に、コード生成に特化した新しいモデルをリリース予定です。
このモデルは「速さ」と「賢さ」の両立を目指して設計されており、特に開発生産性を大きく高めることが期待されています。既にトレーニングが完了しており、近日中に利用可能になると発表されています。
マルチモーダル・エージェント(Multi-modal Agent)の提供
Grok 4では画像理解に弱点があると明言されており、その改善を目的とした「マルチモーダル・エージェント」の開発が進行中です。
次世代の基盤モデル(Version 7)のトレーニングは数週間以内に完了予定で、視覚・映像・音声の理解力を備えたマルチモーダル対応モデルとして登場する見込みです。
動画生成モデル(Video Generation Model)のトレーニング開始
xAIは、100,000基以上のNVIDIA GB200 GPUを用いて、大規模な動画生成モデルのトレーニングを開始予定です。
このモデルは「pixel in, pixel out」の思想に基づき、Xプラットフォームでのコンテンツ生成に活用される予定で、将来的にはユーザーが介入可能なインタラクティブ映像の生成を視野に入れています。
Grok 4についてよくある質問まとめ
- Grok 4はGPT-4やClaude Opusと比べて何が優れているのですか?
Grok 4は、推論力を問うHLEやARC-AGIといったベンチマークで、GPT-4(o3)やClaude Opus 4よりも高い正答率を記録しています。さらに、マルチエージェントによる協調推論(Grok 4 Heavy)や、ツール統合による高度なタスク処理も可能です。これにより、より実践的な業務や研究への応用が期待されています。
- Grok 4は誰でも使えますか?
はい、xAIが提供する「SuperGrok」プランに加入することで、誰でもWebやXプラットフォーム上でGrok 4を利用できます。また、開発者向けにはAPIも提供されており、チャットボットや業務アプリケーションへの組み込みも可能です。
- Grok 4の弱点はありますか?
2025年7月時点では画像や映像などのマルチモーダル処理に一部制限があり、特に視覚理解に課題が残されています。ただし、2025年9月以降にはマルチモーダル対応モデルの提供が予定されており、今後の改善が期待されています。
まとめ
Grok 4は、強化学習・ツール統合・マルチエージェント推論などを通じて、前世代を大幅に凌駕する性能を発揮しています。
HLEやAIMEなどの難関ベンチマークにおいて圧倒的な成績を残し、企業の業務自動化や科学研究、ゲーム開発などへの応用も進んでいます。画像・映像認識などの弱点はあるものの、次期モデルでの改善が予告されており、今後も進化が期待されます。

AI Market 運営、BizTech株式会社 代表取締役|2021年にサービス提供を開始したAI Marketのコンサルタントとしても、お客様に寄り添いながら、お客様の課題ヒアリングや企業のご紹介を実施しています。これまでにLLM・RAGを始め、画像認識、データ分析等、1,000件を超える様々なAI導入相談に対応。AI Marketの記事では、AIに関する情報をわかりやすくお伝えしています。
AI Market 公式𝕏:@AIMarket_jp
Youtubeチャンネル:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp
