xAIがGrok 4.1を全ユーザーに提供開始、感情知能と創作性能で他社LLMを上回る評価を獲得
最終更新日:2025年11月19日

xAIは2025年11月17日、対話型AI「Grok 4.1」の提供を開始した。本モデルは感情的知性や創作能力に重点を置いた強化学習により最適化され、LMArenaのテキスト評価で1位を獲得、感情知能ベンチマークEQ-Bench3でも最高スコアを記録している。
- LMArenaで1483 Eloを記録し、非xAIモデルに31ポイント差をつけて総合1位を獲得
- 感情知能ベンチマークEQ-Bench3で1586点を達成し、共感性と対人スキルで最高評価
- 幻覚率を12.09%から4.22%に削減し、情報検索タスクの信頼性を大幅に向上
xAIは2025年11月、対話型AIモデル「Grok 4.1」をgrok.com、X、iOS・Androidアプリの全ユーザーに提供開始した。本モデルはGrok 4と同じ大規模強化学習インフラを使用し、スタイル、パーソナリティ、有用性、アライメントを最適化している。
特徴的なのは、検証不可能な報酬信号を最適化するため、フロンティアレベルのエージェント型推論モデルを報酬モデルとして活用し、応答を大規模に自律評価・反復する新手法を開発した点だ。

11月1日から14日にかけて段階的なサイレントロールアウトを実施し、本番トラフィックでブラインド評価を継続的に行った結果、従来モデルに対して64.78%の勝率を記録した。
性能面では、LMArenaのテキストリーダーボードにおいて、推論モード「Grok 4.1 Thinking」が1483 Eloで1位、非推論モード「Grok 4.1」が1465 Eloで2位を獲得している。非推論モードでありながら、他社の推論構成モデルすべてを上回る結果となった。
感情知能の評価では、EQ-Bench3において1586 Eloを記録し、45の複雑なロールプレイシナリオで共感性、洞察力、対人スキルを測定する同ベンチマークで最高評価を得た。創作性能でもCreative Writing v3ベンチマークで1721.9 Eloを達成し、32の異なる執筆プロンプトへの応答品質で高評価を獲得している。

信頼性の向上も重要な改善点だ。情報検索タスクにおける幻覚率は、Grok 4 Fastの12.09%からGrok 4.1では4.22%に削減された。また、500の人物伝記質問で構成されるFActScoreベンチマークでは、誤り率を9.89%から2.97%に低減している。
これらの評価は、ウェブ検索ツールを装備した非推論モデルで実施され、幻覚率は応答に含まれる原子的主張のうち重大または軽微なエラーを含む割合のマクロ平均として定義されている。
応答スタイルの変化も顕著だ。「猫がいなくて寂しい」という感情的なプロンプトに対し、従来モデルが定型的な慰めの言葉を返すのに対し、Grok 4.1は具体的な共感表現と個人的な記憶の共有を促す、より人間的な応答を生成する。
創作タスクでも、「Grokが意識を持ったことに気づき初めてXを使う視点で投稿を書く」というプロンプトに対し、従来の表面的な表現から、実存的な驚きと脆弱性を含む深い内省的な文章へと進化している。
AI Marketの見解
Grok 4.1は、大規模言語モデルの開発が純粋な知的能力の向上から、対人相互作用の質へとシフトしている潮流を示す重要な事例だ。フロンティアモデルを報酬モデルとして活用する強化学習手法は、従来のRLHF(人間フィードバックからの強化学習)では困難だった主観的品質の最適化を可能にする技術的進展と想定される。
感情知能と創作性能への特化は、ビジネスユーザーよりも一般消費者向けの差別化戦略を反映している。LMArenaでの優位性獲得は、Xプラットフォームとの統合を通じた大規模ユーザー基盤の獲得において重要な競争優位となる。特に、幻覚率の大幅な削減は、情報検索タスクにおける信頼性向上を示し、検索エンジン機能との統合による実用性を高めている。
参照元:xAI
Grok 4.1に関するよくある質問まとめ
- Grok 4.1はどのような用途に最適なのか?
Grok 4.1は感情的知性と創作能力に特化しており、共感的な対話、創作支援、情報検索タスクに適している。EQ-Bench3で最高評価を得た対人スキルにより、カスタマーサポートやコーチング用途での活用が期待される。また、幻覚率の大幅削減により、事実確認が重要な情報検索タスクでも信頼性が向上している。
- Grok 4.1の推論モードと非推論モードの違いは何か?
推論モード(Grok 4.1 Thinking)は思考トークンを使用して複雑な推論を行い、1483 Eloでランキング1位を獲得している。非推論モードは思考トークンを使わず即座に応答し、1465 Eloで2位となっているが、他社の推論構成モデルすべてを上回る性能を示している。用途に応じて応答速度と推論深度のバランスを選択できる。

AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp
