【AI論文解説】Evolving Deeper LLM Thinking：自然言語の答えを“遺伝子”として進化させ、より賢い解答を生み出す新しいアプローチ

最終更新日：2025年02月03日

高度化したLLM（大規模言語モデル）は、質問応答や要約など多様なタスクにおいて高いパフォーマンスを示しています。

しかし、解くべき問題が複雑で制約が多い場合、単純な出力生成だけでは精度が伸び悩むケースが増えています。

そこで、本論文では推論段階（推論時間）での計算資源をより活用し、モデル出力を改善する新たな枠組みとして進化的アルゴリズムを組み合わせた「Mind Evolution」を提案し、その有効性を示しています。

以下の解説では、提案手法の概要や実験的検証の結果、考察などを順を追って見ていきます。

論文名：Evolving Deeper LLM Thinking
論文著者：Kuang-Huei Lee, Ian Fischer, Yueh-Hua Wu, Dave Marwood, Shumeet Baluja, Dale Schuurmans, Xinyun Chen｜Google DeepMind, UC San Diego, University of Alberta
論文提出日：2025年1月17日
論文URL：https://arxiv.org/abs/2501.09891

1 本論文の概要
- 1.1 ポイント
2 Mind Evolution: 自然言語を「遺伝子表現」として扱う手法
- 2.1 Mind Evolution: 多数の解答候補の並行的な管理
- 2.2 Mind Evolution: Refinement through Critical Conversation（RCC）
3 多様なタスクへの適用
4 実験結果
5 考察と今後の課題
6 Agent-Rについてよくある質問まとめ
7 まとめ

本論文の概要

LLMが難易度の高いタスクに挑む場合、単純なサンプリングや逐次的な解答修正だけでは十分な性能が得られないことが指摘されています。

本論文では、その問題を解消すべく「Mind Evolution」という新たな進化的アルゴリズムを提案し、自然言語ベースの制約充足問題やステガノグラフィ的タスクに対しても高い効果を示しています。

提案手法は、単なるランダムサンプリングや逐次修正のような浅い探索にとどまらず、進化的アルゴリズムの概念を自然言語生成に応用しています。

具体的には、並行的に多数の解答候補を用意し、それぞれを選択・交叉・突然変異させるプロセスを世代交代ごとに繰り返すことで段階的に解答を洗練させ、それぞれの候補に対して評価器を用いて点数や違反事項をフィードバックし、最終的に最適解答に近づけることを目指します。

実験ではTravelPlannerやNatural Planなどの自然言語プランニングタスク、さらにStegPoetのような新規タスクにおいても顕著な性能向上が確認され、既存手法を上回る成功率を達成しました。

ポイント

単なるサンプリングや逐次修正ではなく、解答の「世代」を繰り返しながら探索するため、同じ回数・コストでも成功率が大きく向上
形式的な変数定義などを省き、制約も含めた自然言語の状態をそのまま遺伝子表現として扱えるため、複雑な問題設定や事前のフォーマル化が不要
プログラム的に候補解答を採点・指摘する仕組みを組み込み、LLM側へテキストフィードバックを与えつつ、優秀な解答を選択・交叉・突然変異させることで、堅牢かつ高精度な探索を実現

Mind Evolution: 自然言語を「遺伝子表現」として扱う手法

Mind Evolutionが、旅行プラン候補を繰り返し再結合・改良して高品質な解答へと進化させる仕組み

進化的アルゴリズムでは、通常はビット列や数値列といった形式的な「遺伝子情報」を用いて、世代交代のたびに交叉や突然変異を行います。

本手法では、その「遺伝子情報」となる部分を自然言語の解答文そのものに置き換えているのが特徴です。つまり、最適化の対象そのものがテキスト形式で記述された解答であり、その解答を進化的に更新していくというアプローチです。

Mind Evolution: 多数の解答候補の並行的な管理

Mind Evolutionでは、単に1つの解答候補を深く修正していくのではなく、複数の候補を同時に生成・評価・更新することで幅広い探索を行います。

具体的には、世代単位でそれぞれの候補を評価器にかけ、優秀なものを選び出して組み合わせたり、ランダムに要素を変化させる（交叉や突然変異）といった操作を繰り返すことで、多様な解答を並行的に進化させます。

こうした並行管理により、ある特定の問題点を抱えた候補だけに依存するリスクを避けながら、より良質な解答へと到達できる可能性が高まります。

Mind Evolution: Refinement through Critical Conversation（RCC）

評価器（Evaluation）からのフィードバックからRCCがCriticとAutherのステップを交互に行い解答を洗練するアプローチ

並行して維持する各候補を修正する際に核となるのが、「Refinement through Critical Conversation（RCC）」と呼ばれる二役の会話フレームワークです。

RCCでは、まず現在の解答候補を批判的にチェックする「Critic」役が問題点を洗い出し、続いて修正版の解答を提案する「Author」役が改善案を出します。

評価器が「ここが予算オーバー」「この制約を満たしていない」といった具体的な問題点を挙げると、Criticがそれを参照して改善の方向性を指摘し、Authorが実際に修正した解答を生成するといった流れです。

例えば旅行プランニングのタスクでは、LLMが作った旅程に対して「この航空券を使うと到着時刻が不正」「予算を大幅に超過している」といった指摘を評価器から受け取ったうえで、Critic役とAuthor役が会話形式で改善策を練り、新しい旅程を再度生成します。このプロセスを複数回繰り返すことで、より良質な解答へと進化させます。

多様なタスクへの適用

著者らは本手法を、自然言語で表現される複雑な制約問題やステガノグラフィのようなタスクに適用し、その有効性を検証しました。

具体的には、旅行プランニング（TravelPlanner・Natural Plan: Trip Planning）や会議日程調整（Natural Plan: Meeting Planning）といった複数の制約を同時に満たす必要のある問題に加えて、隠しメッセージを創作文章に埋め込むStegPoetタスクにも適用しています。

評価器は各タスクの成否をプログラム的に判定し、それをフィードバックとしてやり取りすることで、従来の手法よりも高い正解率を得ることに成功しています。

実験結果

TravelPlannerタスクにおいてMind Evolutionはより高い成功率や精度を達成

本論文の実験では、TravelPlannerやNatural Planの各種タスクを用いて、以下の3つのベースラインと比較が行われました。

1-Pass：モデルから一度だけ生成された解答をそのまま採用する方式

Best-of-N方式：モデルから複数の解答を生成し、それらの中から最適なものを選択する方式

Sequential-Revision+方式：まず初期解答を得たあと、複数のステップをかけて継続的に修正・改善していく方式

その結果、Mind Evolutionは同じ生成回数（あるいは同じ程度のAPIコスト）に対して、より高い成功率や精度を達成しました。具体的には、TravelPlannerにおいては95％を超えるタスク成功率を示し、従来のBest-of-Nが約55％にとどまったのと対照的に、大幅な上昇を記録しています。

また、Natural PlanのTrip PlanningやMeeting Planningでも70〜80％台で頭打ちだったベースライン手法に対し、Mind Evolutionは90％台以上の成功率を実現しました。さらに、LLMそのものをより性能の高いモデル（Gemini 1.5 Proなど）に切り替える二段階方式を適用すると、ほぼ100％に近い解答成功率を示すケースもありました。

StegPoetタスクにおいてもMind Evolutionはより高い成功率や精度を達成

著者らはStegPoetという新タスクも導入し、指定された隠しメッセージを詩や物語に埋め込むステガノグラフィ的問題を検証しました。その結果でも、1-PassやBest-of-Nはほぼ解けなかった一方、Mind Evolutionは約45％超（さらに二段階方式で約80％超）まで達成し、進化的な探索手法の有効性を示しています。