DSPyとは?プロンプトエンジニアリングを自動最適化するLLM開発フレームワークの仕組み、構築手法を徹底解説!
最終更新日:2026年02月22日
記事監修者:森下 佳宏|BizTech株式会社 代表取締役

- DSPyでは、プロンプトを手作業で修正するのではなく、入出力の仕様と評価指標を定義し、アルゴリズムによって最適な指示文を自動生成
- LLMを変更しても、DSPyがそのモデルに合わせてプロンプトを再最適化するので、モデル依存からの脱却を実現
- 「感覚的な良し悪し」ではなく、コード化された評価指標(Metric)に基づいて精度を管理するため、再現性が担保される。
生成AIの業務活用が進む中で直面しているのが、プロンプト設計の限界です。出力品質を高めるために微調整を重ねる運用は再現性や保守性の面で課題を残し、本格的なシステム導入の障壁となります。
こうした状況を背景に注目されているのが、スタンフォード大学発のフレームワークであるDSPyです。DSPyはプロンプトを直接書くのではなく、AIの挙動を「プログラム」として定義し、アルゴリズムによって自動最適化します。
本記事では、DSPyの設計思想から主要コンポーネント、構築手法を解説します。プロンプトエンジニアリングに課題を感じているシステム担当者は、ぜひ参考にしてください。
LLM×RAGに強い会社の選定・紹介を行います 今年度RAG相談急増中!紹介実績1,000件超え! ・ご相談からご紹介まで完全無料 完全無料・最短1日でご紹介 LLM×RAGに強い会社選定を依頼する
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
AI開発会社をご自分で選びたい方はこちらで特集していますので併せてご覧ください。
目次
DSPyとは?

DSPyとは、スタンフォード大学の研究チームによって提唱された、プログラミングコードとしてAIの挙動を定義し、アルゴリズムで自動最適化するためのフレームワークフレームワークです。従来のプロンプトエンジニアリングが、人が自然言語で最適なプロンプトを書くことに依存していたのに対し、DSPyはプロンプトという『文字列』を調整する発想を根本から転換しています。
DSPyの中核にあるのは、プロンプトを書くのではなく、入出力仕様と評価指標を定義した上で最適化アルゴリズムに任せるというコンセプトです。
特に企業利用の文脈では、再現性・保守性・モデル変更への耐性が重要です。DSPyは、モデル内部の挙動に直接依存するのではなく、LLM(大規模言語モデル)を組み込んだ業務システムをより工学的に設計できます。
米国の主要航空会社であるJetBlueは、カスタマーサポート向けのチャットボットにおいて、従来のLangChainからDSPyへの移行を公表しています。また、金融格付け・分析大手のMoody’sは、金融ワークフローにおけるRAGシステムの最適化や、AIがAIを評価する「LLM-as-a-Judge」の仕組みにDSPyを導入しています。
言い換えれば、DSPyはLLMアプリケーションにおける宣言的プログラミングを可能にするフレームワークと位置づけられるでしょう。
DSPyの設計思想
DSPyの設計思想は、自然言語で命令を書くのではなく、目的と評価基準を宣言し、最適化アルゴリズムに実装を委ねるという工学的なアプローチにあります。
開発者はまず、どのような入力からどのような出力を得たいのかという仕様を定義し、何をもって良い出力とするのかという評価指標を設計します。するとDSPy内部の最適化エンジンが、最適なプロンプトや推論構造を探索し、目的関数を最大化する構成を自動的に生成します。
この設計思想は、機械学習モデルのトレーニングプロセスに近い発想と言えます。人がルールを直接書くのではなく、目的関数を定義し、アルゴリズムに最適解を探索させるという点で共通しています。
従来のプロンプトエンジニアリングが抱える限界
プロンプト管理においては、プロンプトエンジニアリングも重要とされていますが、実務の現場では、いくつかの構造的な限界を抱えていることが明らかになっています。
主な課題としては、以下の3つです。
- わずかな表現の違いが出力結果に影響する再現性の低さ
- 優れたプロンプトを設計できるかどうかが、経験・言語感覚・試行錯誤の蓄積に依存する属人化
- 評価指標の曖昧さ
さらに、モデル変更への耐性も十分とは言えません。LLMを切り替えた際、同じプロンプトが同じ性能を維持する保証はなく、再度チューニングが必要になる場合があります。
こうした限界を踏まえると、プロンプトを直接書き続ける手法だけでは、スケールするLLMシステムの構築は難しいといえます。より工学的で評価可能なアプローチへの転換が求められており、その選択肢の一つがDSPyのようなフレームワークなのです。
LLM×RAGに強い会社の選定・紹介を行います 今年度RAG相談急増中!紹介実績1,000件超え! ・ご相談からご紹介まで完全無料 完全無料・最短1日でご紹介 LLM×RAGに強い会社選定を依頼する
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
企業がDSPyを導入することで得られるシステム運用上の利点

DSPyでは、目的と評価指標を中心に設計するアプローチへ転換されることで、LLM活用を経験則から工学的プロセスへと進化させます。もたらす価値について、以下で解説します。
アルゴリズムによる自動調整がプロンプト作成工数を短縮化
従来のプロンプトエンジニアリングでは、出力品質を高めるために文言調整を何度も繰り返す必要がありました。しかしこの作業は、文章の微修正に多くの時間を費やす構造となってしまいます。
DSPyではこの前提を転換しており、まず開発者が入出力仕様と評価指標を定義し、最適化アルゴリズムに改善を委ねています。その結果、細かな表現を調整する作業から解放され、より上位の設計、すなわち以下のようなアルゴリズムレベルの構造設計に集中できるようになります。
- 推論フロー
- タスク分解
- 評価設計
これは、LLM活用をシステム設計の問題へと引き上げる変化でもあります。DSPyを活用することで、改善の軸をアルゴリズム設計と評価関数に置き、持続的に品質を高められる体制を構築できます。
これによって、開発チームは表層的なテキスト調整ではなく、LLMアプリケーション全体の最適化戦略にリソースを投下できるようになります。
評価指標の共通化による属人化の解消と再現性の向上
生成AI活用における課題の一つが、プロンプト設計の属人化です。特定の担当者だけが高品質な出力を実現できる属人化があります。
従来の開発では「プロンプトを書く → 試す → プロンプトを直す」の繰り返しでした。一方、DSPyでは、プロンプトそのものをノウハウとして蓄積するのではなく、以下のような形で設計を形式化するため、改善のプロセスがアルゴリズムとして共有可能です。
- 入出力仕様
- 推論構造
- 評価指標
特に重要なのは、評価関数の定義です。何をもって良い出力とするのかを定量的に設定すれば、共通の指標に基づいて改善を進められます。チーム全体で同じ基準を共有できるため、品質の標準化も可能になるでしょう。
「いい感じの言葉」を探す「Vibe Check(感覚的な確認)」ではなく、数学的な最適化プロセスに変換して評価されます。これにより、誰が作っても(あるいはAIが作っても)高い精度が維持される再現性が担保されます。
LLMモデルの切り替えに伴う再チューニングコストの抑制
生成AIを業務システムに組み込む際、避けて通れないのがモデルの進化とそれに伴う変更です。LLMを切り替えるケースはありますが、プロンプトエンジニアリングではモデルが変わるたびにチューニングをやり直す必要があります。
DSPyでは、プロンプトそのものに依存するのではなく、入出力仕様・推論モジュール・評価関数をベースに設計します。
タスクの「定義(Signature)」と「実装(Module)」を分離しているため、下層のLLMを変更しても、DSPyが新しいモデルに合わせて最適な指示を再生成(コンパイル)してくれます。
そのため、モデルを変更しても評価指標が変わらない限り、DSPyは新しいモデルに適した構成を再調整できます。これは、固定的なプロンプト資産に依存する設計と比較して、圧倒的に柔軟と言えるでしょう。
DSPyを構成する4つの主要コンポーネントの機能と役割

DSPyにおける主要コンポーネントは、以下の4つです。
- Signature(入出力仕様)
- Module(推論モジュール)
- Optimizer(最適化エンジン)
- Metric(評価関数)
それぞれについて解説します。
抽象的なタスク仕様を定義するSignature(シグネチャ)
DSPyにおけるSignatureは、LLMアプリケーションの振る舞いを定義します。これは従来のプロンプトとは異なり、自然言語の命令文ではなく、タスクの構造そのものを宣言的に記述する役割を担います。
具体的には、以下のような項目を定義します。
- どのような入力を受け取るのか
- どのような形式・意味を持つ出力を生成するのか
例えば、入力が質問文であれば、出力は要約文なのか、分類ラベルなのか、推論過程を含む回答なのかを仕様として記述します。この段階では、具体的なプロンプトは生成されません。
Signatureの重要性は、タスクの曖昧さを排除できる点にあります。出力の型や期待される構造を定義することで、評価可能な設計へと落とし込むことができます。
また、最適化アルゴリズムは入出力仕様に基づいてプロンプトや推論構造を探索するため、仕様が明確であるほど最適化の精度も高まります。言い換えれば、SignatureはDSPy全体の設計品質を左右する最上流のコンポーネントと言えます。
推論プロセスを構造化するModule(モジュール)
DSPyにおけるModuleは、Signatureで定義された入出力仕様を実際の推論処理へと結びつける実行単位です。いわば、LLMを活用した処理ロジックを構造化するための推論ブロックにあたります。
DSPyでは、推論をモジュール単位で分割し、それぞれが明確な役割を持つ構造に設計します。例えば、以下のような工程を個別のModuleとして定義できます。
- 情報抽出
- 要約・生成
- 事実確認
- 最終回答生成
これにより、複雑なタスクであっても段階的な推論パイプラインとして構築可能です。各Moduleは独立して評価・最適化できるため、部分的な改善も容易になります。
さらに、Moduleは最適化アルゴリズムの対象にもなります。各Module内部のプロンプトや推論構造が自動調整の対象となり、全体の評価指標を最大化する方向へと更新されます。
指示文と例示を自動生成するOptimizer(オプティマイザ)
DSPyの中核を担うのがOptimizerです。DSPyの本質はプロンプトを書くことではなく、目的関数を最大化する構成を探索することにあり、その探索を担うのがOptimizerです。
DSPyでは、Optimizerが評価指標(Metric)に基づいて、内部のプロンプトや推論構造を自動的に調整します。これにより、改善プロセスが人の直感や経験に依存するのではなく、アルゴリズム主導で進みます。
Optimizerは、与えられた入出力例や評価データをもとに、より高いスコアを得られる構成を、以下の要素を変化させながら最適解を探索します。
- プロンプトのテンプレート
- 推論ステップの組み合わせ
- 例示の選択
この挙動は、機械学習モデルのハイパーパラメータ探索やファインチューニングに近い考え方です。
重要なのは、最適化の基準が明示的に定義されている点です。期待される出力が定量化されているため、目標に向かって一貫して改善を行うことが可能です。
システム全体の品質を決定するMetric(評価関数)
DSPyの最適化は、Metricによって方向付けられます。何を良い出力と定義するかによって、最適化エンジンの探索結果は大きく変わります。
DSPyでは、評価基準を明示的なスコアリング関数として定義します。具体的には、以下のようにタスクに応じた指標を設計します。
- 正解データとの一致度
- 要約の網羅性
- 分類精度
- 論理整合性
特に近年は、LLM自身を評価ツールとして用いる、LLM-as-a-judgeの手法も活用されています。これは別のモデルに出力品質を採点させるアプローチであり、複雑な自然言語タスクにおいても高度な評価を可能にします。
Metricが明確であればあるほど、Optimizerは目的関数を最大化する方向へと効率的に探索を行います。逆に、評価基準が曖昧であれば、最適化も不安定になります。
企業での生成AI活用においては、業務KPIとの整合性も重要です。業務に結びつく出力かどうかを評価軸に組み込むことで、DSPyは実用的なLLMシステムへと進化します。
LLM×RAGに強い会社の選定・紹介を行います 今年度RAG相談急増中!紹介実績1,000件超え! ・ご相談からご紹介まで完全無料 完全無料・最短1日でご紹介 LLM×RAGに強い会社選定を依頼する
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
実務におけるDSPyを用いたLLMシステムの構築手順

DSPyを実務で活用するには、従来のプロンプト中心の開発とは異なる手順で設計を進める必要があります。ここでは、DSPyを用いたLLMアプリケーションの構築手法を解説します。
Signature(署名)による入出力関係と業務目的の定義
DSPyの構築において最初に行うべきことは、プロンプトを書くことではなく、「このシステムは何を達成すべきか」という目的の定義です。DSPyではこの目的を宣言的に記述し、最適化の対象として扱います。
プログラミングにおける「関数定義」に近い作業です。
宣言的に定義するとは、手続きや文章表現を細かく指定するのではなく、望ましい入出力関係や満たすべき条件を明示することを意味します。この段階では、どのような言い回しを使うかは問題ではありません。
- 問い合わせ文から正確なカテゴリを出力する
- 契約書を要約し、重要条項を漏れなく抽出する
ここで重要なのは、目的を曖昧な表現で終わらせないことです。抽象的な言葉ではなく、評価可能な形に落とし込む必要があります。
このプロセスにより、LLM活用は感覚的なチューニングから脱却し、要件定義に基づく工学的設計へと変わります。DSPyの強みは、目的を宣言することで、その達成方法を最適化アルゴリズムに委ねられる点にあります。
Moduleの組み合わせによる段階的な推論構造の設計
目的を宣言した後に重要となるのが、推論プロセスをモジュール単位で設計することです。単一の長いプロンプトにすべての処理を詰め込むのではなく、役割ごとに分解し、構造化された推論フローとして設計します。
例えば、複雑な業務タスクでは以下のような複数の工程があり、これらを個別のModuleとして定義することで、それぞれが責務を持つ設計になります。
- 情報抽出
- 中間推論
- 検証
- 最終出力生成
結果として、ブラックボックス化を防ぎ、改善ポイントを特定しやすくなります。
モジュール化の利点は、再利用性と拡張性にもあります。あるModuleを別のタスクに転用したり、特定の部分だけを差し替えたりすることが可能です。これは、業務プロセスに生成AIを組み込む際にも有効です。
業務KPIに基づいたMetricのプログラム化
DSPyにおける構築プロセスの中核は、Metric(評価指標)の設計にあります。「何をもって正解とするか」を数値化(プログラム化)します。
DSPyの最適化は、この評価指標を最大化する方向へと進むため、何を良いとするのかを定義できなければ正しい改善はできません。
最適化アルゴリズムは、Metricを目的関数として動作するため、評価設計がそのままシステムの挙動を決定します。誤った指標を設定すれば、望ましくない方向へと最適化が進む可能性もあります。そのため、Metricは設計思想そのものを体現する要素なのです。
Optimizerによる最適なプロンプトと例示の自動コンパイル
DSPyの構築手法において、従来の開発と決定的に異なる点が、最適化アルゴリズムによる自動調整です。DSPyでは、定義した「Signature」「Module」「Metric」に「少量の学習データ」を投入し、最適化エンジン(MIPROv2等)を実行します。
自動調整の進め方はOptimizerの種類によって異なりますが、代表例であるMIPROv2は、以下のように組み合わせ探索を通じて、指示と例示を同時に最適化します。
- few-shot候補のブートストラップ
- タスクに接地したプロンプトの提案
- ベイズ最適化
これにより、人手での微修正では到達しにくい探索空間をカバーしつつ、Metricに整合した改善を反復できます。
DSPyの自動調整機能を活用することで、LLMシステムは「一度作って終わり」ではなく、継続的に進化する資産へと変わります。しかし、最適な構築には、適切なOptimizerの選定やMetricのプログラム化など、高度な専門技術が不可欠です。
自社に最適なパートナー選びで迷われているなら、AI専門コンサルタントが介在するAI Marketをご活用ください。一括見積もり型のような大量の営業連絡に悩まされることなく、1〜3営業日以内に最適な数社を厳選してご紹介します。
利用料は完全無料ですので、まずは構想段階の要件整理から、お気軽にご相談ください。
DSPyについてよくある質問まとめ
- DSPyとは何ですか?
DSPyとは、スタンフォード大学の研究チームが提唱したAIの挙動をプログラミングコードとして定義し、アルゴリズムで自動最適化する仕組みです。従来のように人が直接プロンプトを細かく調整するのではなく、最適化アルゴリズムによって最適なプロンプトや推論構造を自動生成します。
- DSPyによるプロンプト設計にはどんな特徴がありますか?
DSPyのプロンプト設計の特徴は、プロンプトを書くことを主目的にしないという点にあります。
- 目的を宣言的に定義する
- 推論をモジュール化して設計する
- 評価関数を明示的に設定する
- 最適化アルゴリズムで自動調整する
- DSPyは実際の業務で活用できますか?
DSPyは、特に以下のようなケースで有効です。評価指標を明確に設計できるため、単なる実験用途ではなく、事業と結びついた生成AI活用に展開できます。
- 長期運用を前提としたLLMシステム
- 属人化を解消したいプロジェクト
- モデル変更を想定したアーキテクチャ設計
- 業務KPIに直結する評価設計が必要なケース
- DSPyを導入するには、大量の学習データが必要になりますか?
いいえ。DSPyの利点の一つは、数十件程度の「少量のデータ(入出力例)」があれば、最適化エンジンが効果的なプロンプトやFew-shotを自動生成できる点にあります。ただし、最終的な品質を担保する「評価指標(Metric)」の設計こそが重要です。AI Marketでは、データの準備状況に合わせた最適な開発手法や、評価設計に強い専門企業を厳選してご紹介可能です。
- 現在LangChainなどで運用中のシステムをDSPyに移行する価値はありますか?
モデルのアップデートや変更の頻度が高い場合、移行の価値は非常に高いです。手動のプロンプト管理をDSPyによる自動生成に置き換えることで、将来的なメンテナンスコストを大幅に削減できます。AI Marketでは、既存システムの移行診断や、DSPyを活用したリプレイス実績を持つ開発会社の選定を中立的な立場でサポートいたします。
まとめ
DSPyは、プロンプトエンジニアリングの延長線上にあるツールではなく、LLMアプリケーション開発そのものの前提を変えるフレームワークです。プロンプトを人が磨き上げる時代から、目的と評価を定義し、最適化アルゴリズムに構成を委ねる時代への転換を示しています。
企業における生成AI活用は、もはや実験段階になく、再現性・保守性・モデル変更への耐性・業務KPIとの整合性が求められるフェーズに入っています。その文脈において、DSPyの設計思想は極めて合理的と言えます。
また、DSPyがコンパイラに近い役割を果たすという視点は、LLM開発の方向性を示唆しています。高水準の仕様を記述し、内部で最適な構成へ変換するアプローチは、将来的なモデル進化やマルチモデル環境にも適応可能です。
もし、貴社のプロジェクトにおいてDSPyの導入やLLMの最適化に課題を感じている場合は、専門家による要件整理が最短ルートとなります。AI Marketでは、こうした技術選定から開発パートナーの選定まで、実務経験豊富なコンサルタントが無料でご支援いたします。

AI Market 運営、BizTech株式会社 代表取締役|2021年にサービス提供を開始したAI Marketのコンサルタントとしても、お客様に寄り添いながら、現場のお客様の課題ヒアリングや企業のご紹介を5年以上実施しています。これまでにLLM・RAGを始め、画像認識、データ分析等、1,000件を超える様々なAI導入相談に対応。AI Marketの記事では、AIに関する情報をわかりやすくお伝えしています。
AI Market 公式𝕏:@AIMarket_jp
Youtubeチャンネル:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp
