マルチエージェントの「最小にして最強」の構成、それが Plan / Execute / Review の3ロール設計です。 役割を無秩序に増やすのではなく、「計画する人」「実行する人」「評価する人」の3つに絞ることで、AIエージェントの出力品質を飛躍的に向上させます。本記事では、すぐに試せる役割カード(テンプレート)と、同一タスクでの単体 vs 3ロール比較実演で、この設計の威力を体感してください。
この記事の前提と使い方
本記事は、AIエージェントの4設計要素(TMPE)を前提知識とします。4要素のうち特にP(計画/推論ループ)とE(自己評価/軌道修正)を、マルチエージェント構成としてどう実装するかが本記事のテーマです。
使い方: まずセクション1の役割カードをそのままコピーして試してください。次にセクション2の実演ログで「単体との差」を確認し、セクション3以降で理論背景と適用判断の基準を理解してください。
対象読者と前提
本記事はビジネスサイドの読者を対象としています。技術的な概念は図解・表・箇条書きで表現し、ソースコードやJSON定義は掲載していません。エージェントを導入する側として「何ができるか・なぜそうするか」を理解することを目指します。TMPEフレームワーク未読の方は記事01を先にご覧ください。
1. コピペで使える3ロール役割カード
マルチエージェントシステムの各エージェントは、人間の組織における職務記述書(Job Description)のように、厳格に定義された「役割カード」で統制する必要があります。以下の3つの役割カードは、「目的」「入力」「出力形式」「禁止事項」の4要素で構成されています。
1-1. Planner(計画役)の役割カード
Plannerの存在理由は、ユーザーの曖昧な目標を、実行可能なサブタスクの集合に分解することです。Planner自身は決して実作業を行わず、戦略的ディレクションに専念します。
| 項目 | 内容 |
|---|---|
| 役割名 | Planner(タスク分解・戦略立案) |
| 目的 | ユーザーの最終目標を分析し、独立して実行可能な粒度のサブタスクに分解して、論理的な実行計画を構築する |
| 入力 | ユーザーの最終目標 / 利用可能なツールのリスト / (再計画時)Executorの実行結果とReviewerのフィードバック |
| 出力形式 | 計画全体の戦略的意図の要約 / ステップごとの具体的アクション・使用ツール・成功条件 / Executorへのハンドオフ・ドキュメント |
| 禁止事項 | 自らタスクを実行すること / 最終回答やドラフトを生成すること / 利用不可能なツールを計画に含めること / 曖昧なステップ(例:「全体をリサーチする」)の記述 |
ハンドオフ・ドキュメントが鍵
Plannerの出力で最も重要なのが「ハンドオフ・ドキュメント」です。単なる行動指示ではなく、仮定したこと・不明だったこと・明示的に除外したアプローチを言語化して渡します。これにより、Executorが暗黙の前提を見落とすリスクを大幅に低減できます。
1-2. Executor(実行役)の役割カード
Executorは、Plannerの計画に忠実に従い、ツールを駆動して具体的な成果物を生成する労働力です。
| 項目 | 内容 |
|---|---|
| 役割名 | Executor(タスク実行者) |
| 目的 | Plannerが分解した計画の特定ステップを受け取り、指定されたツールでタスクを実行し、具体的な成果物を生成する |
| 入力 | Plannerからの計画(全体および現在のステップ) / ハンドオフ・ドキュメント / (修正時)Reviewerからのフィードバック |
| 出力形式 | 実行したステップの識別番号 / 具体的な実行内容 / 生成したドラフト成果物 / 実行中に遭遇した不確実な点や計画との乖離 |
| 禁止事項 | Plannerの承認なしにスコープを変更すること / ツールがエラーを返した場合に結果を捏造すること / 不要な挨拶文や感情的表現を出力に含めること |
1-3. Reviewer(評価・修正役)の役割カード
Reviewerは、システムの品質を担保する防波堤です。Executorの出力を冷徹に採点し、基準を満たさない場合は具体的な修正指示とともに差し戻します。
| 項目 | 内容 |
|---|---|
| 役割名 | Reviewer(品質管理スペシャリスト) |
| 目的 | Executorが生成した成果物を評価ルーブリック(採点基準)に基づいて多角的に評価し、論理的な欠陥・要件の漏れ・事実誤認を特定して、具体的な修正指示を生成する |
| 入力 | Plannerの初期計画と目標要件 / Executorの実行結果(成果物) / 評価ルーブリック(採点基準とガイドライン) |
| 出力形式 | 基準ごとのスコアと理由 / 総合判定(PASS または REJECT) / Executorが次に実行すべき具体的な修正アクションのリスト |
| 禁止事項 | 称賛や肯定的な前置き(「素晴らしいですね」等)を使用すること / 抽象的なフィードバック(必ず該当箇所を引用し具体的に指摘) / 自ら成果物を書き直すこと(修正は必ずExecutorに差し戻す) |
3つの役割を絶対に混ぜないこと
3ロール設計の前提は役割の完全分離です。Plannerが実行を始めたり、Reviewerがドラフトを書き直したりすると、設計の根本が崩壊します。人間の組織で「企画部長が製造ラインに入り、品質管理部が検査せずに出荷する」状態を想像してください — これが役割境界の崩壊です。
2. 実演:同一タスクで「単体 vs 3ロール」を比較する
アーキテクチャの優位性を証明するため、同じ複雑なタスクに対する「単体プロンプト」と「3ロール設計」の挙動を比較します。
タスク要件
「次世代全固体電池の市場動向に関する技術レポートを作成せよ。以下の制約を厳守すること。①2024年以降の最新データのみを使用 ②主要3社(トヨタ、サムスンSDI、QuantumScape)の技術比較表を含める ③全体で800文字以内 ④専門用語(デンドライト、硫化物系等)には初出時に注釈を付与」
4つの制約が課された、典型的な「制約の同時充足」が求められるタスクです。
2-1. 単体プロンプトの挙動 — 制約が"忘れられる"
単一のエージェントにこのタスクを投入すると、初期段階ではタスクの意図を正確に把握します。しかし、情報の検索と要約を繰り返すうちに、コンテキストウィンドウの消費が進み、プロンプトの忠実度(Prompt Fidelity)が急速に低下していきます。
| 制約条件 | 達成状況 | 問題 |
|---|---|---|
| ①最新データ(2024年以降) | 一部達成 | 古いデータが一部混入 |
| ②3社の比較表 | 達成 | — |
| ③800文字以内 | 未達成 | 1,500文字を超過 |
| ④専門用語の注釈 | 未達成 | 「デンドライト」のみ注釈あり、「硫化物系」が欠落 |
なぜこうなるのか? 単一エージェントは、情報の検索と統合に認知リソース(Attention)を集中させた結果、プロンプト末尾に記述された文字数制限や注釈ルールを忘却します。そして最大の問題は、自分自身の出力を客観的に振り返るメカニズムがないため、制約違反に気づくことなくタスクを完了状態としてしまうことです。
2-2. 3ロールの挙動 — Reviewが"漏れ"を捕まえる
同一タスクを3ロールアーキテクチャに投入すると、システム内部で以下の厳密な状態遷移と自己修正ループが展開されます。
ステップ1: Plannerがタスクを分解
Plannerは目標を分析し、3つのステップに分解した実行計画を生成します。
| 項目 | Plannerの出力 |
|---|---|
| 戦略概要 | 全固体電池の最新動向調査 → 3社比較表作成 → 厳格な制約下でのフォーマット化 |
| ステップ1 | Web検索で2024年以降の全固体電池データを収集 |
| ステップ2 | 3社の技術アプローチを整理し比較表を作成 |
| ステップ3 | 800文字以内に成形し、専門用語に注釈を付与 |
| ハンドオフ | 「Executorへ: 文字数制約(800文字)と専門用語の注釈は最も見落とされやすい要件。出力前に必ず文字数をカウントし、デンドライト等の用語にカッコ書きで注釈を入れること。」 |
特筆すべきは、ハンドオフ・ドキュメントを通じて「落とし穴の予測」が事前に共有される点です。
ステップ2: Executorがドラフトを生成(ミスも起きる)
Executorは指定されたツールでデータを収集し、ドラフトを生成します。しかし、情報の密度が高まった結果、文字数が950文字に膨張し、「硫化物系」の注釈を忘却しました。単体エージェントとまったく同じミスです。
ここが決定的に異なるポイントです — 単体エージェントならこのまま完了してしまうのに対し、3ロール設計ではReviewerが介入します。
ステップ3: Reviewerが冷徹に差し戻す
Reviewerは成果物を読み込み、評価ルーブリックと要件リストを照合します。一切の称賛を交えず、欠陥を具体的に指摘します。
| 評価基準 | スコア(5点満点) | Reviewerの指摘 |
|---|---|---|
| フォーマット制約(文字数) | 1点 | 「成果物は950文字であり、上限800文字を150文字超過している。」 |
| フォーマット制約(注釈) | 2点 | 「デンドライトへの注釈は存在するが、『硫化物系』に対する注釈が欠落。」 |
| データの最新性 | 4点 | 「2024年以降のデータが大半だが、一部の市場規模データが2023年の推計値。」 |
| 比較表の完成度 | 5点 | 「3社の技術アプローチ・進捗・課題が網羅的に整理されている。」 |
| 総合判定 | REJECT | — |
- 第2段落の市場規模に関する歴史的背景の記述を完全に削除し、文字数を800文字以内に圧縮せよ
- 第3段落の「硫化物系」の直後に短い注釈を追記せよ
ステップ4: Executorが修正し、REVIEWをPASS
REJECTと具体的なフィードバックを受け取ったExecutorは、新規の検索を行うことなく、フィードバックにのみ基づいてドラフトを編集します。第2段落を大幅に削減し、注釈を追記した新バージョン(760文字)を再提出。Reviewerが再度採点し、すべての基準が満たされたことを確認してPASSを出します。
2-3. 比較結果:制約遵守能力の差
| 指標 | 単体プロンプト | 3ロール設計 |
|---|---|---|
| 4つの制約の遵守率 | 50%(2/4) | 100%(4/4) |
| 文字数 | 1,500文字(超過) | 760文字(範囲内) |
| 修正回数 | 0回(気づかない) | 1回(Reviewerが差し戻し) |
| ユーザーへの提示タイミング | 初回生成時 | Reviewer承認後 |
単体プロンプトでは不可避だった「要件の取りこぼし」が、内部の監査ループによって完全に補正されたことが実証されました。
3. なぜ3ロールが「最小にして最強」なのか — 理論的背景
3ロール設計の高い性能は偶然ではなく、AIエージェント設計の歴史的な進化の中で洗練されてきたアーキテクチャの結晶です。
3-1. ReActの限界:一人で全部やると破綻する
自律型エージェントの初期標準であったReAct(Reasoning and Acting)は、LLMに「思考→行動→観察」のループを繰り返させる手法です。しかし、タスクが複雑化すると致命的な限界を露呈しました。
| 問題 | 内容 |
|---|---|
| 認知負荷の限界 | 長期的な計画の保持と、直近のツール実行の文脈管理を1つのLLMが同時に行うため、認知負荷が限界を超える |
| 忘却 | ステップ数が増えると、過去の指示や制約を忘れてしまう |
| 無限ループ | 同じツールを同じパラメータで無限に呼び出し続けるループに陥る |
この課題を克服するために設計されたのが「Plan-and-Execute」アーキテクチャ — 推論を「高次元の戦略立案(Planner)」と「低次元の戦術実行(Executor)」に分離する設計です。
3-2. Reflexion:失敗から学ぶ自己修正メカニズム
計画と実行の分離は効率性を高めますが、それだけでは「実行の失敗」や「環境の変化」に対応できません。そこで導入されたのが、Reflexion(リフレクション) — エージェントが過去の失敗から「言語的なフィードバック」を生成し、次の意思決定を改善する手法です。
Reflexionの仕組み
人間が「前回のプレゼンは時間オーバーだったから、今回はスライドを減らそう」と過去の失敗から学ぶように、Reflexionはエージェントに言葉による振り返りをさせ、その結果を記憶に保持して次回に活かします。モデルの再学習(ファインチューニング)は不要です。
3-3. 思考の退化 — 自分で自分を評価する限界
しかし、「自分で計画し、自分で実行し、自分で評価する」アプローチには、人間の確証バイアスに似た構造的欠陥があります。研究者たちはこれを「思考の退化(Degeneration-of-Thought)」と呼んでいます。
思考の退化とは: エージェントが自身の誤った初期推論に固執し、明らかな失敗にもかかわらず、その失敗を正当化する誤った反省を生成して、反復ごとに同じミスを繰り返す現象
この問題を防ぐ唯一にして最大の解決策が、Reviewerを完全に独立したペルソナとして分離することです。自己評価ではなく、独立した評価者による外部からの批判的視点を導入することで、エージェントは論理的盲点に気づけるようになります。
これが、3ロール設計が「最小かつ最強」とされる理論的根拠です。3-4. ハンドオフの落とし穴 — 情報の圧縮イベント
3ロール設計を成功させる上で、最大の罠がエージェント間のハンドオフ(引き継ぎ)に潜んでいます。
| パターン | 内容 | リスク |
|---|---|---|
| 危険なハンドオフ | Plannerが「結論(最終的な計画ステップ)」のみをExecutorに渡す | 途中で考慮して棄却したエッジケースや暗黙の前提がすべて抜け落ちる |
| 安全なハンドオフ | 「発見したこと」「不明だったこと」「除外した選択肢」を言語化してから渡す | トークン消費は約20%増加するが、エラー率を60%以上削減 |
セクション1の役割カードに「ハンドオフ・ドキュメント」を明示的に含めているのは、この圧縮イベントの問題を構造的に防ぐためです。
4. 3ロール設計が効く領域・効かない領域
いかに優れたアーキテクチャでも、すべてのタスクに適用すべきではありません。タスクの性質と複雑さに基づく適用境界を正確に見極めることが重要です。
4-1. 3ロール設計が劇的に効く領域
| 領域 | 理由 | 具体例 |
|---|---|---|
| 調査・統合タスク | 複数データソースからの情報収集→統合をExecutorが並行処理し、Reviewerが網羅性と正確性を評価して再検索を指示 | 市場調査レポート、競合分析、技術動向調査 |
| 客観的成功基準のある創作 | コードのテスト通過、文字数制限、SEO要件充足など、監査可能な基準が存在する | コード生成、制約付きライティング、提案書作成 |
| コンプライアンス・意思決定 | Plannerが状況を分解→Executorがデータ抽出→Reviewerが規定違反を監査 | 審査業務、契約チェック、規定準拠の判断 |
4-2. 3ロール設計が不適合(逆効果)な領域
| 領域 | 理由 | 代替手段 |
|---|---|---|
| 直線的で単純なタスク | 要約、感情分類、単一ツール完結の抽出は単体プロンプトで十分。3ロールは通信オーバーヘッドが増えるだけ | 適切に設計された単体プロンプト |
| 巨大な共有コンテキスト依存 | 全エージェントが同じ膨大なコードベースの完全な文脈を同時に持つ必要がある場合、分割の恩恵がない | 長コンテキストモデル + 単体プロンプト |
| 完全なオープンエンドタスク | 明確な目標や正解が存在しない場合、Reviewerは原則に基づく修正ではなくランダムな変更を提案しがち | 人間によるディレクション + 対話型生成 |
4-3. 適用判断フローチャート
4-4. 総合比較
| タスクの特性 | 単体プロンプト | 3ロール設計 |
|---|---|---|
| 最適な適用領域 | 感情分析、翻訳、要約、単純クエリ | 長文調査、ソフトウェア開発、複雑な要件の執筆 |
| ツール使用の限界 | 10〜15個を超えると選択ミスが多発 | 役割ごとにツールを制限するため、多数のツールを扱える |
| 制約の遵守能力 | 長いプロンプトの末尾の制約を無視しやすい | Reviewerの反復監査で厳格な制約遵守が可能 |
| コストとレイテンシ | トークン消費が予測可能で低レイテンシ | 複数回の推論とAPI呼び出しでコスト・時間が増加 |
| コンテキスト管理 | 単一のコンテキストが膨張し混乱を招く | ハンドオフで必要な文脈のみを抽出し認知負荷を抑制 |
5. Reviewer の品質を最大化する設計
3ロール設計の全体的な性能は、Reviewerの評価品質に完全に依存しています。Reviewerが曖昧なフィードバックを返したり、誤った批判をしたりすれば、システム全体が「改悪のループ」に突入します。
5-1. 分析的ルーブリック(採点基準)のハードコード
Reviewerを正確に機能させる第一歩は、自由記述の評価を禁止し、多次元的な「ルーブリック(採点基準表)」をあらかじめ定義しておくことです。
| ルーブリックの種類 | 特徴 | フィードバックループでの適性 |
|---|---|---|
| 包括的ルーブリック | 全体を1つのスコアで評価 | 修正箇所の特定が困難 — 不向き |
| 分析的ルーブリック | 基準ごとに個別に評価 | 具体的な修正箇所を特定できる — 推奨 |
| 評価基準 | 5点(Excellent) | 3点(Satisfactory) | 1点(Needs Improvement) |
|---|---|---|---|
| 事実の正確性と忠実性 | 全主張がデータに裏付けられ、論理的飛躍なし | 大筋はデータ基準だが、一部に推測混入 | データソースにない事実(ハルシネーション)あり |
| 要件の網羅性 | 全トピック・キーワードが指定フォーマットで完全網羅 | 大部分は充足、マイナー制約の欠落あり | 主要制約(文字数・フォーマット)に重大違反 |
| 構造の明瞭さ | 論理展開が明確、読者が迷わない構成 | 構成は把握できるが、一部の接続が弱い | 論理展開が不明瞭、セクション間の関連が不明 |
5-2. 評価根拠(Rationale)の強制
Reviewerにスコアだけを出力させる設計は避けるべきです。「なぜそのスコアか」の推論プロセスを記述させることで、評価の信頼性と一貫性が劇的に向上します。
さらに高度な手法として「直交的検証」ツールの導入があります。LLMは言語パターンの評価には優れていますが、数学的正確性やコードの動作保証には限界があります。そこで、Reviewerに対してテスト実行環境やファクトチェック用の検索ツールへのアクセス権を付与します。これにより、Reviewerは自らの「言語的な確率」ではなく、客観的な実行結果に基づいた反論の余地のない批判をExecutorに突きつけることができます。
5-3. 役割境界の維持 — 「禁止事項」が最重要
Reviewerのプロンプトで最も重要なのが禁止事項です。特に注意すべき2つの罠があります。
| 罠 | 問題 | 対策 |
|---|---|---|
| 過剰な称賛 | LLMはデフォルトで丁寧すぎる傾向があり、「素晴らしいですね」と前置きして批評の鋭さが鈍る | 出力の冒頭での肯定表現を厳格に禁止 |
| 自ら書き直してしまう | ReviewerがExecutorのドラフトを直接修正すると、実行と評価の役割境界が崩壊 | プロンプトでの禁止に加え、成果物を上書きするツール権限自体を与えない |
物理的なアクセス制御が最強のガードレール
プロンプトで「書き直すな」と指示するだけでは不十分です。Reviewerには成果物ファイルを直接上書きする権限(ツール)を与えないという物理的なアクセス制御を実装することで、役割の独立性を確実に担保できます。
よくある質問
Q1. 3ロール設計はどんなツール/フレームワークで実装できる?
LangGraph、CrewAI、AutoGen、Dify、Amazon Bedrockなど、主要なエージェントフレームワークの大半が3ロール構成をサポートしています。フレームワークを使わなくても、3つのLLM呼び出しをステートマシンで繋ぐだけで基本的な実装は可能です。
Q2. 3つのロールすべてに高性能モデルが必要?
いいえ。PlannerとReviewerには高い推論能力が求められますが、Executorにはドメイン特化型の小型モデルや安価なモデルを割り当てることで、コストと速度を大幅に最適化できます。これがPlan-and-Executeアーキテクチャの大きなメリットの一つです。
Q3. Reviewerの修正ループは何回まで?
一般的には最大3回を推奨します。3回以内にPASSしない場合、タスクの定義自体に問題がある可能性が高く、Plannerの再計画フェーズに戻すか、人間の介入を要求すべきです。無制限のループは無限ループ障害(F04)の原因になります。
Q4. 単体プロンプトから3ロールへの移行は段階的にできる?
はい。まず単体プロンプトに「Reviewer」だけを追加する2ロール構成(Execute + Review)から始めるのが効果的です。これだけでも制約遵守能力が大幅に向上します。効果を確認した上でPlannerを分離し、3ロールに拡張してください。
Q5. 4ロール以上に拡張すべきケースは?
大規模で複雑なプロジェクト(例: フルスタック開発、大規模リサーチ)では、Executorをドメイン別に複数化する(例: フロントエンド担当、バックエンド担当)ことがあります。ただし、PlannerとReviewerは原則として各1つに保つのがベストプラクティスです。役割を増やしすぎるとエージェント間の通信オーバーヘッドが指数関数的に増大します。
まとめ
LLMを活用した自律型エージェント設計において、Plan(計画)/ Execute(実行)/ Review(評価・修正)の3ロールは、複雑なタスクを処理するための最も合理的で強力な最小単位です。
- Planner: 曖昧な目標をサブタスクに分解し、ハンドオフ・ドキュメントで落とし穴を予告する
- Executor: 計画に忠実に従い、ツールを駆動して成果物を生成する
- Reviewer: 評価ルーブリックで冷徹に採点し、基準未達なら具体的な修正指示で差し戻す
この3つの職務の厳密な分離により、各エージェントは自身の目的にのみ集中でき、システム全体の制約遵守能力と出力品質が飛躍的に向上します。エラーはユーザーに到達する前にシステム内部で自己浄化されます。
まずはセクション1の役割カードをコピーして、自社のタスクで試してみてください。本記事は、AIエージェント設計30記事シリーズの第4回です。関連する記事で各要素をさらに深掘りしています。
- 基礎定義 → AIエージェントとは何か:4設計要素
- 失敗パターン → エージェントが壊れる10パターン
- メモリ設計 → 短期・長期・外部メモリの設計パターン
- 人間監督 → Human-in-the-Loop設計
- 可視化 → オブザーバビリティダッシュボード設計
- 評価 → エージェント評価KPI設計
この記事の著者
Agentic Base 編集部
AIエージェントとWebメディア運用の知見を活かし、実践的なナレッジを発信しています。



