お問い合わせ
技術・設計・開発38 min read

最小チームはこれ:Plan / Execute / Review の3ロール設計

マルチエージェントの最小構成「Plan(計画)/ Execute(実行)/ Review(評価・修正)」の3ロールを、役割カード(目的・入力・出力・禁止)で定義。同一タスクの単体 vs 3ロール比較と内部ログ実演で、制約遵守能力の差を可視化する実務ガイド。

マルチエージェントの「最小にして最強」の構成、それが Plan / Execute / Review の3ロール設計です。 役割を無秩序に増やすのではなく、「計画する人」「実行する人」「評価する人」の3つに絞ることで、AIエージェントの出力品質を飛躍的に向上させます。本記事では、すぐに試せる役割カード(テンプレート)と、同一タスクでの単体 vs 3ロール比較実演で、この設計の威力を体感してください。

この記事の前提と使い方

本記事は、AIエージェントの4設計要素(TMPE)を前提知識とします。4要素のうち特にP(計画/推論ループ)E(自己評価/軌道修正)を、マルチエージェント構成としてどう実装するかが本記事のテーマです。

使い方: まずセクション1の役割カードをそのままコピーして試してください。次にセクション2の実演ログで「単体との差」を確認し、セクション3以降で理論背景と適用判断の基準を理解してください。

対象読者と前提

本記事はビジネスサイドの読者を対象としています。技術的な概念は図解・表・箇条書きで表現し、ソースコードやJSON定義は掲載していません。エージェントを導入する側として「何ができるか・なぜそうするか」を理解することを目指します。TMPEフレームワーク未読の方は記事01を先にご覧ください。

図1: 本記事の全体構成マインドマップ

1. コピペで使える3ロール役割カード

マルチエージェントシステムの各エージェントは、人間の組織における職務記述書(Job Description)のように、厳格に定義された「役割カード」で統制する必要があります。以下の3つの役割カードは、「目的」「入力」「出力形式」「禁止事項」の4要素で構成されています。

図2: 3ロールの基本フロー — Plan → Execute → Review の循環

1-1. Planner(計画役)の役割カード

Plannerの存在理由は、ユーザーの曖昧な目標を、実行可能なサブタスクの集合に分解することです。Planner自身は決して実作業を行わず、戦略的ディレクションに専念します。

項目内容
役割名Planner(タスク分解・戦略立案)
目的ユーザーの最終目標を分析し、独立して実行可能な粒度のサブタスクに分解して、論理的な実行計画を構築する
入力ユーザーの最終目標 / 利用可能なツールのリスト / (再計画時)Executorの実行結果とReviewerのフィードバック
出力形式計画全体の戦略的意図の要約 / ステップごとの具体的アクション・使用ツール・成功条件 / Executorへのハンドオフ・ドキュメント
禁止事項自らタスクを実行すること / 最終回答やドラフトを生成すること / 利用不可能なツールを計画に含めること / 曖昧なステップ(例:「全体をリサーチする」)の記述

ハンドオフ・ドキュメントが鍵

Plannerの出力で最も重要なのが「ハンドオフ・ドキュメント」です。単なる行動指示ではなく、仮定したこと・不明だったこと・明示的に除外したアプローチを言語化して渡します。これにより、Executorが暗黙の前提を見落とすリスクを大幅に低減できます。

1-2. Executor(実行役)の役割カード

Executorは、Plannerの計画に忠実に従い、ツールを駆動して具体的な成果物を生成する労働力です。

項目内容
役割名Executor(タスク実行者)
目的Plannerが分解した計画の特定ステップを受け取り、指定されたツールでタスクを実行し、具体的な成果物を生成する
入力Plannerからの計画(全体および現在のステップ) / ハンドオフ・ドキュメント / (修正時)Reviewerからのフィードバック
出力形式実行したステップの識別番号 / 具体的な実行内容 / 生成したドラフト成果物 / 実行中に遭遇した不確実な点や計画との乖離
禁止事項Plannerの承認なしにスコープを変更すること / ツールがエラーを返した場合に結果を捏造すること / 不要な挨拶文や感情的表現を出力に含めること

1-3. Reviewer(評価・修正役)の役割カード

Reviewerは、システムの品質を担保する防波堤です。Executorの出力を冷徹に採点し、基準を満たさない場合は具体的な修正指示とともに差し戻します。

項目内容
役割名Reviewer(品質管理スペシャリスト)
目的Executorが生成した成果物を評価ルーブリック(採点基準)に基づいて多角的に評価し、論理的な欠陥・要件の漏れ・事実誤認を特定して、具体的な修正指示を生成する
入力Plannerの初期計画と目標要件 / Executorの実行結果(成果物) / 評価ルーブリック(採点基準とガイドライン)
出力形式基準ごとのスコアと理由 / 総合判定(PASS または REJECT) / Executorが次に実行すべき具体的な修正アクションのリスト
禁止事項称賛や肯定的な前置き(「素晴らしいですね」等)を使用すること / 抽象的なフィードバック(必ず該当箇所を引用し具体的に指摘) / 自ら成果物を書き直すこと(修正は必ずExecutorに差し戻す)

3つの役割を絶対に混ぜないこと

3ロール設計の前提は役割の完全分離です。Plannerが実行を始めたり、Reviewerがドラフトを書き直したりすると、設計の根本が崩壊します。人間の組織で「企画部長が製造ラインに入り、品質管理部が検査せずに出荷する」状態を想像してください — これが役割境界の崩壊です。

2. 実演:同一タスクで「単体 vs 3ロール」を比較する

アーキテクチャの優位性を証明するため、同じ複雑なタスクに対する「単体プロンプト」と「3ロール設計」の挙動を比較します。

タスク要件

「次世代全固体電池の市場動向に関する技術レポートを作成せよ。以下の制約を厳守すること。①2024年以降の最新データのみを使用 ②主要3社(トヨタ、サムスンSDI、QuantumScape)の技術比較表を含める ③全体で800文字以内 ④専門用語(デンドライト、硫化物系等)には初出時に注釈を付与」

4つの制約が課された、典型的な「制約の同時充足」が求められるタスクです。

2-1. 単体プロンプトの挙動 — 制約が"忘れられる"

単一のエージェントにこのタスクを投入すると、初期段階ではタスクの意図を正確に把握します。しかし、情報の検索と要約を繰り返すうちに、コンテキストウィンドウの消費が進み、プロンプトの忠実度(Prompt Fidelity)が急速に低下していきます。

図3: 単体プロンプトのフロー — 内部チェック機構がない
制約条件達成状況問題
①最新データ(2024年以降)一部達成古いデータが一部混入
②3社の比較表達成
③800文字以内未達成1,500文字を超過
④専門用語の注釈未達成「デンドライト」のみ注釈あり、「硫化物系」が欠落

なぜこうなるのか? 単一エージェントは、情報の検索と統合に認知リソース(Attention)を集中させた結果、プロンプト末尾に記述された文字数制限や注釈ルールを忘却します。そして最大の問題は、自分自身の出力を客観的に振り返るメカニズムがないため、制約違反に気づくことなくタスクを完了状態としてしまうことです。

2-2. 3ロールの挙動 — Reviewが"漏れ"を捕まえる

同一タスクを3ロールアーキテクチャに投入すると、システム内部で以下の厳密な状態遷移と自己修正ループが展開されます。

図4: 3ロールのフロー — REJECTによる修正ループが品質を担保

ステップ1: Plannerがタスクを分解

Plannerは目標を分析し、3つのステップに分解した実行計画を生成します。

項目Plannerの出力
戦略概要全固体電池の最新動向調査 → 3社比較表作成 → 厳格な制約下でのフォーマット化
ステップ1Web検索で2024年以降の全固体電池データを収集
ステップ23社の技術アプローチを整理し比較表を作成
ステップ3800文字以内に成形し、専門用語に注釈を付与
ハンドオフ「Executorへ: 文字数制約(800文字)と専門用語の注釈は最も見落とされやすい要件。出力前に必ず文字数をカウントし、デンドライト等の用語にカッコ書きで注釈を入れること。」

特筆すべきは、ハンドオフ・ドキュメントを通じて「落とし穴の予測」が事前に共有される点です。

ステップ2: Executorがドラフトを生成(ミスも起きる)

Executorは指定されたツールでデータを収集し、ドラフトを生成します。しかし、情報の密度が高まった結果、文字数が950文字に膨張し、「硫化物系」の注釈を忘却しました。単体エージェントとまったく同じミスです。

ここが決定的に異なるポイントです — 単体エージェントならこのまま完了してしまうのに対し、3ロール設計ではReviewerが介入します。

ステップ3: Reviewerが冷徹に差し戻す

Reviewerは成果物を読み込み、評価ルーブリックと要件リストを照合します。一切の称賛を交えず、欠陥を具体的に指摘します。

評価基準スコア(5点満点)Reviewerの指摘
フォーマット制約(文字数)1点「成果物は950文字であり、上限800文字を150文字超過している。」
フォーマット制約(注釈)2点「デンドライトへの注釈は存在するが、『硫化物系』に対する注釈が欠落。」
データの最新性4点「2024年以降のデータが大半だが、一部の市場規模データが2023年の推計値。」
比較表の完成度5点「3社の技術アプローチ・進捗・課題が網羅的に整理されている。」
総合判定REJECT
Reviewerの具体的な修正指示:
  1. 第2段落の市場規模に関する歴史的背景の記述を完全に削除し、文字数を800文字以内に圧縮せよ
  2. 第3段落の「硫化物系」の直後に短い注釈を追記せよ

ステップ4: Executorが修正し、REVIEWをPASS

REJECTと具体的なフィードバックを受け取ったExecutorは、新規の検索を行うことなく、フィードバックにのみ基づいてドラフトを編集します。第2段落を大幅に削減し、注釈を追記した新バージョン(760文字)を再提出。Reviewerが再度採点し、すべての基準が満たされたことを確認してPASSを出します。

2-3. 比較結果:制約遵守能力の差

Loading chart...
指標単体プロンプト3ロール設計
4つの制約の遵守率50%(2/4)100%(4/4)
文字数1,500文字(超過)760文字(範囲内)
修正回数0回(気づかない)1回(Reviewerが差し戻し)
ユーザーへの提示タイミング初回生成時Reviewer承認後

単体プロンプトでは不可避だった「要件の取りこぼし」が、内部の監査ループによって完全に補正されたことが実証されました。

3. なぜ3ロールが「最小にして最強」なのか — 理論的背景

3ロール設計の高い性能は偶然ではなく、AIエージェント設計の歴史的な進化の中で洗練されてきたアーキテクチャの結晶です。

図6: エージェント設計の進化 — ReActから3ロール設計へ

3-1. ReActの限界:一人で全部やると破綻する

自律型エージェントの初期標準であったReAct(Reasoning and Acting)は、LLMに「思考→行動→観察」のループを繰り返させる手法です。しかし、タスクが複雑化すると致命的な限界を露呈しました。

問題内容
認知負荷の限界長期的な計画の保持と、直近のツール実行の文脈管理を1つのLLMが同時に行うため、認知負荷が限界を超える
忘却ステップ数が増えると、過去の指示や制約を忘れてしまう
無限ループ同じツールを同じパラメータで無限に呼び出し続けるループに陥る

この課題を克服するために設計されたのが「Plan-and-Execute」アーキテクチャ — 推論を「高次元の戦略立案(Planner)」と「低次元の戦術実行(Executor)」に分離する設計です。

3-2. Reflexion:失敗から学ぶ自己修正メカニズム

計画と実行の分離は効率性を高めますが、それだけでは「実行の失敗」や「環境の変化」に対応できません。そこで導入されたのが、Reflexion(リフレクション) — エージェントが過去の失敗から「言語的なフィードバック」を生成し、次の意思決定を改善する手法です。

Reflexionの仕組み

人間が「前回のプレゼンは時間オーバーだったから、今回はスライドを減らそう」と過去の失敗から学ぶように、Reflexionはエージェントに言葉による振り返りをさせ、その結果を記憶に保持して次回に活かします。モデルの再学習(ファインチューニング)は不要です。

3-3. 思考の退化 — 自分で自分を評価する限界

しかし、「自分で計画し、自分で実行し、自分で評価する」アプローチには、人間の確証バイアスに似た構造的欠陥があります。研究者たちはこれを「思考の退化(Degeneration-of-Thought)」と呼んでいます。

思考の退化とは: エージェントが自身の誤った初期推論に固執し、明らかな失敗にもかかわらず、その失敗を正当化する誤った反省を生成して、反復ごとに同じミスを繰り返す現象

この問題を防ぐ唯一にして最大の解決策が、Reviewerを完全に独立したペルソナとして分離することです。自己評価ではなく、独立した評価者による外部からの批判的視点を導入することで、エージェントは論理的盲点に気づけるようになります。

これが、3ロール設計が「最小かつ最強」とされる理論的根拠です。

3-4. ハンドオフの落とし穴 — 情報の圧縮イベント

3ロール設計を成功させる上で、最大の罠がエージェント間のハンドオフ(引き継ぎ)に潜んでいます。

図7: ハンドオフの危険パターンと安全パターン
パターン内容リスク
危険なハンドオフPlannerが「結論(最終的な計画ステップ)」のみをExecutorに渡す途中で考慮して棄却したエッジケースや暗黙の前提がすべて抜け落ちる
安全なハンドオフ「発見したこと」「不明だったこと」「除外した選択肢」を言語化してから渡すトークン消費は約20%増加するが、エラー率を60%以上削減

セクション1の役割カードに「ハンドオフ・ドキュメント」を明示的に含めているのは、この圧縮イベントの問題を構造的に防ぐためです。

4. 3ロール設計が効く領域・効かない領域

いかに優れたアーキテクチャでも、すべてのタスクに適用すべきではありません。タスクの性質と複雑さに基づく適用境界を正確に見極めることが重要です。

4-1. 3ロール設計が劇的に効く領域

領域理由具体例
調査・統合タスク複数データソースからの情報収集→統合をExecutorが並行処理し、Reviewerが網羅性と正確性を評価して再検索を指示市場調査レポート、競合分析、技術動向調査
客観的成功基準のある創作コードのテスト通過、文字数制限、SEO要件充足など、監査可能な基準が存在するコード生成、制約付きライティング、提案書作成
コンプライアンス・意思決定Plannerが状況を分解→Executorがデータ抽出→Reviewerが規定違反を監査審査業務、契約チェック、規定準拠の判断

4-2. 3ロール設計が不適合(逆効果)な領域

領域理由代替手段
直線的で単純なタスク要約、感情分類、単一ツール完結の抽出は単体プロンプトで十分。3ロールは通信オーバーヘッドが増えるだけ適切に設計された単体プロンプト
巨大な共有コンテキスト依存全エージェントが同じ膨大なコードベースの完全な文脈を同時に持つ必要がある場合、分割の恩恵がない長コンテキストモデル + 単体プロンプト
完全なオープンエンドタスク明確な目標や正解が存在しない場合、Reviewerは原則に基づく修正ではなくランダムな変更を提案しがち人間によるディレクション + 対話型生成

4-3. 適用判断フローチャート

図8: タスクに応じたアーキテクチャ選定フロー

4-4. 総合比較

Loading chart...
タスクの特性単体プロンプト3ロール設計
最適な適用領域感情分析、翻訳、要約、単純クエリ長文調査、ソフトウェア開発、複雑な要件の執筆
ツール使用の限界10〜15個を超えると選択ミスが多発役割ごとにツールを制限するため、多数のツールを扱える
制約の遵守能力長いプロンプトの末尾の制約を無視しやすいReviewerの反復監査で厳格な制約遵守が可能
コストとレイテンシトークン消費が予測可能で低レイテンシ複数回の推論とAPI呼び出しでコスト・時間が増加
コンテキスト管理単一のコンテキストが膨張し混乱を招くハンドオフで必要な文脈のみを抽出し認知負荷を抑制

5. Reviewer の品質を最大化する設計

3ロール設計の全体的な性能は、Reviewerの評価品質に完全に依存しています。Reviewerが曖昧なフィードバックを返したり、誤った批判をしたりすれば、システム全体が「改悪のループ」に突入します。

5-1. 分析的ルーブリック(採点基準)のハードコード

Reviewerを正確に機能させる第一歩は、自由記述の評価を禁止し、多次元的な「ルーブリック(採点基準表)」をあらかじめ定義しておくことです。

ルーブリックの種類特徴フィードバックループでの適性
包括的ルーブリック全体を1つのスコアで評価修正箇所の特定が困難 — 不向き
分析的ルーブリック基準ごとに個別に評価具体的な修正箇所を特定できる — 推奨
分析的ルーブリックの設計例(調査タスク):
評価基準5点(Excellent)3点(Satisfactory)1点(Needs Improvement)
事実の正確性と忠実性全主張がデータに裏付けられ、論理的飛躍なし大筋はデータ基準だが、一部に推測混入データソースにない事実(ハルシネーション)あり
要件の網羅性全トピック・キーワードが指定フォーマットで完全網羅大部分は充足、マイナー制約の欠落あり主要制約(文字数・フォーマット)に重大違反
構造の明瞭さ論理展開が明確、読者が迷わない構成構成は把握できるが、一部の接続が弱い論理展開が不明瞭、セクション間の関連が不明

5-2. 評価根拠(Rationale)の強制

Reviewerにスコアだけを出力させる設計は避けるべきです。「なぜそのスコアか」の推論プロセスを記述させることで、評価の信頼性と一貫性が劇的に向上します。

さらに高度な手法として「直交的検証」ツールの導入があります。LLMは言語パターンの評価には優れていますが、数学的正確性やコードの動作保証には限界があります。そこで、Reviewerに対してテスト実行環境やファクトチェック用の検索ツールへのアクセス権を付与します。これにより、Reviewerは自らの「言語的な確率」ではなく、客観的な実行結果に基づいた反論の余地のない批判をExecutorに突きつけることができます。

5-3. 役割境界の維持 — 「禁止事項」が最重要

Reviewerのプロンプトで最も重要なのが禁止事項です。特に注意すべき2つの罠があります。

問題対策
過剰な称賛LLMはデフォルトで丁寧すぎる傾向があり、「素晴らしいですね」と前置きして批評の鋭さが鈍る出力の冒頭での肯定表現を厳格に禁止
自ら書き直してしまうReviewerがExecutorのドラフトを直接修正すると、実行と評価の役割境界が崩壊プロンプトでの禁止に加え、成果物を上書きするツール権限自体を与えない

物理的なアクセス制御が最強のガードレール

プロンプトで「書き直すな」と指示するだけでは不十分です。Reviewerには成果物ファイルを直接上書きする権限(ツール)を与えないという物理的なアクセス制御を実装することで、役割の独立性を確実に担保できます。

よくある質問

Q1. 3ロール設計はどんなツール/フレームワークで実装できる?

LangGraph、CrewAI、AutoGen、Dify、Amazon Bedrockなど、主要なエージェントフレームワークの大半が3ロール構成をサポートしています。フレームワークを使わなくても、3つのLLM呼び出しをステートマシンで繋ぐだけで基本的な実装は可能です。

Q2. 3つのロールすべてに高性能モデルが必要?

いいえ。PlannerとReviewerには高い推論能力が求められますが、Executorにはドメイン特化型の小型モデルや安価なモデルを割り当てることで、コストと速度を大幅に最適化できます。これがPlan-and-Executeアーキテクチャの大きなメリットの一つです。

Q3. Reviewerの修正ループは何回まで?

一般的には最大3回を推奨します。3回以内にPASSしない場合、タスクの定義自体に問題がある可能性が高く、Plannerの再計画フェーズに戻すか、人間の介入を要求すべきです。無制限のループは無限ループ障害(F04)の原因になります。

Q4. 単体プロンプトから3ロールへの移行は段階的にできる?

はい。まず単体プロンプトに「Reviewer」だけを追加する2ロール構成(Execute + Review)から始めるのが効果的です。これだけでも制約遵守能力が大幅に向上します。効果を確認した上でPlannerを分離し、3ロールに拡張してください。

Q5. 4ロール以上に拡張すべきケースは?

大規模で複雑なプロジェクト(例: フルスタック開発、大規模リサーチ)では、Executorをドメイン別に複数化する(例: フロントエンド担当、バックエンド担当)ことがあります。ただし、PlannerとReviewerは原則として各1つに保つのがベストプラクティスです。役割を増やしすぎるとエージェント間の通信オーバーヘッドが指数関数的に増大します。

まとめ

LLMを活用した自律型エージェント設計において、Plan(計画)/ Execute(実行)/ Review(評価・修正)の3ロールは、複雑なタスクを処理するための最も合理的で強力な最小単位です。

  1. Planner: 曖昧な目標をサブタスクに分解し、ハンドオフ・ドキュメントで落とし穴を予告する
  2. Executor: 計画に忠実に従い、ツールを駆動して成果物を生成する
  3. Reviewer: 評価ルーブリックで冷徹に採点し、基準未達なら具体的な修正指示で差し戻す

この3つの職務の厳密な分離により、各エージェントは自身の目的にのみ集中でき、システム全体の制約遵守能力と出力品質が飛躍的に向上します。エラーはユーザーに到達する前にシステム内部で自己浄化されます。

まずはセクション1の役割カードをコピーして、自社のタスクで試してみてください。

本記事は、AIエージェント設計30記事シリーズの第4回です。関連する記事で各要素をさらに深掘りしています。

Agentic Base

この記事の著者

Agentic Base 編集部

AIエージェントとWebメディア運用の知見を活かし、実践的なナレッジを発信しています。

関連記事

ルーティング設計:問い合わせを専門家に振り分ける(混同行列まで)
2026.02.21技術・設計・開発45 min read

ルーティング設計:問い合わせを専門家に振り分ける(混同行列まで)

マルチエージェントの要となる振り分け(ルーティング)を、7つの専門家ルート・50件の評価データ・混同行列で再現可能に解説。ラベル定義から精度評価・改善サイクルまで、ビジネスサイドが判断できる実務ガイド。

記事を読む
AIエージェントチーム設計ガイド【2026年版】マルチエージェント構築・監視・ガードレール実装
2026.02.20技術・設計・開発17 min read

AIエージェントチーム設計ガイド【2026年版】マルチエージェント構築・監視・ガードレール実装

AIエージェントチーム設計を2026年の実践知で解説。マルチエージェントアーキテクチャ、MCPによるコンテキスト管理、オブザーバビリティ、HITLからHOTLへの移行、失敗パターンと対策を図解で整理。

記事を読む
RAGとは何か:仕組み・MCP連携・Agentic RAGまで2026年の全体像を一気に理解する
2026.03.14技術・設計・開発25 min read

RAGとは何か:仕組み・MCP連携・Agentic RAGまで2026年の全体像を一気に理解する

1Mトークン時代にRAGは不要になったのか?コスト1,250倍の差、Lost in the Middle問題、Agentic RAGへの進化、MCP連携まで、2026年のRAGの位置づけを判断フレームワーク付きで解説。

記事を読む
MCP サーバー設計入門:AIエージェントに外部ツールを安全につなぐ方法
2026.03.12技術・設計・開発41 min read

MCP サーバー設計入門:AIエージェントに外部ツールを安全につなぐ方法

MCPとは何か、従来APIとの違い、設計判断の基準からセキュリティ対策まで、ビジネスサイド・初学者にもわかる形で解説。10,000以上のサーバーが稼働するMCPエコシステムの全体像と、導入時に押さえるべき設計原則を体系化します。

記事を読む