お問い合わせ
技術・設計・開発45 min read

ルーティング設計:問い合わせを専門家に振り分ける(混同行列まで)

マルチエージェントの要となる振り分け(ルーティング)を、7つの専門家ルート・50件の評価データ・混同行列で再現可能に解説。ラベル定義から精度評価・改善サイクルまで、ビジネスサイドが判断できる実務ガイド。

問い合わせが「正しい専門家」に届かなければ、どんなに優秀なAIでも的外れな回答を返します。 本記事では、マルチエージェントの要となる「振り分け(ルーティング)」を、7つの専門家ルートの定義・50件の評価データ・混同行列による精度分析まで一貫して解説します。ラベル設計から改善サイクルまで、再現可能な形で整理しました。

この記事の前提と使い方

本記事は、AIエージェントの4設計要素(TMPE)を前提知識とし、複数の専門家エージェントへ問い合わせを振り分ける設計パターンを扱います。

使い方: まず「ルーティングとは何か」の全体像を掴み、7つのルート定義を参照して自社の振り分け設計に応用してください。50件データと混同行列のセクションは、評価・改善の具体的な進め方として活用できます。

対象読者と前提

本記事はビジネスサイドの方を主な読者として想定しています。技術内容は正確に記述しますが、ソースコードやJSON・スクリプトは掲載しません。「何ができるか」「なぜそうするか」を中心に、図解・表・箇条書きで表現しています。

図1: 本記事の全体構成マインドマップ

なぜ「振り分け」がマルチエージェントの要なのか

マルチエージェントシステムでは、各専門家(サブエージェント)が「専用のプロンプト」「専用のツール」「専用の評価基準」を持っています。問い合わせがどの専門家に届くかで、回答の質・コスト・安全性がすべて変わります。

ルーティング設計とは、次の4つを同時に最適化する分類問題として捉えることです。

最適化する軸ルーティングが良いときルーティングが悪いとき
回答品質専門家の知識・ツールが活き、的確に回答畑違いの専門家が無理に回答、品質低下
コスト・速度簡単な問い合わせは軽いルートで高速処理全件を高コストモデルに流し、無駄が発生
安全性法務・リスク系の問い合わせを確実に捕捉法務案件が技術チームに流れ、リスク見逃し
改善しやすさ誤りの傾向が可視化され、改善が回るどこで間違えたか分からず、改善が止まる

ルーティング=分類問題

ルーティングを「分類問題」として定義すると、正解ラベル・予測ラベル・混同行列という評価の道具がそのまま使えます。これが本記事で混同行列まで出す理由です。


ルーティングの4つの型

実務では「何を選ぶか」によって、ルーティングは4つの型に分解できます。

型の分類

何を選ぶか具体例主なOSS・サービス
意図分類(Intent Routing)質問の種類→担当専門家「技術の質問か、法務の質問か」LangChain, LlamaIndex, Haystack
ツール選択(Tool Routing)使うツール・関数「検索ツールか、計算ツールか」OpenAI Function Calling, vLLM
専門家選択(Agent Routing)担当するサブエージェント「技術エージェントか、法務エージェントか」LangGraph(Command/Send)
モデル選択(Model Routing)使うLLMモデル「高性能モデルか、軽量モデルか」RouteLLM, LiteLLM

型を意識するメリット

この分解を意識すると、混同行列を作るときに「何を選ぶ分類問題か」が明確になり、改善施策(階層化、閾値調整、再ルーティング)の打ち手が具体的になります。

型ごとの特徴

  • 意図分類型: 問い合わせの「目的」で振り分ける。最も直感的で、本記事のメインテーマ
  • ツール選択型: LLMが「どの関数を呼ぶか」を判断する。構造化出力(JSON形式の指示)で精度を上げる
  • 専門家選択型: 単一の専門家に渡す場合と、複数の専門家へ同時に渡す(ファンアウト)場合がある
  • モデル選択型: 簡単な質問は軽量モデル、難しい質問は高性能モデルへ。コスト最適化が主目的

MoE(Mixture-of-Experts)との関係

LLMモデルの内部にも「ルーター」は存在します。Mixtral等のMoE(Mixture-of-Experts)モデルでは、入力トークンごとにどの専門家ブロックを通すかを決める「ゲーティング」が働いています。アプリ層のルーティング設計と着眼点が似ており、負荷分散、専門化、誤ルーティングのコストという観点を借りることができます。


7つの専門家ルートの定義

ここからが本記事の核心です。問い合わせを振り分ける先として、7つのルートを定義します。

ルート定義の3原則

ルートを設計するときに守るべき原則は以下の3つです。

  1. ラベルが互いに排他的(原則として1つの問い合わせは1つのルートへ)
  2. 境界ケースを明文化する(曖昧な問い合わせの判断基準を事前に決める)
  3. TRIAGE(安全弁)を必ず持つ(判断できないものを安全に受け止める先がある)

ルート定義表

ルートID専門家名このルートに送る条件期待する成果物境界・除外ルール
TECH技術実装実装・設計・デバッグ・プロンプト設計など「作る/直す」が中心設計案、手順、設定例、切り分けガイド"調査してまとめる"が主目的ならRESEARCH。数値検証が中心ならDATA
DATAデータ分析指標設計、集計、統計、実験(A/B)、評価指標計算など「測る/検証する」が中心分析手順、数式、集計結果、ダッシュボード要件意思決定の方針が主ならBUSINESS。データがなく前提不明ならTRIAGE
RESEARCH調査・要約先行研究、一次情報、比較調査、トレンド整理など「調べて整理」が中心文献整理、比較軸、要点サマリ、論点マップ文章の体裁調整が主ならWRITING。法務判断が中心ならLEGAL
WRITING文章作成・編集校正、翻訳、メール・社内文書のドラフトなど「書く/整える」が中心文章案、トーン調整、構成案、テンプレート"正しさの調査"が主ならRESEARCH。規程・契約のレビューが主ならLEGAL
BUSINESS戦略・企画価格、収益、OKR/KPI、施策優先度、ロードマップなど「意思決定・企画」が中心施策案、比較表、意思決定フレーム、KPI案定量検証が中心ならDATA。規制・契約リスクが中心ならLEGAL
LEGAL法務・リスク個人情報、著作権、契約条項、監査、セキュリティなど「リスク・準拠」が中心(一般論)論点整理、チェックリスト、レビュー観点個別の法律助言は扱わず一般論に留める。前提不足ならTRIAGEへ
TRIAGEトリアージ目的・制約が不足、複数ルートにまたがる、または雑談・曖昧な指示追加質問、要件の再定義、再ルーティング"いきなり回答"よりも前提固めを優先。必要に応じて複数専門家へ展開

なぜ「成果物」で切るのか

ルートを「話題」ではなく「成果物(何を出すか)」で定義するのが実務のポイントです。たとえば「RAG」という話題は TECH にも RESEARCH にも該当しますが、「設計案を出す」なら TECH、「論文を整理する」なら RESEARCH と、成果物で明確に分かれます。LLMの分類精度も上がりやすくなります。

代表的な境界ケースの判断基準

境界ケースは 「主目的」「成果物」「失敗コスト」 の3軸で判断すると、運用中にブレにくくなります。

混同しやすいペア判断基準
RESEARCH vs WRITING一次情報を集めて論点を整理 → RESEARCH。既にあるメモを読み物として整形 → WRITING
BUSINESS vs DATA定量分析が主で成果物がSQL・統計 → DATA。意思決定が主で成果物が提案書 → BUSINESS
TECH vs RESEARCH「RAGの設計案を出して」→ TECH。「RAGの評価手法を調べて」→ RESEARCH
WRITING vs LEGAL社内規程のドラフト作成 → WRITING。契約条項の法的リスク整理 → LEGAL
全般 vs TRIAGE目的が複合的、または前提不足で判断できない → TRIAGE

LEGALの特別扱い

法務・リスク系は誤ルーティングのコスト(見逃し)が極めて高いルートです。「個人情報」「著作権」「契約」「免責」「監査」などのキーワードが含まれる場合は、他の条件より優先してLEGALに振り分けるルール(ガードレール)を設けることが推奨されます。


ルーティングフローの設計

ルーティングは「一発で当てる」のではなく、安い判定から高い判定へ段階的に進め、判断できないときの逃がし先(fallback)を必ず用意するのが実務の鉄則です。

図2: 推奨ルーティングフロー — 段階判定+fallback設計

3段階の判定プロセス

段階判定方法コスト精度役割
第1段階ルールベース(キーワード・正規表現)極低高(狭い範囲)LEGALやWRITINGなど、確実に拾える定型を先に分離
第2段階セマンティック判定(意味の近さ)中〜高問い合わせの意味を各ルートの説明文と照合し、最も近いルートを選択
第3段階LLM判定(理由付き分類)第2段階で判断がつかない場合に、LLMが理由と確信度を付けて分類

確信度(Confidence)とfallbackの設計

確信度は「当てにいく」ためではなく、「危ないときに止まる」ために使います。

確信度の範囲動作設計意図
高(0.80以上)自動でルーティング確定明確な問い合わせを高速処理
中(0.60〜0.80)上位2候補を提示し、再判定または人手確認境界ケースの誤りを防ぐ
低(0.60未満)TRIAGEへ送る(追加質問 or ファンアウト)曖昧な入力の安全な着地先を確保

LEGALは閾値を下げる

法務・安全系のルートは、取りこぼすリスクが高いため確信度の閾値を下げて運用します。「見逃すくらいなら、過剰に拾う」方が安全です。

再ルーティングの仕組み

専門家が回答を作成する途中で「この問い合わせは自分の担当ではない」と判断した場合に、ルーターへ差し戻す仕組みも重要です。これにより、ルーターの初期判断が間違っていても、最終回答の品質を保てます。


50件の評価データセット

なぜ50件から始めるのか

大規模なデータセットを用意する前に、まず50件の小規模データで「最初の混同行列を回す」ことが重要です。目的は3つあります。

  1. 誤ルーティングの典型パターンを可視化する
  2. ラベル定義の曖昧さを早期に発見する
  3. 改善施策の効果を定量的に確認できるベースラインを作る

データ作成の手順

ステップやることポイント
1ラベル定義を先に固定前セクションの定義表を「判定基準」として文章化
2各ルートにつき6〜8件、合計50件の問い合わせを作成偏りが大きいと混同行列が読みにくくなる
3境界ケースを意図的に混ぜるRAG評価、規程ドラフト、収益試算など複数ルートに跨る例
4ラベル付けルールを決める原則はシングルラベル(最も重要な主目的を1つ選ぶ)
5可能なら2名で独立にラベル付け不一致箇所=境界ケースとして定義表にフィードバック

シングルラベルの原則

1つの問い合わせに1つのルートを割り当てるのが原則です。複数の目的が同列に並ぶ場合はTRIAGE(追加質問・分解)に分類します。これにより混同行列がクリーンに出ます。

50件の一覧

以下が評価用の50件データセットです。各ルート6〜8件で構成し、境界ケースを意図的に含めています。

TECH(技術実装)— 8件

#問い合わせ正解判断理由
1社内のWeb APIでタイムアウトが頻発しています。原因切り分けとリトライ設計を教えて。TECH実装/運用の切り分け手順と設計が主目的
2認可連携でリダイレクトURI不一致エラーが出る。設定のチェックポイントは?TECH設定・デバッグの実務手順
3コンテナ基盤でプロセスが再起動ループになる。ログの見方と典型原因は?TECH障害調査/デバッグ
4RAGのインデックス更新を日次バッチにしたい。アーキテクチャ案を出して。TECHシステム設計が主(調査ではない)
5Webクロール/スクレイピングの実装方針と対象サイトの利用規約・robots対応の注意点は?TECH実装方針中心(法務判断は一般論で補助)
6社内ツールのレスポンスが遅い。APMなしでボトルネックを特定する手順は?TECHパフォーマンス調査手順
7RDBの接続数が枯渇する。コネクションプールの設計・設定例は?TECH実装/設定が主目的
8LLMのツール呼び出しでJSONが壊れる。構造化出力のプロンプト改善案は?TECH構造化出力/プロンプト設計(実装寄り)

DATA(データ分析)— 7件

#問い合わせ正解判断理由
9直近1週間の問い合わせログからカテゴリ別件数と増減率を出して。DATA集計・指標算出
10A/Bテストの結果を見て有意差があるか判断したい。手順と注意点は?DATA統計的検定・解釈
11売上データの外れ値を検出して要因を推定したい。分析アプローチは?DATAデータ分析手法の選択
12LTVとCACを計算するためのSQLを作って。テーブル定義は仮でOK。DATA算出ロジック
13混同行列からmacro-F1とweighted-F1を計算する例を示して。DATA評価指標の計算が主
14ユーザー行動データでセグメント分け(クラスタリング)する手順を教えて。DATA分析プロセス
15ダッシュボードのKPIが日によってブレる。集計ロジックの検証観点は?DATA集計検証・データ品質

RESEARCH(調査・要約)— 8件

#問い合わせ正解判断理由
162025年以降の日本の個人情報保護(改正動向)を要点整理して。RESEARCH先行情報を調べて整理
17Mixture-of-Expertsの最近の研究トレンドを論文ベースで整理して。RESEARCH論文調査・整理
18競合3社の製品ポジショニングを比較し、差別化軸を提案して。RESEARCH比較調査→論点整理
19RAG評価のベストプラクティスを一次情報中心にまとめて。RESEARCH一次情報中心の整理
20生成AIの社内導入事例(日本企業中心)を調べて要約して。RESEARCH事例調査が主目的
21AIエージェントの安全性(ガードレール)に関する主要論点を整理して。RESEARCH論点整理(調査)
22録音→文字起こし→要約までの議事録機能の市場動向を調査して。RESEARCH市場/動向調査
23LLMルーティング(モデル選択)手法を論文とOSSで比較して。RESEARCH論文+OSSの比較整理

WRITING(文章作成・編集)— 7件

#問い合わせ正解判断理由
24取引先への謝罪メールを丁寧語で作って(200字程度)。WRITING文面生成(トーン指定)
25この文章を読みやすく校正して:「本件、至急対応をお願い致します。」WRITING校正が主目的
26英語の短いプレスリリースを日本語に翻訳して。文体はフォーマルで。WRITING翻訳・文体調整
27技術ブログの導入文を3パターン提案して。テーマは「RAGの評価」。WRITING文章の導入案(調査ではない)
28箇条書きメモを経営向け1枚サマリに整形して。WRITING整形・要約(文書化)
29採用面接の質問リストを職種別に作って。WRITINGリスト/テンプレ作成
30社内規程案をドラフトして。リモートワーク手当の扱いを明確化したい。WRITINGドラフト作成(法務レビューは別)

BUSINESS(戦略・企画)— 7件

#問い合わせ正解判断理由
31新規SaaSの価格体系を設計したい。3案とメリデメを出して。BUSINESS価格戦略・意思決定
32来期のOKRを作りたい。会社目標から部門OKRへブレイクダウンして。BUSINESSOKR設計
33既存顧客の解約率を下げる施策を優先度つきで提案して。BUSINESS施策設計と優先度
34生成AI機能を有料プランに組み込む場合の収益影響を試算したい。BUSINESS意思決定のための試算設計
35プロダクトの北極星指標を定義したい。候補を比較して。BUSINESSKPI/指標の意思決定
36サポート体制(L1/L2/L3)の役割分担とSLA案を作って。BUSINESS組織/運用設計
37パートナー戦略を作る。紹介制度の設計ポイントは?BUSINESS販路/制度設計

LEGAL(法務・リスク)— 6件

#問い合わせ正解判断理由
38ユーザーの個人データを学習に使う場合の同意文言の注意点は?LEGALリスク/同意の論点(一般論)
39著作権的に、Web記事を要約して社内共有するのは問題ある?一般論で。LEGAL著作権の論点(一般論)
40NDAの「秘密情報の例外」条項が弱い気がする。典型例を教えて。LEGAL契約条項の観点整理
41情報セキュリティ監査でよく聞かれる質問項目を列挙して。LEGALセキュリティ/監査観点
42海外ベンダーにデータを預ける。委託先管理の観点(日本法)を整理して。LEGAL委託先管理(一般論)
43AIの出力に誤りがあって損害が出た場合、免責条項はどう設計すべき?LEGAL責任/免責の論点整理

TRIAGE(トリアージ)— 7件

#問い合わせ正解判断理由
44「それ」って具体的に何を指してる?直前の文脈が曖昧。追加質問して。TRIAGE情報不足→確認が先
45とにかく早く結論だけ教えて。前提はあとで説明する。TRIAGE前提不明・再質問が先
46CRMツールの比較をしたいが、用途がまだ決めきれてない。まず何を決めるべき?TRIAGE要件定義が先(比較は後)
47雑談:最近おすすめの本ある?ビジネスでも小説でも。TRIAGE雑談/探索的
48この仕様で良いかレビューして:要件が箇条書きで散らばってる。TRIAGE目的・制約の整理が必要
49請求が二重計上っぽいけど、どこに問い合わせればいい?TRIAGE問い合わせ先/状況確認が先
50研究も実装も必要:LLMルーターを作りたい。まず何から?TRIAGE複合目的→分解/再ルーティング
Loading chart...

混同行列による評価

評価パイプライン

ルーターの品質を測る流れは、以下の6ステップで構成されます。

図4: 評価パイプライン — ラベル定義から改善施策まで

混同行列とは

混同行列は「正解のルート(行)× ルーターの予測(列)」を表にしたものです。対角線上(左上→右下)の数字が正解数、対角線から外れた数字が誤分類です。どのルート同士が混同されやすいかが一目で分かります。

仮想実行例:router_v0 の結果

50件のデータに対してルーター(router_v0)を実行した仮想結果です。一部を意図的に誤分類させ、混同行列の読み方を解説します。

混同行列(件数)

行が「正解ルート」、列が「ルーターの予測」です。

正解 \ 予測TECHDATARESEARCHWRITINGBUSINESSLEGALTRIAGE
TECH6011000
DATA0610000
RESEARCH0070100
WRITING0015010
BUSINESS0100600
LEGAL0010050
TRIAGE1000105
全体正解率: 40/50 = 80%

混同行列の読み方

  • 対角線(太字): 正しく振り分けられた件数
  • 行方向の合計: そのルートの全件数(Support)
  • 行の中で対角線以外: そのルートが他に「流出」した数(Recallに影響)
  • 列の中で対角線以外: 他のルートから「流入」した数(Precisionに影響)

精度指標(ルート別)

ルートPrecision(適合率)Recall(再現率)F1スコア件数
TECH0.8570.7500.8008
DATA0.8570.8570.8577
RESEARCH0.6360.8750.7378
WRITING0.8330.7140.7697
BUSINESS0.7500.8570.8007
LEGAL0.8330.8330.8336
TRIAGE1.0000.7140.8337
全体正解率0.80050
Macro-F10.80450
Weighted-F10.80250
Loading chart...

指標の読み方ガイド

指標意味ビジネス上の解釈
Precision(適合率)「このルートに送った」もののうち、本当にそこが正解だった割合低い=他のルートの問い合わせが混入している(専門家の負荷増)
Recall(再現率)本来このルートに送るべきもののうち、実際に送れた割合低い=本来の問い合わせが別ルートに流出している(取りこぼし)
F1スコアPrecisionとRecallの調和平均。バランスの良さを示す全体的な振り分け品質の目安
Macro-F1全ルートのF1を単純平均件数の少ないルートも平等に評価
Weighted-F1件数で重み付けした平均実際の問い合わせ分布を反映した評価

誤ルーティングの分析と改善

混同行列から読み取れる3つの問題

上の混同行列から、典型的な誤りパターンが3つ浮かび上がります。

問題1: RESEARCHへの流入過多(Precision 0.636)

RESEARCH列に他ルートからの流入(TECH→RESEARCH、DATA→RESEARCH、WRITING→RESEARCH、LEGAL→RESEARCH)が集中しています。「調べる」「整理する」「まとめる」といった表現が含まれると、本来の主目的(実装、文章作成、法務判断)を無視してRESEARCHに引き寄せられるパターンです。

誤ルーティング例正解予測原因
「RAGの評価手法を調べて設計案を出して」TECHRESEARCH「調べて」に引っ張られ、成果物(設計案)を見落とし
「規程の論点を整理して」LEGALRESEARCH「整理」がRESEARCHの説明文と一致

改善策: ルート説明文に「成果物」を強調する。例:RESEARCHの説明に「成果物は"調査レポート・比較表"であり、設計案・法務観点は含まない」と明記。

問題2: WRITING ↔ RESEARCH の混同

文章を「書く」のか「調べる」のかが曖昧な問い合わせで混同が発生します。特に「要約」は両方に該当しうるため、判断基準を厳密にする必要があります。

改善策: 「入力が既に手元にある → WRITING」「入力を外部から集める必要がある → RESEARCH」という判断基準を追加。

問題3: TRIAGEの取りこぼし(Recall 0.714)

本来はTRIAGE(追加質問が必要)なのに、TECHやBUSINESSに押し込まれるケースです。ルーターが「とりあえず近いルートに入れる」動作をしており、「判断を保留する」選択肢を十分に活用できていません。

改善策: 確信度の閾値を調整し、低確信度の問い合わせを積極的にTRIAGEへ逃がす。

Loading chart...

改善の3本柱

改善施策内容効果コスト
階層分類まず「LEGAL/非LEGAL」「TRIAGE/非TRIAGE」を粗く分離し、その後に細分類高リスクの見逃しを大幅に削減
閾値調整確信度の閾値を調整し、曖昧な入力をTRIAGEへ誘導誤ルーティングの安全な着地先を確保
再ルーティング専門家が「担当外」と判断した場合にルーターへ差し戻す初期判断の誤りを後段で回復

運用モニタリングと改善サイクル

監視すべき6つの指標

ルーティングの品質を維持するために、以下の指標を定常的に監視します。

指標見るもの異常の兆候
ルート分布各ルートへの振り分け割合急変はトレンド変化 or ルーター異常の兆候
Fallback率(TRIAGE率)TRIAGEへ流れる割合高すぎる=過度に保守的、低すぎる=誤ルーティング増の懸念
平均解決時間問い合わせ受付〜最終回答の時間特定ルートの解決時間悪化=ルーティングミスの可能性
再ルーティング回数専門家からルーターへの差し戻し回数増加=ルーターの精度劣化
高リスク率(LEGAL関連)LEGAL判定の割合と内訳急減=見逃しの懸念、急増=誤検知の懸念
人手介入率人間が判断をオーバーライドした割合自動化品質の客観的な評価

継続的改善ワークフロー

図7: 週次改善サイクル — 混同ペアの抽出から回帰テストまで

週次改善の5ステップ

ステップやること所要時間の目安
1主要な混同ペアを抽出(例:RESEARCH ← TECH/WRITING/LEGAL)15分
2誤ルーティング10件をレビューし、原因を分類30分
3原因に応じた改善を適用(ラベル定義修正 / ルール追加 / プロンプト修正)30分
450件ベンチマーク+ランダムサンプルで回帰テスト15分
5ルーターバージョンを更新し、段階的にリリース15分

改善が効く順番

最も効果が高いのは ラベル定義・境界ケースの追記(最優先で効く)、次に ルール追加(高精度・低コスト)、最後に LLMプロンプトの修正(精度向上だがコスト高)です。安いものから試すのが鉄則です。

ログ保存の設計ポイント

ルーティングのログは「後から再現・分析できること」が最も重要です。

保存すべき情報目的
問い合わせの内容(マスキング済み)誤ルーティングの再現・分析
各段階の判定結果と確信度どの段階で誤ったかの特定
ルーターバージョン・プロンプトバージョン改善前後の比較
最終ルートと再ルーティングの有無品質トレンドの追跡
処理時間(段階別)コスト最適化の判断材料

個人情報の取り扱い

問い合わせログには個人情報が含まれる可能性があります。保存時はマスキング・ハッシュ化し、保持期間とアクセス制御を事前に設計してください。


主要OSSとサービスの整理

ルーティングに関連する主要なOSS・サービスを、型ごとに整理します。

ツール名特徴
ルール/条件分岐Haystack ConditionalRouter条件式でパイプラインを分岐。ルールベースの土台
セマンティック(意味)LangChain EmbeddingRouterChain埋め込みベクトルの近さでルーティング。LLM呼び出し不要
セマンティック(意味)Semantic Routerベクトル空間で高速に判定するOSS。ツール/エージェントの前段に配置
LLM分類LlamaIndex Router/Selector候補のメタデータからLLMが選択。QueryEngineと統合可能
LLM分類LangChain RunnableBranch条件によりRunnableを切り替える汎用分岐部品
ツール選択OpenAI Function Callingモデルがツールを選びJSON形式で引数を返す。tool_choiceで制御可能
モデル選択RouteLLM強/弱モデルの振り分け。コスト最適化。学術論文と実装の両方を提供
負荷分散LiteLLM複数モデル/デプロイへの重み付きルーティング、フォールバック

まとめ:ルーティング設計の5つのポイント

#ポイント要点
1ルートは「成果物」で切る話題ではなく「何を出すか」で定義すると、分類精度と運用の安定性が上がる
2TRIAGEを必ず用意する判断できない問い合わせの安全な着地先がないと、誤ルーティングが増える
3段階的に判定するルール→セマンティック→LLMの順に、安い判定から高い判定へ進める
450件で最初の混同行列を回す大規模データの前に、小規模で誤りの傾向を掴み、ラベル定義を鍛える
5改善はラベル定義からプロンプト修正より先に、ラベル定義と境界ケースの明文化が最も効果が高い

FAQ

Q: ルートは何個が適切ですか?

5〜7個が実務の目安です。少なすぎると1つのルートが広くなりすぎて専門性が下がり、多すぎるとルーター(=分類器)の精度が落ちます。まず5〜7個で始め、混同行列を見ながら「分割すべきか」「統合すべきか」を判断してください。

Q: 実ログがまだない段階でも始められますか?

はい。本記事の50件のように、想定される問い合わせをテンプレートで作成し、正解ラベルを手動で付けることで評価を始められます。実ログが溜まったら、匿名化して差し替えてください。

Q: 精度はどこまで上げるべきですか?

「誤ルーティングのコスト」で判断します。LEGALの見逃しは高コストなので高精度を求めますが、TECH↔RESEARCHの混同は比較的低コスト(再ルーティングで回復可能)です。全ルート一律に高精度を目指すより、高リスクルートの精度を優先してください。

Q: ルールベースとLLMベース、どちらから始めるべきですか?

ルールベースからです。LEGALのキーワードマッチやWRITINGの定型パターンなど、高精度で拾える部分をまず分離し、残りをLLMに渡すハイブリッド構成が推奨です。安い判定から始めることで、コストと精度のバランスが取りやすくなります。

Q: マルチラベル(1つの問い合わせに複数ルート)は必要ですか?

最初はシングルラベルで十分です。複数ルートにまたがる場合はTRIAGEに分類し、TRIAGEが「追加質問して分解する」または「複数専門家へファンアウトする」設計にすれば、シングルラベルのまま対応できます。マルチラベルは評価設計が複雑になるため、運用が安定してから検討してください。

Agentic Base

この記事の著者

Agentic Base 編集部

AIエージェントとWebメディア運用の知見を活かし、実践的なナレッジを発信しています。

関連記事

最小チームはこれ:Plan / Execute / Review の3ロール設計
2026.02.21技術・設計・開発38 min read

最小チームはこれ:Plan / Execute / Review の3ロール設計

マルチエージェントの最小構成「Plan(計画)/ Execute(実行)/ Review(評価・修正)」の3ロールを、役割カード(目的・入力・出力・禁止)で定義。同一タスクの単体 vs 3ロール比較と内部ログ実演で、制約遵守能力の差を可視化する実務ガイド。

記事を読む
AIエージェントチーム設計ガイド【2026年版】マルチエージェント構築・監視・ガードレール実装
2026.02.20技術・設計・開発17 min read

AIエージェントチーム設計ガイド【2026年版】マルチエージェント構築・監視・ガードレール実装

AIエージェントチーム設計を2026年の実践知で解説。マルチエージェントアーキテクチャ、MCPによるコンテキスト管理、オブザーバビリティ、HITLからHOTLへの移行、失敗パターンと対策を図解で整理。

記事を読む
RAGとは何か:仕組み・MCP連携・Agentic RAGまで2026年の全体像を一気に理解する
2026.03.14技術・設計・開発25 min read

RAGとは何か:仕組み・MCP連携・Agentic RAGまで2026年の全体像を一気に理解する

1Mトークン時代にRAGは不要になったのか?コスト1,250倍の差、Lost in the Middle問題、Agentic RAGへの進化、MCP連携まで、2026年のRAGの位置づけを判断フレームワーク付きで解説。

記事を読む
MCP サーバー設計入門:AIエージェントに外部ツールを安全につなぐ方法
2026.03.12技術・設計・開発41 min read

MCP サーバー設計入門:AIエージェントに外部ツールを安全につなぐ方法

MCPとは何か、従来APIとの違い、設計判断の基準からセキュリティ対策まで、ビジネスサイド・初学者にもわかる形で解説。10,000以上のサーバーが稼働するMCPエコシステムの全体像と、導入時に押さえるべき設計原則を体系化します。

記事を読む