ルーティング設計：問い合わせを専門家に振り分ける（混同行列まで）

問い合わせが「正しい専門家」に届かなければ、どんなに優秀なAIでも的外れな回答を返します。 本記事では、マルチエージェントの要となる「振り分け（ルーティング）」を、7つの専門家ルートの定義・50件の評価データ・混同行列による精度分析まで一貫して解説します。ラベル設計から改善サイクルまで、再現可能な形で整理しました。

この記事の前提と使い方

本記事は、AIエージェントの4設計要素（TMPE）を前提知識とし、複数の専門家エージェントへ問い合わせを振り分ける設計パターンを扱います。

使い方: まず「ルーティングとは何か」の全体像を掴み、7つのルート定義を参照して自社の振り分け設計に応用してください。50件データと混同行列のセクションは、評価・改善の具体的な進め方として活用できます。

対象読者と前提

本記事はビジネスサイドの方を主な読者として想定しています。技術内容は正確に記述しますが、ソースコードやJSON・スクリプトは掲載しません。「何ができるか」「なぜそうするか」を中心に、図解・表・箇条書きで表現しています。

図1: 本記事の全体構成マインドマップ

なぜ「振り分け」がマルチエージェントの要なのか

マルチエージェントシステムでは、各専門家（サブエージェント）が「専用のプロンプト」「専用のツール」「専用の評価基準」を持っています。問い合わせがどの専門家に届くかで、回答の質・コスト・安全性がすべて変わります。

ルーティング設計とは、次の4つを同時に最適化する分類問題として捉えることです。

最適化する軸	ルーティングが良いとき	ルーティングが悪いとき
回答品質	専門家の知識・ツールが活き、的確に回答	畑違いの専門家が無理に回答、品質低下
コスト・速度	簡単な問い合わせは軽いルートで高速処理	全件を高コストモデルに流し、無駄が発生
安全性	法務・リスク系の問い合わせを確実に捕捉	法務案件が技術チームに流れ、リスク見逃し
改善しやすさ	誤りの傾向が可視化され、改善が回る	どこで間違えたか分からず、改善が止まる

ルーティング＝分類問題

ルーティングを「分類問題」として定義すると、正解ラベル・予測ラベル・混同行列という評価の道具がそのまま使えます。これが本記事で混同行列まで出す理由です。

ルーティングの4つの型

実務では「何を選ぶか」によって、ルーティングは4つの型に分解できます。

型の分類

型	何を選ぶか	具体例	主なOSS・サービス
意図分類（Intent Routing）	質問の種類→担当専門家	「技術の質問か、法務の質問か」	LangChain, LlamaIndex, Haystack
ツール選択（Tool Routing）	使うツール・関数	「検索ツールか、計算ツールか」	OpenAI Function Calling, vLLM
専門家選択（Agent Routing）	担当するサブエージェント	「技術エージェントか、法務エージェントか」	LangGraph（Command/Send）
モデル選択（Model Routing）	使うLLMモデル	「高性能モデルか、軽量モデルか」	RouteLLM, LiteLLM

型を意識するメリット

この分解を意識すると、混同行列を作るときに「何を選ぶ分類問題か」が明確になり、改善施策（階層化、閾値調整、再ルーティング）の打ち手が具体的になります。

型ごとの特徴

意図分類型: 問い合わせの「目的」で振り分ける。最も直感的で、本記事のメインテーマ
ツール選択型: LLMが「どの関数を呼ぶか」を判断する。構造化出力（JSON形式の指示）で精度を上げる
専門家選択型: 単一の専門家に渡す場合と、複数の専門家へ同時に渡す（ファンアウト）場合がある
モデル選択型: 簡単な質問は軽量モデル、難しい質問は高性能モデルへ。コスト最適化が主目的

MoE（Mixture-of-Experts）との関係

LLMモデルの内部にも「ルーター」は存在します。Mixtral等のMoE（Mixture-of-Experts）モデルでは、入力トークンごとにどの専門家ブロックを通すかを決める「ゲーティング」が働いています。アプリ層のルーティング設計と着眼点が似ており、負荷分散、専門化、誤ルーティングのコストという観点を借りることができます。

7つの専門家ルートの定義

ここからが本記事の核心です。問い合わせを振り分ける先として、7つのルートを定義します。

ルート定義の3原則

ルートを設計するときに守るべき原則は以下の3つです。

ラベルが互いに排他的（原則として1つの問い合わせは1つのルートへ）
境界ケースを明文化する（曖昧な問い合わせの判断基準を事前に決める）
TRIAGE（安全弁）を必ず持つ（判断できないものを安全に受け止める先がある）

ルート定義表

ルートID	専門家名	このルートに送る条件	期待する成果物	境界・除外ルール
TECH	技術実装	実装・設計・デバッグ・プロンプト設計など「作る/直す」が中心	設計案、手順、設定例、切り分けガイド	"調査してまとめる"が主目的ならRESEARCH。数値検証が中心ならDATA
DATA	データ分析	指標設計、集計、統計、実験（A/B）、評価指標計算など「測る/検証する」が中心	分析手順、数式、集計結果、ダッシュボード要件	意思決定の方針が主ならBUSINESS。データがなく前提不明ならTRIAGE
RESEARCH	調査・要約	先行研究、一次情報、比較調査、トレンド整理など「調べて整理」が中心	文献整理、比較軸、要点サマリ、論点マップ	文章の体裁調整が主ならWRITING。法務判断が中心ならLEGAL
WRITING	文章作成・編集	校正、翻訳、メール・社内文書のドラフトなど「書く/整える」が中心	文章案、トーン調整、構成案、テンプレート	"正しさの調査"が主ならRESEARCH。規程・契約のレビューが主ならLEGAL
BUSINESS	戦略・企画	価格、収益、OKR/KPI、施策優先度、ロードマップなど「意思決定・企画」が中心	施策案、比較表、意思決定フレーム、KPI案	定量検証が中心ならDATA。規制・契約リスクが中心ならLEGAL
LEGAL	法務・リスク	個人情報、著作権、契約条項、監査、セキュリティなど「リスク・準拠」が中心（一般論）	論点整理、チェックリスト、レビュー観点	個別の法律助言は扱わず一般論に留める。前提不足ならTRIAGEへ
TRIAGE	トリアージ	目的・制約が不足、複数ルートにまたがる、または雑談・曖昧な指示	追加質問、要件の再定義、再ルーティング	"いきなり回答"よりも前提固めを優先。必要に応じて複数専門家へ展開

なぜ「成果物」で切るのか

ルートを「話題」ではなく「成果物（何を出すか）」で定義するのが実務のポイントです。たとえば「RAG」という話題は TECH にも RESEARCH にも該当しますが、「設計案を出す」なら TECH、「論文を整理する」なら RESEARCH と、成果物で明確に分かれます。LLMの分類精度も上がりやすくなります。

代表的な境界ケースの判断基準

境界ケースは 「主目的」「成果物」「失敗コスト」 の3軸で判断すると、運用中にブレにくくなります。

混同しやすいペア	判断基準
RESEARCH vs WRITING	一次情報を集めて論点を整理 → RESEARCH。既にあるメモを読み物として整形 → WRITING
BUSINESS vs DATA	定量分析が主で成果物がSQL・統計 → DATA。意思決定が主で成果物が提案書 → BUSINESS
TECH vs RESEARCH	「RAGの設計案を出して」→ TECH。「RAGの評価手法を調べて」→ RESEARCH
WRITING vs LEGAL	社内規程のドラフト作成 → WRITING。契約条項の法的リスク整理 → LEGAL
全般 vs TRIAGE	目的が複合的、または前提不足で判断できない → TRIAGE

LEGALの特別扱い

法務・リスク系は誤ルーティングのコスト（見逃し）が極めて高いルートです。「個人情報」「著作権」「契約」「免責」「監査」などのキーワードが含まれる場合は、他の条件より優先してLEGALに振り分けるルール（ガードレール）を設けることが推奨されます。

ルーティングフローの設計

ルーティングは「一発で当てる」のではなく、安い判定から高い判定へ段階的に進め、判断できないときの逃がし先（fallback）を必ず用意するのが実務の鉄則です。

図2: 推奨ルーティングフロー — 段階判定＋fallback設計

3段階の判定プロセス

段階	判定方法	コスト	精度	役割
第1段階	ルールベース（キーワード・正規表現）	極低	高（狭い範囲）	LEGALやWRITINGなど、確実に拾える定型を先に分離
第2段階	セマンティック判定（意味の近さ）	低	中〜高	問い合わせの意味を各ルートの説明文と照合し、最も近いルートを選択
第3段階	LLM判定（理由付き分類）	高	高	第2段階で判断がつかない場合に、LLMが理由と確信度を付けて分類

確信度（Confidence）とfallbackの設計

確信度は「当てにいく」ためではなく、「危ないときに止まる」ために使います。

確信度の範囲	動作	設計意図
高（0.80以上）	自動でルーティング確定	明確な問い合わせを高速処理
中（0.60〜0.80）	上位2候補を提示し、再判定または人手確認	境界ケースの誤りを防ぐ
低（0.60未満）	TRIAGEへ送る（追加質問 or ファンアウト）	曖昧な入力の安全な着地先を確保

LEGALは閾値を下げる

法務・安全系のルートは、取りこぼすリスクが高いため確信度の閾値を下げて運用します。「見逃すくらいなら、過剰に拾う」方が安全です。

再ルーティングの仕組み

専門家が回答を作成する途中で「この問い合わせは自分の担当ではない」と判断した場合に、ルーターへ差し戻す仕組みも重要です。これにより、ルーターの初期判断が間違っていても、最終回答の品質を保てます。

50件の評価データセット

なぜ50件から始めるのか

大規模なデータセットを用意する前に、まず50件の小規模データで「最初の混同行列を回す」ことが重要です。目的は3つあります。

誤ルーティングの典型パターンを可視化する
ラベル定義の曖昧さを早期に発見する
改善施策の効果を定量的に確認できるベースラインを作る

データ作成の手順

ステップ	やること	ポイント
1	ラベル定義を先に固定	前セクションの定義表を「判定基準」として文章化
2	各ルートにつき6〜8件、合計50件の問い合わせを作成	偏りが大きいと混同行列が読みにくくなる
3	境界ケースを意図的に混ぜる	RAG評価、規程ドラフト、収益試算など複数ルートに跨る例
4	ラベル付けルールを決める	原則はシングルラベル（最も重要な主目的を1つ選ぶ）
5	可能なら2名で独立にラベル付け	不一致箇所＝境界ケースとして定義表にフィードバック

シングルラベルの原則

1つの問い合わせに1つのルートを割り当てるのが原則です。複数の目的が同列に並ぶ場合はTRIAGE（追加質問・分解）に分類します。これにより混同行列がクリーンに出ます。

50件の一覧

以下が評価用の50件データセットです。各ルート6〜8件で構成し、境界ケースを意図的に含めています。

TECH（技術実装）— 8件

#	問い合わせ	正解	判断理由
1	社内のWeb APIでタイムアウトが頻発しています。原因切り分けとリトライ設計を教えて。	TECH	実装/運用の切り分け手順と設計が主目的
2	認可連携でリダイレクトURI不一致エラーが出る。設定のチェックポイントは？	TECH	設定・デバッグの実務手順
3	コンテナ基盤でプロセスが再起動ループになる。ログの見方と典型原因は？	TECH	障害調査/デバッグ
4	RAGのインデックス更新を日次バッチにしたい。アーキテクチャ案を出して。	TECH	システム設計が主（調査ではない）
5	Webクロール/スクレイピングの実装方針と対象サイトの利用規約・robots対応の注意点は？	TECH	実装方針中心（法務判断は一般論で補助）
6	社内ツールのレスポンスが遅い。APMなしでボトルネックを特定する手順は？	TECH	パフォーマンス調査手順
7	RDBの接続数が枯渇する。コネクションプールの設計・設定例は？	TECH	実装/設定が主目的
8	LLMのツール呼び出しでJSONが壊れる。構造化出力のプロンプト改善案は？	TECH	構造化出力/プロンプト設計（実装寄り）

DATA（データ分析）— 7件

#	問い合わせ	正解	判断理由
9	直近1週間の問い合わせログからカテゴリ別件数と増減率を出して。	DATA	集計・指標算出
10	A/Bテストの結果を見て有意差があるか判断したい。手順と注意点は？	DATA	統計的検定・解釈
11	売上データの外れ値を検出して要因を推定したい。分析アプローチは？	DATA	データ分析手法の選択
12	LTVとCACを計算するためのSQLを作って。テーブル定義は仮でOK。	DATA	算出ロジック
13	混同行列からmacro-F1とweighted-F1を計算する例を示して。	DATA	評価指標の計算が主
14	ユーザー行動データでセグメント分け（クラスタリング）する手順を教えて。	DATA	分析プロセス
15	ダッシュボードのKPIが日によってブレる。集計ロジックの検証観点は？	DATA	集計検証・データ品質

RESEARCH（調査・要約）— 8件

#	問い合わせ	正解	判断理由
16	2025年以降の日本の個人情報保護（改正動向）を要点整理して。	RESEARCH	先行情報を調べて整理
17	Mixture-of-Expertsの最近の研究トレンドを論文ベースで整理して。	RESEARCH	論文調査・整理
18	競合3社の製品ポジショニングを比較し、差別化軸を提案して。	RESEARCH	比較調査→論点整理
19	RAG評価のベストプラクティスを一次情報中心にまとめて。	RESEARCH	一次情報中心の整理
20	生成AIの社内導入事例（日本企業中心）を調べて要約して。	RESEARCH	事例調査が主目的
21	AIエージェントの安全性（ガードレール）に関する主要論点を整理して。	RESEARCH	論点整理（調査）
22	録音→文字起こし→要約までの議事録機能の市場動向を調査して。	RESEARCH	市場/動向調査
23	LLMルーティング（モデル選択）手法を論文とOSSで比較して。	RESEARCH	論文＋OSSの比較整理

WRITING（文章作成・編集）— 7件

#	問い合わせ	正解	判断理由
24	取引先への謝罪メールを丁寧語で作って（200字程度）。	WRITING	文面生成（トーン指定）
25	この文章を読みやすく校正して：「本件、至急対応をお願い致します。」	WRITING	校正が主目的
26	英語の短いプレスリリースを日本語に翻訳して。文体はフォーマルで。	WRITING	翻訳・文体調整
27	技術ブログの導入文を3パターン提案して。テーマは「RAGの評価」。	WRITING	文章の導入案（調査ではない）
28	箇条書きメモを経営向け1枚サマリに整形して。	WRITING	整形・要約（文書化）
29	採用面接の質問リストを職種別に作って。	WRITING	リスト/テンプレ作成
30	社内規程案をドラフトして。リモートワーク手当の扱いを明確化したい。	WRITING	ドラフト作成（法務レビューは別）

BUSINESS（戦略・企画）— 7件

#	問い合わせ	正解	判断理由
31	新規SaaSの価格体系を設計したい。3案とメリデメを出して。	BUSINESS	価格戦略・意思決定
32	来期のOKRを作りたい。会社目標から部門OKRへブレイクダウンして。	BUSINESS	OKR設計
33	既存顧客の解約率を下げる施策を優先度つきで提案して。	BUSINESS	施策設計と優先度
34	生成AI機能を有料プランに組み込む場合の収益影響を試算したい。	BUSINESS	意思決定のための試算設計
35	プロダクトの北極星指標を定義したい。候補を比較して。	BUSINESS	KPI/指標の意思決定
36	サポート体制（L1/L2/L3）の役割分担とSLA案を作って。	BUSINESS	組織/運用設計
37	パートナー戦略を作る。紹介制度の設計ポイントは？	BUSINESS	販路/制度設計

LEGAL（法務・リスク）— 6件

#	問い合わせ	正解	判断理由
38	ユーザーの個人データを学習に使う場合の同意文言の注意点は？	LEGAL	リスク/同意の論点（一般論）
39	著作権的に、Web記事を要約して社内共有するのは問題ある？一般論で。	LEGAL	著作権の論点（一般論）
40	NDAの「秘密情報の例外」条項が弱い気がする。典型例を教えて。	LEGAL	契約条項の観点整理
41	情報セキュリティ監査でよく聞かれる質問項目を列挙して。	LEGAL	セキュリティ/監査観点
42	海外ベンダーにデータを預ける。委託先管理の観点（日本法）を整理して。	LEGAL	委託先管理（一般論）
43	AIの出力に誤りがあって損害が出た場合、免責条項はどう設計すべき？	LEGAL	責任/免責の論点整理

TRIAGE（トリアージ）— 7件

#	問い合わせ	正解	判断理由
44	「それ」って具体的に何を指してる？直前の文脈が曖昧。追加質問して。	TRIAGE	情報不足→確認が先
45	とにかく早く結論だけ教えて。前提はあとで説明する。	TRIAGE	前提不明・再質問が先
46	CRMツールの比較をしたいが、用途がまだ決めきれてない。まず何を決めるべき？	TRIAGE	要件定義が先（比較は後）
47	雑談：最近おすすめの本ある？ビジネスでも小説でも。	TRIAGE	雑談/探索的
48	この仕様で良いかレビューして：要件が箇条書きで散らばってる。	TRIAGE	目的・制約の整理が必要
49	請求が二重計上っぽいけど、どこに問い合わせればいい？	TRIAGE	問い合わせ先/状況確認が先
50	研究も実装も必要：LLMルーターを作りたい。まず何から？	TRIAGE	複合目的→分解/再ルーティング

Loading chart...

混同行列による評価

評価パイプライン

ルーターの品質を測る流れは、以下の6ステップで構成されます。

図4: 評価パイプライン — ラベル定義から改善施策まで

混同行列とは

混同行列は「正解のルート（行）× ルーターの予測（列）」を表にしたものです。対角線上（左上→右下）の数字が正解数、対角線から外れた数字が誤分類です。どのルート同士が混同されやすいかが一目で分かります。

仮想実行例：router_v0 の結果

50件のデータに対してルーター（router_v0）を実行した仮想結果です。一部を意図的に誤分類させ、混同行列の読み方を解説します。

混同行列（件数）

行が「正解ルート」、列が「ルーターの予測」です。

正解＼予測	TECH	DATA	RESEARCH	WRITING	BUSINESS	LEGAL	TRIAGE
TECH	6	0	1	1	0	0	0
DATA	0	6	1	0	0	0	0
RESEARCH	0	0	7	0	1	0	0
WRITING	0	0	1	5	0	1	0
BUSINESS	0	1	0	0	6	0	0
LEGAL	0	0	1	0	0	5	0
TRIAGE	1	0	0	0	1	0	5

全体正解率: 40/50 = 80%

混同行列の読み方

対角線（太字）: 正しく振り分けられた件数
行方向の合計: そのルートの全件数（Support）
行の中で対角線以外: そのルートが他に「流出」した数（Recallに影響）
列の中で対角線以外: 他のルートから「流入」した数（Precisionに影響）

精度指標（ルート別）

ルート	Precision（適合率）	Recall（再現率）	F1スコア	件数
TECH	0.857	0.750	0.800	8
DATA	0.857	0.857	0.857	7
RESEARCH	0.636	0.875	0.737	8
WRITING	0.833	0.714	0.769	7
BUSINESS	0.750	0.857	0.800	7
LEGAL	0.833	0.833	0.833	6
TRIAGE	1.000	0.714	0.833	7

全体正解率			0.800	50
Macro-F1			0.804	50
Weighted-F1			0.802	50

Loading chart...

指標の読み方ガイド

指標	意味	ビジネス上の解釈
Precision（適合率）	「このルートに送った」もののうち、本当にそこが正解だった割合	低い＝他のルートの問い合わせが混入している（専門家の負荷増）
Recall（再現率）	本来このルートに送るべきもののうち、実際に送れた割合	低い＝本来の問い合わせが別ルートに流出している（取りこぼし）
F1スコア	PrecisionとRecallの調和平均。バランスの良さを示す	全体的な振り分け品質の目安
Macro-F1	全ルートのF1を単純平均	件数の少ないルートも平等に評価
Weighted-F1	件数で重み付けした平均	実際の問い合わせ分布を反映した評価

誤ルーティングの分析と改善

混同行列から読み取れる3つの問題

上の混同行列から、典型的な誤りパターンが3つ浮かび上がります。

問題1: RESEARCHへの流入過多（Precision 0.636）

RESEARCH列に他ルートからの流入（TECH→RESEARCH、DATA→RESEARCH、WRITING→RESEARCH、LEGAL→RESEARCH）が集中しています。「調べる」「整理する」「まとめる」といった表現が含まれると、本来の主目的（実装、文章作成、法務判断）を無視してRESEARCHに引き寄せられるパターンです。

誤ルーティング例	正解	予測	原因
「RAGの評価手法を調べて設計案を出して」	TECH	RESEARCH	「調べて」に引っ張られ、成果物（設計案）を見落とし
「規程の論点を整理して」	LEGAL	RESEARCH	「整理」がRESEARCHの説明文と一致

改善策: ルート説明文に「成果物」を強調する。例：RESEARCHの説明に「成果物は"調査レポート・比較表"であり、設計案・法務観点は含まない」と明記。

問題2: WRITING ↔ RESEARCH の混同

文章を「書く」のか「調べる」のかが曖昧な問い合わせで混同が発生します。特に「要約」は両方に該当しうるため、判断基準を厳密にする必要があります。

改善策: 「入力が既に手元にある → WRITING」「入力を外部から集める必要がある → RESEARCH」という判断基準を追加。

問題3: TRIAGEの取りこぼし（Recall 0.714）

本来はTRIAGE（追加質問が必要）なのに、TECHやBUSINESSに押し込まれるケースです。ルーターが「とりあえず近いルートに入れる」動作をしており、「判断を保留する」選択肢を十分に活用できていません。

改善策: 確信度の閾値を調整し、低確信度の問い合わせを積極的にTRIAGEへ逃がす。

Loading chart...

改善の3本柱

改善施策	内容	効果	コスト
階層分類	まず「LEGAL/非LEGAL」「TRIAGE/非TRIAGE」を粗く分離し、その後に細分類	高リスクの見逃しを大幅に削減	低
閾値調整	確信度の閾値を調整し、曖昧な入力をTRIAGEへ誘導	誤ルーティングの安全な着地先を確保	低
再ルーティング	専門家が「担当外」と判断した場合にルーターへ差し戻す	初期判断の誤りを後段で回復	中

運用モニタリングと改善サイクル

監視すべき6つの指標

ルーティングの品質を維持するために、以下の指標を定常的に監視します。

指標	見るもの	異常の兆候
ルート分布	各ルートへの振り分け割合	急変はトレンド変化 or ルーター異常の兆候
Fallback率（TRIAGE率）	TRIAGEへ流れる割合	高すぎる＝過度に保守的、低すぎる＝誤ルーティング増の懸念
平均解決時間	問い合わせ受付〜最終回答の時間	特定ルートの解決時間悪化＝ルーティングミスの可能性
再ルーティング回数	専門家からルーターへの差し戻し回数	増加＝ルーターの精度劣化
高リスク率（LEGAL関連）	LEGAL判定の割合と内訳	急減＝見逃しの懸念、急増＝誤検知の懸念
人手介入率	人間が判断をオーバーライドした割合	自動化品質の客観的な評価

継続的改善ワークフロー

図7: 週次改善サイクル — 混同ペアの抽出から回帰テストまで

週次改善の5ステップ

ステップ	やること	所要時間の目安
1	主要な混同ペアを抽出（例：RESEARCH ← TECH/WRITING/LEGAL）	15分
2	誤ルーティング10件をレビューし、原因を分類	30分
3	原因に応じた改善を適用（ラベル定義修正 / ルール追加 / プロンプト修正）	30分
4	50件ベンチマーク＋ランダムサンプルで回帰テスト	15分
5	ルーターバージョンを更新し、段階的にリリース	15分

改善が効く順番

最も効果が高いのは ラベル定義・境界ケースの追記（最優先で効く）、次に ルール追加（高精度・低コスト）、最後に LLMプロンプトの修正（精度向上だがコスト高）です。安いものから試すのが鉄則です。

ログ保存の設計ポイント

ルーティングのログは「後から再現・分析できること」が最も重要です。

保存すべき情報	目的
問い合わせの内容（マスキング済み）	誤ルーティングの再現・分析
各段階の判定結果と確信度	どの段階で誤ったかの特定
ルーターバージョン・プロンプトバージョン	改善前後の比較
最終ルートと再ルーティングの有無	品質トレンドの追跡
処理時間（段階別）	コスト最適化の判断材料

個人情報の取り扱い

問い合わせログには個人情報が含まれる可能性があります。保存時はマスキング・ハッシュ化し、保持期間とアクセス制御を事前に設計してください。

主要OSSとサービスの整理

ルーティングに関連する主要なOSS・サービスを、型ごとに整理します。

型	ツール名	特徴
ルール/条件分岐	Haystack ConditionalRouter	条件式でパイプラインを分岐。ルールベースの土台
セマンティック（意味）	LangChain EmbeddingRouterChain	埋め込みベクトルの近さでルーティング。LLM呼び出し不要
セマンティック（意味）	Semantic Router	ベクトル空間で高速に判定するOSS。ツール/エージェントの前段に配置
LLM分類	LlamaIndex Router/Selector	候補のメタデータからLLMが選択。QueryEngineと統合可能
LLM分類	LangChain RunnableBranch	条件によりRunnableを切り替える汎用分岐部品
ツール選択	OpenAI Function Calling	モデルがツールを選びJSON形式で引数を返す。tool_choiceで制御可能
モデル選択	RouteLLM	強/弱モデルの振り分け。コスト最適化。学術論文と実装の両方を提供
負荷分散	LiteLLM	複数モデル/デプロイへの重み付きルーティング、フォールバック

まとめ：ルーティング設計の5つのポイント

#	ポイント	要点
1	ルートは「成果物」で切る	話題ではなく「何を出すか」で定義すると、分類精度と運用の安定性が上がる
2	TRIAGEを必ず用意する	判断できない問い合わせの安全な着地先がないと、誤ルーティングが増える
3	段階的に判定する	ルール→セマンティック→LLMの順に、安い判定から高い判定へ進める
4	50件で最初の混同行列を回す	大規模データの前に、小規模で誤りの傾向を掴み、ラベル定義を鍛える
5	改善はラベル定義から	プロンプト修正より先に、ラベル定義と境界ケースの明文化が最も効果が高い

FAQ

Q: ルートは何個が適切ですか？

5〜7個が実務の目安です。少なすぎると1つのルートが広くなりすぎて専門性が下がり、多すぎるとルーター（＝分類器）の精度が落ちます。まず5〜7個で始め、混同行列を見ながら「分割すべきか」「統合すべきか」を判断してください。

Q: 実ログがまだない段階でも始められますか？

はい。本記事の50件のように、想定される問い合わせをテンプレートで作成し、正解ラベルを手動で付けることで評価を始められます。実ログが溜まったら、匿名化して差し替えてください。

Q: 精度はどこまで上げるべきですか？

「誤ルーティングのコスト」で判断します。LEGALの見逃しは高コストなので高精度を求めますが、TECH↔RESEARCHの混同は比較的低コスト（再ルーティングで回復可能）です。全ルート一律に高精度を目指すより、高リスクルートの精度を優先してください。

Q: ルールベースとLLMベース、どちらから始めるべきですか？

ルールベースからです。LEGALのキーワードマッチやWRITINGの定型パターンなど、高精度で拾える部分をまず分離し、残りをLLMに渡すハイブリッド構成が推奨です。安い判定から始めることで、コストと精度のバランスが取りやすくなります。

Q: マルチラベル（1つの問い合わせに複数ルート）は必要ですか？

最初はシングルラベルで十分です。複数ルートにまたがる場合はTRIAGEに分類し、TRIAGEが「追加質問して分解する」または「複数専門家へファンアウトする」設計にすれば、シングルラベルのまま対応できます。マルチラベルは評価設計が複雑になるため、運用が安定してから検討してください。

この記事の著者

Agentic Base 編集部

AIエージェントとWebメディア運用の知見を活かし、実践的なナレッジを発信しています。

ルーティング設計：問い合わせを専門家に振り分ける（混同行列まで）

この記事の前提と使い方

なぜ「振り分け」がマルチエージェントの要なのか

ルーティングの4つの型

型の分類

型ごとの特徴

MoE（Mixture-of-Experts）との関係

7つの専門家ルートの定義

ルート定義の3原則

ルート定義表

代表的な境界ケースの判断基準

ルーティングフローの設計

3段階の判定プロセス

確信度（Confidence）とfallbackの設計

再ルーティングの仕組み

50件の評価データセット

なぜ50件から始めるのか

データ作成の手順

50件の一覧

TECH（技術実装）— 8件

DATA（データ分析）— 7件

RESEARCH（調査・要約）— 8件

WRITING（文章作成・編集）— 7件

BUSINESS（戦略・企画）— 7件

LEGAL（法務・リスク）— 6件

TRIAGE（トリアージ）— 7件

混同行列による評価

評価パイプライン

混同行列とは

仮想実行例：router_v0 の結果

混同行列（件数）

精度指標（ルート別）

指標の読み方ガイド

誤ルーティングの分析と改善

混同行列から読み取れる3つの問題

問題1: RESEARCHへの流入過多（Precision 0.636）

問題2: WRITING ↔ RESEARCH の混同

問題3: TRIAGEの取りこぼし（Recall 0.714）

改善の3本柱

運用モニタリングと改善サイクル

監視すべき6つの指標

継続的改善ワークフロー

週次改善の5ステップ

ログ保存の設計ポイント

主要OSSとサービスの整理

まとめ：ルーティング設計の5つのポイント

FAQ

関連記事