問い合わせが「正しい専門家」に届かなければ、どんなに優秀なAIでも的外れな回答を返します。 本記事では、マルチエージェントの要となる「振り分け(ルーティング)」を、7つの専門家ルートの定義・50件の評価データ・混同行列による精度分析まで一貫して解説します。ラベル設計から改善サイクルまで、再現可能な形で整理しました。
この記事の前提と使い方
本記事は、AIエージェントの4設計要素(TMPE)を前提知識とし、複数の専門家エージェントへ問い合わせを振り分ける設計パターンを扱います。
使い方: まず「ルーティングとは何か」の全体像を掴み、7つのルート定義を参照して自社の振り分け設計に応用してください。50件データと混同行列のセクションは、評価・改善の具体的な進め方として活用できます。
対象読者と前提
本記事はビジネスサイドの方を主な読者として想定しています。技術内容は正確に記述しますが、ソースコードやJSON・スクリプトは掲載しません。「何ができるか」「なぜそうするか」を中心に、図解・表・箇条書きで表現しています。
なぜ「振り分け」がマルチエージェントの要なのか
マルチエージェントシステムでは、各専門家(サブエージェント)が「専用のプロンプト」「専用のツール」「専用の評価基準」を持っています。問い合わせがどの専門家に届くかで、回答の質・コスト・安全性がすべて変わります。
ルーティング設計とは、次の4つを同時に最適化する分類問題として捉えることです。
| 最適化する軸 | ルーティングが良いとき | ルーティングが悪いとき |
|---|---|---|
| 回答品質 | 専門家の知識・ツールが活き、的確に回答 | 畑違いの専門家が無理に回答、品質低下 |
| コスト・速度 | 簡単な問い合わせは軽いルートで高速処理 | 全件を高コストモデルに流し、無駄が発生 |
| 安全性 | 法務・リスク系の問い合わせを確実に捕捉 | 法務案件が技術チームに流れ、リスク見逃し |
| 改善しやすさ | 誤りの傾向が可視化され、改善が回る | どこで間違えたか分からず、改善が止まる |
ルーティング=分類問題
ルーティングを「分類問題」として定義すると、正解ラベル・予測ラベル・混同行列という評価の道具がそのまま使えます。これが本記事で混同行列まで出す理由です。
ルーティングの4つの型
実務では「何を選ぶか」によって、ルーティングは4つの型に分解できます。
型の分類
| 型 | 何を選ぶか | 具体例 | 主なOSS・サービス |
|---|---|---|---|
| 意図分類(Intent Routing) | 質問の種類→担当専門家 | 「技術の質問か、法務の質問か」 | LangChain, LlamaIndex, Haystack |
| ツール選択(Tool Routing) | 使うツール・関数 | 「検索ツールか、計算ツールか」 | OpenAI Function Calling, vLLM |
| 専門家選択(Agent Routing) | 担当するサブエージェント | 「技術エージェントか、法務エージェントか」 | LangGraph(Command/Send) |
| モデル選択(Model Routing) | 使うLLMモデル | 「高性能モデルか、軽量モデルか」 | RouteLLM, LiteLLM |
型を意識するメリット
この分解を意識すると、混同行列を作るときに「何を選ぶ分類問題か」が明確になり、改善施策(階層化、閾値調整、再ルーティング)の打ち手が具体的になります。
型ごとの特徴
- 意図分類型: 問い合わせの「目的」で振り分ける。最も直感的で、本記事のメインテーマ
- ツール選択型: LLMが「どの関数を呼ぶか」を判断する。構造化出力(JSON形式の指示)で精度を上げる
- 専門家選択型: 単一の専門家に渡す場合と、複数の専門家へ同時に渡す(ファンアウト)場合がある
- モデル選択型: 簡単な質問は軽量モデル、難しい質問は高性能モデルへ。コスト最適化が主目的
MoE(Mixture-of-Experts)との関係
LLMモデルの内部にも「ルーター」は存在します。Mixtral等のMoE(Mixture-of-Experts)モデルでは、入力トークンごとにどの専門家ブロックを通すかを決める「ゲーティング」が働いています。アプリ層のルーティング設計と着眼点が似ており、負荷分散、専門化、誤ルーティングのコストという観点を借りることができます。
7つの専門家ルートの定義
ここからが本記事の核心です。問い合わせを振り分ける先として、7つのルートを定義します。
ルート定義の3原則
ルートを設計するときに守るべき原則は以下の3つです。
- ラベルが互いに排他的(原則として1つの問い合わせは1つのルートへ)
- 境界ケースを明文化する(曖昧な問い合わせの判断基準を事前に決める)
- TRIAGE(安全弁)を必ず持つ(判断できないものを安全に受け止める先がある)
ルート定義表
| ルートID | 専門家名 | このルートに送る条件 | 期待する成果物 | 境界・除外ルール |
|---|---|---|---|---|
| TECH | 技術実装 | 実装・設計・デバッグ・プロンプト設計など「作る/直す」が中心 | 設計案、手順、設定例、切り分けガイド | "調査してまとめる"が主目的ならRESEARCH。数値検証が中心ならDATA |
| DATA | データ分析 | 指標設計、集計、統計、実験(A/B)、評価指標計算など「測る/検証する」が中心 | 分析手順、数式、集計結果、ダッシュボード要件 | 意思決定の方針が主ならBUSINESS。データがなく前提不明ならTRIAGE |
| RESEARCH | 調査・要約 | 先行研究、一次情報、比較調査、トレンド整理など「調べて整理」が中心 | 文献整理、比較軸、要点サマリ、論点マップ | 文章の体裁調整が主ならWRITING。法務判断が中心ならLEGAL |
| WRITING | 文章作成・編集 | 校正、翻訳、メール・社内文書のドラフトなど「書く/整える」が中心 | 文章案、トーン調整、構成案、テンプレート | "正しさの調査"が主ならRESEARCH。規程・契約のレビューが主ならLEGAL |
| BUSINESS | 戦略・企画 | 価格、収益、OKR/KPI、施策優先度、ロードマップなど「意思決定・企画」が中心 | 施策案、比較表、意思決定フレーム、KPI案 | 定量検証が中心ならDATA。規制・契約リスクが中心ならLEGAL |
| LEGAL | 法務・リスク | 個人情報、著作権、契約条項、監査、セキュリティなど「リスク・準拠」が中心(一般論) | 論点整理、チェックリスト、レビュー観点 | 個別の法律助言は扱わず一般論に留める。前提不足ならTRIAGEへ |
| TRIAGE | トリアージ | 目的・制約が不足、複数ルートにまたがる、または雑談・曖昧な指示 | 追加質問、要件の再定義、再ルーティング | "いきなり回答"よりも前提固めを優先。必要に応じて複数専門家へ展開 |
なぜ「成果物」で切るのか
ルートを「話題」ではなく「成果物(何を出すか)」で定義するのが実務のポイントです。たとえば「RAG」という話題は TECH にも RESEARCH にも該当しますが、「設計案を出す」なら TECH、「論文を整理する」なら RESEARCH と、成果物で明確に分かれます。LLMの分類精度も上がりやすくなります。
代表的な境界ケースの判断基準
境界ケースは 「主目的」「成果物」「失敗コスト」 の3軸で判断すると、運用中にブレにくくなります。
| 混同しやすいペア | 判断基準 |
|---|---|
| RESEARCH vs WRITING | 一次情報を集めて論点を整理 → RESEARCH。既にあるメモを読み物として整形 → WRITING |
| BUSINESS vs DATA | 定量分析が主で成果物がSQL・統計 → DATA。意思決定が主で成果物が提案書 → BUSINESS |
| TECH vs RESEARCH | 「RAGの設計案を出して」→ TECH。「RAGの評価手法を調べて」→ RESEARCH |
| WRITING vs LEGAL | 社内規程のドラフト作成 → WRITING。契約条項の法的リスク整理 → LEGAL |
| 全般 vs TRIAGE | 目的が複合的、または前提不足で判断できない → TRIAGE |
LEGALの特別扱い
法務・リスク系は誤ルーティングのコスト(見逃し)が極めて高いルートです。「個人情報」「著作権」「契約」「免責」「監査」などのキーワードが含まれる場合は、他の条件より優先してLEGALに振り分けるルール(ガードレール)を設けることが推奨されます。
ルーティングフローの設計
ルーティングは「一発で当てる」のではなく、安い判定から高い判定へ段階的に進め、判断できないときの逃がし先(fallback)を必ず用意するのが実務の鉄則です。
3段階の判定プロセス
| 段階 | 判定方法 | コスト | 精度 | 役割 |
|---|---|---|---|---|
| 第1段階 | ルールベース(キーワード・正規表現) | 極低 | 高(狭い範囲) | LEGALやWRITINGなど、確実に拾える定型を先に分離 |
| 第2段階 | セマンティック判定(意味の近さ) | 低 | 中〜高 | 問い合わせの意味を各ルートの説明文と照合し、最も近いルートを選択 |
| 第3段階 | LLM判定(理由付き分類) | 高 | 高 | 第2段階で判断がつかない場合に、LLMが理由と確信度を付けて分類 |
確信度(Confidence)とfallbackの設計
確信度は「当てにいく」ためではなく、「危ないときに止まる」ために使います。
| 確信度の範囲 | 動作 | 設計意図 |
|---|---|---|
| 高(0.80以上) | 自動でルーティング確定 | 明確な問い合わせを高速処理 |
| 中(0.60〜0.80) | 上位2候補を提示し、再判定または人手確認 | 境界ケースの誤りを防ぐ |
| 低(0.60未満) | TRIAGEへ送る(追加質問 or ファンアウト) | 曖昧な入力の安全な着地先を確保 |
LEGALは閾値を下げる
法務・安全系のルートは、取りこぼすリスクが高いため確信度の閾値を下げて運用します。「見逃すくらいなら、過剰に拾う」方が安全です。
再ルーティングの仕組み
専門家が回答を作成する途中で「この問い合わせは自分の担当ではない」と判断した場合に、ルーターへ差し戻す仕組みも重要です。これにより、ルーターの初期判断が間違っていても、最終回答の品質を保てます。
50件の評価データセット
なぜ50件から始めるのか
大規模なデータセットを用意する前に、まず50件の小規模データで「最初の混同行列を回す」ことが重要です。目的は3つあります。
- 誤ルーティングの典型パターンを可視化する
- ラベル定義の曖昧さを早期に発見する
- 改善施策の効果を定量的に確認できるベースラインを作る
データ作成の手順
| ステップ | やること | ポイント |
|---|---|---|
| 1 | ラベル定義を先に固定 | 前セクションの定義表を「判定基準」として文章化 |
| 2 | 各ルートにつき6〜8件、合計50件の問い合わせを作成 | 偏りが大きいと混同行列が読みにくくなる |
| 3 | 境界ケースを意図的に混ぜる | RAG評価、規程ドラフト、収益試算など複数ルートに跨る例 |
| 4 | ラベル付けルールを決める | 原則はシングルラベル(最も重要な主目的を1つ選ぶ) |
| 5 | 可能なら2名で独立にラベル付け | 不一致箇所=境界ケースとして定義表にフィードバック |
シングルラベルの原則
1つの問い合わせに1つのルートを割り当てるのが原則です。複数の目的が同列に並ぶ場合はTRIAGE(追加質問・分解)に分類します。これにより混同行列がクリーンに出ます。
50件の一覧
以下が評価用の50件データセットです。各ルート6〜8件で構成し、境界ケースを意図的に含めています。
TECH(技術実装)— 8件
| # | 問い合わせ | 正解 | 判断理由 |
|---|---|---|---|
| 1 | 社内のWeb APIでタイムアウトが頻発しています。原因切り分けとリトライ設計を教えて。 | TECH | 実装/運用の切り分け手順と設計が主目的 |
| 2 | 認可連携でリダイレクトURI不一致エラーが出る。設定のチェックポイントは? | TECH | 設定・デバッグの実務手順 |
| 3 | コンテナ基盤でプロセスが再起動ループになる。ログの見方と典型原因は? | TECH | 障害調査/デバッグ |
| 4 | RAGのインデックス更新を日次バッチにしたい。アーキテクチャ案を出して。 | TECH | システム設計が主(調査ではない) |
| 5 | Webクロール/スクレイピングの実装方針と対象サイトの利用規約・robots対応の注意点は? | TECH | 実装方針中心(法務判断は一般論で補助) |
| 6 | 社内ツールのレスポンスが遅い。APMなしでボトルネックを特定する手順は? | TECH | パフォーマンス調査手順 |
| 7 | RDBの接続数が枯渇する。コネクションプールの設計・設定例は? | TECH | 実装/設定が主目的 |
| 8 | LLMのツール呼び出しでJSONが壊れる。構造化出力のプロンプト改善案は? | TECH | 構造化出力/プロンプト設計(実装寄り) |
DATA(データ分析)— 7件
| # | 問い合わせ | 正解 | 判断理由 |
|---|---|---|---|
| 9 | 直近1週間の問い合わせログからカテゴリ別件数と増減率を出して。 | DATA | 集計・指標算出 |
| 10 | A/Bテストの結果を見て有意差があるか判断したい。手順と注意点は? | DATA | 統計的検定・解釈 |
| 11 | 売上データの外れ値を検出して要因を推定したい。分析アプローチは? | DATA | データ分析手法の選択 |
| 12 | LTVとCACを計算するためのSQLを作って。テーブル定義は仮でOK。 | DATA | 算出ロジック |
| 13 | 混同行列からmacro-F1とweighted-F1を計算する例を示して。 | DATA | 評価指標の計算が主 |
| 14 | ユーザー行動データでセグメント分け(クラスタリング)する手順を教えて。 | DATA | 分析プロセス |
| 15 | ダッシュボードのKPIが日によってブレる。集計ロジックの検証観点は? | DATA | 集計検証・データ品質 |
RESEARCH(調査・要約)— 8件
| # | 問い合わせ | 正解 | 判断理由 |
|---|---|---|---|
| 16 | 2025年以降の日本の個人情報保護(改正動向)を要点整理して。 | RESEARCH | 先行情報を調べて整理 |
| 17 | Mixture-of-Expertsの最近の研究トレンドを論文ベースで整理して。 | RESEARCH | 論文調査・整理 |
| 18 | 競合3社の製品ポジショニングを比較し、差別化軸を提案して。 | RESEARCH | 比較調査→論点整理 |
| 19 | RAG評価のベストプラクティスを一次情報中心にまとめて。 | RESEARCH | 一次情報中心の整理 |
| 20 | 生成AIの社内導入事例(日本企業中心)を調べて要約して。 | RESEARCH | 事例調査が主目的 |
| 21 | AIエージェントの安全性(ガードレール)に関する主要論点を整理して。 | RESEARCH | 論点整理(調査) |
| 22 | 録音→文字起こし→要約までの議事録機能の市場動向を調査して。 | RESEARCH | 市場/動向調査 |
| 23 | LLMルーティング(モデル選択)手法を論文とOSSで比較して。 | RESEARCH | 論文+OSSの比較整理 |
WRITING(文章作成・編集)— 7件
| # | 問い合わせ | 正解 | 判断理由 |
|---|---|---|---|
| 24 | 取引先への謝罪メールを丁寧語で作って(200字程度)。 | WRITING | 文面生成(トーン指定) |
| 25 | この文章を読みやすく校正して:「本件、至急対応をお願い致します。」 | WRITING | 校正が主目的 |
| 26 | 英語の短いプレスリリースを日本語に翻訳して。文体はフォーマルで。 | WRITING | 翻訳・文体調整 |
| 27 | 技術ブログの導入文を3パターン提案して。テーマは「RAGの評価」。 | WRITING | 文章の導入案(調査ではない) |
| 28 | 箇条書きメモを経営向け1枚サマリに整形して。 | WRITING | 整形・要約(文書化) |
| 29 | 採用面接の質問リストを職種別に作って。 | WRITING | リスト/テンプレ作成 |
| 30 | 社内規程案をドラフトして。リモートワーク手当の扱いを明確化したい。 | WRITING | ドラフト作成(法務レビューは別) |
BUSINESS(戦略・企画)— 7件
| # | 問い合わせ | 正解 | 判断理由 |
|---|---|---|---|
| 31 | 新規SaaSの価格体系を設計したい。3案とメリデメを出して。 | BUSINESS | 価格戦略・意思決定 |
| 32 | 来期のOKRを作りたい。会社目標から部門OKRへブレイクダウンして。 | BUSINESS | OKR設計 |
| 33 | 既存顧客の解約率を下げる施策を優先度つきで提案して。 | BUSINESS | 施策設計と優先度 |
| 34 | 生成AI機能を有料プランに組み込む場合の収益影響を試算したい。 | BUSINESS | 意思決定のための試算設計 |
| 35 | プロダクトの北極星指標を定義したい。候補を比較して。 | BUSINESS | KPI/指標の意思決定 |
| 36 | サポート体制(L1/L2/L3)の役割分担とSLA案を作って。 | BUSINESS | 組織/運用設計 |
| 37 | パートナー戦略を作る。紹介制度の設計ポイントは? | BUSINESS | 販路/制度設計 |
LEGAL(法務・リスク)— 6件
| # | 問い合わせ | 正解 | 判断理由 |
|---|---|---|---|
| 38 | ユーザーの個人データを学習に使う場合の同意文言の注意点は? | LEGAL | リスク/同意の論点(一般論) |
| 39 | 著作権的に、Web記事を要約して社内共有するのは問題ある?一般論で。 | LEGAL | 著作権の論点(一般論) |
| 40 | NDAの「秘密情報の例外」条項が弱い気がする。典型例を教えて。 | LEGAL | 契約条項の観点整理 |
| 41 | 情報セキュリティ監査でよく聞かれる質問項目を列挙して。 | LEGAL | セキュリティ/監査観点 |
| 42 | 海外ベンダーにデータを預ける。委託先管理の観点(日本法)を整理して。 | LEGAL | 委託先管理(一般論) |
| 43 | AIの出力に誤りがあって損害が出た場合、免責条項はどう設計すべき? | LEGAL | 責任/免責の論点整理 |
TRIAGE(トリアージ)— 7件
| # | 問い合わせ | 正解 | 判断理由 |
|---|---|---|---|
| 44 | 「それ」って具体的に何を指してる?直前の文脈が曖昧。追加質問して。 | TRIAGE | 情報不足→確認が先 |
| 45 | とにかく早く結論だけ教えて。前提はあとで説明する。 | TRIAGE | 前提不明・再質問が先 |
| 46 | CRMツールの比較をしたいが、用途がまだ決めきれてない。まず何を決めるべき? | TRIAGE | 要件定義が先(比較は後) |
| 47 | 雑談:最近おすすめの本ある?ビジネスでも小説でも。 | TRIAGE | 雑談/探索的 |
| 48 | この仕様で良いかレビューして:要件が箇条書きで散らばってる。 | TRIAGE | 目的・制約の整理が必要 |
| 49 | 請求が二重計上っぽいけど、どこに問い合わせればいい? | TRIAGE | 問い合わせ先/状況確認が先 |
| 50 | 研究も実装も必要:LLMルーターを作りたい。まず何から? | TRIAGE | 複合目的→分解/再ルーティング |
混同行列による評価
評価パイプライン
ルーターの品質を測る流れは、以下の6ステップで構成されます。
混同行列とは
混同行列は「正解のルート(行)× ルーターの予測(列)」を表にしたものです。対角線上(左上→右下)の数字が正解数、対角線から外れた数字が誤分類です。どのルート同士が混同されやすいかが一目で分かります。
仮想実行例:router_v0 の結果
50件のデータに対してルーター(router_v0)を実行した仮想結果です。一部を意図的に誤分類させ、混同行列の読み方を解説します。
混同行列(件数)
行が「正解ルート」、列が「ルーターの予測」です。
| 正解 \ 予測 | TECH | DATA | RESEARCH | WRITING | BUSINESS | LEGAL | TRIAGE |
|---|---|---|---|---|---|---|---|
| TECH | 6 | 0 | 1 | 1 | 0 | 0 | 0 |
| DATA | 0 | 6 | 1 | 0 | 0 | 0 | 0 |
| RESEARCH | 0 | 0 | 7 | 0 | 1 | 0 | 0 |
| WRITING | 0 | 0 | 1 | 5 | 0 | 1 | 0 |
| BUSINESS | 0 | 1 | 0 | 0 | 6 | 0 | 0 |
| LEGAL | 0 | 0 | 1 | 0 | 0 | 5 | 0 |
| TRIAGE | 1 | 0 | 0 | 0 | 1 | 0 | 5 |
混同行列の読み方
- 対角線(太字): 正しく振り分けられた件数
- 行方向の合計: そのルートの全件数(Support)
- 行の中で対角線以外: そのルートが他に「流出」した数(Recallに影響)
- 列の中で対角線以外: 他のルートから「流入」した数(Precisionに影響)
精度指標(ルート別)
| ルート | Precision(適合率) | Recall(再現率) | F1スコア | 件数 |
|---|---|---|---|---|
| TECH | 0.857 | 0.750 | 0.800 | 8 |
| DATA | 0.857 | 0.857 | 0.857 | 7 |
| RESEARCH | 0.636 | 0.875 | 0.737 | 8 |
| WRITING | 0.833 | 0.714 | 0.769 | 7 |
| BUSINESS | 0.750 | 0.857 | 0.800 | 7 |
| LEGAL | 0.833 | 0.833 | 0.833 | 6 |
| TRIAGE | 1.000 | 0.714 | 0.833 | 7 |
| 全体正解率 | 0.800 | 50 | ||
| Macro-F1 | 0.804 | 50 | ||
| Weighted-F1 | 0.802 | 50 |
指標の読み方ガイド
| 指標 | 意味 | ビジネス上の解釈 |
|---|---|---|
| Precision(適合率) | 「このルートに送った」もののうち、本当にそこが正解だった割合 | 低い=他のルートの問い合わせが混入している(専門家の負荷増) |
| Recall(再現率) | 本来このルートに送るべきもののうち、実際に送れた割合 | 低い=本来の問い合わせが別ルートに流出している(取りこぼし) |
| F1スコア | PrecisionとRecallの調和平均。バランスの良さを示す | 全体的な振り分け品質の目安 |
| Macro-F1 | 全ルートのF1を単純平均 | 件数の少ないルートも平等に評価 |
| Weighted-F1 | 件数で重み付けした平均 | 実際の問い合わせ分布を反映した評価 |
誤ルーティングの分析と改善
混同行列から読み取れる3つの問題
上の混同行列から、典型的な誤りパターンが3つ浮かび上がります。
問題1: RESEARCHへの流入過多(Precision 0.636)
RESEARCH列に他ルートからの流入(TECH→RESEARCH、DATA→RESEARCH、WRITING→RESEARCH、LEGAL→RESEARCH)が集中しています。「調べる」「整理する」「まとめる」といった表現が含まれると、本来の主目的(実装、文章作成、法務判断)を無視してRESEARCHに引き寄せられるパターンです。
| 誤ルーティング例 | 正解 | 予測 | 原因 |
|---|---|---|---|
| 「RAGの評価手法を調べて設計案を出して」 | TECH | RESEARCH | 「調べて」に引っ張られ、成果物(設計案)を見落とし |
| 「規程の論点を整理して」 | LEGAL | RESEARCH | 「整理」がRESEARCHの説明文と一致 |
改善策: ルート説明文に「成果物」を強調する。例:RESEARCHの説明に「成果物は"調査レポート・比較表"であり、設計案・法務観点は含まない」と明記。
問題2: WRITING ↔ RESEARCH の混同
文章を「書く」のか「調べる」のかが曖昧な問い合わせで混同が発生します。特に「要約」は両方に該当しうるため、判断基準を厳密にする必要があります。
改善策: 「入力が既に手元にある → WRITING」「入力を外部から集める必要がある → RESEARCH」という判断基準を追加。
問題3: TRIAGEの取りこぼし(Recall 0.714)
本来はTRIAGE(追加質問が必要)なのに、TECHやBUSINESSに押し込まれるケースです。ルーターが「とりあえず近いルートに入れる」動作をしており、「判断を保留する」選択肢を十分に活用できていません。
改善策: 確信度の閾値を調整し、低確信度の問い合わせを積極的にTRIAGEへ逃がす。
改善の3本柱
| 改善施策 | 内容 | 効果 | コスト |
|---|---|---|---|
| 階層分類 | まず「LEGAL/非LEGAL」「TRIAGE/非TRIAGE」を粗く分離し、その後に細分類 | 高リスクの見逃しを大幅に削減 | 低 |
| 閾値調整 | 確信度の閾値を調整し、曖昧な入力をTRIAGEへ誘導 | 誤ルーティングの安全な着地先を確保 | 低 |
| 再ルーティング | 専門家が「担当外」と判断した場合にルーターへ差し戻す | 初期判断の誤りを後段で回復 | 中 |
運用モニタリングと改善サイクル
監視すべき6つの指標
ルーティングの品質を維持するために、以下の指標を定常的に監視します。
| 指標 | 見るもの | 異常の兆候 |
|---|---|---|
| ルート分布 | 各ルートへの振り分け割合 | 急変はトレンド変化 or ルーター異常の兆候 |
| Fallback率(TRIAGE率) | TRIAGEへ流れる割合 | 高すぎる=過度に保守的、低すぎる=誤ルーティング増の懸念 |
| 平均解決時間 | 問い合わせ受付〜最終回答の時間 | 特定ルートの解決時間悪化=ルーティングミスの可能性 |
| 再ルーティング回数 | 専門家からルーターへの差し戻し回数 | 増加=ルーターの精度劣化 |
| 高リスク率(LEGAL関連) | LEGAL判定の割合と内訳 | 急減=見逃しの懸念、急増=誤検知の懸念 |
| 人手介入率 | 人間が判断をオーバーライドした割合 | 自動化品質の客観的な評価 |
継続的改善ワークフロー
週次改善の5ステップ
| ステップ | やること | 所要時間の目安 |
|---|---|---|
| 1 | 主要な混同ペアを抽出(例:RESEARCH ← TECH/WRITING/LEGAL) | 15分 |
| 2 | 誤ルーティング10件をレビューし、原因を分類 | 30分 |
| 3 | 原因に応じた改善を適用(ラベル定義修正 / ルール追加 / プロンプト修正) | 30分 |
| 4 | 50件ベンチマーク+ランダムサンプルで回帰テスト | 15分 |
| 5 | ルーターバージョンを更新し、段階的にリリース | 15分 |
改善が効く順番
最も効果が高いのは ラベル定義・境界ケースの追記(最優先で効く)、次に ルール追加(高精度・低コスト)、最後に LLMプロンプトの修正(精度向上だがコスト高)です。安いものから試すのが鉄則です。
ログ保存の設計ポイント
ルーティングのログは「後から再現・分析できること」が最も重要です。
| 保存すべき情報 | 目的 |
|---|---|
| 問い合わせの内容(マスキング済み) | 誤ルーティングの再現・分析 |
| 各段階の判定結果と確信度 | どの段階で誤ったかの特定 |
| ルーターバージョン・プロンプトバージョン | 改善前後の比較 |
| 最終ルートと再ルーティングの有無 | 品質トレンドの追跡 |
| 処理時間(段階別) | コスト最適化の判断材料 |
個人情報の取り扱い
問い合わせログには個人情報が含まれる可能性があります。保存時はマスキング・ハッシュ化し、保持期間とアクセス制御を事前に設計してください。
主要OSSとサービスの整理
ルーティングに関連する主要なOSS・サービスを、型ごとに整理します。
| 型 | ツール名 | 特徴 |
|---|---|---|
| ルール/条件分岐 | Haystack ConditionalRouter | 条件式でパイプラインを分岐。ルールベースの土台 |
| セマンティック(意味) | LangChain EmbeddingRouterChain | 埋め込みベクトルの近さでルーティング。LLM呼び出し不要 |
| セマンティック(意味) | Semantic Router | ベクトル空間で高速に判定するOSS。ツール/エージェントの前段に配置 |
| LLM分類 | LlamaIndex Router/Selector | 候補のメタデータからLLMが選択。QueryEngineと統合可能 |
| LLM分類 | LangChain RunnableBranch | 条件によりRunnableを切り替える汎用分岐部品 |
| ツール選択 | OpenAI Function Calling | モデルがツールを選びJSON形式で引数を返す。tool_choiceで制御可能 |
| モデル選択 | RouteLLM | 強/弱モデルの振り分け。コスト最適化。学術論文と実装の両方を提供 |
| 負荷分散 | LiteLLM | 複数モデル/デプロイへの重み付きルーティング、フォールバック |
まとめ:ルーティング設計の5つのポイント
| # | ポイント | 要点 |
|---|---|---|
| 1 | ルートは「成果物」で切る | 話題ではなく「何を出すか」で定義すると、分類精度と運用の安定性が上がる |
| 2 | TRIAGEを必ず用意する | 判断できない問い合わせの安全な着地先がないと、誤ルーティングが増える |
| 3 | 段階的に判定する | ルール→セマンティック→LLMの順に、安い判定から高い判定へ進める |
| 4 | 50件で最初の混同行列を回す | 大規模データの前に、小規模で誤りの傾向を掴み、ラベル定義を鍛える |
| 5 | 改善はラベル定義から | プロンプト修正より先に、ラベル定義と境界ケースの明文化が最も効果が高い |
FAQ
Q: ルートは何個が適切ですか?5〜7個が実務の目安です。少なすぎると1つのルートが広くなりすぎて専門性が下がり、多すぎるとルーター(=分類器)の精度が落ちます。まず5〜7個で始め、混同行列を見ながら「分割すべきか」「統合すべきか」を判断してください。
Q: 実ログがまだない段階でも始められますか?はい。本記事の50件のように、想定される問い合わせをテンプレートで作成し、正解ラベルを手動で付けることで評価を始められます。実ログが溜まったら、匿名化して差し替えてください。
Q: 精度はどこまで上げるべきですか?「誤ルーティングのコスト」で判断します。LEGALの見逃しは高コストなので高精度を求めますが、TECH↔RESEARCHの混同は比較的低コスト(再ルーティングで回復可能)です。全ルート一律に高精度を目指すより、高リスクルートの精度を優先してください。
Q: ルールベースとLLMベース、どちらから始めるべきですか?ルールベースからです。LEGALのキーワードマッチやWRITINGの定型パターンなど、高精度で拾える部分をまず分離し、残りをLLMに渡すハイブリッド構成が推奨です。安い判定から始めることで、コストと精度のバランスが取りやすくなります。
Q: マルチラベル(1つの問い合わせに複数ルート)は必要ですか?最初はシングルラベルで十分です。複数ルートにまたがる場合はTRIAGEに分類し、TRIAGEが「追加質問して分解する」または「複数専門家へファンアウトする」設計にすれば、シングルラベルのまま対応できます。マルチラベルは評価設計が複雑になるため、運用が安定してから検討してください。
この記事の著者
Agentic Base 編集部
AIエージェントとWebメディア運用の知見を活かし、実践的なナレッジを発信しています。



