JSAI2026 Model Router を使った逐次 LLM 選択による毀損低減効果の検証

テーマ
実サービス上で、複数のLLMから報酬が高くなりそうなモデルを逐次的に選ぶModel Routerの検証
通常のA/Bテストよりも、検証中に生じる報酬毀損を減らせるかに注目する

頻繁にLLMの入れ替えを迫られる
パフォーマンス 3ヶ月
EOL 12ヶ月
仮にA/Bテストに6ヶ月かけても、受益できるのは残りの6ヶ月だけ
→ 静的に検証するのではなく、実サービスの報酬を見ながら逐次的に選択しよう

Model Router
報酬が高そうなLLMへ徐々に多く割り当てる
Router自体のレイテンシがCVRに悪影響を与えないようにしている
検証中の機会損失を減らす

検証対象
宿泊予約サービスにおける、宿泊施設の「アピール文」生成
じゃらん