智能AI
morning
UCCI:成本最优 LLM 级联路由的校准不确定性
2026-05-20
1 阅读
Varun Kotte
arXiv:2605.18796v1 公告类型:新 摘要:LLM 级联和模型路由通过向小型模型发送简单查询并将困难查询升级到大型模型来承诺降低推理成本,但大多数部署的路由器使用未校准的置信度分数,并且需要按工作负载阈值调整。我们提出了 UCCI,一种校准优先的路由器,它通过等渗回归将令牌级边际不确定性映射到每个查询的错误概率,并通过约束成本最小化来选择升级阈值。在三个明确的假设下,校准分数的阈值策略是成本最优的,并且等渗校准实现了预期校准误差 (ECE) 的 O(n^{-1/3}) 样本复杂性。在由 H100 GPU 上的 4B 和 12B 指令调整 LLM 提供的 75,000 个查询的生产命名实体识别工作负载中,UCCI 在 micro-F1 = 0.91 时将推理成本降低了 31%(95% CI:[27%,35%]),同时将 ECE 从 0.12 降低到 0.03。在相同的操作点,UCCI 击败了熵阈值、分割共形路由和 FrugalGPT 式学习阈值。所有级联结果都在实际模型输出上使用端到端路由并测量 H100 延迟,而不是根据全局精度或名义 API 价格进行模拟路由。