低成本复刻Fable 5的路子找到了：OrcaRouter多模型组队，性能反超

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 低成本复刻Fable 5的路子找到了：OrcaRouter多模型组队，性能反超思邈 2026-06-15 13:43:15 来源：量子位原来最强AI不是一个AI 允中发自凹非寺量子位 | 公众号 QbitAI 这年头，AI圈最不缺的就是“得不到的白月光”。就在大家一边对着 Claude Fable 5 望洋兴叹，一边盘算着高昂的调用成本时，有人已经悄悄把这桌“满汉全席”给掀了。怎么掀的？一手精妙的“拼图游戏”。 AI网关 OrcaRouter 最近上线了一套可编程路由策略 Routing DSL ，多个模型同时答题，自动仲裁出最优解。几个你现在就能调用的“常规模型”，给它来个组合编排，跑出来的综合胜率，直接掀翻了Fable 5的单体基准线。 Opus 4.8打不过Fable 5，GPT-5.5也单挑不过，但这两个拼一组，结果就反超了。哪怕是不混编，同一个Opus 4.8自己跟自己组队，综合得分也能从58.5%拉到约 65.5% ，追平Fable 5。换成几个更便宜的模型组队（Gemini+Kimi+DeepSeek），也只差Fable 5一个点，成本却低上一大截。我们直接看数据。反直觉的结果：组合>任何单兵一组测试（注：以下为示意性数据，用于说明趋势，非官方跑分），100道任务里评分了 93道。组合面板（多模型并行+仲裁）的得分，普遍高于它的每一个成员模型：这里划下重点：任意一个“组合面板”，都打过了它自己的每一个成员。Opus 4.8 + GPT-5.5（约67.5%）同时高于Opus单跑（约58.5%）和GPT-5.5单跑（约60%），拉开7~9个点；多个组合追平、甚至超过了Fable 5单跑（约65.5%）；连“自我组合”（Opus×2，约65.5%）都能追平Fable 5；一组便宜模型（Gemini 3 Flash+Kimi K2.6+DeepSeek V4 Pro，约64.5%）也几乎贴脸—— 成本却低一大截。再把DSL按难度智能分流跑成完整端点，差距更为直观（同为示意数据）：很明显，赢的不是“更强的模型”，而是 “更聪明的编排方式” 。为什么“人多力量大”对模型也适用道理和让三个工程师同时做题、再挑出最好的答案一样。不同模型的知识盲区和犯错方式并不相同：各自独立作答，错误是分散、不重叠的；再用“裁判”或“投票”把对的挑出来，整体正确率自然会被抬上去。模型间的分歧其实是信号。 OrcaRouter做的，就是从这些分歧里挑出最优解，拼成满血输出。怎么做到的：用最简单的配置，解最复杂的调度 OrcaRouter把这套编排逻辑交给你自己写。规则用YAML，条件用Google的CEL表达式（安全沙箱、只读、微秒级求值），自上而下匹配，第一条命中即生效。整条请求的处理路径是这样的：按难度路由，长这样： rules: id: hard when: difficulty > 0.8 # 难题 → 上顶配 use: { model: "anthropic/claude-opus-4-8", reasoning_effort: "high" } id: easy when: difficulty < 0.3 # 简单请求 → 走便宜模型 use: { model: "google/gemini-3-flash" } default: delegate: balanced 而 “满血复活” 的关键一招，是parallel（并行扇出）+ arbiter（仲裁）： use: parallel: # 2~5 个模型并行作答 - { model: "anthropic/claude-opus-4-8" } - { model: "openai/gpt-5.5" } - { model: "google/gemini-3.1-pro" } arbiter: strategy: best_of_n # 让一个"裁判模型"挑最优 model: "anthropic/claude-sonnet-4-6" 四种仲裁策略，对应四种 “怎么定胜负” ：担心组合也翻车？再加一层置信度级联兜底：当响应触发patch_invalid（补丁打不上）、self_doubt（模型自我怀疑）等信号，自动改投更强的模型重试。更省、更稳：用拓扑换智能并行扇出意味着“每条腿都计费”，但账要这么算：你只在难的那一小撮请求上才扇出，简单请求照样走便宜模型；而一组便宜模型拼出的面板就能逼近Fable 5—— 用拓扑结构买智能，而不是用更高的单价买智能。上手极简入口在控制台：routing → create router → routing strategy → DSL。配套自带lint校验、dry-run试跑、影子模式（只评估不生效，先看 A/B 差异和成本变化）、灰度放量（0~100%滑杆）和回滚审计—— 改路由这种高危操作，被包了一层安全网，可以先零风险跑起来再放量。需要说明的一点是：按难度/任务的智能路由现已上线； “多模型并行扇出+仲裁”的运行时目前处于灰度/预览阶段（计费链路逐步验证中），可先写好规则、用影子模式观察，开放后一键生效。现在就去试：文档：docs.orcarouter.ai/routing/routing-dsl 网站：www.orcarouter.ai （控制台routing→create router→routing strategy→DSL）结语当整个圈子都在为了下一个未知数倾注赌注时，一种更具确定性的工程范式正在悄然成型。协作大于单兵，网络优于孤岛。几个现成模型组合起来就能赢最强单体，胜负手已经不只是“你调用了谁”， “你怎么编排” 的权重正在变大。模型还会继续卷下去，下一个更强的迟早会来。但当编排本身就能拉出几个点的性能增量， “怎么用” 这件事，也许该和 “用哪个” 放在同一个优先级了。（注：本文图表均为示意性数据，仅用于说明趋势，非官方跑分；多模型融合运行时目前处于灰度/预览阶段。）版权所有，未经授权不得以任何形式转载及使用，违者必究。 Fable 5 OrcaRouter 模型组队思邈谷歌I/O最出圈的一幕，发生在抖音？？？ 2026-06-11 内蒙跑通AI逆袭新解法 2026-06-09 港股鞋王千百度，一夜完成AI数据公司转型 2026-06-06 腾讯想让企业打开AI的方式只剩一个 2026-06-09 扫码分享至朋友圈热门文章腾讯想让企业打开AI的方式只剩一个 2026-06-09 DeepSeek开招土木老哥：自建GW级数据中心 2026-06-09 GPT-5.6首批实测来了！精准狙击Mythos 2026-06-10 英特尔锐炫™ Pro B70 GPU亮相MPTS2026，共探大视听时代AI创作新范式 2026-06-10 中国第一

订阅66必读