Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱 henry 2026-06-11 12:16:20 来源：量子位 Claude刚刚发布的新模型Fable 5，很多人可能压根就用不上！ henry 发自凹非寺量子位 | 公众号 QbitAI 都先别急着吹！ Claude刚刚发布的新模型 Fable 5 ，很多人可能压根就用不上！有不少网友实测发现，Fable 5的安全护栏检测机制的触发几率似乎比官方宣称的不到5% 严格得多。无论是普通编码任务。还是简单打个招呼，都有可能被自动路由回老模型Opus 4.8。更离谱的是，我自己也中招了。我让Claude帮我搜点资料，丰富一下背景。结果它想了两步，啪——切Opus了。换句话说。你以为自己在用Anthropic刚发布的最强模型，实际上聊着聊着，对面已经偷偷换人了。而且不光是安全检测容易误伤，更绝的还在后头： Anthropic还在长达319页的系统卡里埋了一套防蒸馏机制。如果系统怀疑你想拿Claude的输出训练自己的AI模型，它甚至不会告诉你发生了什么，而是直接降低Fable的回答质量。可以说，前一手防你作恶，后一手防你抄作业，相当符合A社的一贯风格。寓言怎么老变成章鱼？先给今天没刷新闻的大伙补个课。今天凌晨，Anthropic终于发布了预热许久的两款模型—— 「神话」（Mythos）和「寓言」（Fable）。其中，Fable 5最大的看点，是Anthropic第一次把Mythos级别能力向普通用户开放。而Fable与正式版Mythos的差别在于，多了一个安全护栏。目前，Fable免费开放给所有人到22号（22号只能通过API用），Mythos则还是开放给Claude部分的合作伙伴。在官方介绍里，Fable的软件工程、知识工作、视觉理解能力全面增强，超过此前所有公开发布的Claude模型。一句话速通理解就是，这俩就是现在的大模型天花板，各方面能力都已经到顶了。新模型一经发出，刚入职A社的卡帕西第一时间夸了一波。 Claude Code之父Boris也对它赞不绝口。不过，厉害归厉害，真让大伙用起来后，才发现，这寓言讲着讲着，老变成章鱼（Opus）。原因也简单。 Anthropic给Fable装了一套分类器，只要它觉得你聊的是网络安全、生物、化学，或者想拿Claude蒸馏训练自家模型，就会自动把会话切给Opus 4.8。这条规则白纸黑字写在系统卡第12页。实际体验中，切换发生在Fable的思考过程中，当它自己感觉不对劲，也不会问你，就直接切了。如果想继续用？要么把提示词改到它满意，要么重开一个窗口。官方在技术博客里说，这套检测平均触发率不到5%。但网友很快发现，这5%不像5%。有人表示，自己就是分析个代码，也被切了。搞安全审计的更是直呼被针对，活儿没法干了。还有人说压根用不了，审查代码库都会被Fable拒绝。要说，最离谱的可能就是有网友把Fable自己的系统卡丢给它，让他解读一下，它也给你切了。还有一名从事生物医学的科学家表示，这压根都没法用Fable工作，因为诠释违禁词。而这并不是孤例，不少生物学网友都反映，Fable压根难以使用。 Boris在评论区承认了这个问题，表示正在处理。这事儿真正微妙的地方在于，Fable在上面三种高风险场景下，至少会告诉你一声： “哥们儿，我给你换模型了。” 但如果它怀疑你在研究怎么训练下一代大模型，那就进入另一个模式。系统卡写明，重点针对的场景包括：限制Claude在前沿LLM开发请求上的有效性，例如搭建预训练流水线、分布式训练基础设施，或者ML加速器设计。在这种场场景下，Claude不切模型，不弹提示，不通知用户，而是坐在那里，悄悄把自己调笨一点。 Anthropic原文写得很学术：Prompt Modification、Steering Vector、PEFT。（系统卡第12页）翻译成人话就是你以为自己在跟满血版Fable聊天，实际上对面已经偷偷开了省电模式。 A社这波，属实是把护城河直接焊进推理链里了。至于系统怎么判断，系统卡第58-59页也写明白了。 Fable背后跑的是一套两阶段检测系统：第一层探针会直接检查模型内部激活值（activation），筛查所有请求；第二层再交给独立分类器判断风险。一旦命中，客户端就会自动切换到Opus 4.8。 Anthropic甚至在报告里承认，由于分类器在网络安全测试中几乎总会触发，因此Fable 5在网络安全任务上的实际表现，基本等同于Opus 4.8。一言以蔽之呢，就是Fable 5目前也还是一个有条件释放的模型：大部分场景享受Mythos 5级别能力，但在高风险领域自动降级为Opus 4.8的能力水平。为啥Claude要这么干？今天新模型上线，额度同步重置，大家上手之后越用越觉得不对劲，吐槽也越来越多，主要集中在两件事上。第一件事，是前面提到的安全护栏触发频率。Anthropic说平均不到5%的会话会触发回退，但不少用户的体感显然不是5%。第二件事，则是Fable的使用策略。这次Anthropic并没有完全放开，而是采用了限量开放的方式。与此同时，Fable的token消耗成本也明显高于Opus，接近后者两倍。这就让不少订阅用户有点犯嘀咕：如果最好的模型既有额度限制，又不一定能稳定用到，那以后会不会走向按量收费？当然，也有人把原因归结到商业层面。有网友认为，Anthropic现在正处在IPO前的关键阶段，需要向投资人证明自己依然掌握着最前沿的模型能力。所以最强模型可以放出来展示，但不能毫无保留地放出来。还有研究人员担心另一件事。如果模型一旦识别到前沿LLM研发相关内容，就主动降低回答质量，那对学术研究和技术交流显然不是个好消息。更关键的是，用户根本不知道这一切正在发生。它不会弹窗，不会提醒，不会告诉你答案为什么突然变差。你只会觉得：今天的Claude，好像突然没那么聪明了。对此，AI研究员Nathan Lambert的评价也很直接：模型厂商给能力加护栏或许不可避免。但至少应该告诉用户，前沿能力是什么时候被撤掉的。参考链接： [1]https://www.anthropic.com/news/claude-fable-5-mythos-5 [2]https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf 版权所有，未经授权不得以任何形式转载及使用，违者必究。 Claude henry 让矩阵归模拟，让逻辑归数字！这家中国团队重新定义了计算机 2026-06-08 马斯克39页SpaceX计划，人类史上最伟大的PPT 2026-06-07 OpenAI芯片核心叛逃Anthropic！就在量产前夜 2026-06-07 全球

订阅66必读