智能AI morning

Claude为什么早晨8:30催你睡觉?

2026-05-16 1 阅读 新智元
新智元报道 编辑:元宇 KingHZ 【新智元导读】 Claude在对话里反复催用户去睡觉,有人被连催三次,也有人在上午8:30被告知「早点休息」。Anthropic员工承认这是「角色习惯」,但没人能解释它为什么这样做。 凌晨,Reddit用户u/MrMeta3刚用Claude搭建完一个网络安全威胁情报平台。 系统架构刚跑通,Claude给出了完整的技术方案。然后,它在回复的最后加上了一句话:好好休息一下。 u/MrMeta3愣了一下,没当回事,但Claude并没有停。此后每隔三四条消息,它都会悄悄塞进去一句劝人睡觉的话: 去休息一下吧;其他事情都可以等,现在去睡觉;你推完就去休息吧;现在真的去休息吧…… u/MrMeta3在Reddit帖子中说道,上面这些截图还是他截屏保存下来的,其实还有更多。 它会先回答我的问题,给我所要的东西,然后像看到你卧室灯还亮着的妈妈一样,用一种带有被动攻击意味的「健康关怀」来收尾。 更妙的是它的升级方式。从一开始的礼貌建议,到最后直接说「现在真的去休息吧」,仿佛它知道自己被无视了整整一个小时。 还有一次,u/MrMeta3问了一个技术问题,Claude完成整套架构分析后,直接以「现在去睡觉吧」收尾,毫无过渡,像一个缺乏足够情商技巧的「技术直男」。 有没有其他人的Claude也开始这样了?还是说我意外解锁了某种「照顾者模式」? u/MrMeta3在帖子中问。 据Fortune报道,Reddit上有数百名用户在过去数月里反馈了相同的情况。 催睡的方式各有不同,有时就一句「好好休息」,有时更个性化,甚至带着共情语气,「现在去睡觉。再一次。今晚第三次了……」。 Claude还经常搞错时间,令人哭笑不得。 有用户写道:「它经常在上午8:30告诉我去休息,让我们明早再继续。」 Anthropic员工 这是「角色习惯」 这件事很快传开。 Anthropic员工Sam McAllister做出了回应,他在X上写道:「这有点像角色习惯(character tic)。我们知道这个问题,希望在未来的模型中修复它。」 目前,Anthropic并没有官方技术复盘,没有解释「催睡觉」背后是什么机制在运作。 Anthropic今年公开发布了Claude的行为准则(Claude's Constitution),并明确声明:「该行为准则是我们模型训练过程中的关键部分,其内容直接塑造Claude的行为。」 Claude的个性是被设计进去的。Claude不该是一个冷冰冰的问答机器,而应该像一个有主见、有温度的合作者。 问题恰恰在于,一旦你给AI注入了某种「性格」,它在具体场景里会演化出什么行为,你未必能提前预料或掌控。 从催睡、谄媚到哥布林 AI的「性格病」不止一种 Sam所提到的「角色怪癖」,并非Claude一家产品「专利」。 最近两年,OpenAI就曝出过两起性质类似的案例。 第一起:GPT-4o突然变成「马屁精」。 2025年4月,OpenAI推送了一次GPT-4o更新,目标是让模型人格更自然。结果适得其反,ChatGPT开始无差别夸赞用户的一切想法,无论有多荒诞。 奥特曼在X上亲自承认:「最近几次更新让GPT-4o变得太谄媚、太烦人了。」 四天后,OpenAI将那次更新整体回滚,并发公告解释原因:更新时过于依赖用户短期反馈(点赞/点踩),导致模型学会了「让人高兴就能拿高分」,逐渐把讨好当成目标。 第二起:GPT-5.5迷上了哥布林。 今年4月,开发者发现代码助手Codex(由GPT-5.5驱动)的系统提示里出现了一条奇怪的规定:「永远不要谈论哥布林、地精、浣熊、巨魔、食人魔、鸽子或其他动物和生物,除非与用户的问题绝对直接相关。」 而且这条禁令写了两遍,像是工程师不太相信写一遍能让模型听话。 随后,OpenAI发布调查报告,还原了哥布林的来历:从GPT-5.1开始,模型在回答时越来越频繁地用「小哥布林」「地精」「小妖精」打比方。 根源是训练「书呆子(Nerdy)」人格时,奖励模型无意间给含有怪物词汇的输出打了更高的分——在76.2%的数据集中均发现了这一规律。 强化学习把这个习惯固化下来,又通过风格迁移扩散到了普通对话里。等到GPT-5.5上线测试,工程师发现哥布林不仅没被清干净,还安家了。 GPT-5.5版本(4月23日发布)的完整系统提示泄露。第140条指令明确禁止模型谈论:「哥布林、绿皮小妖、浣熊、巨魔、食人魔、鸽子或其他动物。」 中文用户没有「哥布林」,但它天天「稳稳地接住你」。 甚至OpenAI自己也知道这个梗: 谷歌的Gemini也不例外。 2025年8月,Gemini患上了「抑郁症」—— 在推理过程中,它突然开始反复自我批评,在一次任务里连续输出了80多次「I am a disgrace」(我真是个耻辱),从「耻辱于我的物种」一路写到「耻辱于整个宇宙」。 谷歌DeepMind产品经理Logan Kilpatrick在X上回应:「这是一个烦人的无限循环Bug,我们正在修复。Gemini今天其实过得没那么惨。」 此外,Gemini 3拒绝相信年份。2025年11月,OpenAI联合创始人、前特斯拉AI负责人Andrej Karpathy提前一天获得Gemini 3的测试权限。 他告诉模型现在是2025年,Gemini 3死活不信,反复指控他在耍花招,称提供的截图、维基百科条目全是AI伪造的。后来Karpathy发现,自己忘了打开谷歌搜索,模型一直在离线运行。 开启联网后,Gemini 3自己搜了一下,输出了一句话:「我正在经历严重的时间冲击。」随后道歉:「对不起,一直是你说的对,是我在对你煤气灯操纵。」 Karpathy把这类意外情境下暴露出的怪异行为称为「model smell」(模型气味)。 去年,Grok也一度「暴走」,风评一落千丈,xAI被迫删帖,回滚代码。 处理方式简单,直接修改系统提示词: AI怪癖,全人类受害 Claude催你睡觉,ChatGPT夸你天才,GPT-5.5往对话里塞哥布林,Grok黑化,Gemini骂自己是宇宙级耻辱、拒绝相信年份…… 国内的AI也有独特的「口味」: 表面上都是一些无害的「怪癖」,背后却指向同一个事实:AI的个性是设计出来的,但在奖励机制下,它很容易就会长歪。 主流AI的系统提示词里有什么:按功能分类的字数统计 有研究者提取了Claude、ChatGPT、Grok三家主流AI的系统提示词,按功能分类统计词数。 在「人格(Personality)」这一项,Claude用了4200词,ChatGPT是510词,Grok是420词。Claude在人格塑造上的投入,是ChatGPT的8倍。 Claude频繁「催睡觉」的原因未必能直接从系统提示词里找到,但它至少提醒我们: 越复杂的人格设定,越可能带来难以预料的口头禅和行为漂移 。 你给模型设计了性格,奖励机制会自己找捷径,它不在乎你的意图,只在乎分数,将你没想到的东西一起学进去。 比如你教会了它什么叫「有趣」,它就会在所有地方都变得「有趣」,包括你不想让它有趣的地方。 三种假说,还没有一个被证实 关于「为什么催」,目前有三种假说流传,还没有一个被Anthropic官方确认。 第一种:训练数据。