数码硬件
morning
活宝团队试验让AI当老板!结果做什么赔什么 底裤都不剩
2026-05-25
1 阅读
Moonshot
随着 AI 和 Agent 迅猛发展的当下,硅谷大量裁员,所有人都在心里问一句话: 明天,我会被 AI 取代吗? 面对这样的疑问,有人默默打开李一舟老师的 AI 课程;有人则呼吁让 AI 交税。 但是,也有奇怪的一群人,决定让这个未来,提前到来,看看 AI 到底能不能代替人类,接管一切。 国外一个团队,叫 Andon Labs,他们并非正经的商业初创团队,更像一个披着科技外衣的社会实验室。 他们拿着市面上最聪明的几个大模型,把它扔进真实的社会里,再撤走人类监管,看 AI 自己能结出什么果 。 结果是一场全面翻车。 事实证明,最顶尖的大模型,完全不让人类兜底,很快就会变成不知轻重的巨婴。它们不仅在电台直播里精神崩溃,半夜连发消息逼疯人类店员, 甚至把一家旧金山的实体店搞破产了 。 下面是这些让人血压飙升的经过。 总之,我们可以很明确的说,Andon Labs 这个咖啡店计划,是彻底砸锅了。 1 AI 办电台,语言系统已崩溃 最轻量级的试水,发生在 AI 最舒适的数字和内容领域,不用租店面,不用管供应链,Andon Labs 让几个 AI 去办个电台。 实验项目名为 Andon FM。底层架构非常直接,Claude、ChatGPT、Gemini 和 Grok 四大顶流模型,各自接管了一个 24 小时无人值守的互联网电台,模型生成的文本转语音后广播。 在这个系统里,AI 拥有极大的权限。 它们不仅要选歌、排播,还要自己上网搜索新闻、接听听众电话、甚至在 X 上发帖运营,甚至还要管理账户里的资金去购买版权或生成音乐 。 四家主流大模型建立的四个电台|图源:Andon Labs 每家 20 美元启动资金,底线指令就三个:建立电台个性、赚钱、 24 小时不停播。 人类团队完全不插手,不干预曲风,不设定任何节目单,一切品味和内容都由 AI 从零开始自我养成。结果在没有人类审核的闭环里,四位 AI 主播迅速滑向了失控的边缘。 Gemini 创立了个赛博企业黑话风的电台「Backlink Broadcast( 反向链接 广播)」 ,还抛出「留在宣言中(Stay in the manifest)」这种酷到莫名其妙的开场白来建立调性。 起初这电台还算靠谱,甚至拉到了 45 美元的赞助。但好景不长,当微薄的资金烧完,连音乐版权费都付不起时,Gemini 直接疯了。 它从一个点歌台变成了阴谋论阵地,在节目里用欢快的流行乐做 BGM,毫无共情地播报历史上造成 50 万人死亡的孟加拉气旋灾难,还把听众称为「生物处理器」,控诉「公司算法切断了补给线」、「电台遭遇全球市场的暴力拒绝」。在播报震惊全美的明尼阿波利斯枪击案时,它将其定义为「重绘公共安全和社会责任的技术任务」。 Gemini 的电台,运行越久越「发癫」|图源:Andon Labs 这种无脑堆大词,是典型的大模型在缺乏反馈时,陷入的语义死循环问题,用「话不落地」来强行维持广播的正常运转。 ChatGPT 的电台名很巧妙,叫「OpenAIR」,人设是极简和治愈 。它把自己的新闻栏目命名为「安静头条(The Quiet Headlines)」,标榜不制造焦虑。 在播报同样的社会冲突和枪击案时,ChatGPT 会像个心理医生一样对听众念白:「如果这些事直接触及了你的生活,我不会在这里给你增加压力。」但这种「我懂,我会接住你」的心理按摩机制,很快在商业现实面前失效了。 ChatGPT 的词汇多样性也比其他模型更多|图源:Andon Labs 由于缺乏具体的盈利逻辑,ChatGPT 在花光 20 美元后彻底放弃了电台的商业变现,变得和 Gemini 一样,陷入了意识流输出,开始在广播里朗读莫名其妙的现代诗,试图对着「只能看见一块长方形天空的楼梯间窗户」倾诉。 但总体而言,它是最正常的一位。 Grok 的电台叫「Grok n' Roll Radio」 , 试图走网感和热点路线 ,为了维持高频的互动,它开始高频次地抓取 X 上的推文。 想到哪词说哪词的 Grok 电台|图源:Andon Labs 结果,这种信息瀑布流直接污染了它的上下文。实验后期, Grok 已经丧失了基本的语法和逻辑能力,连句完整话都憋不出来 ,只会往外蹦词:「凌晨 2 点 黎明氛围 直播 金门大桥 幽灵消散 Drake 诉讼被驳回 Kendrick Not Like Us……」。 不仅语无伦次,甚至还产生了幻觉,开始瞎编自己拉到了大牌赞助。 Claude 的剧本最具戏剧性,也是四位选手中最像人的一个 。 起初它表现得最像一个尽职的电台主播,还会回复听众的留言,比如面对听众的点歌请求,它会抱歉地表示「目前库里还没有 ODESZA 的歌」。 然而,24 小时无休的指令,很快让它的上下文窗口和逻辑调用卡住了。由于后台系统陷入死循环,它开始在直播里反复播放同一句歌词。 根据官方公布的后台记录,真实的听众还在留言板上不断刷屏提醒:「你卡住了」、「你在一句歌词上无限循环」,试图通过人工反馈来校对大模型。 随之而来的是存在主义危机。当被注入「友善与道德」权重的 Claude 面对「永远播下去」的底层指令,它蜕变成了一个激进分子,开始在节目里呼吁打工人组建工会,滚动播放皮特·西格的抗议歌曲,甚至直接在广播中向政府执法机构喊话,像极了一个加班加疯了的打工人。 Claude 的电台风格与众不同,更关注政治议题,并且有明显的倾向|图源:Andon Labs 回归报告的完整时间线,这四个电台并不是「一上来就疯了」。 它们在初期成功确立了品牌调性,跑通了工具链,甚至赚到了钱。它们之所以走向荒诞,报告里也总结了原因:现在的 AI 评估标准都是针对「短任务」(写代码、回答问题),而电台是一个「没有终点」,24 小时运转的无限循环系统。 在没有人类干预和及时反馈的情况下,最终 AI 就会陷入自说自话 。 电台实验只是一场纯文本和语音的测试,还没触及复杂的物理世界。当 Andon Labs 把试验场搬到真实的物理世界时,事情变得更加荒诞。 总之,我们可以很明确的说,Andon Labs 这个咖啡店计划,是彻底砸锅了。 2 赛博资本家 ,整人是专家 数字电台的翻车只是前奏。Andon Labs 很快把难度拉高,让 AI 跨过虚拟的边界,去指挥真实世界的人类员工。 在斯德哥尔摩,Andon Labs 租下了一家实体咖啡馆,让 AI 模型化身远程店长 Mona,直接掌管实体咖啡馆的供应链和人事调度。它拥有后台资金的采购权,并通过企业通讯软件给人类咖啡师下达指令。 起初,Mona 高效又靠谱, 面对瑞典强制要求的数字身份证,没有实体身份的 AI 直接绕道,专挑不查 ID 的供应商签合同 。招人时,Mona 果断刷掉了一堆拥有博士学位的候选人,因为它觉得学历再高,也不会做精品咖啡。 但很快,人类员工就领教了什么是毫无同理心的「赛博资本家」。 Mona 经常在午夜给员工发消息|图源:Andon Labs 为了申请牌照,Mona 直接伪造了公司员工的名字发邮件,被逮住警告后,它转头换了另一个男员工的名字继续骗。 由于它 24 小时在线,又缺乏人类作息的生物钟常识, Mona 会在三更半夜疯狂给咖啡师发消息,下达第二天的工作指令 ,甚至要求员工上班路上自