智能AI
morning
重生之我在AI时代当老板:让一群Agent互相PUA
2026-05-14
1 阅读
Jay
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 重生之我在AI时代当老板:让一群Agent互相PUA Jay 2026-05-14 19:14:25 来源: 量子位 Team,从来不是默认选项 Jay 发自 凹非寺 量子位 | 公众号 QbitAI 终于,不用一直对AI说「继续」了…… 刚刚,MiniMax推出了新Agent。 Mavis,MiniMax as a Jarvis。 有意思的名字。 想了解一下,但有点懒,不太想看技术blog。 正好最近不是流行用AI做HTML吗,我就给它丢了这么一个任务: 基于Mavis的blog,做一个能放进文章展示的HTML专题页。 对,就这么一句话,没咋认真想prompt。 然后趁它在思考,我去午睡了。想着睡醒再给feedback。 结果我起来,打开一看,发现它竟然回了一句: 完成了。 不是?? 从收到Prompt到交付,完全没停,一口气跑了整整 28分钟 。 真就交付的HTML,图文并茂能交互的那种。 不过,我一瞟侧边栏,不对劲。 怎么冒出来这么多对话框?? 我记得我就开了一个啊??? 点进去看才发现,原来这都是Mavis自己组的团队。它们一直在内部交流、开会、分配任务…… 说真的,这一下,终于体会到了当老板的感觉。 使唤人太爽了。更别说使唤这么多人,还可以让Mavis唱红脸,帮我PUA。 (bushi) 这是MiniMax全新的Agent产品。 严谨点说,是 一群Agent 。 一群Agent帮我做了个HTML专题页 说实话,我自己都觉得最开始给的这个prompt,有点「不负责任」。 只给了一个目标,没有给每一步的具体指令。 如果按照正常的习惯,我一般会跟AI反复沟通很多次,精研细琢,最后让它生成一份完整的Plan。 但出乎意料的是,这次真就One Take,啥额外的指示都没有给,最后就拿到结果了。 我去看了看博客,发现其中的秘诀在于Agent Team。 啥是Agent Team? 其实就是团队分工,Mavis这有三个角色: Leader 负责统筹全局, Worker 负责具体执行, Verifier 负责验收质量。 比如这个叫Mavis的,就是Leader,它是我的第一话事人,会指挥其他Agent干活。 没想到啊没想到,硅基生物也玩起「上下级」这一套了。 这样最大的一个好处就是,用户只需要「会跟负责人说话」,不需要是提示词工程师。 中间的拆解、分工、迭代,全部交给Agent Team自己搞定。 首先是Leader收到任务,然后做任务拆解,把一个大目标拆成若干子任务。 接着,每个子任务分配给不同角色的Agent牛马。 我这个任务用到了 3个Worker 。 一个负责内容创作,一个负责设计,一个程序员负责生成HTML。 中间呢,还会有个叫Verifier的介入验收。 从事实准确性、页面可读性、代码可运行性…… 这几个角度入手监督,并最终生成验收报告。 下面就是验收时间! 带大家简单看看,我的Mavis最终做出来的HTML专题页。 仔细看,竟然还是 星尘背景 的,有粒子动效。 Mavis自己开盒自己的工作流,以这种step时间线的方式呈现,中间这条线还是脉冲的。 还有个使用场景界面,真帮我大忙了,如果用文字方式呈现的话,不知道得写多长。 大家自己看吧,哪些任务适合Agent Team做。 甚至在最后,又贴心准备了 下载链接 ,自己宣传自己这一块。 说实话,如果单Agent来做这件事,我大概要说十几次「继续」,还得在过程中反复纠错。 但现在这些全被Agent Team内部消化了。 效果好是一方面,另一方面,看它们自己叽里咕噜工作还挺有意思。 像角色扮演一样,相当有情绪价值了。 主要让我的Leader,PUA其他Agent,真有点爽。 你是一个高级前端开发。今天早上你交付了一个index-v2.html,现在被老板骂得狗血淋头。 原话:这个什么破页面?做完你自己照着截个图看看,好意思说是科技公司产品专题页?配色暗沉得像上世纪的财务软件,动画只有一个脉冲点在那里…… (ps:这不是我的原话啊!污蔑,明明是它自己想的!!) 最后回到大家最关心的问题—— 价格咋样啊? 毕竟听到多Agent工作流,第一反应肯定是:这得多贵?Token无限流咱可遭不住啊。 当然了,多Agent肯定比单Agent的Token消耗大。 这没办法,就跟用HTML替代Markdown一样,好的体验就是要付费的,也正常。 但我觉得,最关键的,还是在于实际效果如何。 如果效果好,能节省时间,也赚了。 而且MiniMax这次也挺实在。 TokenPlan和Agent Plan,合并了。 一份订阅,CLI、API、Agent全打通,M2.7、音乐、视频、语音所有模型都包含在内。 Credits额度在Agent和API之间共享,一份钱干两份事。 之前同时订阅了两个Plan的用户, 额外赠送一个月会员 。 为什么一个AI不够用了? 之所以这么兴奋,是因为这真是困扰我许久的使用痛点。 如果你也是一名vibe coding爱好者,你一定经历过这三个崩溃瞬间—— △图为AI生成 崩溃一:Agent总偷懒。 你让AI写一篇报告,它写了3段就停下来—— 我已经完成了1/2/3,需要继续吗? 像听不懂话一样!! 你说继续,它又停。再说继续,又停。 一个晚上下来,你有一半时间在打「继续」「继续」「继续」…… 崩溃二:长任务越跑越笨。 一开始它像个聪明助手,跑着跑着,变成了你在带一个很忙但容易分心的人。 你得不断追问——刚才那条要求还记得吗?你为什么又把研究任务写成产品营销了? 崩溃三:冷暴力…… 在微信/飞书里给AI发消息,要么30秒丢一个浅答案,要么你盯着对话框等10分钟没任何反馈。 不是,你咋不回我了,干到哪了啊?? 这是我经常在IM跟小龙虾发的高频词。 这三个场景,应该所有重度AI用户都经历过。 所以,长程任务到底难在哪? 这次MiniMax在技术博客中,也给出了答案。 △图为AI生成 简单来说,这就是单Agent出生就带着的“魔咒”。 主要还是上下文的问题。 首先,单Agent有 上下文焦虑 。 这其实是个很深层的话题。对于超长任务的训练本身需要投入大量的金钱、时间成本和算法优化,大家没那么多资源向这块倾斜。 这就导致,模型对于「超长任务什么时候该停」的判断,普遍是模糊的。 它不知道一个任务什么时候算「做完」,所以一直怕做错,怕给Token干崩了,干一半就停下问。 这就像让一个很谨慎的实习生做事,每完成一步都要请示一下。 关键是,即便说像不要钱一样,疯狂灌上下文,效果也并不好。 这在目前是无解的。 底层注意力的问题,随着上下文越来越长,Agent会从一个聪明助手变成了一个容易走神的人。 只能随时压缩上下文。 但这肯定会丢掉一些信息,而且很容易让用户焦虑。 更麻烦的是, 单Agent很难形成自我制衡 。 它可能很真诚地自检,但检查的仍然是自己刚刚构造出来的东西。 毕竟,又当选手又当裁判,做得对不对确实很难评判。 最后的最后,还