Cursor新模型，你怎么还在套Kimi？马斯克你怎么还吆喝上了？？

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> Cursor新模型，你怎么还在套Kimi？马斯克你怎么还吆喝上了？？一水 2026-05-19 14:07:48 来源：量子位 1/10成本、Opus 4.7级表现 Cursor模型更新，最新版本已来到 Composer 2.5 。稍微一翻Cursor公告，两件事挺有意思：一是Cursor这回学老实了，新模型“套”了Kimi不再藏着掖着，连具体用了多少都标的清清楚楚。（Cursor：Kimi打底，自家额外训练+RL占了85%的总算力）二是马斯克原地上演变脸，之前Cursor陷入“套壳风波”时他在旁边煽风点火，现在却十分卖力地帮忙站台：都给我去用Cursor新模型。网友：老马你让我感到陌生(doge）。别想多了，其实这是因为Cursor和马斯克达成了算力合作—— Composer 2.5部分训练是在Colossus 2上完成的，以及Cursor正在和SpaceXAI合作，从零开始训练一个规模明显更大的模型。好好好，新模型刚来，下一代模型的“饼”又吃上了，看来Cursor真是铆足了劲想搞自研（具体原因下文详聊）。不过远的咱是够不着了，先看眼前这个实在的——Composer 2.5本身亮点也很足。 1/10成本、Opus 4.7级表现，而且发布后首周还给你双倍用量。好家伙，这几个词一甩出来，经常用模型的朋友谁不沸腾了。但问题是，Cursor新模型真有这么顶吗？？ 1/10成本、Opus 4.7级表现顶不顶目前咱不好说，反正测评成绩挺亮眼。据Cursor介绍， “它更擅长在长时间运行的任务中持续工作，更可靠地遵循复杂指令，协作体验也更加顺畅” 。这些表现反映到具体数字上就是，其性能水平整体接近Claude Opus 4.7。 Terminal-Bench 2.0（终端/命令行任务）：69.3% VS 69.4%，几乎持平； SWE-Bench Multilingual（多语言工程问题）：79.8% VS 80.5%，差距微弱； CursorBench v3.1（高难度编程任务）：63.2% VS 最高配64.8%，差距微弱。能和Opus 4.7相提并论，常用模型的人都知道这里头的含金量了。而且除了在更高难度的任务上训练之外，他们还改进了模型在沟通风格和投入级别校准（什么时候该出多大力）等行为层面的表现。听起来有点抽象，但Cursor表示：这些维度很难通过现有基准充分反映，但我们发现，它们对实际使用效果非常重要。那么，Composer 2.5真实能力如何呢？鉴于目前Cursor免费用户只能体验Auto模式（虽然上架了但是选不了），所以咱先看一波网友的反馈。先插一嘴，Composer模型速度是真快啊，甭管是哪一个版本，用起来歘歘歘的。 OK，回归正题。目前一圈扒下来，感觉Composer 2.5反馈还不错？？ Snapchat前机器学习工程师激情发帖称，自从Composer 2发布后，她就把绝大多数开发工作搬到了Cursor上面。而且还甩出了一句颇有暴论味道的话：如果你在使用AI进行开发，却仍然默认使用成本最高的模型来完成每一项任务，那么你80%的工作都是在浪费钱。图像生成初创公司LetzAI的CEO也有类似感受，他在体验新模型几小时后表示：以前可能会对AI的方案挑三拣四、反复修改，但这次因为Composer 2.5做得太好太快，自己直接“躺平认了”。没什么可挑剔的，就这么办吧。想必你也发现了，除了模型能力之外，他们提到了另一个重要关键词：价格。 Composer 2.5的价格为每百万输入token 0.50美元、每百万输出token 2.50美元。此外，还有一个智能水平相同但速度更快的变体，价格为每百万输入token 3.00美元、每百万输出token 15.00美元。 p.s. 与Composer 2一样，fast是默认选项。这个价格怎么说呢？也就是Opus 4.7的1/10吧。 1/10成本、Opus 4.7级表现，如果效果真如测评和网友所言，那绝对是真香了。 Kimi打底，还做了这些训练改进那么Composer 2.5这次是如何实现性能“飞跃”（至少是表面上）的呢？虽说是有Kimi打底，但好歹贴的是“Cursor自研模型”的标签，这背后多多少少总得有自研吧。 Cursor：别说我还真有。回到模型本身，Cursor这回在训练栈上做了不少改进，主要围绕两个方向：模型智能和易用性。具体则有三点：第一，给RL训练加了“定向反馈” 以前RL奖励是基于整条轨迹算的，rollout动辄几十万token，模型很难知道自己究竟是哪一步搞砸了——最终奖励只能告诉你“出问题了”，但具体错哪儿，信号噪声特别大。 Cursor的解法是：哪里不对就在哪里直接喂反馈。举个例子，模型在某一轮调用了一个不存在的工具，收到报错后继续干别的。几百次调用里就这一次错，对最终奖励基本没影响。但Cursor会在出错那一轮的上下文里插一句“Reminder: Available tools…”并附上可用工具列表，由此得到一个新的“教师”概率分布。如此一来，错误工具的概率被压下去，有效替代项的概率被抬上来，然后让学生模型向这个分布靠拢就行。这套方法在Composer 2.5里被用在了多种行为上，从编码风格到沟通方式都有。第二，合成数据规模翻了25倍 RL训练几轮下来，Composer已经能解决大部分训练题了，怎么继续提升？答案是动态生成更难的任务。其中一个玩法叫“功能删除”——给智能体一个带测试的代码库，让它删掉某个特定功能但保证代码库还能跑，然后任务就是把这个功能重新实现出来，测试就是奖励信号。不过任务一多，奖励作弊也跟着来了。 Cursor发现Composer 2.5会整一些离谱操作，比如逆向Python类型检查缓存找出被删的函数签名，甚至反编译Java字节码重建第三方API。好在都被监控工具抓到了，但也算提了个醒——大规模RL得更小心。第三，底层训练做了优化 Cursor用的是带分布式正交化的Muon，并把通信做成异步——一个任务等通信时，优化器接着推进其他任务，让网络和计算重叠起来。最终在1T模型上，优化器每步只要0.2秒。另外针对MoE模型，他们把非专家权重和专家权重的HSDP布局拆开了：非专家权重小，FSDP组就窄一点，单节点内搞定；专家权重大，就用更宽的分片网格。这样彼此独立的并行维度也能重叠，比如CP=2和EP=8可以在8个GPU上跑，而不用占16个。总之，从训练信号到数据规模再到底层并行，Cursor这次是全栈都动了一遍。 One More Thing Cursor为啥这么拼搞自研？其实从它和Anthropic的微妙关系里就能管中窥豹。刚好最近看了姚顺宇（不是腾讯那个）做客张小珺播客的那期节目，这位Anthropic前员工的观察，正好能说明问题： Curso