智能AI
morning
马斯克甩出两张王牌,Grok Build杀入AI编程
2026-05-26
1 阅读
新智元
新智元报道 【新智元导读】 AI编程三国杀来了!5月14日,xAI上线了Grok Build,一个跑在终端里、能自己规划任务和改代码的编程智能体。马斯克曾承认xAI在编程上落后,这是它正面追赶Claude Code和OpenAI Codex的第一步。 马斯克补齐xAI编程短板的两张牌,已经打出。 5月14日,xAI发布Grok Build早期Beta,官方把它定位为「编程智能体和CLI(命令行工具)」,优先面向SuperGrok Heavy订阅用户开放。 到了25日,xAI在官网正式发布Grok Build公告,准入也从SuperGrok Heavy扩大到所有SuperGrok和X Premium Plus用户。至此,它才从一个高门槛的小范围Beta,变成更多付费用户能上手的工具。 https://x.ai/news/grok-build-cli 马斯克此前公开承认过,xAI在编程场景上落后。据Bloomberg报道,xAI内部曾有高管要求团队,把Grok做到能在各类任务上追平Claude。而Grok Build,就是这场追赶赛的第一个产品。 但产品一上线,很快就有用户提出了一个尖锐的问题: 虽然产品界面不错, 可底层模型不够强: 只要xAI拿出一个真正SOTA(业界最强水平)的模型,Grok Build一夜之间就能和Codex、Claude Code正面竞争。 马斯克随后在X上回了话,亮出了xAI下一代基础模型: 「我们最近完成的Grok V9 1.5T运行效果非常出色,这还是在尚未加入Cursor数据进行补充训练之前的结果。」 他还专门发帖,捋了一遍xAI那套「有点令人困惑」的版本号:内部正在开发的V9,参数1.5T,在数据整理、训练方法、模型规模等每个方面都显著优于V8,并针对Blackwell架构进行了优化;而面向公众的v4.2,基于V8训练,参数仅0.5T,在训练数据的质量、全面性和比例上存在重大缺陷。 从V8到V9,马斯克用了一个词来形容:「差距巨大」。 三大维度重建V9 马斯克口中的「差距巨大」,主要来源于三个维度的重建。 参数规模 首先,是参数规模,从0.5T涨到1.5T,实现了三倍扩张。 参数量扩大,可能提升模型容量、复杂任务建模能力,以及长链路工具调用中的稳定性。但上下文窗口、仓库级理解和长程任务表现,并不由参数量单独决定。 V9是否能在复杂代码仓库、跨文件修改和多步骤智能体任务中明显提升,仍需等公开版上线后通过实测验证。 由于Claude、GPT、Gemini 等头部模型普遍不公开具体参数量,V9的1.5T更适合作为xAI自身代际比较的指标,而不宜直接拿来和Sonnet、Opus或GPT系列做横向比较。 Hopper不够用了 xAI把Blackwell顶上去 按马斯克的说法,公开版v4.2所基于的V8约为0.5T参数,训练在Hopper芯片上;内部V9则扩大到1.5T参数,并面向Blackwell架构优化。 这意味着,V9的升级不只是模型尺寸变大,也伴随着底层硬件平台的代际切换。 相比Hopper,Blackwell面向更大规模模型集群做了进一步设计,包括更高的互联带宽、更强的低精度计算能力,以及面向万亿级模型训练和推理的系统级扩展能力。 需要注意的是,Hopper本身已经支持FP8,Blackwell的新增重点更应放在FP4、第五代NVLink和更大规模集群互联上。 xAI的算力底牌,是部署在孟菲斯的Colossus超级集群。 马斯克过去一年多次更新过Colossus的扩张进度。 这次V9被称为面向Blackwell优化,也意味着xAI正试图把集群扩张和硬件升级,转化为下一代基础模型的训练与运行能力。 真实的开发者数据 第二个是数据质量。 马斯克直言不讳:V8的数据质量有缺陷,全面性不够,比例不对。这意味着V8并非只是「规模小一点的模型」,而是一个数据基础就没打好的模型。 而V9补充训练的核心一步,是引入Cursor数据。 马斯克在5月15日的帖子里特别提到:V9的训练刚刚跑完,Cursor数据还没有加进去,将在补充训练阶段引入。 5月17日他更新了进度:下一步加入Cursor数据做补充训练,然后是SFT(监督微调)和RL(强化学习),整个流程大约还需要3到4周。 Cursor数据的价值,在于它是过程数据。GitHub上有海量代码,但是终态数据。 从空白文件到最终代码之间发生的数据:开发者补全、回退、纠错、与智能体互动……这些过程数据才是训练编程智能体真正稀缺的资源。 在补充训练中加入Cursor数据之后,V9将是第一个在真实开发者行为上系统性训练过的Grok。 这次马斯克点名Cursor,也不是随意的。xAI与Cursor的关系由来已久:2025 年grok-code-fast-1发布时,Cursor是其限时免费接入的合作平台之一。 至于V9补充训练所用的Cursor数据具体来源和授权细节,目前没有公开信息。 Grok Build到底是什么 功能上,Grok Build是一个跑在终端里的CLI工具,安装只要一行命令。 https://x.ai/cli 功能上,这是一个跑在终端里的CLI工具, 安装只要一行命令。 装好之后,进入项目目录敲一个grok,它就开始工作。你可以让它解释整个代码仓库的结构,也可以直接丢给它一个任务,比如「给这个API加上限流」,它会自己定位文件、改代码、跑测试、再修自己的错。 它有三种用法。一是TUI(终端图形交互界面),全屏、可鼠标操作;二是headless(无界面)模式,塞进脚本和自动化流程里;三是通过ACP(智能体客户端协议)接入其他应用。 真正值得关注的是它的工作方式:先规划,后执行。 面对复杂任务,Grok Build会先把思路写成一份计划,停下来等你确认。你可以逐条批注、整段重写,甚至让它带着问题先反问你一句,再动手。计划通过后,每一处改动都以清晰的diff(差异对比)呈现,改了什么一目了然。当一个编程智能体直接在真实项目文件里动手,这道审核关卡就不是可有可无。 它还支持子智能体并行,把一个任务拆给多个子智能体分头处理;支持MCP(模型上下文协议)服务器;有skills(技能)、plugins(插件)和marketplace(应用市场)的扩展体系;斜杠命令里甚至带着用/imagine生成图片、用/imagine-video生成视频。 把这些拼在一起,Grok Build对标的是Claude Code、Codex CLI和Cursor的智能体,而并非传统聊天机器人。xAI这次拿出的,是一个完整的开发者工作流入口。 底座是grok-build-0.1 V9还没上线 按xAI官方文档,驱动Grok Build的是一个专门训练的模型:grok-build-0.1。 它在5月19日前后进入API早期访问,官方对它的定位是「为智能体编程训练的快速编码模型」。 这是一款专门定位于编程的模型。它支持文本和图像输入,原生具备工具调用、结构化输出和推理能力,上下文窗口256K(约25.6万token)。它被训练成能在一个长链路里反复循环:读问题、写代码、用终端、查错、改错。 grok-build-0.1已单独上架xAI API,开发者可以把它直接