智能AI morning

实测小米最快1T大模型:吞吐量每秒1000+ Tokens,Vibe Coding七秒交付

2026-06-11 1 阅读 克雷西
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 实测小米最快1T大模型:吞吐量每秒1000+ Tokens,Vibe Coding七秒交付 克雷西 2026-06-11 09:18:16 来源: 量子位 通用GPU就能实现 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 全球大模型的军备竞赛,正在“智商”之外开辟新的战场—— 推理速度 。 把这个战场抬到新高度的,是小米。 小米发布了全新的 MiMo-V2.5-Pro-UltraSpeed 模型,也就是MiMo-V2.5-Pro的高速版本。 它拥有1T总参数,支持1M上下文, 单API推理速度直接拉到1000+ TPS ,刷新旗舰模型全球最快推理速度。 而且不像Groq那样依靠定制芯片, 用通用GPU就能实现 。 这也意味着,小米这次的新模型, 打破了“快、强、通用GPU无法兼得”的行业不可能三角 。小米秀出的是 从模型层到引擎层的全链路推理优化能力 ,而背后的推理工程实力,毫无疑问是全球第一梯队水平。 这次,量子位也拿到了MiMo-V2.5-Pro-UltraSpeed的测试资格,到底有没有这么快,接下来一起看看。 实测小米“最快旗舰模型” 先看看MiMo-V2.5-Pro-UltraSpeed能不能生成一个完整的Web应用出来。 我把它接入了Claude Code,让它写一个 网页版的番茄钟 应用出来。 实话实说,以现在模型的推理能力,这个任务已经比较简单了,所以这个任务主要想看的是它的速度。 用HTML、CSS、JavaScript实现一个可以直接在浏览器运行的番茄钟工作计时器。 要求包含: 25分钟专注/5分钟短休息/15分钟长休息三种模式可切换; 大字体倒计时显示; 开始/暂停/重置按钮; 完成一个番茄后自动切换到休息模式并播放提示音(用Web Audio API生成); 右侧显示今日已完成番茄数和历史记录列表; 支持自定义各阶段时长; 配色方案参考Linear设计风格。 结果,它的速度,还真让我大吃一惊。 提交任务后的前5秒,我看到它还在慢吞吞地思考,以为要掉链子。 结果它是在憋大招,还没等我回过神,需要交付的番茄钟网页代码就chua得一下全吐出来了。 500多行HTML, 加上思考过程一共只用了7秒 。 这张动图体现的就是原速度,注意千万别眨眼。 相比之下,如果用Claude,而且还是最轻量的Haiku搭配Low Effort,最短仍然需要40多秒。 把同样的任务放到网页端来跑,由于思考过程较长,因此总体耗时比用Claude Code接入MiMo-V2.5-Pro-UltraSpeed多了不少。 但网页端的MiMo-V2.5-Pro-UltraSpeed自带速度显示,可以看到输出阶段的 平均速度达到了1000+TPS 。 如果看峰值,目测推理阶段最高吞吐量达到了600+ TPS,推理后的输出阶段更是飙到了3300+。 当然简单归简单,功能该验收还是得验收的。 页面跑起来之后,默认时长完全符合要求且支持自定义,要求的音效也会在计时结束时正常播放。 而且完成专注/休息计时后,还会自动跳到另一个模式,并且休息模式的跳转还遵循了三短一长的节奏。 模型跑得快当然是好事,但如果速度是靠“降智”换来的,那就本末倒置了。 所以简单的测速题目结束之后,接下来就要开始上难度,看看MiMo-V2.5-Pro-UltraSpeed的速度背后,到底有没有“降智”。 同时,这里为了测试MiMo-V2.5-Pro-UltraSpeed能不能很好地适配不同的Harness,我又把环境改成了Hermes。 构建一个局域网实时聊天室,要求后端用Node.js + Express + WebSocket; 支持多用户同时在线,用户进入时输入昵称,并和设备绑定,同一设备只有第一次进入时输入,但要有编辑功能; 聊天界面参考Slack风格,支持多个频道切换; 消息支持纯文本和代码块(代码块自动高亮); 显示在线用户列表,用户上下线有系统提示; 支持消息引用回复; 消息记录用SQLite持久化存储,进入频道可加载历史消息; 输出所有文件的完整代码,然后启动并部署到11451端口。 写完之后,MiMo-V2.5-Pro-UltraSpeed直接向我汇报了项目文件、功能清单和启动方式。 我们直接看运行效果。 首先最基础的实时聊天、上下线提醒、输入提示,全都正常实现。 代码、加粗这些特殊格式,也都能正常显示。 消息引用功能同样正常运转。 刷新页面之后,之前设定的设备昵称按要求被保留了下来,并且另一端也正常出现了下线提示,在线列表同步变动。 总之这一波,MiMo-V2.5-Pro-UltraSpeed把包含前端、后端、数据库的完整开发流程,三下五除二地就给完成了。 这个例子足以证明, 在提升速度的同时,MiMo-V2.5-Pro-UltraSpeed依然能够高质量地完成全栈开发任务 ,也就是智商依然在线。 不过,这样的速度,在实际生产当中,又能发挥什么作用呢? 我让MiMo-V2.5-Pro-UltraSpeed扮演一位资深剧本编辑,带着四位分析师在投委会前对一份电影大纲做紧急联合审阅。 你是一位资深的剧本编辑,手下有三位得力的审稿人。 现在你们需要在明天早上的项目评审会之前,对下面这份院线电影剧本大纲完成一次紧急联合审阅。 请按照以下分工完成任务: 你的故事结构分析师先接手,专门审查三幕结构是否完整、主线与支线的节奏配比是否合理、高潮场景的铺垫是否充分,出具一份结构审查意见。 与此同时,你的人物分析师也在并行工作,专门审查主角的动机是否可信、人物弧光是否完整、配角的功能是否清晰,出具一份人物审查意见。 你的市场分析师同步从商业角度出发,审查这个题材的受众定位是否清晰、同类型影片的市场表现如何、这个项目的差异化卖点是否足够,出具一份市场可行性意见。 三份意见都到手之后,你作为剧本编辑亲自综合判断:这份大纲能否推进立项?列出必须修改的问题清单,并直接输出一份修改后的完整大纲。 故事的梗概是这样的: 院线电影剧本大纲:《候鸟不南飞》 类型 现实主义情感剧情片,主打25-40岁都市女性受众。 一句话简介 一个在北京打拼十二年的湖南女人,在母亲突然病倒后被迫返乡,在照料与逃离之间重新理解了自己与家的关系。 主要人物 谢晚晴,38岁,北京某公关公司总监,离异,独居,与母亲关系疏远已久; 谢母,64岁,湖南县城退休教师,强势、传统,习惯用沉默施压; 陈默,40岁,谢晚晴的前同事,因家庭原因提前返乡创业,现经营一家民宿。 故事梗概 第一幕:谢晚晴接到父亲的电话,母亲突发脑梗住院。她请假返乡,原本打算处理完就走,却发现母亲的康复需要长期陪护,而父亲已无力独自承担。她陷入职业与家庭的两难。 第二幕:谢晚晴滞留县城,在照料母亲的过程中与母亲爆发多次激烈冲突,母亲的强势与控制欲将她推向崩溃边缘。与此同时,她与陈默重新建立联系,陈默的生活选择让她开始重新审视自己十二年来的人生路径。 第三幕:母亲康复出院,谢晚晴面临