实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付克雷西 2026-06-11 09:18:16 来源：量子位通用GPU就能实现克雷西发自凹非寺量子位 | 公众号 QbitAI 全球大模型的军备竞赛，正在“智商”之外开辟新的战场—— 推理速度。把这个战场抬到新高度的，是小米。小米发布了全新的 MiMo-V2.5-Pro-UltraSpeed 模型，也就是MiMo-V2.5-Pro的高速版本。它拥有1T总参数，支持1M上下文，单API推理速度直接拉到1000+ TPS ，刷新旗舰模型全球最快推理速度。而且不像Groq那样依靠定制芯片，用通用GPU就能实现。这也意味着，小米这次的新模型，打破了“快、强、通用GPU无法兼得”的行业不可能三角。小米秀出的是从模型层到引擎层的全链路推理优化能力，而背后的推理工程实力，毫无疑问是全球第一梯队水平。这次，量子位也拿到了MiMo-V2.5-Pro-UltraSpeed的测试资格，到底有没有这么快，接下来一起看看。实测小米“最快旗舰模型” 先看看MiMo-V2.5-Pro-UltraSpeed能不能生成一个完整的Web应用出来。我把它接入了Claude Code，让它写一个网页版的番茄钟应用出来。实话实说，以现在模型的推理能力，这个任务已经比较简单了，所以这个任务主要想看的是它的速度。用HTML、CSS、JavaScript实现一个可以直接在浏览器运行的番茄钟工作计时器。要求包含： 25分钟专注/5分钟短休息/15分钟长休息三种模式可切换；大字体倒计时显示；开始/暂停/重置按钮；完成一个番茄后自动切换到休息模式并播放提示音（用Web Audio API生成）；右侧显示今日已完成番茄数和历史记录列表；支持自定义各阶段时长；配色方案参考Linear设计风格。结果，它的速度，还真让我大吃一惊。提交任务后的前5秒，我看到它还在慢吞吞地思考，以为要掉链子。结果它是在憋大招，还没等我回过神，需要交付的番茄钟网页代码就chua得一下全吐出来了。 500多行HTML，加上思考过程一共只用了7秒。这张动图体现的就是原速度，注意千万别眨眼。相比之下，如果用Claude，而且还是最轻量的Haiku搭配Low Effort，最短仍然需要40多秒。把同样的任务放到网页端来跑，由于思考过程较长，因此总体耗时比用Claude Code接入MiMo-V2.5-Pro-UltraSpeed多了不少。但网页端的MiMo-V2.5-Pro-UltraSpeed自带速度显示，可以看到输出阶段的平均速度达到了1000+TPS 。如果看峰值，目测推理阶段最高吞吐量达到了600+ TPS，推理后的输出阶段更是飙到了3300+。当然简单归简单，功能该验收还是得验收的。页面跑起来之后，默认时长完全符合要求且支持自定义，要求的音效也会在计时结束时正常播放。而且完成专注/休息计时后，还会自动跳到另一个模式，并且休息模式的跳转还遵循了三短一长的节奏。模型跑得快当然是好事，但如果速度是靠“降智”换来的，那就本末倒置了。所以简单的测速题目结束之后，接下来就要开始上难度，看看MiMo-V2.5-Pro-UltraSpeed的速度背后，到底有没有“降智”。同时，这里为了测试MiMo-V2.5-Pro-UltraSpeed能不能很好地适配不同的Harness，我又把环境改成了Hermes。构建一个局域网实时聊天室，要求后端用Node.js + Express + WebSocket；支持多用户同时在线，用户进入时输入昵称，并和设备绑定，同一设备只有第一次进入时输入，但要有编辑功能；聊天界面参考Slack风格，支持多个频道切换；消息支持纯文本和代码块（代码块自动高亮）；显示在线用户列表，用户上下线有系统提示；支持消息引用回复；消息记录用SQLite持久化存储，进入频道可加载历史消息；输出所有文件的完整代码，然后启动并部署到11451端口。写完之后，MiMo-V2.5-Pro-UltraSpeed直接向我汇报了项目文件、功能清单和启动方式。我们直接看运行效果。首先最基础的实时聊天、上下线提醒、输入提示，全都正常实现。代码、加粗这些特殊格式，也都能正常显示。消息引用功能同样正常运转。刷新页面之后，之前设定的设备昵称按要求被保留了下来，并且另一端也正常出现了下线提示，在线列表同步变动。总之这一波，MiMo-V2.5-Pro-UltraSpeed把包含前端、后端、数据库的完整开发流程，三下五除二地就给完成了。这个例子足以证明，在提升速度的同时，MiMo-V2.5-Pro-UltraSpeed依然能够高质量地完成全栈开发任务，也就是智商依然在线。不过，这样的速度，在实际生产当中，又能发挥什么作用呢？我让MiMo-V2.5-Pro-UltraSpeed扮演一位资深剧本编辑，带着四位分析师在投委会前对一份电影大纲做紧急联合审阅。你是一位资深的剧本编辑，手下有三位得力的审稿人。现在你们需要在明天早上的项目评审会之前，对下面这份院线电影剧本大纲完成一次紧急联合审阅。请按照以下分工完成任务：你的故事结构分析师先接手，专门审查三幕结构是否完整、主线与支线的节奏配比是否合理、高潮场景的铺垫是否充分，出具一份结构审查意见。与此同时，你的人物分析师也在并行工作，专门审查主角的动机是否可信、人物弧光是否完整、配角的功能是否清晰，出具一份人物审查意见。你的市场分析师同步从商业角度出发，审查这个题材的受众定位是否清晰、同类型影片的市场表现如何、这个项目的差异化卖点是否足够，出具一份市场可行性意见。三份意见都到手之后，你作为剧本编辑亲自综合判断：这份大纲能否推进立项？列出必须修改的问题清单，并直接输出一份修改后的完整大纲。故事的梗概是这样的：院线电影剧本大纲：《候鸟不南飞》类型现实主义情感剧情片，主打25-40岁都市女性受众。一句话简介一个在北京打拼十二年的湖南女人，在母亲突然病倒后被迫返乡，在照料与逃离之间重新理解了自己与家的关系。主要人物谢晚晴，38岁，北京某公关公司总监，离异，独居，与母亲关系疏远已久；谢母，64岁，湖南县城退休教师，强势、传统，习惯用沉默施压；陈默，40岁，谢晚晴的前同事，因家庭原因提前返乡创业，现经营一家民宿。故事梗概第一幕：谢晚晴接到父亲的电话，母亲突发脑梗住院。她请假返乡，原本打算处理完就走，却发现母亲的康复需要长期陪护，而父亲已无力独自承担。她陷入职业与家庭的两难。第二幕：谢晚晴滞留县城，在照料母亲的过程中与母亲爆发多次激烈冲突，母亲的强势与控制欲将她推向崩溃边缘。与此同时，她与陈默重新建立联系，陈默的生活选择让她开始重新审视自己十二年来的人生路径。第三幕：母亲康复出院，谢晚晴面临

订阅66必读