MiMo-v2.5-Pro-UltraSpeed：1T 型号，每秒 1000 个代币

博客加入我们 English 简体中文博客加入我们 English 简体中文 2026 年 6 月 8 日 MiMo-V2.5-Pro-UltraSpeed：将 1T 参数模型生成速度推向 1000 TPS 1. 小米 MiMo-V2.5-Pro-UltraSpeed：速度就是终极优势从燃烧时代第一辆咆哮的赛车到打破音障的音爆，书写了人类对速度的渴望融入我们的 DNA。人工智能推理的速度也不例外——它定义了智能本身的边界。当模型足够快时，它就不再是你等待的工具，而是成为你自己思维的延伸：实时响应、瞬间迭代、无摩擦协作。今天，我们很高兴与 TileRT 合作发布小米 MiMo-V2.5-Pro-UltraSpeed，首次突破 1 万亿参数模型上的 1000 tokens/s 解码速度！ MiMo-V2.5-Pro UltraSpeed 实时生成速度比较（高达约 1200 个代币/秒） 2. 限时访问·基于应用 MiMo-V2.5-Pro-UltraSpeed API 以限时促销价格同步推出 — 成本是 MiMo-V2.5-Pro 的 3 倍，但生成速度约为 10 倍！ 3倍的价格，10倍的输出体验。（仅限 API；不支持代币计划。）由于高速推理资源有限，MiMo-V2.5-Pro-UltraSpeed 将通过基于应用程序的有限时间窗口提供。获得批准的用户可以在试用期内访问该API，仅限2026年6月9日至6月23日23:59（北京时间，UTC+8 / 08:59 PDT）。如何申请API平台：platform.xiaomimimo.com/ultraspeed 。试用名额有限——提交并不能保证获得批准。我们会优先考虑有真实业务需求的企业和专业开发者。标准型号接入请遵循MiMo-V2.5型号系列。如需 UltraSpeed 型号的深入业务合作伙伴关系，请联系business-mimo@xiaomi.com。聊天体验（试用期间免费）获得批准的用户将获得两周内有效的免费聊天访问权限。入口点：ultraspeed.xiaomimimo.com 为保证资源限制下的质量和公平性，规则如下：每个账号每日最多可排队10次；每节课时间上限为 30 分钟；空闲时间超过5分钟的会话将自动释放。 3. 1000 个代币/秒：不仅仅是快速，更是范式转变在万亿参数 (1T) 规模上，突破 1000 tps 远远超出了更快的打字机的范畴，它从根本上颠覆了 AI 应用范式。首先，速度本身开始转化为智力。以前，当遇到难题时，你只能“等待一个答案并祈祷它是正确的”。现在，在相同的挂钟时间内，模型可以并行运行数十条推理路径（Best-of-N / Tree Search），在后台自动验证和自我纠正 - 使用原始速度生成思维深度，直接提升推理质量。其次，彻底释放了Coding Agent的生产力上限。以前，让人工智能编写代码意味着开发人员在屏幕前痛苦地等待，并受到推理延迟的瓶颈。 1000 tps 下，代码生成速度和生产效率得到范式级加速。最重要的是，万亿参数模型现在可以进入实时决策循环。毫秒级的“思考-响应”周期让1T旗舰机型能够无缝接入对时间要求严格的场景——高频量化交易信号生成、即时反欺诈拦截、智能竞价、实时互动对话。当这种力量被应用于生死攸关的手术援助和医学成像分析时，人工智能速度不再只是效率的衡量标准——它成为与死亡竞赛的筹码。在手术台上，人工智能在完成病灶分析和风险预测方面节省的每一秒，都让外科医生多了一个自由度。这加深了我们的信念：速度的最终意义不仅是提高生产力，而且使技术能够帮助人类生活得更好。 4. 极限模型-系统协同设计 1T旗舰模型实现1000+代币/秒的生成速度并不是单一技术的突破，而是MiMo模型团队与TileRT系统团队深度协作和极限协同设计的产物。目前业界实现类似极限速度的方法通常依赖于专用硬件——Cerebras 的晶圆级集成或 Groq 的纯片上 SRAM 定制架构。我们选择了一条不同的道路：仅通过模型系统协同设计在商用 GPU 上实现更令人印象深刻的推理速度。在模型方面，我们针对商用硬件的带宽瓶颈应用了 FP4 量化，大大缩小了模型大小并减少了内存访问开销；同时，我们引入了DFlash，一种基于块级掩码并行预测的高效推测解码方法，大大提高了

订阅66必读