MiMo-v2.5-Pro-UltraSpeed:1T 型号,每秒 1000 个代币

2026-06-08 1 阅读 gainsurier
博客 加入我们 English 简体中文 博客 加入我们 English 简体中文 2026 年 6 月 8 日 MiMo-V2.5-Pro-UltraSpeed:将 1T 参数模型生成速度推向 1000 TPS 1. 小米 MiMo-V2.5-Pro-UltraSpeed:速度就是终极优势 从燃烧时代第一辆咆哮的赛车到打破音障的音爆,书写了人类对速度的渴望融入我们的 DNA。人工智能推理的速度也不例外——它定义了智能本身的边界。当模型足够快时,它就不再是你等待的工具,而是成为你自己思维的延伸:实时响应、瞬间迭代、无摩擦协作。今天,我们很高兴与 TileRT 合作发布小米 MiMo-V2.5-Pro-UltraSpeed,首次突破 1 万亿参数模型上的 1000 tokens/s 解码速度! MiMo-V2.5-Pro UltraSpeed 实时生成速度比较(高达约 1200 个代币/秒) 2. 限时访问·基于应用 MiMo-V2.5-Pro-UltraSpeed API 以限时促销价格同步推出 — 成本是 MiMo-V2.5-Pro 的 3 倍,但生成速度约为 10 倍! 3倍的价格,10倍的输出体验。 (仅限 API;不支持代币计划。)由于高速推理资源有限,MiMo-V2.5-Pro-UltraSpeed 将通过基于应用程序的有限时间窗口提供。获得批准的用户可以在试用期内访问该API,仅限2026年6月9日至6月23日23:59(北京时间,UTC+8 / 08:59 PDT)。如何申请API平台:platform.xiaomimimo.com/ultraspeed 。试用名额有限——提交并不能保证获得批准。我们会优先考虑有真实业务需求的企业和专业开发者。标准型号接入请遵循MiMo-V2.5型号系列。如需 UltraSpeed 型号的深入业务合作伙伴关系,请联系business-mimo@xiaomi.com。聊天体验(试用期间免费) 获得批准的用户将获得两周内有效的免费聊天访问权限。入口点:ultraspeed.xiaomimimo.com 为保证资源限制下的质量和公平性,规则如下:每个账号每日最多可排队10次;每节课时间上限为 30 分钟;空闲时间超过5分钟的会话将自动释放。 3. 1000 个代币/秒:不仅仅是快速,更是范式转变在万亿参数 (1T) 规模上,突破 1000 tps 远远超出了更快的打字机的范畴,它从根本上颠覆了 AI 应用范式。首先,速度本身开始转化为智力。以前,当遇到难题时,你只能“等待一个答案并祈祷它是正确的”。现在,在相同的挂钟时间内,模型可以并行运行数十条推理路径(Best-of-N / Tree Search),在后台自动验证和自我纠正 - 使用原始速度生成思维深度,直接提升推理质量。其次,彻底释放了Coding Agent的生产力上限。以前,让人工智能编写代码意味着开发人员在屏幕前痛苦地等待,并受到推理延迟的瓶颈。 1000 tps 下,代码生成速度和生产效率得到范式级加速。最重要的是,万亿参数模型现在可以进入实时决策循环。毫秒级的“思考-响应”周期让1T旗舰机型能够无缝接入对时间要求严格的场景——高频量化交易信号生成、即时反欺诈拦截、智能竞价、实时互动对话。当这种力量被应用于生死攸关的手术援助和医学成像分析时,人工智能速度不再只是效率的衡量标准——它成为与死亡竞赛的筹码。在手术台上,人工智能在完成病灶分析和风险预测方面节省的每一秒,都让外科医生多了一个自由度。这加深了我们的信念:速度的最终意义不仅是提高生产力,而且使技术能够帮助人类生活得更好。 4. 极限模型-系统协同设计 1T旗舰模型实现1000+代币/秒的生成速度并不是单一技术的突破,而是MiMo模型团队与TileRT系统团队深度协作和极限协同设计的产物。目前业界实现类似极限速度的方法通常依赖于专用硬件——Cerebras 的晶圆级集成或 Groq 的纯片上 SRAM 定制架构。我们选择了一条不同的道路:仅通过模型系统协同设计在商用 GPU 上实现更令人印象深刻的推理速度。在模型方面,我们针对商用硬件的带宽瓶颈应用了 FP4 量化,大大缩小了模型大小并减少了内存访问开销;同时,我们引入了DFlash,一种基于块级掩码并行预测的高效推测解码方法,大大提高了