从兼容 CUDA 到自我进化，摩尔线程想用 MUSA 解决真正的难题

没有发布芯片，但这场发布会还是“出圈”了。 5 月 18 日，摩尔线程在北京举办主题为“词元时代，万物智能”的年度产品发布会，现场座无虚席。摩尔线程用接近 2 个小时的时间，一口气完成六大重磅发布：从万卡级规模的夸娥智算集群，到自研“长江”SoC 驱动的智能终端 MTT AICUBE 和 MTT AIBOOK；从数字世界智能体“小麦”，到加速物理 AI 落地的首个全栈具身智能仿真平台 MT Lambda，再到持续进化的 MUSA 生态。摩尔线程全面展示了一个覆盖“云 - 边 - 端”的全栈智算矩阵，每个都值得深入讨论。但在笔者看来，这场发布会带来的最大惊喜，是压轴发布的 MUSA 生态进化。过去几年，国产 GPU 已经验证了硬件能力。通过架构迭代、工程优化，国产 GPU 是能够在硬件上交出高分答卷的。但企业采购 GPU 从来不是只买一张卡，而是在押注其背后的软件生态和开发体系。摩尔线程用一场发布会向开发者证明，MUSA 不只是国产 GPU 的生态底座，更是一个开放、自进化、与开发者共同成长的智能生态。国产 GPU，加速融入全球开源生态在过去很长一段时间里，国产 GPU 软件生态与全球主流开源生态之间，始终存在一道微妙的裂痕。国产 GPU 能支持不少主流框架运行，却少有人能进入真正的牌桌，融入全球开源生态。这意味着，即便开发者能在国产 GPU 上完成训练或推理任务，但需要做的额外工作一点也不少。最显著的代价是，维护成本高昂。同样的模型跑在国产 GPU 上，如果缺乏原生支持，开发者需要针对不同训练或推理框架单独维护适配层，不少核心算子也无法直接调用，需要开发者手动替换实现方案，甚至重新编写部分 kernel。如果上游框架迭代，开发者还需要投入额外的精力维护 patch、跟进版本更新和兼容测试。开发者用大量的时间和精力，填补生态上的空白。这也是为什么，MUSA 近期在开源生态层面的进展，值得拿来放到发布会上压轴讨论。在当前最主流的两个大模型推理框架 SGLang 和 vLLM 上，MUSA 都带来了好消息： SGLang 方面，MUSA 后端正式加入 SGLang 的官方支持体系，相关代码也已成功合入 SGLang 主线。截至 5 月 12 日，摩尔线程已向 SGLang 提交 47 个 PR，其中 41 个完成合并，并成功进入 SGLang 2026 年 Q2 官方硬件支持矩阵，与 GB200/GB300、AMD、TPU 等主流算力平台并列。vLLM 方面，MUSA 成为 vLLM 的官方后端，并开源 vLLM-MUSA，开发者可原生获得摩尔线程 GPU 加速能力。与单纯地多支持了一个框架相比，加入大模型推理框架官方后端矩阵意味着，国产 GPU 在生态适配上拥有更充分、更直接的兼容路径。以 SGLang 为例，无论开发者使用的是 SGLang 框架本体 sglang、高性能算子库 sgl-kernel，还是多模态生成组件 multimodal_gen，都能在原生框架环境中直接调用摩尔线程 GPU，开发者不需要维护额外分支或适配层，就能在熟悉的工作流中完成推理部署和性能优化。除了推理框架，摩尔线程在底层编译生态上也有关键进展。据介绍，摩尔线程正与智源研究院合作推进 Triton 生态，Triton-MUSA 已升级支持至 Triton 3.6 最新版本。基于 Triton 的 FlagOS 正在成为连接不同 AI 芯片的软件中间层，其重要性不言而喻。此前，在一场由摩尔线程举办的技术 Meetup 上，智源研究院展示了打通多种 AI 芯片的统一开源软件栈 FlagOS，其 FlagGEMs 算子库已涵盖超 497 个算子，并依托 FlagTree 编译器与 Triton-TLE 语言扩展，实现了跨芯片的高性能算子生成。这一能力已经在实际场景中得到验证。以 DeepSeek-V4 的 Day0 适配为例，基于摩尔线程专用张量加速引擎与 FlagOSTune 调优方案，模型首 Token 返回时延（TTFT）降低 56.7%，吞吐量提升 65.7%。从这个角度看，Triton-MUSA 升级更大的意义在于，开发者可以基于 Triton 这一主流高性能算子开发工具，在 MUSA 上进行更高效的算子开发与优化，进一步降低底层开发门槛。在全球开源社区中，TileLang-MUSA 已成功合入开源主线。作为近一年快速崛起的热门开源社区，TileLang 开源不足一年便斩获超 6000 Stars，其目标是解决 Triton 等现有方案在极致性能控制上的不足，让开发者用更少的代码实现专家级的算子性能。目前，TileLang 正与 MUSA 生态深度联调，共同构建适配摩尔线程全功能 GPU 的高性能算子库。在 GEMM 类算子上，已经实现了 95% 以上的汇编级性能效率，Attention 类算子也达到了 90% 以上的效率。从 SGLang 到 vLLM，再到 Triton、TileLang，MUSA 正在加速进入主流开源生态，串联起从上层应用到底层优化的完整路径。降低开发者维护成本的同时，也让国产 GPU 更有可能被大规模采用。这或许才是国产 GPU 生态走向成熟的重要分野。 100% 兼容，MUSA 把迁移成本打下来了降低维护成本决定了开发者能否长期留下来，但在这之前，决定开发者是否愿意用起来的，是迁移成本。正如前文所说，企业采购 GPU 从来不是只买一张卡，而是在押注其背后的软件生态和开发体系。代码能否复用、框架能否兼容、工作流是否需要重构，往往比单纯的算力参数更影响最终决策。此次发布会上新的 MUSA SDK 5.1.0，直指的正是迁移痛点——它完全对标 CUDA 12.8，后者为 Blackwell 架构提供了完整、全工具链的支持，也是当前业界广泛使用的主力版本。升级后，基于 CUDA 12.8 开发的 AI 模型、科学计算应用，都能以极高的效率运行在摩尔线程 GPU 上。MUSA 软件栈全链路覆盖了底层驱动、编译器、算子加速库、训练与推理框架，并且迁移流程得到了大幅简化：兼容只是第一步，决定开发者体验的，还有性能。针对 FlashAttention3、Sage Attention、DSA、GDN、DeepGEMM 等当前业界最常用的计算算子，摩尔线程推出了 MATE（MUSA AI Tensor Engine）加速库，并围绕核心算子进行了专项性能增强。其中，FlashAttention3 在摩尔线程 GPU 上的计算效率高达 95%，整体热点算子覆盖率突破 90%。在 Attention 类算子上，MATE 已实现全场景、全覆盖支持，为大规模语言模型提供了核心性能保障。这些数据代表的是，迁移不再以牺牲性能为代价，开发者将现有 CUDA 应用迁移至 MUSA 后，在热点计算环节的实际运行速度与原有平台几乎无差别。为了提升开发者应用体验，摩尔线程还提供了“产品化”的训练与推理套件。比如在训练侧，基于 MTT S5000 全功能 GPU 的超大规模集群训练能力已实现全面产品化，同时，强化了对强化学习的支持，兼容业界主流的 VeRL 与 Slime 框架，并

订阅66必读