摩尔线程 MUSA 合入SGLang主线，国产GPU开源生态从“代码共建”迈入“原生支持时代”

5月10日，由摩尔线程与SGLang社区联合主办的“MUSA开源技术沙龙｜SGLang × MUSA Meetup”在北京成功举行。本次Meetup不仅集结了SGLang核心开发成员，并邀请到TileLang、Triton、Mooncake等开源社区的顶尖技术专家，吸引了近百位前沿开发者到场参与。各方围绕大模型推理引擎、算子编译、工程优化与生态共建等核心议题，展开了一场高密度、深层次的技术交流。作为MUSA后端正式合入SGLang主线后的首场线下技术活动，此次Meetup集中展现了摩尔线程在推动国产GPU深度融入全球主流开源框架、加速AI软件栈生态共建方面取得的里程碑成果。基于这一官方支持体系，开发者在使用SGLang运行大语言模型及多模态推理任务时，已可直接调用摩尔线程全功能GPU，无需依赖第三方适配层，国产算力与国际主流推理框架的协同由此迈入“原生支持”的新阶段。立足通用计算，以MUSA开放架构拥抱开源生态摩尔线程CTO张钰勃在开场致辞中，深度阐释了MUSA（Meta-computing Unified System Architecture）统一系统架构的核心设计理念。他强调，摩尔线程始终坚持“通用计算”的初衷，以真正通用及高度统一的底层计算平台，支撑从物理世界仿真、数字孪生到具身智能的未来技术演进，不为创新设限；同时，通过全产品线“统一”的指令集与架构标准，确保软件生态能够持续沉淀与积累。针对开发者最为关心的生态迁移体验，张钰勃表示：“摩尔线程秉持开放的态度，MUSA在接口设计上最大程度复用了开发者熟悉的GPU编程习惯。我们不希望独立创造一套封闭的生态，而是以零学习成本，全面融入现有的繁荣生态。”基于这一开放理念，他指出，此次MUSA获得SGLang官方支持，正是摩尔线程拥抱开源社区的关键一步。未来，摩尔线程将与广大开发者并肩前行，持续在框架底层创新上贡献更多核心力量。技术分享：从推理框架到算子内核，共探国产GPU落地路径技术分享环节，SGLang、Triton、TileLang及Mooncake社区的核心专家围绕推理框架、算子编译与训推系统等议题，带来了五场深度技术分享。 ▼ 解析演进路线，SGLang以创新架构挑战大模型推理极限 SGLang核心开发成员Xiaoyu Zhang（BBuf）重点解析了框架的关键演进：支撑DeepSeek-V4等模型的Prefill-Decode分离架构与分层缓存机制，以及Zero‑overhead Speculative Decoding带来的推测解码效率跃升。在算子层，原有的sgl‑kernel包因体积膨胀（超1.5GB）已逐步迁移至全新的Jit‑kernel体系，基于TVM‑FFI实现按需编译，大幅提升开发与发版效率。同时，SGLang积极引入Vibe Coding实践，利用AI Agent自动完成了超60项性能分析与调优任务。发布2026年Q2 Roadmap时，他明确表示摩尔线程MUSA已正式纳入SGLang硬件适配核心阵列，未来双方将深化原生算子支持，共同推动顶级推理框架与国产算力底座的“原生”级融合。 ▼ 打通原生生态，MUSA释放主流模型“开箱即用”算力摩尔线程Contributor ROCKSTAR分享了SGLang在MUSA平台上的优化与工程落地实践。他重点介绍了实现快速兼容的关键——torchada适配层，通过一次import torchada即可让开发者现有CUDA代码无缝运行在摩尔线程GPU上，大幅降低适配与维护成本。在算子层面，摩尔线程开源的 MATE（MUSA AI Tensor Engine）算子库提供了高性能Attention与GEMM算子，已对接 FlashAttention、FlashMLA、DeepGEMM等主流接口。目前，基于MUSA的SGLang已支持DeepSeek、Qwen、GLM等主流大模型及Wan、LTX等视频生成模型，在MTT S5000等硬件上实现真正的“开箱即用”与无缝加速，显著降低了开发者的算力迁移门槛。截至5月12日，摩尔线程在SGLang主线累计提交47个PR，其中41个已合入，完成了从环境构建到分布式推理的全链路打通，为开源生态持续贡献了扎实的工程能力。 SGLang × MUSA Roadmap地址： https://github.com/sgl-project/sglang/issues/16565 SGLang安装文档： https://docs.sglang.io/docs/hardware-platforms/mthreads_gpu 北京智源人工智能研究院AI编译器研究员肖航的演讲聚焦于大模型Triton关键算子的优化及其在MUSA平台上的深度适配。他介绍了旨在打通多种AI芯片的统一开源软件栈FlagOS，其FlagGEMs算子库已涵盖超497个算子，并依托FlagTree编译器与Triton-TLE语言扩展，实现了跨芯片的高性能算子生成。通过融化、量化等方式加速Fused MoE和FP8 GEMM等算子性能4倍以上。在DeepSeek-V4的Day0适配中，通过摩尔线程专用的张量加速引擎与FlagOSTune调优方案，TTFT时延降低56.7%，吞吐量提升65.7%。这种跨芯片的统一抽象与优化机制，正为摩尔线程等国产GPU构建起更加丰富、高效的算力应用生态。 ▼ 破解硬件依赖，TileLang以极简抽象重塑算子开发范式 TileLang Maintainer唐正举深入探讨了作为Tile级领域特定编程语言（DSL），TileLang在化解算子硬件依赖与性能调优上的核心优势。通过对计算与数据搬运基本单元（Tile）的显式控制，开发者能以极简代码实现极致性能——例如用约50行代码写出比肩FlashAttention专家库的kernel，在Attention‑Sinks等算子上更获得20倍以上加速。TileLang提供Beginner、Developer、Expert三种编程模式，兼顾上手简易与深度调优；DeepSeek-V4已在训练中原生采用其编写核心kernel，达到硬件峰值性能。作为开源近一年即斩获超6000星的热门社区，TileLang正与MUSA生态深度联调，共同构建适配摩尔线程全功能GPU的高性能算子库。未来，Tile‑AI社区还将围绕分布式算子编程、自动调度等新项目发力，持续赋能AI算力演进。 TileLang-MUSA开源地址： https://github.com/tile-ai/tilelang-musa TileKernels算子库开源地址： https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels ▼ 践行极致解耦，Mooncake训推一体系统在国产GPU的高效实践 Mooncake Contributor马腾分享了Mooncake与SGLang深度结合的技术演进。其核心传输引擎（Transfer Engine）充分利用零拷贝RDMA与多协议支持，实现高吞吐与超低延迟；KV Cache Store将GPU显存、DRAM、SSD等异构存储统一池化，显著降低长上下文推理