CODA:将 Transformer 块重写为 GEMM-Epilogue 程序

2026-05-22 1 阅读 matt_d
计算机科学 > 机器学习 arXiv:2605.19269 (cs) [提交于 2026 年 5 月 19 日( v1 ),最后修订于 2026 年 5 月 20 日(本版本,v2)] 标题:CODA:将 Transformer Blocks 重写为 GEMM-Epilogue 程序 作者:HanGuo、JackZhang、ArjunMenon、DrissGuessous、VijayThakkar、 Yoon Kim、Tri Dao 查看标题为 CODA:将 Transformer 块重写为 GEMM-Epilogue 程序的论文的 PDF,作者为 Hanguo 和其他 6 位作者 查看 PDF HTML(实验) 摘要:Transformer 训练系统是围绕密集线性代数构建的,但端到端时间的很大一部分花费在周围的内存限制运算符上。归一化、激活、残差更新、约简和相关计算会在全局内存中重复移动大型中间张量,同时执行少量算术,这使得数据移动成为高度优化的训练堆栈中越来越重要的瓶颈。我们引入 CODA,一种 GPU 内核抽象,它将这些计算表示为 GEMM-plus-epilogue 程序。 CODA 基于以下观察:许多作为单独框架内核公开的 Transformer 运算符可以通过代数重新参数化来执行,同时 GEMM 输出块保留在芯片上,然后再写入内存。该抽象修复了 GEMM 主循环,并公开了一小组可组合的尾声原语,用于缩放、缩减、成对转换和累积。这种约束接口保留了专家编写的 GEMM 的性能结构,同时保持足够的表达能力,以涵盖标准 Transformer 块的前向和后向传递中的几乎所有非注意力计算。在代表性的 Transformer 工作负载中,人类和 LLM 编写的 CODA 内核都实现了高性能,这表明 GEMM 加尾声编程提供了一条将框架级生产力与硬件级效率相结合的实用途径。主题:机器学习 (cs.LG) 引用为:arXiv:2605.19269 [cs.LG](或此版本的 arXiv:2605.19269v2 [cs.LG]) https://doi.org/10.48550/arXiv.2605.19269 重点了解更多 arXiv 通过 DataCite 发布的 DOI 提交历史记录 来源:韩国 [ 查看电子邮件 ] [v1] 星期二,2026 年 5 月 19 日 02:30:43 UTC (1,121 KB) [v2] 星期三,2026 年 5 月 20 日 17:38:24 UTC (493 KB) 全文链接:访问论文:查看标题为 CODA:将 Transformer 块重写为 GEMM-Epilogue 程序的论文的 PDF,作者:Hanguo 和其他 6 位作者 查看 PDF HTML(实验性)TeX 源代码查看许可证 当前浏览上下文:cs.LG < 上一页 | 上一页下一页 > 新 |最近 | 2026-05 更改浏览方式:cs 参考文献和引文 NASA ADS Google Scholar 语义学者导出 BibTeX 引文 正在加载... BibTeX 格式的引文 × 正在加载... 数据提供者: 书签 书目工具 书目和引文工具 书目浏览器 切换书目浏览器(什么是浏览器?) 关联论文 切换关联论文(什么是关联论文?) Litmaps 切换 Litmaps(什么是 Litmaps?) scite.ai 切换 scite 智能引文(什么是智能引文?) 与本文相关的代码、数据、媒体 代码、数据和媒体 alphaXiv 切换 alphaXiv(什么是 alphaXiv?) 链接到代码切换 CatalyzeX 论文代码查找器(什么是 CatalyzeX?) DagsHub 切换DagsHub (什么是 DagsHub?) GotitPub 切换 Gotit.pub (什么是 GotitPub?) Huggingface 切换 Hugging Face (什么是 Huggingface?) ScienceCast 切换 ScienceCast (什么是 ScienceCast?) 演示 演示 Replicate 切换 复制 (什么是 Replicate?) Spaces 切换 Hugging Face 空间 (什么是 Spaces?) 空间切换TXYZ.AI(什么是 TXYZ.AI?)相关论文推荐器和搜索工具链接到影响花影响花(什么是影响花?)核心推荐器切换 CORE 推荐器(什么是 CORE?)IArxiv 推荐器切换 IArxiv 推荐器(什么是 IArxiv?)作者地点机构主题关于 arXivLabs arXivLabs:与社区合作者的实验项目 arXivLabs是一个框架,允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。与 arXivLabs 合作的个人和组织都接受并接受了我们开放、社区、卓越和用户数据隐私的价值观。 arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。您有一个可以为 arXiv 社区增加价值的项目想法吗?了解有关 arXivLabs 的更多信息。这篇论文的哪些作者是认可者? |禁用MathJax(什么是MathJax?)