开发者生态
morning
稳定音频3
2026-05-20
1 阅读
guardienaveugle
计算机科学 > 声音 arXiv:2605.17991 (cs) [提交于 2026 年 5 月 18 日] 标题:Stable Audio 3 作者:Zach Evans、Julian D. Parker、Matthew Rice、CJ Carr、Zack Zukowski、Josiah Taylor、Jordi Pons 查看由 Zach Evans 和其他 6 位作者撰写的标题为“Stable Audio 3”的论文的 PDF 查看PDF HTML(实验) 摘要:Stable Audio 3 是一系列快速潜在扩散模型(小、中、大),用于可变长度音频生成和编辑。由于我们的模型可以生成几分钟的音频,因此可变长度生成是避免生成短声音的全长生成成本的关键。我们还支持修复,实现有针对性的音频编辑和短录音的延续。我们的潜在扩散模型在新颖的语义声学自动编码器之上运行,该编码器将音频投影到紧凑的潜在空间中,从而实现基于扩散的高效生成,同时保留音频保真度并鼓励潜在的语义结构。最后,我们进行对抗性后训练,以加速推理并提高生成质量,减少推理步骤的数量,同时提高保真度和及时的依从性。 Stable Audio 3 模型经过许可和 Creative Commons 数据的训练,可在 H200 GPU 上不到 2 秒、在 MacBook Pro M4 上不到几秒内生成音乐和声音。我们发布了可以在消费级硬件上运行的小型和中型权重,以及它们的训练和推理管道。评论: 训练代码:此 https URL 推理和权重:此 http URL 主题:声音 (cs.SD) ;人工智能 (cs.AI) 引用为:arXiv:2605.17991 [cs.SD](或此版本的 arXiv:2605.17991v1 [cs.SD]) https://doi.org/10.48550/arXiv.2605.17991 重点了解更多 arXiv 通过 DataCite 颁发的 DOI(待注册) 提交历史记录发件人:Jordi Pons [ 查看电子邮件 ] [v1] 2026 年 5 月 18 日星期一 07:47:03 UTC (67 KB) 全文链接: 访问论文:查看由 Zach Evans 和其他 6 位作者撰写的标题为“Stable Audio 3”的论文的 PDF 查看 PDF HTML(实验性)TeX 源代码 查看许可证 当前浏览上下文:cs.SD < 上一页 | 上一页 | 下一页下一页 > 新 |最近 | 2026-05 更改为浏览方式:cs cs.AI 参考文献和引文 NASA ADS Google Scholar 语义学者导出 BibTeX 引文 正在加载... BibTeX 格式的引文 × 正在加载... 数据提供者: 书签 书目工具 书目和引文工具 书目浏览器 切换书目浏览器(什么是浏览器?) 已连接论文 切换已连接论文(什么是已连接)论文? ) Litmaps 切换 Litmaps(什么是 Litmaps?) scite.ai 切换 scite 智能引文(什么是智能引文?) 与本文相关的代码、数据、媒体 代码、数据和媒体 alphaXiv 切换 alphaXiv(什么是 alphaXiv?) 代码链接 切换 CatalyzeX 论文代码查找器(什么是 CatalyzeX?) DagsHub 切换 DagsHub (什么是 DagsHub?) GotitPub 切换 Gotit.pub (什么是 GotitPub?) Huggingface 切换拥抱面 (什么是 Huggingface?) ScienceCast 切换 ScienceCast (什么是 ScienceCast?) 演示 演示 复制 切换复制 (什么是复制?) Spaces 切换拥抱面 空间 (什么是空间? ) 空间 切换 TXYZ.AI(什么是 TXYZ.AI?) 相关论文推荐器和搜索工具 链接到 Influence Flower Influence Flower(什么是 Influence Flowers?) 核心推荐器切换 CORE 推荐器(什么是 CORE?) 作者地点 机构 主题 关于 arXivLabs arXivLabs:与社区合作者的实验项目 arXivLabs 是一个允许合作者开发和共享新 arXiv 的框架直接在我们的网站上提供功能。与 arXivLabs 合作的个人和组织都接受并接受了我们开放、社区、卓越和用户数据隐私的价值观。 arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。您有一个可以为 arXiv 社区增加价值的项目想法吗?了解有关 arXivLabs 的更多信息。这篇论文的哪些作者是认可者? |禁用 MathJax(什么是 MathJax?)