开发者生态
morning
SANA-WM,1分钟720p视频的2.6B开源世界模型
2026-05-16
1 阅读
mjgil
【HN用户评论摘要】
问题在于,与 Seedance 和 Kling 等似乎正在利用其无限视频库存的模型相比,这些模型缺乏可用的培训。像 LTX 这样的许多模型在技术上都很好,但当涉及到稍微不同的相机运动或拍摄对象与物体交互时,它们就很困难。对于最近的示例,我们必须使用闭源模型生成的示例视频,然后将其用于最终视频。
那么,哪里有下载呢?我在 Github 上找不到它,并且在您的网页上,下载按钮被禁用。另外,这可以在具有 24GB 内存的 RTX 4090 上运行吗?谢谢!
SANA-WM 是 NVLabs 新发布的开源世界模型,用于通过明确的 6-DoF 摄像机控制生成 1 分钟 720p 视频。最突出的是效率目标:针对分钟级生成进行本机训练的 2.6B 参数模型,论文声称可以在单个 GPU 上生成每个 60 秒的剪辑,以及对 60 秒 720p 进行降噪的精炼 RTX 5090 变体使用 NVFP4 量化在 34 秒内完成剪辑。论文将其归因于混合线性注意力设计,双 b
最令人兴奋的部分是它是开源的——创新将快速复合。
原始链接:https://nvlabs.github.io/Sana/WM/