挑战扩散自回归统治！字节提出视觉生成第三种路线，让模型像人类一样边画边改

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 挑战扩散自回归统治！字节提出视觉生成第三种路线，让模型像人类一样边画边改鹭羽 2026-05-13 22:04:35 来源：量子位相同参数量超越扩散自回归鹭羽发自凹非寺量子位 | 公众号 QbitAI ber！这个五一假期，我也是真够忙的：自拍、电影、追剧、街头采访、听音乐会，还抽空回老家结了次婚…… 视频链接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw 视频链接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw 视频链接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw （咳咳）不卖关子了，其实以上这些，通通都是AI生成。但u1s1，就这逼真的眼神和动作，也太对味了！它们都出自字节商业化技术团队研发的新一代视觉生成模型，更妙的是—— 它的底层架构，不是主流的扩散模型，也并非近来大火的自回归模型，而是全新的第三条路。这篇研究论文，提出了另一种AI视觉生成构想：让AI像人类一样画画，不仅可以边画边改，还能复杂多画、简单少画。也就是生成精炼网络GRN （Generative Refinement Networks）。简单来说，如果把AI视觉生成比作在白纸上作画，那么现有的扩散和自回归模型各有各的优缺点。先说扩散模型，作为目前最常用的视觉生成架构，还是有两把刷子的，其所生成的视频几乎能够以假乱真。但实则它的绘画过程还像个笨拙的学生，无论是画简单的一颗苹果，还是复杂的巴洛克壁画，都必须老老实实一笔一笔画，所以即使是复杂度天差地别的画作，也要花费相同的时间步数。自回归模型这边，虽然天生具备画面复杂度感知，但由于需要先将颜色离散化，画作始终缺乏高频细节。它还粗心大意没有橡皮，前面一笔画错了，不仅不改，还会“自由发挥”越画越离谱。 GRN则从根本上解决了这些问题，知错就改，可以在画的过程中就不断修改细化，直到满意为止。比如下面这些风格多样的头像，都是生成精炼网络所画。再比如这些，all by GRN。类别生图、文生图、文生视频、图生视频，GRN样样手拿把掐。毕竟懂的都懂， “允许犯错、及时纠正” ，这套一以贯之的思路真的很字节范儿～（doge）实测架构性能说一千道一万，咱再来仔细实测看看。目前GRN T2I模型直接在HuggingFace就能体验（ https://huggingface.co/spaces/hanjian/GRN）。可以自行调整参数，比如提示词相关性、创意发散程度等。先来生成一张80年代家庭照片。一张80年代生日派对上拍摄的全家福。一个小男孩吹灭奶油蛋糕上的蜡烛，家人围绕在他身边鼓掌。很有CCD老照片那味儿了～再上难度，让GRN尝试生成一张漫画： Two men dressed in dark suits, red ties, and black hats. They are both wearing sunglasses and holding revolvers, pointing them directly at the viewer. The men have stern expressions on their faces. Their attire and demeanor suggest a sense of authority and menace… 两名男子身着深色西装、系红色领带、头戴黑色礼帽。二人均佩戴墨镜，手持左轮手枪，枪口直指观者。两人神情冷峻，着装与气场透着威严感与威慑感… 一眼望去，配色大胆、风格鲜明，角色与构图也搭配和谐。文生视频这边，作者开源了2B模型，同时提供了一个Discord网站Demo，大家登录Discord之后，点击下面这个链接就可以体验： http://opensource.bytedance.com/discord/invite。在左侧导航栏，可以找到GRN-T2V 2B模型，然后在聊天框输入/generate_video [提示词]即可。先来一个单人简单场景的测试： A man in an orange shirt and glasses stands before a red brick wall, holding and presenting a dark gray cylindrical object. 一名身穿橙色上衣、戴着眼镜的男子站在红砖墙前，手持并展示一个深灰色的圆柱形物体。视频链接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw 人物皮肤、面部细节和动作流畅度都不像是只有2B参数的模型～再看看一个多人舞蹈、镜头快速推进的例子，也没有出现画面畸形的情况。 A K-pop group performs on stage with vibrant lighting and dynamic choreography, singing a song about preferring night meetings, as shown in a live broadcast. 一场直播画面中，一支韩国流行偶像团体在绚丽的舞台灯光下登台表演，舞步灵动富有张力，演唱着一首偏爱夜间相约主题的歌曲。视频链接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw 另外，各种复杂的人物动作和镜头调度，也都能一步到位，还原得相当丝滑。视频链接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw 妥妥成片级表现，直接给到夯！这就引出了新的问题—— 为什么团队要执意跳出舒适区，探索一套全新的生成范式呢？ AI视觉生成的第三条路这就源自团队对现有主流技术路线的洞察—— 扩散模型：虽然生成质量高，但不够智能。它对所有样本，无论复杂与否，都分配相同的迭代步数，缺乏自适应能力。自回归模型：通过似然估计，天然具有复杂度感知能力。但一方面，受限于离散token化，存在严重的信息损失。另一方面，存在误差累计和误差传播的问题，早期错误无法修正，于是越错越离谱。而GRN则是对二者的扬长补短，同时兼顾全局精调和内容复杂度感知。其核心架构包括三个部分： 1、层次二叉树量化（HBQ）首先针对自回归模型的离散损失，HBQ采用近乎无损的离散编码，能够避免在压缩过程中丢失信息，同时实现图像与视频的统一建模。具体来说，它将VAE编码后的连续特征映射到[-1, +1]区间，然后通过二叉树结构进行多轮二进制量化。这样重建误差就会随着量化轮数增加逐渐被分配到更精细的量化区间，量化误差随着轮数指数级衰减，理论上可以实现完全无损的量化。最终将获得M个二进制标签，分别