智能AI
evening
撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型
2026-06-20
1 阅读
听雨
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型 听雨 2026-06-20 18:42:35 来源: 量子位 速度快7倍,成本只有Veo 3的1/2000 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 一觉醒来,AI的新潮流变成了 养猫 ??? 火速围观一下,刚刚全球流式音视频模型赛道闯进了一匹黑马,能力SOTA级,模型名字就叫 缅因猫 (MaineCoon)。 养过缅因猫的朋友都知道,这个品种有个外号叫「猫狗」,意思是几乎你走到哪儿,它就跟到哪儿,相当粘人,互动感MAX。 而模型MaineCoon和它几乎是如出一辙,不会一股脑生成完就跑,而是一直陪着你、follow你的状态,实时地往下走。 比如这样: 【此处无法插入视频,遗憾……可到量子位公众号查看~】 给它一段文字,它直接 边生成边播放 ,还能做到 音画同出 ,效果就像是在和真人主播1V1视频对话,而且永远不会卡顿。 时长可达 30分钟 以上,这也是业界首次实现这个长度。 【此处无法插入视频,遗憾……可到量子位公众号查看~】 此外,MaineCoon的推理速度也很突出—— 22B 参数的大小,却能在单张H100上跑出47.5 FPS, 同赛道速度位居业界第一 ;即使是在只有H100一半成本的推理卡RTX Pro 6000上,也能稳定保持30 FPS以上的实时运行速度。 具体什么概念呢? 假设我手里有一张GPU,用MaineCoon生成一条10秒的短视频,⾸帧将在3s以内出现,随后开始流式输出,新增prompt与实时输出无缝衔接,全程过渡丝滑自然。 成本直接被打下来,每秒成本控制在0.001美元以内。 如果在GPU占满的状态下,每秒推理更是仅需 0.00025美元 ,是Veo 3的1/2000、Seedance的1/560。 而这些,来自一家base中国的10人初创团队,名叫 Catnip (猫薄荷)。 几天前,他们刚刚在𝕏上发布了技术报告,就迅速收获多方关注,其中LTX官⽅也注意到了这家新面孔,并主动寻求合作。 话不多说,来看具体效果。 效果show time 其实MaineCoon和一般的音视频生成模型还不太一样,它首次将场景垂直落地在社交交互中。 何为社交?就是 活人感 。 且看各家现有的生成模型卷到飞起,Benchmark表现一个赛一个亮眼,但依旧有硬伤: 要么速度太慢,要等完整生成后才能看到效果,根本没法实时,对创作者并不友好;要么做得了视频,却顾不上音频,音画永远分开走。 这类通用音视频模型更擅长模拟物理规律和场景叙事,天空中的云怎么飘、水面的光怎么反射,它们拿捏得很准,但一到人物表现上就屡屡翻车。 于是判断AI视频与否,大家总结出一条心照不宣的经验—— 看脸 。 要做社交距离也不露怯的视频,关键在于人物细节是不是够自然,比如眼神的变化、嘴角的抽搐、说话的节奏等等,还要音画高度同步、生成过程中随时可切换指令。 难度系数拉满了,但这些细节才是决定活人感的关键。 所以 MaineCoon 瞄准的,正是这个被整个行业忽视掉的缺口。 具体来说,它做到了三件此前没有模型能同时做到的事。 音视频流式生成 先科普一下,什么是 流式生成 ? 这并非新鲜概念,最早ChatGPT一个字一个字往外蹦,就是流式输出。简单来说,就是让模型能够边看边生,推理到哪儿,就生成到哪儿。 但视频的一帧涉及到成千上万个像素,还要和音频在时间轴上精准对齐,和单纯文字流式生成的难度完全不在同一个量级上。 而且生成片段越小,就意味着每一帧能依赖的历史上下文越短,模型就更容易露馅。 MaineCoon则把这个单元极致压缩到了 亚秒级 ,指令输出后1秒内就出首帧,低延迟和高质量两手抓。不止快了一点,更是生成方式的彻底改变。 比如下面模拟人物对话,初始Prompt要求人物语气平静且深思熟虑,结果无论是角色的面部肌肉走向,还是语气停顿,都精准遵循指令。 【此处无法插入视频,遗憾……可到量子位公众号查看~】 中间实时输入新的指令,模型也能及时调整: 【此处无法插入视频,遗憾……可到量子位公众号查看~】 让角色做大幅度表情,也同样表现优秀: 【此处无法插入视频,遗憾……可到量子位公众号查看~】 也可以随时提出问题让角色解答: 【此处无法插入视频,遗憾……可到量子位公众号查看~】 不得不说,相比过去AI一句指令就出一堆回复的生硬别扭,MaineCoon的最大差异在于给予用户真人聊天的即视感,会接用户的话,也会给用户情绪。 这大概就是养猫人常说的——你以为你在撸猫,其实猫也在撸你。 业界最快的推理速度 速度更不必多说,亲测体验下来,同类流式音视频模型的速度普遍在6-7 FPS,MaineCoon快了整整 7倍 。 即使是持续生成一整天,成本也都能维持在一个合理范畴内。模型虽然有22B,但单卡就能部署(最高47.5 FPS)。 相比1.3B的轻量流式视频模型(19.1FPS)也要快2倍以上,轻松满足实时播放需求。 更关键的是,这样的速度不仅没有牺牲质量,反而 情感表达更丰富,动作也更连贯稳定 。 比如我们把场景搬到室外,日落时分的光影结合角色随风飘扬的发丝,说是真人博主在随意记录自己的City Walk也不为过。 【此处无法插入视频,遗憾……可到量子位公众号查看~】 无限时长生成 根据官方介绍,MaineCoon还能做到连续生成 10分钟 以上的音视频内容,期间保持画质、一致性、音画同步都不崩。 毫不夸张地说,MaineCoon的架构甚至完全可以无限生成。 这里以一个长达2分钟的MaineCoon视频为例,直到最后,人物都没有出现明显bug。 【此处无法插入视频,遗憾……可到量子位公众号查看~】 即使是动画风格的Minecraft小人,长时序也能稳稳接住。 【此处无法插入视频,遗憾……可到量子位公众号查看~】 Catnip还同步自建了首个社交短视频专用基准测试 SocialVideo Bench ,以直观展示MaineCoon的表现。 SocialVideo Bench涵盖密集演讲、双人互动、音乐演唱、情绪表演、舞蹈、创意挑战、社交梗七大场景,九项指标全面考核视觉质量、运动质量、音质、音画对齐。 其中,MaineCoon均超越主流的7款音视频生成模型,综合得分0.934,远超最优基线SoulX-FlashTalk(0.895),刷新 SOTA 。 问题是——MaineCoon是如何做到的? 三层训练,三层推理 先说 训练侧 。 MaineCoon的训练框架主要分三个阶段,层层递进: Step 1:自重采样 (Self-Resampling) 这一步解决的是推训之间的鸿沟问题。传统训练中会用干净的历史帧做上下文,但真实推理时模型只能用自己生成的帧,二者之间存在偏差,而且时间一久,越生成越跑偏。 自重采样能够让模型在训练时就接触到降质版的历史帧,从一开始就学会在带有轻微漂移、噪声的不完美条件下保持稳定。 Step 2:流式表征对齐 (