撸猫撸出SOTA！3个00后2个月，造出史上最快流式音视频社交模型

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 撸猫撸出SOTA！3个00后2个月，造出史上最快流式音视频社交模型听雨 2026-06-20 18:42:35 来源：量子位速度快7倍，成本只有Veo 3的1/2000 鹭羽发自凹非寺量子位 | 公众号 QbitAI 一觉醒来，AI的新潮流变成了养猫？？？火速围观一下，刚刚全球流式音视频模型赛道闯进了一匹黑马，能力SOTA级，模型名字就叫缅因猫（MaineCoon）。养过缅因猫的朋友都知道，这个品种有个外号叫「猫狗」，意思是几乎你走到哪儿，它就跟到哪儿，相当粘人，互动感MAX。而模型MaineCoon和它几乎是如出一辙，不会一股脑生成完就跑，而是一直陪着你、follow你的状态，实时地往下走。比如这样：【此处无法插入视频，遗憾……可到量子位公众号查看～】给它一段文字，它直接边生成边播放，还能做到音画同出，效果就像是在和真人主播1V1视频对话，而且永远不会卡顿。时长可达 30分钟以上，这也是业界首次实现这个长度。【此处无法插入视频，遗憾……可到量子位公众号查看～】此外，MaineCoon的推理速度也很突出—— 22B 参数的大小，却能在单张H100上跑出47.5 FPS，同赛道速度位居业界第一；即使是在只有H100一半成本的推理卡RTX Pro 6000上，也能稳定保持30 FPS以上的实时运行速度。具体什么概念呢？假设我手里有一张GPU，用MaineCoon生成一条10秒的短视频，⾸帧将在3s以内出现，随后开始流式输出，新增prompt与实时输出无缝衔接，全程过渡丝滑自然。成本直接被打下来，每秒成本控制在0.001美元以内。如果在GPU占满的状态下，每秒推理更是仅需 0.00025美元，是Veo 3的1/2000、Seedance的1/560。而这些，来自一家base中国的10人初创团队，名叫 Catnip （猫薄荷）。几天前，他们刚刚在𝕏上发布了技术报告，就迅速收获多方关注，其中LTX官⽅也注意到了这家新面孔，并主动寻求合作。话不多说，来看具体效果。效果show time 其实MaineCoon和一般的音视频生成模型还不太一样，它首次将场景垂直落地在社交交互中。何为社交？就是活人感。且看各家现有的生成模型卷到飞起，Benchmark表现一个赛一个亮眼，但依旧有硬伤：要么速度太慢，要等完整生成后才能看到效果，根本没法实时，对创作者并不友好；要么做得了视频，却顾不上音频，音画永远分开走。这类通用音视频模型更擅长模拟物理规律和场景叙事，天空中的云怎么飘、水面的光怎么反射，它们拿捏得很准，但一到人物表现上就屡屡翻车。于是判断AI视频与否，大家总结出一条心照不宣的经验—— 看脸。要做社交距离也不露怯的视频，关键在于人物细节是不是够自然，比如眼神的变化、嘴角的抽搐、说话的节奏等等，还要音画高度同步、生成过程中随时可切换指令。难度系数拉满了，但这些细节才是决定活人感的关键。所以 MaineCoon 瞄准的，正是这个被整个行业忽视掉的缺口。具体来说，它做到了三件此前没有模型能同时做到的事。音视频流式生成先科普一下，什么是流式生成？这并非新鲜概念，最早ChatGPT一个字一个字往外蹦，就是流式输出。简单来说，就是让模型能够边看边生，推理到哪儿，就生成到哪儿。但视频的一帧涉及到成千上万个像素，还要和音频在时间轴上精准对齐，和单纯文字流式生成的难度完全不在同一个量级上。而且生成片段越小，就意味着每一帧能依赖的历史上下文越短，模型就更容易露馅。 MaineCoon则把这个单元极致压缩到了亚秒级，指令输出后1秒内就出首帧，低延迟和高质量两手抓。不止快了一点，更是生成方式的彻底改变。比如下面模拟人物对话，初始Prompt要求人物语气平静且深思熟虑，结果无论是角色的面部肌肉走向，还是语气停顿，都精准遵循指令。【此处无法插入视频，遗憾……可到量子位公众号查看～】中间实时输入新的指令，模型也能及时调整：【此处无法插入视频，遗憾……可到量子位公众号查看～】让角色做大幅度表情，也同样表现优秀：【此处无法插入视频，遗憾……可到量子位公众号查看～】也可以随时提出问题让角色解答：【此处无法插入视频，遗憾……可到量子位公众号查看～】不得不说，相比过去AI一句指令就出一堆回复的生硬别扭，MaineCoon的最大差异在于给予用户真人聊天的即视感，会接用户的话，也会给用户情绪。这大概就是养猫人常说的——你以为你在撸猫，其实猫也在撸你。业界最快的推理速度速度更不必多说，亲测体验下来，同类流式音视频模型的速度普遍在6-7 FPS，MaineCoon快了整整 7倍。即使是持续生成一整天，成本也都能维持在一个合理范畴内。模型虽然有22B，但单卡就能部署（最高47.5 FPS）。相比1.3B的轻量流式视频模型（19.1FPS）也要快2倍以上，轻松满足实时播放需求。更关键的是，这样的速度不仅没有牺牲质量，反而情感表达更丰富，动作也更连贯稳定。比如我们把场景搬到室外，日落时分的光影结合角色随风飘扬的发丝，说是真人博主在随意记录自己的City Walk也不为过。【此处无法插入视频，遗憾……可到量子位公众号查看～】无限时长生成根据官方介绍，MaineCoon还能做到连续生成 10分钟以上的音视频内容，期间保持画质、一致性、音画同步都不崩。毫不夸张地说，MaineCoon的架构甚至完全可以无限生成。这里以一个长达2分钟的MaineCoon视频为例，直到最后，人物都没有出现明显bug。【此处无法插入视频，遗憾……可到量子位公众号查看～】即使是动画风格的Minecraft小人，长时序也能稳稳接住。【此处无法插入视频，遗憾……可到量子位公众号查看～】 Catnip还同步自建了首个社交短视频专用基准测试 SocialVideo Bench ，以直观展示MaineCoon的表现。 SocialVideo Bench涵盖密集演讲、双人互动、音乐演唱、情绪表演、舞蹈、创意挑战、社交梗七大场景，九项指标全面考核视觉质量、运动质量、音质、音画对齐。其中，MaineCoon均超越主流的7款音视频生成模型，综合得分0.934，远超最优基线SoulX-FlashTalk（0.895），刷新 SOTA 。问题是——MaineCoon是如何做到的？三层训练，三层推理先说训练侧。 MaineCoon的训练框架主要分三个阶段，层层递进： Step 1：自重采样（Self-Resampling）这一步解决的是推训之间的鸿沟问题。传统训练中会用干净的历史帧做上下文，但真实推理时模型只能用自己生成的帧，二者之间存在偏差，而且时间一久，越生成越跑偏。自重采样能够让模型在训练时就接触到降质版的历史帧，从一开始就学会在带有轻微漂移、噪声的不完美条件下保持稳定。 Step 2：流式表征对齐（