智能AI
morning
NUS、牛津等联合发布音视频智能综述:系统梳理大模型时代的AVI全景图
2026-05-20
1 阅读
新智元
新智元报道 【新智元导读】 NUS等联合发布音视频智能综述,系统梳理大模型时代AVI发展全貌,涵盖感知、生成与交互三大主线,揭示从单模态到跨模态的演进路径,并为未来研究与应用提供清晰方向。 最近,由新加坡国立大学(NUS)领衔,联合牛津大学、多伦多大学、UTD、HKUST、QMUL、罗切斯特大学等近10家机构共同发布了「第一份 站在大基础模型视角下」 对音视频智能(Audio-Visual Intelligence, AVI)做系统梳理的综述。 论文地址:https://arxiv.org/abs/2605.04045 代码链接:https://github.com/JavisVerse/Awesome-AVI 目主页:https://javisverse.github.io/ 整篇论文不仅复盘了过去近十年里散落在 ASR、数字人 / 说话头(talking head)、Foley(拟音)合成、视频配音 / 音频驱动视频生成、音视频问答(AVQA)、空间音频、具身导航等十几个子方向的工作,还把它们重新组织成 理解世界(Understanding the World)/ 创造世界(Creating the World)/ 与世界交互(Interacting with the World) 三条主线,更像是一份「音视频版 GPT-4o / Sora」研发团队的全景速查图。 编程范式之后 「听-看-说-动」一体化 论文从一条直观的演化路径切入:从L3-Net、Wav2Lip这类「对得上 / 唇形对齐」的早期 AV 工作,到 ImageBind、AudioLDM、MusicGen 的可扩展表示,再到 MMAudio、FoleyCrafter、JavisDiT 的跨模态生成与联合音视频生成,最后落到 GPT-4o、Veo-3、Seedance 2.0、HappyHorse、Qwen-Omni、OpenVLA 这一类同时听、看、说、生成或行动的 omni / VLA 模型。 过去我们只让模型「对得上音和画」,现在的趋势正在转变——开发者更习惯于让一个backbone同时干完感知、生成与交互。 随着上下文窗口越来越长、工具调用与策略学习越来越成熟,这种范式正在悄悄改写多模态系统的搭法。 当一个模型能直接听清环境声、看懂屏幕、说出自然回应、必要时还能动手时,「音视频智能」的起点就不再是「做单一任务」,而是组织感知-推理-响应的闭环。 这类范式变化带来的冲击,比任何一次单点性能升级都更结构性。 论文开篇的演化树,把这条变化路径直接画了出来。 统一任务体系 感知 / 生成 / 交互三条主线 论文首先搭建了AVI的整体任务蓝图。 它不仅比较了通用多模态大模型与音视频专用模型的训练侧重,也梳理了每一类任务背后的语料:LibriSpeech、AudioSet、VGGSound、AVQA、SoundSpaces、AVSpeech、HDTF……这些资源共同构成了AVI模型的「音视世界知识」。 为了让模型获得跨模态理解能力,预训练中大量使用对比对齐、masked / denoising重建、token级跨模态预测等任务,让模型能处理跨帧、跨模态的复杂依赖。 同时,从CLIP / AudioCLIP到AV-HuBERT、ImageBind,再到当下主流的Decoder-only LLM + omni encoder与MoE架构,模型结构的演化也体现了对AV任务需求的不断适配。 把这些内容拼起来,你会发现:所谓「视视频智能」,并不是单点突破,而是整个训练体系长期协同演进的结果。 数据集、基准与评价指标:从单段对齐到长视频工程级 AVI 的评测体系一直比较碎片化。论文系统整理了音视频理解、生成、交互、具身智能等方向的代表性数据集、benchmark 与评价指标,按粒度从片段级、单事件,到长视频级和智能体级任务串成完整序列。 LibriSpeech、AudioSet、VGGSound、AVE、MUSIC、AVQA 仍是基础指标,但它们只反映模型的「底层听看能力」。 在更真实的多模态语境中,长视频 AV 推理、跨场景的视频配音 / 音频驱动视频生成一致性、多说话人对话理解、空间音频推理、AV 具身任务才能真正体现模型是否「理解了世界」。 论文同时介绍了LLM-as-a-Judge、多智能体评测、执行级校验、低延迟交互评测等方法,并指出FAD / FVD / CLIP / SyncNet这些代理指标在音画同步与音频不可替代性维度上的局限,使评估更接近实际部署场景。 这一部分很清楚地呈现出一个结论:模型能不能做好音视频任务,取决于它能否处理真实场景的复杂依赖,而不仅仅是几个单段benchmark上的小提升。 基础技术:让模型「既会听看,也会生成和交互」 论文对AVI的基础技术做了系统总结。 从音频与视觉表示、tokenization、跨模态对齐与融合,到 VAE / GAN / Diffusion / 自回归(AR)/ Masked Autoregressive(MAR) 五类生成范式,再到Encoder + LLM、LLM + Generator、 统一感知生成模型 (unified Encoder + LLM + Decoder)、Agentic系统与VLA模型,每一步都围绕同一个目标:让模型理解世界,而不是仅「看起来会处理音视频」。 其中一个关键点是LLM-centric的设计选择。单纯把音频特征拼到视觉模型上远远不够,模型必须理解模态之间的依赖、时间结构和任务上下文,才能在真实场景中表现稳定。 在生成能力方面,扩散 / flow matching、masked autoregressive、以及diffusion + AR的混合架构,也成为提升性能的新趋势。 强化学习与偏好对齐部分则系统比较了RLHF、DPO、reward shaping在AV生成上的表现。论文特别提到verifier与reward生态——通过更靠近「音频不可替代性 / 物理合理性 / 长程一致性 / 音画同步」的奖励信号,让模型基于真实任务效用学习正确性。 这是近两年音视频大模型质量跃迁最显著的方向之一。 三条主线怎么落地:理解世界 → 创造世界 → 与世界交互 当模型以「统一backbone」身份参与音视频流程时,AVI 的潜力被进一步放大。 论文从理解世界(音视频感知、声源定位、AVQA、跨模态检索、推理)、创造世界(视频配音、音频驱动视频生成、联合音视频生成、音画编辑)、与世界交互(音视频对话、omni-modal交互、具身智能与机器人)三条线切入,为每一步构建了对应的方法地图与代表模型。 在理解这条主线里,模型不再是「只看视频」或「只听语音」,而是要在统一表示下做对齐、grounding与推理;AV-LLM的崛起让long-form video understanding、AVQA等任务有了新的基线。 在生成这条主线里,论文指出当前最大的瓶颈不是单模态画质或音质,而是 联合音视频生成中的音画同步、跨身份一致性与长时一致性 。MovieGen、Veo-3、Seedance 2.0、JavisDiT,以及 HappyHorse 这类近期音视频生成模型已