NUS、牛津等联合发布音视频智能综述：系统梳理大模型时代的AVI全景图

新智元报道【新智元导读】 NUS等联合发布音视频智能综述，系统梳理大模型时代AVI发展全貌，涵盖感知、生成与交互三大主线，揭示从单模态到跨模态的演进路径，并为未来研究与应用提供清晰方向。最近，由新加坡国立大学（NUS）领衔，联合牛津大学、多伦多大学、UTD、HKUST、QMUL、罗切斯特大学等近10家机构共同发布了「第一份站在大基础模型视角下」对音视频智能（Audio-Visual Intelligence, AVI）做系统梳理的综述。论文地址：https://arxiv.org/abs/2605.04045 代码链接：https://github.com/JavisVerse/Awesome-AVI 目主页：https://javisverse.github.io/ 整篇论文不仅复盘了过去近十年里散落在 ASR、数字人 / 说话头（talking head）、Foley（拟音）合成、视频配音 / 音频驱动视频生成、音视频问答（AVQA）、空间音频、具身导航等十几个子方向的工作，还把它们重新组织成理解世界（Understanding the World）/ 创造世界（Creating the World）/ 与世界交互（Interacting with the World）三条主线，更像是一份「音视频版 GPT-4o / Sora」研发团队的全景速查图。编程范式之后「听-看-说-动」一体化论文从一条直观的演化路径切入：从L3-Net、Wav2Lip这类「对得上 / 唇形对齐」的早期 AV 工作，到 ImageBind、AudioLDM、MusicGen 的可扩展表示，再到 MMAudio、FoleyCrafter、JavisDiT 的跨模态生成与联合音视频生成，最后落到 GPT-4o、Veo-3、Seedance 2.0、HappyHorse、Qwen-Omni、OpenVLA 这一类同时听、看、说、生成或行动的 omni / VLA 模型。过去我们只让模型「对得上音和画」，现在的趋势正在转变——开发者更习惯于让一个backbone同时干完感知、生成与交互。随着上下文窗口越来越长、工具调用与策略学习越来越成熟，这种范式正在悄悄改写多模态系统的搭法。当一个模型能直接听清环境声、看懂屏幕、说出自然回应、必要时还能动手时，「音视频智能」的起点就不再是「做单一任务」，而是组织感知-推理-响应的闭环。这类范式变化带来的冲击，比任何一次单点性能升级都更结构性。论文开篇的演化树，把这条变化路径直接画了出来。统一任务体系感知 / 生成 / 交互三条主线论文首先搭建了AVI的整体任务蓝图。它不仅比较了通用多模态大模型与音视频专用模型的训练侧重，也梳理了每一类任务背后的语料：LibriSpeech、AudioSet、VGGSound、AVQA、SoundSpaces、AVSpeech、HDTF……这些资源共同构成了AVI模型的「音视世界知识」。为了让模型获得跨模态理解能力，预训练中大量使用对比对齐、masked / denoising重建、token级跨模态预测等任务，让模型能处理跨帧、跨模态的复杂依赖。同时，从CLIP / AudioCLIP到AV-HuBERT、ImageBind，再到当下主流的Decoder-only LLM + omni encoder与MoE架构，模型结构的演化也体现了对AV任务需求的不断适配。把这些内容拼起来，你会发现：所谓「视视频智能」，并不是单点突破，而是整个训练体系长期协同演进的结果。数据集、基准与评价指标：从单段对齐到长视频工程级 AVI 的评测体系一直比较碎片化。论文系统整理了音视频理解、生成、交互、具身智能等方向的代表性数据集、benchmark 与评价指标，按粒度从片段级、单事件，到长视频级和智能体级任务串成完整序列。 LibriSpeech、AudioSet、VGGSound、AVE、MUSIC、AVQA 仍是基础指标，但它们只反映模型的「底层听看能力」。在更真实的多模态语境中，长视频 AV 推理、跨场景的视频配音 / 音频驱动视频生成一致性、多说话人对话理解、空间音频推理、AV 具身任务才能真正体现模型是否「理解了世界」。论文同时介绍了LLM-as-a-Judge、多智能体评测、执行级校验、低延迟交互评测等方法，并指出FAD / FVD / CLIP / SyncNet这些代理指标在音画同步与音频不可替代性维度上的局限，使评估更接近实际部署场景。这一部分很清楚地呈现出一个结论：模型能不能做好音视频任务，取决于它能否处理真实场景的复杂依赖，而不仅仅是几个单段benchmark上的小提升。基础技术：让模型「既会听看，也会生成和交互」论文对AVI的基础技术做了系统总结。从音频与视觉表示、tokenization、跨模态对齐与融合，到 VAE / GAN / Diffusion / 自回归（AR）/ Masked Autoregressive（MAR）五类生成范式，再到Encoder + LLM、LLM + Generator、统一感知生成模型（unified Encoder + LLM + Decoder）、Agentic系统与VLA模型，每一步都围绕同一个目标：让模型理解世界，而不是仅「看起来会处理音视频」。其中一个关键点是LLM-centric的设计选择。单纯把音频特征拼到视觉模型上远远不够，模型必须理解模态之间的依赖、时间结构和任务上下文，才能在真实场景中表现稳定。在生成能力方面，扩散 / flow matching、masked autoregressive、以及diffusion + AR的混合架构，也成为提升性能的新趋势。强化学习与偏好对齐部分则系统比较了RLHF、DPO、reward shaping在AV生成上的表现。论文特别提到verifier与reward生态——通过更靠近「音频不可替代性 / 物理合理性 / 长程一致性 / 音画同步」的奖励信号，让模型基于真实任务效用学习正确性。这是近两年音视频大模型质量跃迁最显著的方向之一。三条主线怎么落地：理解世界 → 创造世界 → 与世界交互当模型以「统一backbone」身份参与音视频流程时，AVI 的潜力被进一步放大。论文从理解世界（音视频感知、声源定位、AVQA、跨模态检索、推理）、创造世界（视频配音、音频驱动视频生成、联合音视频生成、音画编辑）、与世界交互（音视频对话、omni-modal交互、具身智能与机器人）三条线切入，为每一步构建了对应的方法地图与代表模型。在理解这条主线里，模型不再是「只看视频」或「只听语音」，而是要在统一表示下做对齐、grounding与推理；AV-LLM的崛起让long-form video understanding、AVQA等任务有了新的基线。在生成这条主线里，论文指出当前最大的瓶颈不是单模态画质或音质，而是联合音视频生成中的音画同步、跨身份一致性与长时一致性。MovieGen、Veo-3、Seedance 2.0、JavisDiT，以及 HappyHorse 这类近期音视频生成模型已