如何判断AI视频真假？综述动态、可溯源、可解释的检测体系

新智元报道【新智元导读】 AI视频生成技术迅猛发展，生成内容的逼真度不断提升，现有检测方法已无法满足需求。最新综述提出「事实保真度验证」新目标，从视觉与语言双视角梳理出四层检测框架，涵盖底层线索、时空一致性、跨模态核验及世界知识推理，强调多层证据耦合与可解释性。过去两年，视频生成模型正飞速演进，从24年底Sora刚发布时的惊艳效果，到Google Veo、Sora 2、Kling系列模型，以及今年年初的Seedance 2.0等视频生成模型的多点爆发，AI生成视频的质量已发生了质的飞跃，可以生成出电影级别的逼真效果的数分钟、多人物、复杂场景下的视频。在日新月异的生成侧对面，研究界对AI视频检测的关注却不温不火。而在现实中我们不难观察到，视频的多模态性质带来的比图片大得多的欺骗性正带来巨大的社会影响：各个社交平台上，AI生成的虚假视频频出，且数量、质量、覆盖广度均正在激增，用户询问Grok、豆包等基座模型「视频是否为AI生成」，得到的答案往往只有缺乏可解释性和可信度的是非判断；在小红书等平台上，真实拍摄的视频却经常被标注为「疑似AI生成」。生成侧快速发展与检测端的关注缺失之间正经历巨大鸿沟，我们必须及时关注：在AI视频生成快速迭代的今天，AI生成视频检测的研究发展到了哪一步、正在经历怎样的范式转变、未来需要向哪些方向发展。在这样的背景下，来自MBZUAI、中国人民大学和哈佛大学的研究者综述共同撰写并发布了五十页综述，首次从视觉和语言两个方向梳理出从低层视觉感知到高层世界级推理的技术路径，据此分析了目前迫切需要的多层证据耦合的动态、可溯源、可解释的可信检测体系，现已被 ACL 2026 录用，论文链接： https://www.researchgate.net/doi/10.13140/RG.2.2.31713.88168 GitHub链接： https://github.com/dxhou/AI-Generated-Video-Detection Homepage链接： https://AIgcvdetection.github.io 重写AI生成视频检测的目标图 1｜AI 生成视频检测的完整流程：生成端、双视角检测，到证据集合在生成式AI爆发之前，AI生成视频会留下相对明显的视觉伪迹，基于这个前提，在早期以换脸为代表的Deepfake场景中，帧级的视觉感知侧核验足够有效。而在近两年，飞速发展生成式AI时代的视频质量逐渐跨过了这个「前提」，人眼已越来越无法判断真实、完整的视频的真假。此时，只输出二分类判断的检测就已经不能满足需求，亟待回答：检测器究竟基于怎样的证据来支持可信的判断。本综述首先将检测问题的边界前推：指出检测输出需要从「真假二分类走向可解释、可信的结构化判断，从而把检测对象推进到面向视频中的「虚拟世界」与「现实世界」之间的间隙进行核验。因此，综述首先重新界定了检测目标，重定义为「事实保真度验证」，即核查视频内容中关于「谁、何时、何地、发生了什么」这样的命题是否同时在感知和认知上一致对齐真实世界，在视觉和模态间核验之外，需要去进一步判断视频内容包含这些命题是否与外部「事实、物理规律与世界知识等」存在冲突。检测对象 AI生成视频的三种范式图 2｜本综述定义的三类 AI 生成视频范式 2020年至今，AI生成视频经历了范式上的迁移：从早期Deepfake时期通过GAN进行视频局部修改，到换口型和语音等音画重组，再到潜空间扩散模型促生的类Sora的「世界模拟器」支持的AI视频全合成，综述将AI生成视频分为如下三种范式：保留真实载体的局部操控视频（Local Manipulation Video, LMV） LMV 长期是传统Deepfake检测最典型、最成熟的一类范式。视频本身将真实拍摄视频的局部区域作处理，如换脸、换背景等；而场景、人物动作、镜头运动、光照关系等的原始视频的大部分结构通常还在。因此，绝大多数早期方法也正是围绕局部伪迹、频域特征、几何异常和区域一致性来做。而生成模型在局部融合、光照适配和身份迁移上的能力越来越强，平台处理和二次传播又会把很多细小痕迹进一步抹掉；对LMV范式的检测重点慢慢更关注检测方法在不同场景下的鲁棒性。跨模态耦合约束下的音视频编辑（Audio-Visual Editing, AVE） AVE范式主要兴起于2024年，这类AI生成视频中改动的是画面本身和声音、口型、说话人身份、说话节奏、字幕内容等视频内部原本已经建立好的对应关系。包括语音驱动的人脸合成、对原视频重新配音、改口型、换说话人等。这使得检测端需要从看视觉伪迹走向检查视频内部几个模态之间的关系有没有真的成立，把声音、口型、身份和内容放在一起看去找到真正有判断力的线索。端到端生成式视频合成（Generative Video Synthesis, GVS） 2025年爆发的GVS范式中，模型直接依靠文本、图像、噪声等条件信息生成整段视频，不再依靠真实视频做底子，给检测端带来了全新挑战。这类视频通常在单帧或短时间内看上去很真，但在长时空序列上往往会出现漏洞：如人物的动作或在场景中的位置前后无法衔接，物体的形状、运动发生不符合物理规律的改变，或视频中事件本身无法真实世界中成立。相应地，对GVS范式的检测思路也就不能局限于局部、模态间一致性，需要走向更高层，从长程一致性、常识、物理规律、叙事和因果，命题级别的真实性和可追溯性等出发，在长空序列上核查内容本身是否可信，去看视频内容是否可以在各个层面上均在真实世界成立。视觉-语言双视角下的四层检测方法谱系图 3｜Vision-Language Dual-View 四层框架：前两层偏向视觉视角，后两层走向语言视角当前，进行AI生成视频检测的模态视角已经分化，可分为两类核心科学问题：第一类是从视觉模态出发，聚焦底层信号取证和画面时空一致性。另一类从语言模态出发，关注核心包括视频本身的跨模态语言信息，判断「视频究竟是不是在模态间良好对齐地叙事」；以及利用语言模态引入与有关世界的知识、事实相关的推理，判断「视频的内容是否能经受住外部真实世界中知识、事实、规律等的检验」。综述抓住了这一转变趋势，提出从视觉-语言双视角出发来组织AI生成视频检测的研究方法和评估范式，在此基础上进一步提出下述从低层感知到高层认知的四层方法图景。包括如下四层： Layer 1 底层视觉线索（Intrinsic Cues Analysis）：第一道筛网 layer1中的方法关注的研究问题是：在底层视觉信号上视频是否符合真实视频需要满足的统计规律，以及视频是否存在由AI模型生成或编辑操作引入的底层线索。在底层信号上，真实视频会满足相应的的统计特性，同时真实拍摄处理得到的视频会天然地与采集、编码及后处理过程相匹配；而AI生成的过程往往会留下风格样式单一、模型对应的水印和伪迹、可以被检测出来的生硬的生理信号等偏离真实视频分布的线索；第一层内的方法从视觉视角出发通过建模、抽取并放大这些底层信号来进行取证。包括检测：频域、纹理、边界、噪声模式等像素与几何异常；脉搏耦合、肌肉微小动作、眨眼节奏等人脸上