智能AI morning

从感官到决策:多模式法学硕士中听觉和视觉感知的信息流

2026-06-10 1 阅读 Wish Suharitdamrong, Muhammad Awais, Xiatian Zhu, Sara Atito
arXiv:2606.10147v1 公告类型:新 摘要:多模态大型语言模型 (MLLM) 可以听和看,但音频和视觉信号实际上如何通过网络传输以形成答案?尽管它们在研究和现实应用中的作用越来越大,但音频和视觉标记影响最终预测的内部途径仍然知之甚少。在本研究中,我们研究了视听大语言模型 (AVLLM) 内的视听信息流,跟踪 AVLLM 如何跨两种输入配置、视听视频和多个交错视听项目路由、利用和集成音频和视频信息。我们发现,对于视听视频,AVLLM 遵循为 VLM 和 VideoLLM 建立的顺序信息流路径,音频和视觉贡献沿着该路径流动,与任务对每种模态的依赖成比例。在具有多个交错视听项目的设置中,此路由会转移到不同的并行流。此外,我们证明,一旦信息转移到 LLM,视听和其他标记类型就可以被丢弃,对模型预测的影响最小,甚至略有改进,跨多个任务和数据集进行泛化,从而实现更有效的推理。这些发现适用于多种模型和尺度,包括 3B 和 7B 尺度的 Qwen2.5-Omni 和 Video-SALMONN2 Plus,从而提出了关于为什么会出现这些流结构的假设。总之,这些结果提供了 AVLLM 如何在网络内协调声音和视觉的第一幅连贯图片,并为视听和更广泛的 MLLM 的下一波可解释性、设计和效率进步奠定了基础。