从感官到决策：多模式法学硕士中听觉和视觉感知的信息流

摘要

10147v1 Announce Type: new Abstract: Multimodal Large Language Models (MLLMs) can listen and see, but how do audio and visual signals actually travel through the network to shape an answer。

and audio visual the information

2026-06-10 1 阅读约1分钟阅读 Wish Suharitdamrong, Muhammad Awais, Xiatian Zhu, Sara Atito

arXiv:2606.10147v1 公告类型：新摘要：多模态大型语言模型 (MLLM) 可以听和看，但音频和视觉信号实际上如何通过网络传输以形成答案？尽管它们在研究和现实应用中的作用越来越大，但音频和视觉标记影响最终预测的内部途径仍然知之甚少。在本研究中，我们研究了视听大语言模型 (AVLLM) 内的视听信息流，跟踪 AVLLM 如何跨两种输入配置、视听视频和多个交错视听项目路由、利用和集成音频和视频信息。我们发现，对于视听视频，AVLLM 遵循为 VLM 和 VideoLLM 建立的顺序信息流路径，音频和视觉贡献沿着该路径流动，与任务对每种模态的依赖成比例。在具有多个交错视听项目的设置中，此路由会转移到不同的并行流。此外，我们证明，一旦信息转移到 LLM，视听和其他标记类型就可以被丢弃，对模型预测的影响最小，甚至略有改进，跨多个任务和数据集进行泛化，从而实现更有效的推理。这些发现适用于多种模型和尺度，包括 3B 和 7B 尺度的 Qwen2.5-Omni 和 Video-SALMONN2 Plus，从而提出了关于为什么会出现这些流结构的假设。总之，这些结果提供了 AVLLM 如何在网络内协调声音和视觉的第一幅连贯图片，并为视听和更广泛的 MLLM 的下一波可解释性、设计和效率进步奠定了基础。

订阅66必读