OmniMem：用于流式音频视频 LLM 的扰动感知内存压缩

摘要

arXiv:2606.07577v1 Announce Type: new Abstract: Audio-visual large language models (LLMs) hold strong promise for long-form video understanding, yet their long-video inference is fundamentally limited

memory the and video OmniMem

2026-06-09 1 阅读约1分钟阅读 Guangzhi Sun, Yixuan Li, Yudong Yang, Chao Zhang

arXiv:2606.07577v1 公告类型：新摘要：视听大语言模型（LLM）对长视频理解有着巨大的希望，但其长视频推理从根本上受到视频令牌和键值（KV）缓存的线性增长的限制。我们推出 OmniMem，这是一种专为视听法学硕士设计的内存高效流框架。与统一处理所有令牌的现有压缩方法不同，OmniMem 引入了一种模态感知内存分配策略，该策略单独管理视觉和音频上下文，解决了两种模态之间严重的令牌不平衡问题。 OmniMem 通过扰动感知内存选择进一步保留信息丰富且非冗余的 KV 状态，从而在不牺牲远程理解的情况下实现紧凑的内存。为了在实际部署约束下加强压缩，我们还探索了预算感知微调，这鼓励模型将有用信息整合到保留内存中。使用 video-SALMONN 2+ 和 Qwen-2.5-Omni 在 VideoMME Long、LVBench 和 LVOmniBench 上进行的实验表明，在相同的内存预算下，OmniMem 相对于强大的无训练压缩基线，绝对精度持续提高了 2-4%，微调后还额外获得了 1-2% 的增益。

订阅66必读