智能AI morning

OmniMem:用于流式音频视频 LLM 的扰动感知内存压缩

2026-06-09 1 阅读 Guangzhi Sun, Yixuan Li, Yudong Yang, Chao Zhang
arXiv:2606.07577v1 公告类型:新 摘要:视听大语言模型(LLM)对长视频理解有着巨大的希望,但其长视频推理从根本上受到视频令牌和键值(KV)缓存的线性增长的限制。我们推出 OmniMem,这是一种专为视听法学硕士设计的内存高效流框架。与统一处理所有令牌的现有压缩方法不同,OmniMem 引入了一种模态感知内存分配策略,该策略单独管理视觉和音频上下文,解决了两种模态之间严重的令牌不平衡问题。 OmniMem 通过扰动感知内存选择进一步保留信息丰富且非冗余的 KV 状态,从而在不牺牲远程理解的情况下实现紧凑的内存。为了在实际部署约束下加强压缩,我们还探索了预算感知微调,这鼓励模型将有用信息整合到保留内存中。使用 video-SALMONN 2+ 和 Qwen-2.5-Omni 在 VideoMME Long、LVBench 和 LVOmniBench 上进行的实验表明,在相同的内存预算下,OmniMem 相对于强大的无训练压缩基线,绝对精度持续提高了 2-4%,微调后还额外获得了 1-2% 的增益。