智能AI morning

SynIB:最大化多模式学习协同作用的信息瓶颈

2026-06-10 1 阅读 Konstantinos Kontras, Teodora Gagaleska, Thomas Strypsteen, Christos Chatzichristos, Matthew Blaschko, Maarten De Vos, Paul Pu Liang
arXiv:2606.09853v1 公告类型:新 摘要:多模态学习的核心目标是捕获协同作用:仅通过联合使用多种模态产生的任务相关信息,而不能单独从任何单一模态获得。虽然大多数方法通过更大或更复杂的融合模型在架构级别上运行,但我们提出了一个补充轴:塑造训练目标本身。标准训练通常强调单模态或冗余信息,缺乏需要跨模态推理的示例。我们通过信息论将多模式协同形式化,并引入协同信息瓶颈(SynIB),这是一个直接针对协同的可扩展目标。为了优先考虑学习协同作用,SynIB 激励模型从所有模态准确预测,同时在隐瞒任何模态信息时惩罚信心。除了标准任务损失之外,该模型还一次运行一种屏蔽的模态,并因保持自信而受到惩罚,这表明模型依赖于单模态线索而不是跨模态交互。我们在两种机制下验证 SynIB。在合成 XOR 任务中,通过构建可知真实协同作用,标准训练无法恢复它,而 SynIB 可以。在五个现实世界基准测试中,包括三个 MultiBench 情感任务、具有 CLIP-ViT 和 DeBERTa 主干的 Hateful Memes,以及我们引入的 CREMA-D 的可控反讽扩展,SynIB 将协同依赖示例的准确性提高了 7.8%,总体准确性提高了 3.8%。