SynIB：最大化多模式学习协同作用的信息瓶颈

摘要

arXiv:2606.09853v1 Announce Type: new Abstract: A central objective in multimodal learning is to capture synergy: task-relevant information that arises only from the joint use of multiple modalities,

the synergy and SynIB information

2026-06-10 1 阅读约1分钟阅读 Konstantinos Kontras, Teodora Gagaleska, Thomas Strypsteen, Christos Chatzichristos, Matthew Blaschko, Maarten De Vos, Paul Pu Liang

arXiv:2606.09853v1 公告类型：新摘要：多模态学习的核心目标是捕获协同作用：仅通过联合使用多种模态产生的任务相关信息，而不能单独从任何单一模态获得。虽然大多数方法通过更大或更复杂的融合模型在架构级别上运行，但我们提出了一个补充轴：塑造训练目标本身。标准训练通常强调单模态或冗余信息，缺乏需要跨模态推理的示例。我们通过信息论将多模式协同形式化，并引入协同信息瓶颈（SynIB），这是一个直接针对协同的可扩展目标。为了优先考虑学习协同作用，SynIB 激励模型从所有模态准确预测，同时在隐瞒任何模态信息时惩罚信心。除了标准任务损失之外，该模型还一次运行一种屏蔽的模态，并因保持自信而受到惩罚，这表明模型依赖于单模态线索而不是跨模态交互。我们在两种机制下验证 SynIB。在合成 XOR 任务中，通过构建可知真实协同作用，标准训练无法恢复它，而 SynIB 可以。在五个现实世界基准测试中，包括三个 MultiBench 情感任务、具有 CLIP-ViT 和 DeBERTa 主干的 Hateful Memes，以及我们引入的 CREMA-D 的可控反讽扩展，SynIB 将协同依赖示例的准确性提高了 7.8%，总体准确性提高了 3.8%。

订阅66必读