教大模型终身学习！中科大连发两篇顶会，突破「知识注入」双重困境

新智元报道【新智元导读】中科大团队首先推出动态多模态知识注入基准MMEVOKE，解构遗忘机制，并在此基础上提出全新双阶段框架KORE。通过「知识树」自动增强与「零空间」协方差约束微调，为大模型终身学习开辟了全新路径。当前主流大型多模态模型（LMMs）通过海量数据的预训练存储了丰富的静态知识，并在多模态理解与指令跟随上取得了巨大成功。然而，现实世界瞬息万变，大模型的既有知识面临「上线即过时」的严峻挑战，亟需具备高效吸收动态演变知识（Evolving Knowledge）的持续学习能力。现有研究多局限于静态文本领域的知识编辑，忽视了动态多模态演变知识的注入，导致多模态持续学习领域存在两大核心缺陷：评测基准缺失：缺乏能够高频、动态复制且覆盖面广的多模态演变知识评测基准；遗忘机制不明：业界未能对模型在面对演变知识注入时的退化行为进行深度的定量解构。针对这一关键空白，中国科学技术大学团队正式推出首个动态多模态知识注入基准 MMEVOKE （含9,422个样本、横跨159个细分子类）。论文链接： https://arxiv.org/pdf/2505.24449 代码链接： https://github.com/EVOKE-LMM/EVOKE 开源数据集： https://huggingface.co/collections/kailinjiang/mmevoke-iclr26 项目主页： https://evoke-lmm.github.io/ 同时，为了让大型多模态模型（LMMs）能够实时跟上现实世界的发展，高效的知识注入（Knowledge Injection）已成为多模态大模型走向实用化的必由之路。然而，现有的知识注入方法在处理多模态持续学习时，普遍陷入了不可调和的「双重困境」：知识适应性差（学不准）：传统微调仅对孤立、离散的数据进行粗暴训练，导致模型对新知识缺乏跨模态泛化和多轮深度推理能力，容易产生「死记硬背」或严重幻觉；灾难性遗忘严重（忘得快）：参数在吸收新知识时的无序更新，会强力干扰并破坏大模型原有的通用多模态基本能力（如OCR、学科推理等），导致既有能力断崖式下跌。为了打破这一不可调和的「死结」，团队进一步提出了以知识导向控制（Knowledge-Oriented Controls）为核心的全新双阶段优化微调框架 KORE ，通过两大创新机制实现「知识适应」与「能力保留」的闭环协同。论文链接： https://arxiv.org/pdf/2510.19316 代码链接： https://github.com/KORE-LMM/KORE 开源数据集： https://huggingface.co/collections/kailinjiang/koreicml26 项目主页： https://kore-lmm.github.io/ 研究背景随着现实世界的瞬息万变，大型多模态模型（LMMs）正面临着一个致命的痛点：预训练赋予了它们海量的静态知识，但这些知识一旦离线就会迅速过时。当面对类似「小米SU7/Yu7」、「2024诺贝尔物理学奖」等新近涌现的动态演变知识（Evolving Knowledge）时，LMMs不仅无法准确识别和泛化，甚至在强行注入新知识后，还会触发严重的灾难性遗忘，导致其原有的通用多模态指令跟随等基本能力断崖式下跌。图1 进化知识注入的样例展示场景构建传统的知识编辑评测多依赖人工静态收集，不仅耗时费力，更无法跟上现实世界「高频、动态」的演变步伐。为了实现自动化且高质量的动态知识捕获，团队设计了一套可高频自动复制的数据构建流水线：图2 MMEVOKE的构建流程最终构建出包含 9,422个样本、横跨新闻与实体两大领域、159个细分行业子类的庞大基准。图3 MMEVOKE的统计数据团队在MMEVOKE上对4类知识注入方法（Supervised Fine-Tuning、Retrieval Augmented Generation、Commercial AI Web Search Engine、Sufficient Context）进行了动态知识注入大考，实验结果彻底颠覆了行业传统认知：图4 现有知识注入方法在MMEVOKE上的评估实验观察 1：现有主流方法在 MMEVOKE 上全线折戟: 团队深入评估了参数微调、多模态检索增强（RAG）以及商业 AI 搜索引擎等多类主流方法，结果发现其表现均不尽如人意。实验观察 2：颠覆直觉！即便上下文充足，大模型依旧「睁眼说瞎话」: 行业通常认为，只要为大模型提供准确且充足的检索上下文，就能保证回答的正确性。但 MMEVOKE 的「充足上下文（Sufficient Context）」严苛实验打破了这一神话。核心挑战 1 ：现有知识注入方法在 MMEVOKE 基准上表现极为匮乏，甚至在拥有充足的外部上下文时，大模型依然无法有效利用和正确推理动态演变知识。为了对模型在面对演变知识注入时的退化行为进行深度的定量解构，团队在7个能力维度的12个benchmark上面进行了广泛的实验，得到以下结论：图5 针对灾难性遗忘的评估实验观察3：知识注入引发「副作用」，通用能力全面退化在通过 Full-FT 和 LoRA 注入新知识后，大模型的通用多模态能力均出现显著下滑。实验观察4：解构退化规律，惊现致命的「级联遗忘链」无论是全参数微调还是 LoRA，模型各项能力的退化严重程度表现出高度一致的确定性排行：指令跟随（最严重） → 多轮对话 → 幻觉控制→综合评估 →OCR →多学科推理 → 数学推理（最轻微）实验观察5：「听不懂人话」引发的多米诺骨牌效应实验深入发现，各维度的能力退化并非孤立发生。由于 MME、SEEDBench2_Plus 等通用基准高度依赖模型对「是否/单选」等基础指令的严格遵守，「指令跟随能力」的率先崩溃会直接触发级联负面效应，像多米诺骨牌一样顺藤摸瓜地瘫痪模型的其他核心多模态基本功！核心挑战 2 ：参数微调方法在注入新知识时，不可避免地会导致大模型通用能力的大幅退化，且这种退化在不同微调手段中表现出高度一致的严重性排行与致命的级联效应。核心技术为了解决「新知学不准，旧能保不住」这一难题，团队递进发力，提出了KORE，一个巧妙结合了知识导向的增强与约束的协同方法。图6 知识适应和知识保留之间的平衡挑战以及KORE的性能概览 KORE的核心思想是双管齐下：对外「做加法」：通过一种名为KORE-AUGMENTATION的自动化数据增强流水线，将孤立的知识点扩展为结构化、多层次的对话和指令数据，让模型「学得深、学得透」。为了让模型真正「内化」新知识，而不是简单地「记忆」数据点，作者们提出了一种深刻且结构化的数据增强方法KORE-AUGMENTATION，它通过一个自动化的流水线，将每一个孤立的知识点（例如，一条关于某个新闻事件的图文信息），扩展成一个结构化的知识树。这棵树包含：树干：基于原始知识生成的多轮对话数据，模拟了对该知识点的深入探讨和追问。树枝：基于原始知识生成的多种指令任务数据，包括：（1）视觉识别：判断图片内容是否与知识点相关。（

订阅66必读