自我蒸馏实现持续学习 [PDF]

2026-05-17 1 阅读 teleforce
计算机科学 > 机器学习 arXiv:2601.19897 (cs) [提交于 2026 年 1 月 27 日] 标题:Self-Distillation Enables Continual Learning 作者:Idan Shenfeld、Mehul Damani、Jonas Hübotter、Pulkit Agrawal 查看 Idan Shenfeld 和其他 2 位作者题为“Self-Distillation Enables Continual Learning”的论文 PDF 查看 PDF HTML (实验)摘要:持续学习,使模型能够在不降低现有能力的情况下获得新的技能和知识,仍然是基础模型面临的基本挑战。虽然策略强化学习可以减少遗忘,但它需要通常不可用的显式奖励函数。从专家演示中学习是主要的替代方案,它以监督微调(SFT)为主,这本质上是脱离策略的。我们引入了自蒸馏微调(SDFT),这是一种简单的方法,可以直接从演示中进行在策略学习。 SDFT 通过使用演示条件模型作为自己的老师来利用情境学习,生成符合策略的训练信号,在获取新技能的同时保留先前的能力。在技​​能学习和知识获取任务中,SDFT 始终优于 SFT,实现了更高的新任务准确性,同时大幅减少了灾难性遗忘。在顺序学习实验中,SDFT 使单个模型能够随着时间的推移积累多种技能,而不会出现性能回归,从而将策略蒸馏建立为从演示中持续学习的实用路径。主题:机器学习 (cs.LG) 引用为:arXiv:2601.19897 [cs.LG](或此版本的 arXiv:2601.19897v1 [cs.LG]) https://doi.org/10.48550/arXiv.2601.19897 重点了解更多 arXiv 通过 DataCite 发布的 DOI 提交历史记录 来源: Idan Shenfeld [ 查看电子邮件 ] [v1] 星期二,2026 年 1 月 27 日 18:59:08 UTC (1,240 KB) 全文链接:访问论文:查看由 Idan Shenfeld 和其他 2 位作者撰写的标题为“Self-Distillation Enables Continual Learning”的论文的 PDF 查看 PDF HTML(实验性)TeX 源代码 查看许可证 当前浏览上下文:cs.LG < 上一页 |下一页 > 新 |最近 | 2026-01 更改浏览方式:cs 参考文献和引文 NASA ADS Google Scholar 语义学者导出 BibTeX 引文 正在加载... BibTeX 格式的引文 × 正在加载... 数据提供者: 书签 书目工具 书目和引文工具 书目浏览器 切换书目浏览器(什么是浏览器?) 关联论文 切换关联论文(什么是关联论文?) Litmaps 切换 Litmaps(什么是 Litmaps?) scite.ai 切换 scite 智能引文(什么是智能引文?) 与本文相关的代码、数据、媒体 代码、数据和媒体 alphaXiv 切换 alphaXiv(什么是 alphaXiv?) 链接到代码切换 CatalyzeX 论文代码查找器(什么是 CatalyzeX?) DagsHub 切换DagsHub(什么是 DagsHub?)GotitPub 切换 Gotit.pub(什么是 GotitPub?)Huggingface 切换 Hugging Face(什么是 Huggingface?)代码链接 切换带代码的论文(什么是带代码的论文?)ScienceCast 切换 ScienceCast(什么是 ScienceCast?)演示 演示 Replicate 切换复制(什么是 Replicate?)空格Toggle Hugging Face Spaces(什么是Spaces?) Spaces Toggle TXYZ.AI(什么是TXYZ.AI?) 相关论文推荐器和搜索工具 链接到影响力花 Influence Flower(什么是影响力花?) 核心推荐器 切换 CORE 推荐器(什么是 CORE?) IArxiv 推荐器 切换 IArxiv 推荐器(什么是 IArxiv?) 作者 地点 机构 主题 关于arXivLabs arXivLabs:与社区合作者的实验项目 arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。与 arXivLabs 合作的个人和组织都接受并接受了我们开放、社区、卓越和用户数据隐私的价值观。 arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。您有一个能为 arXiv 社区增加价值的项目想法吗?了解有关 arXivLabs 的更多信息。这篇论文的哪些作者是认可者? |禁用 MathJax(什么是 MathJax?)