黑盒大语言模型的知识蒸馏(2024)

2026-06-29 1 阅读 babelfish
计算机科学 > 计算与语言 arXiv:2401.07013 (cs) [提交于 2024 年 1 月 13 日( v1 ),最后修订于 2024 年 11 月 9 日(本版本,v2)] 标题:黑盒大语言模型的知识蒸馏 作者:陈宏战,陈瑞君,易宇奇,全晓君,李陈亮,严明,张吉 查看题为“黑盒大型语言模型的知识蒸馏”的论文的 PDF,作者为 Hongzhan Chen 和其他 5 位作者 查看 PDF HTML(实验) 摘要:鉴于 GPT-4 等专有大型语言模型 (LLM) 的卓越性能,最近的研究越来越关注通过这些强大的黑盒教师的知识蒸馏 (KD) 来提高较小模型的能力。虽然利用这些教师的高质量产出是有利的,但其内部状态的不可访问性往往限制了有效的知识转移。为了克服这一限制,我们引入了 Proxy-KD,这是一种使用代理模型来促进知识从黑盒 LLM 到较小模型的高效迁移的新颖方法。我们的实验表明,Proxy-KD 不仅增强了黑盒教师模型的 KD 性能,而且超越了传统的白盒 KD 技术。~这种方法为从高级法学硕士中提取知识提供了一条引人注目的新途径。主题:计算和语言 (cs.CL) 引用为:arXiv:2401.07013 [cs.CL](或此版本的 arXiv:2401.07013v2 [cs.CL]) https://doi.org/10.48550/arXiv.2401.07013 通过 DataCite 提交重点了解更多 arXiv 发布的 DOI历史来自: Hongzhan Chen [ 查看电子邮件 ] [v1] Sat, 13 Jan 2024 08:43:32 UTC (359 KB) [v2] Sat, 9 Nov 2024 01:35:32 UTC (8,288 KB) 全文链接: 访问论文:查看由 Hongzhan Chen 和其他 5 位作者撰写的题为“黑盒大型语言模型的知识蒸馏”的论文的 PDF查看 PDF HTML(实验)TeX 源代码查看许可证 当前浏览上下文:cs.CL < prev |下一页 > 新 |最近 | 2024-01 更改浏览方式:cs 参考文献和引文 NASA ADS Google Scholar 语义学者导出 BibTeX 引文 正在加载... BibTeX 格式的引文 × 正在加载... 数据提供者: 书签 书目工具 书目和引文工具 书目浏览器 切换书目浏览器(什么是浏览器?) 关联论文 切换关联论文(什么是关联论文?) Litmaps 切换 Litmaps(什么是 Litmaps?) scite.ai 切换 scite 智能引文(什么是智能引文?) 与本文相关的代码、数据、媒体 代码、数据和媒体 alphaXiv 切换 alphaXiv(什么是 alphaXiv?) 链接到代码切换 CatalyzeX 论文代码查找器(什么是 CatalyzeX?) DagsHub 切换DagsHub (什么是 DagsHub?) GotitPub 切换 Gotit.pub (什么是 GotitPub?) Huggingface 切换 Hugging Face (什么是 Huggingface?) ScienceCast 切换 ScienceCast (什么是 ScienceCast?) 演示 演示 Replicate 切换 复制 (什么是 Replicate?) Spaces 切换 Hugging Face 空间 (什么是 Spaces?) 空间切换TXYZ.AI(什么是 TXYZ.AI?)相关论文推荐器和搜索工具链接到 Influence Flower Influence Flower(什么是 Influence Flowers?)核心推荐器切换 CORE 推荐器(什么是 CORE?)作者地点机构主题关于 arXivLabs arXivLabs:与社区合作者的实验项目 arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。与 arXivLabs 合作的个人和组织都接受并接受了我们开放、社区、卓越和用户数据隐私的价值观。 arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。您有一个可以为 arXiv 社区增加价值的项目想法吗?了解有关 arXivLabs 的更多信息。这篇论文的哪些作者是认可者? |禁用 MathJax(什么是 MathJax?)