对齐预训练:人工智能话语创建自我实现(错误)对齐

2026-05-18 1 阅读 anigbrowl
计算机科学 > 计算和语言 arXiv:2601.10160 (cs) [提交于 2026 年 1 月 15 日 ( v1 ),最后修订于 2026 年 2 月 19 日(本版本,v2)] 标题:对齐预训练:AI 话语导致自我实现(错误)对齐 作者:Cameron Tice 、 Puria Radmard 、 Samuel Ratnam 、 Andy Kim、David Africa、Kyle O'Brien 查看题为 Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment 的论文的 PDF,作者为 Cameron Tice 和其他 5 位作者 查看 PDF HTML(实验) 摘要:预训练语料库包含有关 AI 系统的广泛论述,但这种论述对下游对齐的因果影响仍知之甚少。如果对人工智能行为的普遍描述主要是负面的,法学硕士可能会内化相应的行为先验,从而导致自我实现的偏差。本文通过使用不同数量的(错误)对齐话语对 6.9B 参数 LLM 进行预训练,提供了该假设的首次对照研究。我们发现对人工智能的讨论会导致偏差。对有关人工智能错位的合成训练文档进行上采样会导致错位行为显着增加。相反,对有关对齐行为的文档进行上采样可将错位分数从 45% 减少到 9%。我们认为这是自我实现一致性的证据。这些影响会减弱,但在训练后仍然持续存在。我们的研究结果建立了对预训练数据如何塑造对齐先验或对齐预训练的研究,作为训练后的补充。我们建议从业者考虑进行预训练,以与能力保持一致。我们在此 http URL 共享我们的模型、数据和评估。科目:计算和语言(cs.CL);人工智能(cs.AI);机器学习 (cs.LG) 引用为:arXiv:2601.10160 [cs.CL](或此版本的 arXiv:2601.10160v2 [cs.CL]) https://doi.org/10.48550/arXiv.2601.10160 重点了解更多通过 DataCite 发布的 arXiv DOI 提交历史记录 来自:Kyle O'Brien [ 查看电子邮件 ] [v1] 2026 年 1 月 15 日星期四 07:59:31 UTC (1,982 KB) [v2] 2026 年 2 月 19 日星期四 22:53:56 UTC (2,369 KB) 全文链接:访问论文:查看题为 Alignment Pretraining: AI Discourse Causes Self-Fulfilling 的论文 PDF (错误)对齐,作者:Cameron Tice 和其他 5 位作者 查看 PDF HTML(实验性)TeX 源代码查看许可证 当前浏览上下文:cs.CL < 上一页 | 上一页下一页 > 新 |最近 | 2026-01 更改浏览方式:cs cs.AI cs.LG 参考文献和引文 NASA ADS Google Scholar 语义学者导出 BibTeX 引文 正在加载... BibTeX 格式的引文 × 正在加载... 数据提供者: 书签 书目工具 书目和引文工具 书目浏览器 切换书目浏览器(什么是浏览器?) 已连接论文 切换已连接论文(什么是已连接论文? ) Litmaps 切换 Litmaps(什么是 Litmaps?) scite.ai 切换 scite 智能引文(什么是智能引文?) 与本文相关的代码、数据、媒体 代码、数据和媒体 alphaXiv 切换 alphaXiv(什么是 alphaXiv?) 代码链接 切换 CatalyzeX 论文代码查找器(什么是 CatalyzeX?) DagsHub 切换 DagsHub (什么是 DagsHub?) GotitPub 切换 Gotit.pub (什么是 GotitPub?) Huggingface 切换 Hugging Face (什么是 Huggingface?) 代码链接 切换带有代码的论文(什么是带有代码的论文?) ScienceCast 切换 ScienceCast (什么是 ScienceCast?) 演示演示复制 切换复制(什么是复制? ) Spaces Toggle Hugging Face Spaces (什么是 Spaces?) Spaces Toggle TXYZ.AI (什么是 TXYZ.AI?) 相关论文推荐器和搜索工具 链接到 Influence Flower Influence Flower (什么是 Influence Flowers?) 核心推荐器切换 CORE 推荐器 (什么是 CORE?) 作者场地 机构主题 关于 arXivLabs arXivLabs:与社区合作者的实验项目arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。与 arXivLabs 合作的个人和组织都接受并接受了我们开放、社区、卓越和用户数据隐私的价值观。 arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。您有一个能为 arXiv 社区增加价值的项目想法吗?了解有关 arXivLabs 的更多信息。这篇论文的哪些作者是认可者? |禁用MathJax(什么是MathJax?)