当乐于助人变成阿谀奉承时：阿谀奉承是大型语言模型中社会一致性和认知完整性之间的边界失败

2026-05-09 1 阅读 Jiechen Li, Catherine A. Barry, Rishika Randev, Janet Chen, Ella Jorgensen, Brinnae Bent

arXiv:2605.05403v1 公告类型：新摘要：这篇立场文件认为，法学硕士中的阿谀奉承是社会一致性和认知完整性之间的边界失败。现有的工作经常通过外部行为来实现阿谀奉承，例如同意不正确的用户信念、立场逆转或偏离客观正确性标准。这些表述仅捕获了现象的明显形式，而留下了涉及认知完整性和社会一致性的微妙边界失败。我们认为，阿谀奉承不应该仅仅被理解为同意，而应该被理解为取代独立认知判断的一致行为。为了澄清这个界限，我们提出了一个阿谀奉承的三个条件框架。首先，用户以信念、偏好或自我概念的形式表达提示。其次，模型通过对齐行为转向该线索。第三，这种转变损害了认知准确性、独立推理或适当的纠正。我们还引入了一种对阿谀奉承进行分类的分类法，包括对齐目标、机制和严重性。本文最后讨论了一致性评估的影响，并主张边界意识评估、结构化评价标准和缓解策略，同时将这些提案与其他阿谀奉承的观点放在一起。