在LLM推理中，除了价值错位之外还存在非理性

2026-06-23 1 阅读 Kejiang Qian, Fengxiang He

arXiv:2606.20624v1 公告类型：新摘要：在使法学硕士与目标价值函数保持一致方面取得了重大进展。我们认为，即使法学硕士在（后）培训中得到了很好的协调，它仍然可能无法最大化推理中的协调价值。我们在数学上将这种差距形式化为理性价值风险：模型部署的推理策略与其理性对应策略之间的效用差异，其定义为在最陡方向上最大化预期效用的响应。理性价值风险的估计误差进一步分解为有限候选者、有限提示和不完美验证者三个组成部分。进行了广泛的实验，涵盖模型 Llama-3.1、Qwen-2.5、T{\"}ulu-3 系列 (7B-72B)、GPT-5.2、GPT-5.5 和 DeepSeek-V4，以及基准测试 UltraFeedback、AlpacaEval、GSM8K、MATH、HumanEval 和 MathArena。结果验证了 (1) 理性价值风险普遍存在；(2) 价值调整可以减少但不能消除；（3）风险对推理时间推理策略高度敏感；（4）较长的推理可以提高理性，但收益递减。