智能AI
morning
在LLM推理中,除了价值错位之外还存在非理性
2026-06-23
1 阅读
Kejiang Qian, Fengxiang He
arXiv:2606.20624v1 公告类型:新 摘要:在使法学硕士与目标价值函数保持一致方面取得了重大进展。我们认为,即使法学硕士在(后)培训中得到了很好的协调,它仍然可能无法最大化推理中的协调价值。我们在数学上将这种差距形式化为理性价值风险:模型部署的推理策略与其理性对应策略之间的效用差异,其定义为在最陡方向上最大化预期效用的响应。理性价值风险的估计误差进一步分解为有限候选者、有限提示和不完美验证者三个组成部分。进行了广泛的实验,涵盖模型 Llama-3.1、Qwen-2.5、T{\"}ulu-3 系列 (7B-72B)、GPT-5.2、GPT-5.5 和 DeepSeek-V4,以及基准测试 UltraFeedback、AlpacaEval、GSM8K、MATH、HumanEval 和 MathArena。结果验证了 (1) 理性价值风险普遍存在;(2) 价值调整可以减少但不能消除;(3)风险对推理时间推理策略高度敏感;(4)较长的推理可以提高理性,但收益递减。