学习可转移的潜在用户偏好以进行人性化决策

arXiv:2605.12682v1 公告类型：新摘要：大型语言模型 (LLM) 在许多应用程序中越来越多地用作推理模块。虽然法学硕士在某些任务上效率很高，但他们往往很难制定出符合人性化的解决方案。人性化的决策需要考虑明确规定的目标和潜在的用户偏好，这些偏好决定了如何解决模糊的情况。合并此类偏好的现有方法要么依赖于广泛且重复的用户交互，要么无法概括跨任务和上下文的潜在偏好，从而限制了它们的实际适用性。我们考虑一种设置，其中法学硕士用于高级推理，并负责从有限的交互中推断潜在的用户偏好，从而指导下游决策。我们引入了 CLIPR（用于推断偏好和推理的会话学习），这是一个学习可操作、可转移的自然语言规则的框架，这些规则从最少的会话输入中表示潜在的用户偏好。这些规则通过自适应反馈进行迭代完善，并应用于跨多个环境的分布内和分布外的模糊任务。对三个数据集的评估和一项用户研究表明，CLIPR 在改进对齐和降低推理成本方面始终优于现有方法。