智能AI morning

学习可转移的潜在用户偏好以进行人性化决策

2026-05-14 1 阅读 Alina Hyk, Sandhya Saisubramanian
arXiv:2605.12682v1 公告类型:新 摘要:大型语言模型 (LLM) 在许多应用程序中越来越多地用作推理模块。虽然法学硕士在某些任务上效率很高,但他们往往很难制定出符合人性化的解决方案。人性化的决策需要考虑明确规定的目标和潜在的用户偏好,这些偏好决定了如何解决模糊的情况。合并此类偏好的现有方法要么依赖于广泛且重复的用户交互,要么无法概括跨任务和上下文的潜在偏好,从而限制了它们的实际适用性。我们考虑一种设置,其中法学硕士用于高级推理,并负责从有限的交互中推断潜在的用户偏好,从而指导下游决策。我们引入了 CLIPR(用于推断偏好和推理的会话学习),这是一个学习可操作、可转移的自然语言规则的框架,这些规则从最少的会话输入中表示潜在的用户偏好。这些规则通过自适应反馈进行迭代完善,并应用于跨多个环境的分布内和分布外的模糊任务。对三个数据集的评估和一项用户研究表明,CLIPR 在改进对齐和降低推理成本方面始终优于现有方法。