UP-NRPA：基于用户画像的嵌套推出策略适应，用于在面向目标的对话系统中使用大型语言模型进行规划

摘要

arXiv:2606.13683v1 Announce Type: new Abstract: To address the challenge that current dialogue policy planning methods struggle to dynamically adapt to diverse user characteristics, this paper propose

user dialogue the NRPA adapt

2026-06-15 1 阅读约1分钟阅读 Hui Wang, Fafa Zhang, Meng Liu, Xiangyu Chen, Chaoxu Mu

arXiv:2606.13683v1 公告类型：新摘要：为了解决当前对话策略规划方法难以动态适应不同用户特征的挑战，本文提出了一种基于用户画像的嵌套滚动策略适应（UP-NRPA）在线框架，具有大型语言模型。与依赖模型训练并需要针对用户组的离线强化学习策略模型的传统方法相比，UP-NRPA 通过自适应机制实现对话策略的动态定制。这是通过利用实时用户反馈以及从当前用户画像映射的个性、偏好和目标来实现的，从而无需离线强化学习即可适应用户特征。在协作和非协作对话基准中，UP-NRPA 表现出了相当大的优势，在多个对话任务中实现了令人印象深刻的 100% 成功率。特别是在谈判任务中，销售清单比（SL）增长了56.41%。这表明UP-NRPA无需训练机制即可适应多样化的用户需求，使对话系统能够适应用户特征。

订阅66必读