打破过滤泡沫：多目标推荐的语义 Pareto-DQN 框架

2026-06-24 1 阅读 Cl\'audio L\'ucio Do Val Lopes, Lucca Machado da Silva, Andr\'e de Oliveira Brand\~ao

arXiv:2606.24042v1 公告类型：新摘要：推荐系统通常通过整体优化以实现用户的即时参与，从而引发过滤气泡和语义同质化。标准的单目标模型，包括传统的深度 Q 网络，不足以在平台保留与信息多样性和提供商公平性等关键社会价值观之间进行权衡。为了解决这些限制，我们引入了多目标强化学习框架，将推荐形式化为语义多目标马尔可夫决策过程。通过将高保真语义嵌入与 Pareto-DQN 代理相集成，我们的架构将参与度、多样性和公平性视为独特的、不可聚合的奖励信号，从而避免了静态奖励量化的陷阱。对 MovieLens 小数据集的实证评估表明，我们基于超体积的动作选择破坏了导致语义崩溃的反馈循环。通过维持较高的状态轨迹方差，Pareto-DQN 有效地绘制了 Pareto 边界，在辅助社会目标方面取得了进展，而对参与度的影响很小。这项工作为实现本质上一致、负责任的推荐系统提供了一条道路。