PersonaDrive：用于闭环驾驶模拟的人性化检索增强 VLA 代理

arXiv:2606.12616v1 公告类型：新摘要：闭环驾驶模拟器通常会在其环境中填充非自我交通代理，这些代理的行为方式大致相同，由基于规则的交通管理器或针对单一行为模式训练的学习模型生成。最近的工作通过观察数据或法学硕士推断的奖励权重的事后标签引入了风格变化，但这些信号充当了风格应该奖励的代理，而不是明确要求人类以这种风格驾驶的示范。我们引入了 PersonaDrive，这是一个管道，它可以根据从风格指导的人类驾驶数据集中检索到的演示来调节视觉语言动作 (VLA) 驾驶代理，其中参与者在驾驶员循环装备上按照积极、中立和保守的指令驾驶 CARLA 排行榜路线。该流程分为三个阶段：（i）使用组合的图像文本相似度得分对每种风格的人类驾驶数据进行离线三元组挖掘； (ii) 训练一个轻量级检索头，将冻结的视觉特征与每个风格数据库上的小型控制编码器融合在一起； (iii) 微调单个 VLA 主干，以将检索到的上下文点视为航路点预测期间的上下文行为演示。在推理时，通过交换检索头查询的每个风格数据库，相同的主干以任何风格为条件，因此选择风格不需要每个风格的重新训练，同时启用人类风格、风格多样化的非自我代理进行闭环模拟。在 Bench2Drive 上，PersonaDrive（无风格）的驾驶分数比 SimLingo 提高了 4.6%，比 HiP-AD 提高了 2.5%，并且在风格调节下，在大约 2% 的范围内获得了每种风格的最高驾驶分数（其最弱的风格超过了最强的基线 DMW 5.4%），而平均速度和加速度从保守指令到激进指令分别提高了 18% 和 25%。

订阅66必读