智能AI
morning
类人的自主性源于自我游戏和少量人类数据
2026-06-19
1 阅读
Daphne Cornelisse, Julian Hunt, Zixu Zhang, Wa\"el Doulazmi, Kevin Joseph, Jaime Fern\'andez Fisac, Eugene Vinitsky
arXiv:2606.19370v1 公告类型:新 摘要:自对弈强化学习最近已成为一种无需任何人类数据即可训练驾驶策略的方法。它使用廉价的大规模模拟来替代昂贵的大规模人类驾驶演示。这种方法的一个关键限制是,通过纯粹的自我游戏训练的政策可以学习有效但与人类不相容的外来驾驶惯例。以前的工作试图通过广泛的奖励工程和领域随机化来减轻这种行为失调,但这些都是脆弱且劳动密集型的。我们的方法并没有完全放弃人类演示,而是将它们视为最低安全达到目标奖励之上的正则化目标。就像炖菜中的香料一样,我们发现一点点人类数据大有帮助:我们的方法仅使用 30 分钟的人类演示,比同类模仿学习方法少 2500 倍。由此产生的策略与保留的人类轨迹相协调,并在单个消费级 GPU 上 15 小时内完成训练。视频和完整源代码可在 https://spiced-self-play.com/ 上获取。