Txing

欢迎来到 | 伽蓝之堂

0%

HD map具有的语义和几何信息使其成为自动驾驶系统的关键部件。但HD map的成本很高,难扩展,尤其是厘米级精度(centimeter-level accuracy)的情况下。因此能摆脱HD Map(地图加载失败、地图老旧等)的算法值得研究。本文提出了一种end2end的不依赖地图的自动驾驶算法——MP3。

类似DQN和DDPG的off-policy RL算法在被禁止探索,并在没有数据策略分布修正的的情况下,难以取得好的效果。本文通过限制off-policy agent的行为空间,使其行为类似与on-policy算法,最后提出了一个较为通用的,针对连续控制的deep reinforcement learning algorithm。

作者用online DQN在60款 Atari 2600游戏上获取数据样本,然后用这些样本(fixed dataset)训练offline强化学习算法,一些offline的算法性能可以超过online的算法。本文提出的Random Ensemble Mixture (REM)算法在离线回放数据上的表现超过了强的基准算法。因此作者认为在离线样本足够多,多样化充分的情况下,使用鲁棒的RL算法可以获得高质量的策略。