Txing

欢迎来到 | 伽蓝之堂

0%

复杂城市驾驶场景中,第一个证明了用策略梯度学习,可以从大量真实世界演示数据中学习模仿驾驶策略;一个新的可微分仿真器,可基于过去的数据进行闭环仿真,并通过时间的反向传播计算策略梯度,实现快速学习;单纯在仿真器中训练可在真实世界中控制自动驾驶车辆,优于其他方法;

由于成本、安全性等因素,很多情况下不能够直接与系统交互来学习控制策略,因此,只能从记录的log数据中学习控制策略(offline reinforcement learning)。本文介绍了一种从log数据中学到超越成圣log数据的原策略的新策略的方法,命名为 model-based ofline planning (MBOP)。

linux系统上执行带参数的python程序直接添加-arg xxx即可。但在VSCode调试模式(Debug)下该执行方式不可行。那么是否有办法在VSCode上调试带参数的python脚本呢?