Txing

欢迎来到 | 伽蓝之堂

0%

ActiveAD从数据标注的角度入手,考虑如何减少对标注的需求(主要是感知任务上的标注),在端到端模型中引入了主动学习,迭代地使用有标签困难样本训练模型,提升数据的使用效率;实验结果显示使用了该方法的VAD模型的规划能力有较明显的提升,方法值得借鉴。

GAIA-1实现了自动驾驶场景的可控生成,所谓可控包括几个方面:场景、障碍物、车辆行为、天气等,在4700小时的数据集上取得了不错的效果,但模型只输出场景图像,没有BEV和轨迹信息,是个小小的遗憾;此外,文本数据的标注/生成也是个问题;本文的图像、文本等数据的编码和处理均由之前的成熟模型完成,本文更多的是一个数据构造和模型集成的工作;

整体看来无论是LLM还是基础模型在自动驾驶中的使用,尤其是在planning、decision相关任务上的使用,还非常地初步,大多数研究都还处于探索阶段,效果也还不好,更没有解决上车的工程化问题,包括延时、内存、后处理等等;而且LLM输出的文本描述如何和规划的结果相结合,目前的工作也相对粗糙了一些;如果后续在自动驾驶任务的性能上没有大幅度的提升,仅3年内基础模型落地会面临比较大阻碍;

VADv2主要是将预测未来轨迹变为了选择未来轨迹,而选择的依据就是概率,因此取名为probabilistic planning;这样的好处是生成的轨迹“一定是动力学上可行的”,因此不会有比较离谱的轨迹出现,降低了轨迹生成的不确定性,取得了最好的闭环测试效果;这一改进对于不确定性巨大的端到端模型来说是很关键的,但文章对如何根据示教数据设计先验的轨迹没有介绍,猜测作者是为了技术保密,先参加今年的CVPR端到端预测比赛,后续比赛结束文章正式发表后应该会有补充;

mobile ALOHA 的效果还是比较惊艳的,尤其是仅仅使用了co-train这么个技巧的情况下;在不同任务上实现了不错的成功率;硬件上选择轮式base是很明智的,直接避开了步行和自平衡的难题,这样才能专注于操作任务学习上;对于算法上,本文并没有什么创新,也仍然面临着很多机器人操作的“老毛病”,例如缺少规则约束、失败的后果严重、刚性交互等等,总觉得“还不是那么智能”,改进道路漫长;