1. Introduction
- 端到端自动驾驶模型使用原始的传感器输入生成车辆的运动规划和预测;
- 端到端自动驾驶模型当前的挑战:
- multi-modality
- interpretability
- causal confusion
- robustness
- world models
- 端到端的方法可以分为强化学习和模仿学习两大类
1.1 Motivation of an End-to-end system
- 传统流程中,每个模型只处理一个具体的任务,感知做检测,提升mAP(mean average precision);规划生成安全舒适的轨迹等;
- 分模块的处理会导致信息损失,多模型的部署造成计算障碍和趋向次优结果;
- 端到端的优势:
- 感知预测和规划联合训练,简化流程并且方便;
- 系统的中间表征通过最终的任务来优化;
- 共享的backbone提升了计算效率;
- 数据驱动的优化迭代优化方便;
- 端到端模型并不意味着一个只有规划或者控制输出的黑箱模型,它也可以有中间状态和表征的输出,
1.2 Roadmap
- 模仿学习范式:
- 强化学习范式:
- The policy distillation paradigm proposed in LBC:“Learning by cheating,” in CoRL, 2020.
- 仿真平台:carla and nuPlan
1.3 Comparison to Related Surveys
2 Methods
2.1 Imitation Learning
- 模仿学习通过专家示教学习专家的行为策略;最典型的算法例如行为克隆(behacior
cloneing, BC)
- Inverse Optimal Control (IOC), also known as Inverse Reinforcement
Learning (IRL) 也是一种根据专家示教学习的方法,只不过学习的是奖励函数;
2.1.1 Behavior Cloning
- 训练目标是匹配智能体的行为策略,通过最小化定义的loss,在监督学习的框架下训练;
- 模型的损失定义为
,其中 表示学到策略和专家策略的差异 - BC的优势在于简单高效,不需要进行手工奖励设计;
- 面临的问题:
- 训练中假设了样本独立同分布(iid),这会导致问题:covariate shift
- 处理方法:
- 模型错误评估了状态和特征之间的相关性,造成因果混淆(causal
- 处理方法:
- 处理方法:
2.1.2 Inverse Optimal Control
Generative Adversarial Imitation Learning (GAIL),用对抗的方式区分专家和学到的策略,概念和GAN类似;
2.2 Reinforcement Learning
- RL方法会允许潜在的不安全的行为出现,行为探索;要求的数据量大于监督学习;因此绝大部分RL算法停留在仿真阶段
- 没有RL端到端训练模型的报告,可能是因为获得的梯度信息不足
- 在carla上取得sota的RL模型:
- “End-toend model-free reinforcement learning for urban driving using implicit affordances,” in CVPR, 2020.
- “Gri: General reinforced imitation and its application to vision-based autonomous driving,” arXiv.org, vol. 2111.08575, 2021.
- RL的难点在于如何从仿真到实际系统中:
- 模型需要稠密的奖励信号,在每一个step提供反馈
- 当前的奖励函数比较简单,例如保持前进 and 避免碰撞,及其线性组合
- 这些奖励过于简单,鼓励了危险的行为,因此受到批评
- “Reward (mis)design for autonomous driving,” arXiv.org, vol. 2104.13906, 2021.
- RL于world model相结合比较容易:
3 Benchmarking
- 目前仿真环境、指标、数据集上都没有对齐,需要做的有两个方向:
- 在线/闭环的仿真评测;
- 离线/开环的人驾数据上的评测;
3.1 Online Evaluation (Closed-loop)
- 仿真评估的三个子任务:
- 参数初始化
- 交通流仿真
- 传感器仿真
3.1.1 Parameter Initialization
- 程序生成(Procedural
generation algorithms combine rules, heuristics, and randomization to
create diverse road networks, traffic patterns, lighting conditions, and
object placements
3.1.2 Traffic Simulation
仿真器用预先定义的规则来生成交通参与者的行为;这种直接方式生成的方式可能不会那么真实;IDM系统( Intelligent Driver Model (IDM))是这一方案的典型代表,基于车辆的速度、加速度、前方车辆的速度、期望的安全距离来设计后车的行为;但这中方案也不足以仿真城市车流中的复杂交互行为;
3.1.3 Sensor Simulation
- Graphics-Based:
- 图形化的方案使用3d模型近似真实的物理场景,但这个方法依赖繁重的场景计算、难以并行优化、以及3d模型的精度;
- Data-Driven:
- 数据驱动的方案使用真实的传感器数据来训练模型,在仿真的场景中仿真的传感器数据可能和自车以不同的方式移动;典型的方案是使用
Neural Radiance Fields (NeRF)
- 一些开源的仿真环境:
3.2 Offline Evaluation (Open-loop)
- sensor readings
- goal locations
- corresponding future driving trajectories
- 不需要仿真器,方案易于实现
- 使用真实的车流的传感数据
- 并不是在部署模型的真实测试数据分布中进行度量
- 和真值轨迹对比的方式不适合多模态轨迹的场景(例如:提前/延后汇入变道车道都是可行的)
- 预测的轨迹依赖未来的观测信息(例如:在即将变红的绿灯前停车)
- 轨迹可能超出专家轨迹所在车道;
- 要求一个复杂的轨迹数据集;(nuScenes,Argoverse,Waymo,nuPlan)
4 Challenges
4.1 Input Modality
4.1.1 Multi-sensor Fusion
RGB images:丰富的语义视觉信息
LiDARs or stereo cameras:立体视觉信息
speedometers and IMUs:车速、加速度信息
多传感器融合主要是在感知领域被讨论的,包括object detection,tracking,semantic segmentation等,并且主要分为三种方案:前/中/后融合
- Early fusion:在特征提取器之前将传感信息结合;之后放入共享的特征提取器中;
- late fusion:将多个模态输入提取特征后融合起来,但是效果不好;
- middle fusion:稀疏编码输入,在网络内进行融合,例如用transformer架构进行特征融合
4.1.2 Language as Input
当前的language-guided navigation works基本在机器人或者仿真器中验证了效果,但是缺少包含有意义的语言提示的大规模基准。
4.2 Visual Abstraction
- 城市驾驶环境中视觉输入和video game的相比高度不同,一般采用预训练的方法获得视觉encoder
4.3 World Model and Model-based RL
Model-based reinforcement learning允许模型agent和学到的世界模型进行交互,而不是和真实的环境进行交互;降低了原本需要仿真器的成本(例如使用carla就会很慢)
- MILE:“Modelbased imitation learning for urban driving,” in NeurIPS, 2022.
- SEM2:“Enhance sample efficiency and robustness of end-to-end urban autonomous driving via semantic masked world model,” in NeurIPS Workshops, 2022.
- DeRL:“Deductive reinforcement learning for visual autonomous urban driving navigation,” TNNLS, 2021.
4.4 Multi-task Learning with Policy Prediction
- 多任务学习通过多个heads联合训练相关任务的性能,共享层中域知识的使用能够提升模型的健壮性
- 语义分割任务、深度估计任务、perspective images, 3D object detection (LiDAR encoder) 有助于帮助模型理解环境特征,然后帮助后续的规划过程;
- 大尺度数据集和多模态输入的对齐和注释也是重要的挑战;
4.5 Policy Distillation
- 使用“Teacher-Student” paradigm,先训练一个teacher网络,然后蒸馏到student网络;
- teacher是专家数据,student模型不仅要学习扩展感知特征,还要学习驾驶策略,任务压力会比较大,但是会获得更好的泛化能力;
- 另一些模型在特征层面蒸馏知识,涉及多个蒸馏目标:
- action distribution prediction
- value estimation
- latent features
- 蒸馏过程可能造成因果混淆,例如teacher模型可以访问红绿灯的基本状态,但是student模型只能观察到图像个别像素级的变化,这可能会造成因果混淆;
4.6 Interpretability
- 注意力机制
- 可解释辅助任务
- 损失学习
- 自然语言
- 不确定性模型
- aleatoric uncertainty:任务的不确定性
- epistemic uncertainty:数据和模型的不确定性
4.7 Causal Confusion
- 模型不清楚刹车的原因是速度低还是红灯;
4.8 Robustness
- 关于鲁棒性主要涉及三个子问题:
- 数据的长尾分布
- 数据协方差漂移
- 域适应
4.8.1 Long-tailed Distribution
- over-sampling:
自动驾驶数据中多数数据并不有趣,一些工作尝试生成有趣的数据LBC:“Learning by cheating,” in CoRL, 2020.
4.8.2 Covariate Shift
DAgger (Dataset Aggregation):DAgger是一个迭代的训练过程,在每次迭代中推出当前训练好的策略来收集新的数据,并使用专家来标记访问过的状态。然而,DAgger的一个缺点是需要有专家在线查询
4.8.3 Domain Adaptation
- Sim-to-real: 仿真到实际部署的差距;the large gap between simulators used for training and the real world used for deployment.
- Geography-to-geography: 不同视角观察到的环境不一样different geographic locations with varying environmental appearances.
- Weather-to-weather: 天气条件导致的数据分布变化changes in sensor inputs caused by weather conditions such as rain, fog, and snow.
- Day-to-night: 日夜光照条件变化的问题illumination variations in the sensor input.
- Sensor-to-sensor: 传感器差异造成的问题possible differences in sensor characteristics, e.g., resolution and relative position.
- Zero-shot and Few-shot Learning
- 自动驾驶始终会遇到超出训练集的corner case,在遇到这些场景时该怎么做需要端到端模型具有一定零样本学习的能力
- Modular End-to-end Planning
- 端到端是行业趋势,具有可解释性,tesla、wayve都在推动
- Data Engine
- 大量的高质量数据始终是最重要的,还需要自动标注pipeline;后续还有场景生成和编辑
- Foundation Model
- 当前大基础模型热点在语言和视觉领域;一个理想中的框架应该是训练一个video预测器预测未来的感知;但其目标需要足够复杂才足以在规划任务中表现良好
- finetuning
- Vehicle-to-everything (V2X)
- 处理超出感知范围的障碍物和阻塞是一个重要难点;Vehicle-to-vehicle (V2V), vehicle-to-infrastructure (V2I), and vehicle-to-everything (V2X) systems 提供了解决方案,用不同来源的信息补充盲点
本篇综述出自香港大学和上海AI Lab等单位,质量还是比较不错的,视角较广;但这篇与其说是end-2-end的综述,不如说是自动驾驶算法的综述,end2end的方案讲得其实并不多,end-2-end方面还需进一步调研