端到端自动驾驶的基础概念
端到端自动驾驶的基础概念
端到端自动驾驶(End-to-End Autonomous Driving)是当前自动驾驶领域的一个热门话题。它通过将传感器输入直接映射到控制输出,实现自动驾驶系统的全局优化。本文将为您详细介绍端到端自动驾驶的基础概念、发展历程以及面临的挑战。
1. 端到端自动驾驶的定义
端到端自动驾驶的早期定义是“从传感器输入到控制输出的单一神经网络模型”,现阶段的定义则更强调“感知信息无损传递,自动驾驶系统的全局优化”。
1.1 特斯拉FSD
特斯拉FSD(Full Self-Driving)系统是端到端自动驾驶技术的典型代表。虽然国内智能驾驶公司也纷纷推出各种端到端智驾系统,但这些系统是否真正实现了端到端,存在一定的争议。
1.2 端到端架构演进
端到端自动驾驶的发展经历了以下几个阶段:
第一阶段:感知端到端。通过多传感器融合的数据输入,最后表征成BEV(Bird's Eye View)范式,这是目前非常常见的感知方案。
第二阶段:决策规划端到端。预测到决策到规划都是通过深度学习,集成到一个神经网络中去训练学习。虽然都是神经网络但是每个模型的训练优化局限在模块内部,传递会有信息损失。
第三阶段:模块化端到端。这一阶段主要是感知和决策规划之间不再是人类理解的结果,而是特征向量,也就是两个模块不能独立训练,而支持跨模块的梯度传导。
第四阶段:One Model。这时候网络的内部也不再有明确的划分。
1.3 大模型
端到端不等同于大模型,大模型更关注模型的参数量以及智能涌现能力,而端到端强调结构上的梯度可传导以及全局优化。所以大模型为端到端提供了很好的可选方案,但是端到端并非必然用大模型实现。
自动驾驶目前的大模型由于车端算力以及实时性的影响,很难达到NLP领域的标准,只是比自动驾驶感知领域的参数量大的多而已。但是LLM仍旧是为了智驾的趋势,因为其强大的推理能力和可解释性有望解决决策规划领域各种corner case。
1.4 世界模型
世界模型是指能够学习以及揭示真实物理世界及数学定律的模型。世界模型是自动驾驶开发中数据生成器的角色,他可以源源不断生成数据,并且覆盖大量车无法采集到的极端工况,对长尾问题很有帮助,并且在线生成的成本优势很大。
世界模型自身具备理解周围环境以及交互情况,因此只需要调整或增加一些输出链路或模块就可实现端到端。但短期内制约这种方案的难点是车端算力不够,后续会考虑蒸馏或其他方式在保持对真实世界理解的能力下最大程度裁剪模型。
1.5 纯视觉传感器
有些从业者认为端到端一定只能基于纯视觉,这个误解源于BEV范式成为业界主流,但是多传感器的选择和融合只是模型的输入,哪些传感器能让端到端自动驾驶效果更好并没有大量的实验去验证出来。
2. 落地的挑战
端到端自动驾驶技术在落地过程中面临以下挑战:
- 技术路线:还未形成,各个企业之间存在分歧
- 数据:数据量、数据标注、数据质量和数据分布都是影响training的关键因素
- 算力:算力要求高
- 测试技术:行业需要新的测试验证方法论和工具链,目前有很多关于自动驾驶测试场景生成等等研究
- 产业:端到端需要上游工具链、芯片等产业加速进步