多传感器融合方案VS纯视觉方案
多传感器融合方案VS纯视觉方案
自动驾驶技术的发展引发了多传感器融合方案和纯视觉方案的激烈争论。特斯拉凭借其纯视觉方案在自动驾驶领域取得显著成就,而国内车企则普遍采用多传感器融合方案。本文将深入探讨这两种方案的技术特点、应用场景及优劣对比。
纯视觉方案
纯视觉自动驾驶方案的领导者非特斯拉莫属。特斯拉的纯视觉自动驾驶方案有三个类别,分别对应不同的功能:AP、ESP、FSD。
值得注意的是,特斯拉的FSD才具有城市NOA(领航辅助驾驶,也被称为NCA、NGP等)功能,而EAP仅能在高速上使用,对应的是高速NOA功能。
特斯拉为了实现FSD,在自动驾驶芯片、自动驾驶算法、算力建设等方面投入了海量的资源。
在自动驾驶芯片上,特斯拉于2016年组建自动驾驶芯片研发团队,2019年推出自研的FSD1.0芯片,2023年推出FSD2.0。
在算法上:
- 重写底层算法,研发HydraNet多任务神经网络架构(九头蛇),减少了重复卷积计算,减少主干数量;
- 改进采用BEV+Transform模型,将2D图像转为BEV,不再必须高精度地图,同时落地自动标注,进入大模型时代;
- 使用占用网络技术,进一步提高纯视觉对环境的感知,实现了伪激光雷达的效果,解决自动驾驶中出现的各种长尾问题;
- 落地端到端,将城市街道驾驶堆栈升级为基于数百万个视频片段训练的单个端到端神经网络,取代了超过 30 万行的显式C++代码。
在计算平台上,特斯拉构建了Dojo ExaPOD超级计算机。
下图为特斯拉纯视觉自动驾驶方案中边缘端(车辆)和云端的发展变化:
综上可以看到,特斯拉的纯视觉路线并不是简简单单的使用几个廉价的摄像头就能完成,其在“水下”构建了从芯片、算法到计算平台的一整套体系。
多传感器融合方案
国内车企多采用多传感器融合方案,这里以华为ADS为例。
在硬件层面,华为从ADS1.0至3.0阶段均采用多传感器融合方案,激光雷达是标配。不过在数量上,激光雷达、毫米波雷达以及摄像头的用量均有所减少。
在算法上:
- ADS1.0使用的是BEV+transform网络架构,具有基础的白名单目标识别和道路感知能力,不过需要高精地图参与;
- ADS2.0升级为BEV+GOD网络,增加了异形障碍物识别的能力,摆脱了高精地图,实现无图智驾,同时实现自动化标注;
- ADS3.0只保留GOD大网,新增场景理解(包括有红绿灯状态、车流信息等),同时采用PDP网络,实现端到端架构落地。
在自动驾驶芯片上,华为同样拥有自研的昇腾系列芯片。
在计算平台上,华为有华为云做算力支撑。
下图为华为ADS的发展变化:
可以看出,华为的ADS的迭代同样是基于算法、自动驾驶芯片、计算平台的发展。
另外值得注意的是,华为在硬件端,特别是激光雷达方面,同样进行了持续的迭代:
- 2020年12月,发布首款96线中长距激光雷达产品;
- 2023年12月,发布D3 192线激光雷达,实现250m的探测距离;
- 2024年4月,发布D3P 激光雷达,其背后的算法模型进一步升级,能够滤除99.9%的灰尘雨雾噪点,提高激光雷达的全天候能力。
对比
结合上文中华为和特斯拉的自动驾驶方案可以发现:
- 两者在感知算法上都是以空间是否被占用来构建车辆的周边环境,减少长尾问题发生的概率;
- 均以端到端来统一感知、规控、决策,加速AI的学习速度,提高车辆自主决策能力。
除了上述两家具有代表性的企业外,从公开资料上看,小鹏、蔚来、极越、理想等具有自动驾驶能力的车企在自动驾驶方案的软件层面的方向选择上与华为、特斯拉相比并没有非常大的差别,均在推动无图、自动标注、占用网络、端到端等技术的落地。
上述企业自动驾驶方案的明显区别其实就是硬件层面的感知端是否采用激光雷达。
首先,我们来看不同感知硬件的差别:
另外,我们再看不同感知硬件在长尾场景的覆盖能力:
可以发现,不存在一种完美的感知设备能够对所有环境完成探测。
因此,纯视觉方案是需要在软件算法层面去弥补摄像头的不足,而多传感器融合方案则需要承担偏高的硬件成本以及开发能够融合多传感器数据的算法,同时两者均需要采用高算力的芯片来完成数据计算。
无论是多传感器融合方案还是纯视觉方案,其本质是为了提升车辆的自动驾驶能力,推动L2向L3-L5方向发展。
那么我们就可以从车辆实现某种功能所使用的方案来对比纯视觉方案和多传感器融合方案。
需要说清楚的是,不同自动驾驶级别下对于自动驾驶方案的要求完全不同。一般来说L2级别的自动驾驶常见的功能有:自适应巡航(ACC)、前方碰撞辅助(FCA)、自动紧急制动(AEB)等。这些功能一般只需要纯视觉体系即可完成。
而对于高速NOA、城市NOA等属于高阶辅助驾驶的实现,也就是车企常说的L2+级别的功能,就存在本文所提到的多传感器融合和纯视觉两种不同的方案:
可以看出,绝大部分的车企会在具有高速NOA功能的车型上使用纯视觉方案,而对于城市NOA功能来说,除特斯拉、极越、蔚来乐道(未上市)等使用纯视觉方案外,多数车企采用多传感器融合方案。
追究其原因,要看城市NOA和高速NOA的差别:高速路段是一个封闭环境,道路质量高,道路参与者仅有车辆。城市路段则更为复杂,其是一个开放环境,存在大量行人、非机动车参与交通,道路质量不定,突发事件更容易发生。
再结合上面各种传感器的特点,可以发现多数车企仅在搭载有激光雷达的车辆上开通城市NOA功能的原因,或是希望借助激光雷达的强感知能力来降低各类事故发生的概率。
换句话说,在面对复杂的城市路况:
- 多数车企更愿意多花一份硬件的钱以及开发多传感器融合算法来提供更多的安全冗余(也有车企是搞不定纯视觉方案背后算法开发和算力建设)。
- 少数车企对于自身软件算法和模型有充分的信心,更愿意少花一份硬件的钱来实现自动驾驶。
总结
从实现功能的角度来看,多传感器融合方案和纯视觉方案均能使车辆具有L2+级别的自动驾驶能力,两者难分高下。
孰优孰劣?千人千面。
但无论哪一种方案都不是简简单单就能实现高级别的自动驾驶。
多传感器融合方案除有激光雷达在,也需要更牛逼的融合算法、大模型以及数据支持;
纯视觉路线除了搭建庞大的算力和算法基础外,也要配置一定的硬件来提供安全冗余。
而作为消费者来说,无论选择哪个方案的车辆,都需要注意的是:现阶段任何一个车企推出的自动驾驶方案均为L2级别。而L2只是辅助驾驶,并不是完全自动驾驶,驾驶员需要做好随时接管的准备,对自己和家庭的安全负责。