问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

最新开源!DifFUSER:BEV分割 & 3D目标检测双SOTA!

创作时间:
作者:
@小白创作中心

最新开源!DifFUSER:BEV分割 & 3D目标检测双SOTA!

引用
1
来源
1.
https://www.bilibili.com/read/mobile?id=34228965

3D目标检测和鸟瞰图(BEV)地图分割是自动驾驶中的基本任务。前者涉及在三维空间中检测物体,而后者将BEV地图分割成语义上有意义的类别。这一领域的一个增长趋势是融合来自多个传感器的特征,利用它们的互补优势。例如,三维点云提供了三维物体检测所需的基本几何数据,但缺乏对BEV地图的语义分割至关重要的丰富颜色信息------这一空白由二维图像有效填补。

最近基于Transformer的融合方法通过交叉注意力机制从两个传感器学习特征映射,在三维物体检测方面取得了新的基准。然而,这些方法对于额外的任务,如BEV地图分割,适应性较差。另一种选择是从两个传感器创建统一的BEV表示,就像LSS中所见。然而,这些通常产生次优结果,原因是:1)设计不当的融合模块架构未能捕捉传感器之间复杂关系,以及2)不同模态之间的固有噪声,导致融合特征具有噪声和不准确性。

为了解决这些挑战,这篇文章提出了DifFUSER,一种基于条件扩散的生成模型,具有增强的融合架构,专为三维感知中的多模态学习而设计。它处理来自两个传感器的特征,输出一个经过精细化处理的BEV表示,随后将其导向特定任务的头部,用于三维物体检测和BEV地图分割。作者还展示了DifFUSER在合成新特征以补偿缺失模态方面的鲁棒性,最小化性能损失,并确保即使在受损传感器数据的情况下也能保持可靠性。

论文信息

摘要

扩散模型最近作为强大的深度生成模型而备受关注,在各个领域展现了无与伦比的性能。然而,它们在多传感器融合中的潜力仍然大部分未被开发。在这项工作中,研究者介绍了"DifFUSER",这是一种新颖的方法,利用扩散模型进行三维目标检测和BEV地图分割中的多模态融合。由于扩散具有的固有去噪特性,DifFUSER能够在传感器故障的情况下,对传感器特征进行精炼甚至合成,从而提高融合输出的质量。在体系结构方面,研究者的DifFUSER模块以层次化BiFPN方式连接在一起,称为cMini-BiFPN,为潜在扩散提供了一种替代体系结构。研究者进一步引入了一个带有门控自条件调制(GSM)潜在扩散模块,以及一个逐渐传感器丢失训练(PSDT)范式,旨在为扩散过程增加更强的调制,并增强对传感器故障的鲁棒性。研究者在Nuscenes数据集上进行了广泛的评估,结果显示,DifFUSER不仅在BEV地图分割任务中实现了69.1%的mIOU的最先进性能,而且在三维目标检测中还与领先的基于变压器的融合技术有效竞争。

主要贡献

  1. 首次引入新的基于DPM的多模态融合方法,用于三维感知。通过精心设计的扩散架构(cMini-BiFPN)和训练范式(PSDT),展示了增强的多模态特征融合和去噪能力,以及通过生成合成缺失传感器数据来增强模型对传感器故障的鲁棒性。
  2. 在DifFUSER块内提出了门控自条件调制(GSM)潜在扩散机制,通过更强的调制来加强融合过程,并塑造朝向高质量特征的扩散轨迹。
  3. 在Nuscenes数据集上进行了大量实验,评估了DifFUSER的性能。结果表明,DifFUSER在BEV地图分割任务中超过了当前SOTA 6.4%,并在三维物体检测中表现出与基于Transformer的融合方法相媲美的水平。

基本原理

在架构方面, DifFUSER块以分层BiFPN(双向特征金字塔网络)的方式串联在一起,称为cMini-BiFPN,为潜在扩散提供了一种替代架构,特别擅长处理来自不同传感器的多尺度和高度详细的特征。这种架构变化得到了门控自条件调制(GSM)潜在扩散模块的补充,旨在加强扩散过程中的条件调制,从而实现更精确的去噪和特征增强。使用提出的渐进式传感器丢失训练(PSDT)范式,连同任务特定的损失,端到端地训练DifFUSER,以增强模型的鲁棒性和能力,去噪损坏的BEV特征,并为下游任务生成更准确的输出。

基准BEVFusion和DifFUSER模块的BEV编码器的输出激活图,其中前者的激活图嘈杂且不准确,可能会影响下游任务的性能。相比之下,DifFUSER的融合模块,具有更好的架构设计和扩散模型的去噪属性,能够有效减轻不同传感器之间的噪声和固有差异,显著改善预测,并对传感器故障具有强大的鲁棒性。

DifFUSER框架的结构是首先处理输入数据,包括点云和图像,通过各自的骨干来创建初始的潜在特征。然后,将这些特征串接并输入到DifFUSER块中。在这些块中,级联特征被用作条件(部分被掩盖)来迭代地去噪损坏的特征,以提高每一步的质量,然后将输出特征用于下游任务。

实验结果

BEV 地图分割

表1 显示了 NuScenes 验证集上 BEV 地图分割性能的比较。DifFUSER 在基准 BEVFusion上展示了显著的性能提升。虽然 BEVFusion达到了 62.7 的 mIOU 分数,但 DifFUSER 将其显著提升到 69.1,标志着显著的 6.4% 改进。这一明显进步在各个类别中都是一致的,如可行驶区域(89.3%)、行人过街道(67.7%)、人行道(73.7%)、停车线(60.2%)、停车场(62.4%)和分隔线(61.1%),均超过了 BEVFusion中的相应分数。这些结果强调了 DifFUSER 增强融合特征质量的能力,在分割任务中至关重要。BEVFusion 往往会产生嘈杂的分割结果,特别是在更远的距离,那里激光雷达点云稀疏且传感器错位更为明显。相比之下,DifFUSER 产生了更准确的分割结果,细节更加清晰,噪音更少。

三维物体检测

表2显示了NuScenes测试集上三维物体检测性能的比较。DifFUSER相对于基线BEVFusion表现出明显的改进。虽然BEVFusion已经展示出令人印象深刻的结果,NDS为72.9,mAP为70.2,但DifFUSER进一步提升了这些指标,分别为73.8(+0.9%)和71.2(+1%),与CMT竞争激烈,后者的NDS为74.1,mAP为72.0。这一改进归因于更有效的多模态扩散式融合。具体来说,DifFUSER的去噪能力有助于保留融合特征中的更精细细节并减少噪音,从而提高了物体检测的准确性。从其他指标上也可以看出改进,DifFUSER的错误率(mATE,mASE,mAOE,mAVE,mAAE)比BEVFusion低。这表明,DifFUSER不仅提高了检测准确性,还提高了物体检测任务的整体可靠性和精度。

在验证集中也观察到相同的趋势,如表3所示。对传感器故障的鲁棒性。为了突显DifFUSER在传感器故障下的鲁棒性,在图5中展示了分割性能的比较。研究结果表明,通过足够数量的采样步骤,该模型能够生成有效补偿丢失传感器数据并充当替代的特征。这一能力是对现有模型(如CMT)的重大进步,后者在类似的缺失传感器条件下只能匹配单传感器基线的性能。DifFUSER模型通过生成的合成特征,不仅能够匹配基线性能,而且能够超越单传感器输入获得的性能。有效生成和利用合成特征的能力有效地减轻了对任何单一传感器模态的依赖,确保了模型在多样化和具有挑战性的环境中的操作韧性。

总结 & 未来工作

这项工作提出了DifFUSER,一个基于扩散的生成模型,用于三维感知中的多模态融合。DifFUSER旨在通过改进融合架构并利用扩散模型的去噪特性来提高融合特征的质量。DifFUSER的核心是引入了一个门控自条件调制(GSM)潜在扩散模块和PSDT范式,专门设计用于改善融合输出特征并增强对传感器噪声和故障的鲁棒性。此外,cMini-BiFPN融合架构作为有前景的多尺度潜在扩散模块出现。对NuScenes数据集的大量实验表明,DifFUSER在BEV地图分割任务中取得了SOTA性能,并且可以与基于变压器的融合方法在三维物体检测中公平竞争。这显示了生成模型显著提升自动驾驶系统能力的潜力。DifFUSER开辟了在三维感知任务中使用扩散模型以获得更好精度和可靠性的方向,有望进一步增强扩散模型在复杂的真实环境中的适用性和广泛应用。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号