GSD-Occ:实时占用预测最新开源,速度比SOTA快3倍,mIoU提高1.9!
GSD-Occ:实时占用预测最新开源,速度比SOTA快3倍,mIoU提高1.9!
在自动驾驶领域,3D占用预测技术对于实现安全高效的路径规划至关重要。近期,一篇发表在CVPR2023上的论文提出了一种名为GSD-Occ的创新方法,通过几何-语义双分支网络和解耦学习策略,实现了速度和精度的双重突破。本文将详细介绍这一最新研究成果的技术细节和实验效果。
1. 问题引入
占用预测在自动驾驶中至关重要,因为它提供了精细的几何感知和通用的对象识别能力。这些能力使得自动驾驶系统能够准确地感知和理解周围环境,从而进行安全有效的路径规划和决策。然而,现有的方法通常计算成本高,难以满足自动驾驶对实时性和效率的严格要求。为了应对这一挑战,作者首先评估了大多数公开可用方法的速度和内存使用情况,旨在将关注点从单纯追求准确性转移到提高计算效率和资源利用率方面。
图1:Occ3D-nuScenes基准测试中各占用预测方法的推理速度(FPS)和准确率(mIoU)
2. 方案提出
实现快速且准确性能的关键在于几何和语义之间的强耦合,为此,作者提出了一种具有混合BEV-体素表示的几何-语义双分支网络(GSDBN)。在BEV分支中,引入了一个BEV级别的时序融合模块和一个U-Net编码器以提取密集的语义特征。在体素分支中,提出了一种大核重新参数化的3D卷积,以细化稀疏的3D几何并减少计算。此外,作者提出了一种新的BEV-体素提升模块,将BEV特征投射到体素空间,以实现两个分支的特征融合。
此外,作者还提出了一种几何-语义解耦学习(GSDL)策略。该策略首先使用准确的几何真值深度来学习语义,然后逐步混合预测深度以使模型适应预测的几何。实验表明,本方法在Occ3D-nuScenes基准测试中表现出色,以39.4 mIoU和20.0 FPS的成绩超过了CVPR2023 3D占用预测挑战赛的冠军FB-OCC,速度提高了约3倍,mIoU提高了1.9。
图2:几何语义耦合问题示意图:(a) 不准确的深度预测会导致2D到3D特征投影的错误,需要后续网络进行细化和纠正;(b) 展示了预测深度和真实深度之间的性能差距,展现了解决该问题的重要性
3. 方法详析
3.1 问题表述
给定传感器数据(例如相机图像、点云等)和目标场景的历史信息,我们的目标是生成高质量的3D占用图。这些占用图可以用于多种应用,例如自动驾驶、机器人路径规划等。
图3:GSD-Occ的整体架构概览
3.2 整体框架
几何-语义解耦占用预测器(GSD-Occ)的流程图如图3所示。该方法包括以下几个主要部分:
图像编码器:用于提取图像特征。具体来说,给定T时刻的一组环视相机图像,本文采用预训练的主干网络(如ResNet-50)来提取图像特征,并使用FPN进一步处理。
2D到3D视图转换:该模块将2D图像特征转换为体素表示。由于实时模型的学习能力有限,本文采用了一个显式视图转换模块,并通过深度监督进行训练。具体过程是,首先将图像特征输入到深度网络(DepthNet),生成预测的深度分布。然后,利用外积操作将图像特征和深度分布结合,得到伪点云特征。最后,通过体素池化操作获得体素特征,并进行2倍下采样以减少计算复杂度。
几何-语义双分支网络(见3.3):该网络通过几何分支和语义分支高效地保持几何完整性并提取丰富的语义信息。
几何-语义解耦学习策略(见3.4):该策略进一步增强了几何细化和语义学习的能力。
3.3 几何-语义双分支网络
为了实现实时的3D占用预测,作者提出了一种几何-语义双分支网络(GSDBN)。该网络结合了鸟瞰图(BEV)表示和体素表示,既保证了计算效率又保持了几何完整性。GSDBN包含两个主要分支:语义BEV分支和几何体素分支。
- 语义BEV分支
语义BEV分支旨在从传感器数据中提取语义信息,并将其映射到鸟瞰图表示中。这一过程包含以下步骤:
特征提取:使用ResNet-50作为特征提取器,从输入图像中提取高层次特征。
特征转换:将提取的特征映射到鸟瞰图表示中,生成语义鸟瞰图。
几何体素分支
几何体素分支专注于从传感器数据中提取几何信息,并将其表示为体素。这一过程包括以下步骤:
- 体素化:将传感器数据转换为体素表示。
- 几何编码:使用大卷积核的3D卷积对体素进行编码,捕获细粒度的几何信息。
图4:3D几何编码器中大核3D卷积重参数化技术示意图:该技术使用并行的空洞小核3D卷积来增强非空洞大核3D卷积,图中示例的卷积核大小为 [11, 11, 1]
3.4 几何-语义解耦学习
为了进一步提高模型性能,作者提出了一种几何-语义解耦学习策略。该策略将几何校正和语义知识的学习过程分离开来,采用了一种简单而有效的学习方法,使得模型在不同的预训练模型和方法上都能保持一致的准确性提升。
具体来说,在训练初期将真实深度引入LSS,使模型能够在准确的真实几何信息下专注于学习语义信息。随后,在训练过程中,逐渐将真实深度与预测深度混合,以适应模型对预测几何的学习。混合深度通过算术平均得到,使用一个因子α控制真实深度和预测深度的比例。
随着训练的进行,α的值逐渐增加,使模型在训练结束时能够很好地细化预测的几何信息,并在推理时不再需要真实深度。通过这种逐步过渡的方法,模型既能利用真实几何信息进行语义学习,又能在推理阶段自适应地处理预测几何信息,从而提高整体的稳定性和准确性。
图5:FB-OCC和本文方法的定性结果比较:结果表明,本文的方法能够构建更详细的几何结构(第1行和第2行)、更准确的语义(第3行)以及在夜间更强的适应性(第4行)
4. 实验结果
图6:GSDL陡度的消融研究
表1:Occ3D-nuScenes数据集上的3D占用预测性能比较
表2:Occ3D-nuScenes数据集上的3D占用预测性能比较,使用RayIoU指标
表3:GSDBN各组件的消融研究结果
表4:GSDL在不同预训练模型和方法上的有效性分析
表5:BVL模块的有效性分析
表6:时间融合中不同历史帧数量的影响分析
表7:3D编码器中不同卷积核大小的影响分析
5. 总结
本研究提出的几何-语义解耦占用预测器(GSD-Occ)结合鸟瞰图(BEV)和体素表示,通过几何-语义双分支网络(GSDBN)和几何-语义解耦学习(GSDL)策略,实现了高效和准确的实时3D占用预测。实验结果表明,GSD-Occ在保持高质量占用预测的同时,满足自动驾驶对实时性的要求。
未来的研究将进一步优化GSD-Occ,通过设计更高效的网络结构以减少计算复杂度,融合激光雷达等多传感器数据以增强预测的准确性和鲁棒性,引入自适应学习机制以提高模型的泛化能力等方式。此外,还需要加强在实际道路和复杂交通环境中的测试,以验证模型的可靠性和安全性。