资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

ECCV 2024 | FSD-BEV：北航&极氪联合提出感知新SOTA！

创作时间:

作者:

@小白创作中心

ECCV 2024 | FSD-BEV：北航&极氪联合提出感知新SOTA！

引用

CSDN

https://blog.csdn.net/CV_Autobot/article/details/140861386

基于BEV空间的3D目标检测是自动驾驶当中至关重要的任务之一。近年来，纯视觉的BEV感知算法受到了广泛关注，但由于相机传感器采集到的图像数据缺乏准确的深度信息，其性能仍然无法与基于激光雷达的感知算法相媲美。为了解决这一问题，北航和极氪联合提出了一种名为FSD-BEV的前景自蒸馏算法框架，该算法在nuScenes数据集上取得了SOTA的检测结果。

写在前面

基于BEV空间的3D目标检测是自动驾驶当中至关重要的任务之一。由于纯视觉的BEV感知算法部署友好且成本低廉，近年来受到了来自工业界和学术界的广泛关注，基于纯视觉的BEV感知算法目前已经取得了长足的进展。虽然激光雷达传感器采集到的点云数据可以提供目标准确的几何结构和形状信息，但相机传感器采集到的图像数据由于缺少物体准确的深度信息，依旧和基于激光雷达的感知算法在性能上有一定的差距。

受到知识蒸馏等相关工作的启发，在智驾感知任务当中，相关的研究学者们目前已经提出了多种跨模态的蒸馏方法，实现对感知任务有益信息从教师模型转移到学生模型，在不增加额外计算量的情况下进一步提升学生模型的感知性能。

目前较为主流的蒸馏方式即采用性能较好的激光雷达感知算法作为教师模型，感知性能较差的视觉算法作为学生模型。其网络结构可以大体表述为下图的子图(a)。这类蒸馏算法模型的大体思路是利用预先训练好的教师模型将激光雷达点云或多模态输入转换为冻结的教师BEV空间特征，作为学生生成的BEV空间特征的先验指导。但这类蒸馏算法由于激光雷达点云数据模态和相机图像数据模态的不一致以及教师和学生算法网络模型的结构不一致导致从教师模型转换到学生模型的知识过程具有很大的挑战性。

考虑到上述提到的相关问题，北航和极氪联合提出了一种前景自蒸馏的算法框架称为FSD-BEV，如上图的子图(b)所示。蒸馏框架中的教师分支利用激光雷达点云生成的硬标签来获得高质量的教师BEV空间特征并为学生分支提供指导。同时，学生模型利用预测出来的软标签来填补硬标签的空缺来补偿教师模型。通过在nuScenes数据集上的实验结果表明，提出的FSD-BEV算法模型取得了SOTA的检测结果。

网络模型的整体架构

下图展示了FSD-BEV算法的整体网络结构。

与以前基于BEV空间的跨模态蒸馏方法采用额外的预训练教师模型不同，FSD-BEV算法模型在单独的一个模型当中完成了特征的对齐过程。同时考虑到蒸馏框架中的教师分支的性能在很大程度上取决于点云生成的硬标签的质量。因此，设计了两种点云强化 (Point Cloud Intensification，PCI) 策略来解决点云数据的稀疏性问题，即合并帧信息和为没有关联点的对象分配伪点。通过这种方式，点云产生的硬标签的稀疏性得到了很好的缓解，为特征合成提供了更好的指导。此外，设计了一个多尺度前景增强 (Multi-Scale Foreground Enhancement，MSFE) 模块，通过预测出的椭圆高斯热力图提取和融合多尺度前景特征，从而提高整个框架的性能。

关键技术创新点

自适应蒸馏过程

由于教师模型是基于激光雷达模态的感知算法，学生模型是基于视觉图像模态的感知算法，这就会使得教师模型和学生模型各自产生的BEV特征之间的分布差距给跨模态蒸馏任务带来挑战。此外，蒸馏算法的重点在于对教师和学生模型特征分布差异的情况下进行有效地迁移特征，但BEV空间中背景区域特征的模仿对学生模型精度的提升很微小，因此很自然的想到对前景目标映射到BEV空间上的特征进行蒸馏任务。

在设计的自蒸馏算法框架中，没有像之前常见的蒸馏算法一样使用预训练好的教师模型。相反，在设计的自蒸馏方法当中，教师和学生模型共同参与了联合学习过程。具体而言，虽然教师和学生模型的BEV空间特征共享相同的上下文特征信息，但更准确的深度和语义信息有助于构建高性能的教师BEV空间特征，为学生的BEV空间特征提供持续的指导。此外，通过引入前景分割来生成仅包含前景信息的BEV空间特征，这放弃了对背景区域的无用模仿并避免了噪声干扰。前景分割还大大提高了教师分支的准确性，从而增强了蒸馏效率。

学生模型中BEV空间特征的生成过程

采用了BEVDepth当中BEV特征的生成范式，通过预测语义上下文特征以及离散的深度概率特征。此外，也通过预测前景分割结果来过滤BEV空间特征中的背景区域。采用了SA-BEVPool中的实现思路来生成仅包括前景特征信息的BEV空间特征。

教师模型中BEV空间特征的生成过程

同样采取了与学生分支生成BEV特征的思路，具体而言，采用真值深度图以及前景的分割结果来代替学生模型分支中的预测结果。这里，将真值标签称之为硬标签，学生模型预测出来的结果称之为软标签。虽然硬标签可以为算法模型提供准确的场景信息，但由于点云数据的稀疏性也会导致硬标签包含的信息过少。因此，为了缓解这个问题，采用软标签来填补硬标签的缺失部分，实现软硬标签的组合。

协同训练

由于直接对齐教师模型和学生模型各自输出的BEV特征是比较有挑战的事情。在以往的跨模态蒸馏算法当中都会加入一个额外的自适应模块将学生模型输出的BEV空间特征映射到教师的BEV空间特征中实现两个模态之间的对齐任务。但在提出的FSD-BEV自蒸馏算法当中，是将两个模态的输出特征沿着Batch的维度进行拼接，一同喂入到BEV编码器模块中进行处理，从而得到更高级的BEV特征。

通过这种方式，实现了特征对齐过程。此外，发现BEV编码器可以实现在不增加参数的情况下起到了与自适应模块相同的作用，BEV编码器也可以看作是一个特征过滤器，使得过滤后的特征相似。

Point Cloud Intensification

激光雷达点云生成的硬标签的质量决定了教师分支的性能，从而影响整体算法的蒸馏效果。然而，由于点云数据的稀疏性往往导致大量远处的目标只有很少的点云数据或者根本没没有点云数据，从而削弱了硬标签的质量。在论文的具体实现中，引入了两种点云强化策略，使硬标签携带更多关于场景的信息。

帧融合策略

通过使用时间上的相邻帧来补充点云数据的数量。同时为了避免动态目标的点云数据会引入错误，只会组合属于静止前景物体的点云数据，例如停放的汽车、无人骑乘的自行车和交通锥。将相邻帧的点云转换为当前帧的坐标系，当前帧中的物体在经过帧融合策略之后将具有更密集的点。

伪点云分配策略

在使用上一步的帧融合策略后，可能会存在仍有一些物体没有出现在硬标签上。它们可能是不适合帧融合的动态物体，或者距离很远，甚至相邻帧也无法提供有效的点云数据。在这种情况下，在空间中为这些物体分配近似点是一个合理的选择。具体而言，将真实3D框投影到图像上以获得其对应的2D矩形框。每个2D矩形框可以用表示，其中表示左上点，表示右下点。然后，根据以下几个标准选择应分配伪点的框：1) 经过帧融合策略后，框内没有真值点云数据；2) 框的深度在感知范围内；3) 框具有良好的可见性。同时满足以上三个条件的框，其伪点在图像坐标系中的坐标可以表示。

Multi-Scale Foreground Enhancement

融合高尺度特征是向视图变换模块提供更精细深度图的直接方法。同时，认为在高尺度特征中前景比背景更有优势。为此，选择FPN特征金字塔输出的降采样四倍的特征图来获取高尺度的前景分割结果。再获得了前景分割结果后，选择采用一个阈值进行过滤。最后，采用如下的方式完成特征间的聚合操作，使得融合后的特征图可以提供更详细的信息。

实验结果

为了验证提出的FSD-BEV算法模型的有效性，在nuScenes数据集上进行了相关实验。在验证集上的实验结果表明，算法模型实现了最佳的感知结果。此外，在nuScenes数据集的测试集上也进行了实验，结果表明提出的FSD-BEV在使用较少帧融合的情况下，实现了更高的感知性能。将提出的跨模态蒸馏算法FSD-BEV与其它的蒸馏算法进行了实验结果对比，实验结果表明提出的简单的前景自蒸馏算法框架优于采用复杂策略的其他蒸馏方法。并且在主干网络选择为ResNet101网络时，FSD-BEV的优势更加明显，大大超过了其他方法的蒸馏增益。