资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

CVPR'24 | 端到端矢量化高精地图新SOTA！提升8.3 mAP！

创作时间:

2025-01-22 08:15:05

作者:

@小白创作中心

CVPR'24 | 端到端矢量化高精地图新SOTA！提升8.3 mAP！

高清地图在自动驾驶领域扮演着至关重要的角色，它能够提供道路边界、车道分隔线和人行横道等全面的环境信息，用于感知、预测和规划。然而，传统的点级表示学习方法在获取元素级信息和处理元素级故障方面存在局限。为了解决这一问题，三星R&D研究所中国北京（SRC-B）和南韩三星高级技术学院（SAIT）的研究团队提出了一种基于混合表示学习的HybrId框架（即HIMap），用于端到端矢量化HD地图构建。

研究背景与动机

高清地图可以提供道路边界、车道分隔线和人行横道等全面的环境信息，用于感知、预测和规划。矢量化的高清地图由多个地图元素组成，每个元素对应道路上的一个符号，如分隔线、人行横道等。每个矢量化地图元素通常表示为一组有限的离散点。矢量化的高清地图构建旨在对地图元素在鸟瞰视图（BEV）空间中进行分类和定位。重建结果包含元素的类别和点坐标。

方法介绍

为了更好地学习和交互地图元素的信息，这篇文章基于混合表示学习，提出了一个简单而有效的混合表示学习框架HIMap。首先引入了一个名为HIQuery的混合表示来表示地图中的所有元素。它是一组可学习的参数，并可以通过与BEV特征的交互进行迭代更新和细化。然后我们设计了一个多层混合解码器，将地图元素的混合信息（例如点位置、元素形状）编码到HIQuery中，并进行点元素互动。

混合解码器的每一层包括一个点元素互动器、一个自注意力和一个前馈神经网络。在点元素互动器内部，执行一种互动机制来实现点级和元素级信息的交换，并避免单级信息的学习偏差。最后，输出的点元素集成HIQuery可以直接转换为元素的点坐标、类别和掩码。此外，还提出了一个点元素一致性约束来加强点级和元素级信息之间的一致性。

核心创新点

提出了一种混合表示（即HIQuery）来表示高清地图中的所有元素，并提出了一种简单而有效的HybrId框架（即HIMap）用于端到端的矢量化高清地图构建。
为了同时预测准确的点坐标和元素形状，引入了一个点元素互动器来提取和交互点级和元素级的信息。
在nuScenes和Argoverse2数据集上明显优于先前的作品，分别达到了77.8和72.7的新的最先进结果。

实验结果

nuScenes数据集

表1展示了使用多视角RGB图像作为输入的nuScenes数据集的结果比较。HIMap在轻松和困难设置下都实现了新的最先进性能（73.7, 51.6 mAP）。具体来说，在轻松设置下，HIMap超过了MapTRv2，前一版本的最先进技术，mAP提高了5.0。这证实了混合表示法在捕获比点级表示更全面的元素信息方面的有效性。HIMap也超过了BeMapNet，困难设置下的前一版本的最先进技术，mAP提高了4.5。这证明了点-元素交互优于顺序利用两个层次的信息。

此外，表3展示了使用多模态输入（多视角RGB图像和LiDAR点云）的结果。HIMap也实现了新的最先进性能，对于24个时期为74.3 mAP，对于110个时期为77.8 mAP，至少分别超过了以前的方法5.3和8.3 mAP。

Argoverse2数据集

如表2所示，在Argoverse2数据集上，HIMap在轻松和困难设置下一直超过以前的最先进技术，无论是使用6还是24个时期进行训练。使用24个时期的调度器，HIMap在困难和轻松设置下分别比MapTRv2高出3.5、2.2 mAP。更重要的是，在轻松设置下，HIMap的分界器类别的结果低于MapTRv2，但在困难设置下高于它。HIMap为严格的阈值（即0.2m）生成了更多的TP。

此外，在表4中，展示了在不同阈值下与MapTRv2的详细结果比较。HIMap对于更严格的阈值（例如0.2、0.5 m）确实产生了更大的改进。

消融研究

在这一部分中，分析了HIQuery并研究了提出方法的几个方面，以说明其有效性。除非另有说明，实验是在nuScenes验证集上以多视角RGB图像为输入，使用ResNet50作为骨干网进行的，训练了110个时期，并在轻松设置下进行了评估。

HIQuery学到了什么？

为了更好地理解HIQuery学到了什么以及点-元素交互的效果，图4可视化了单个地图元素在不同层次上的锚点的注意力图、其采样点和锚点掩码。锚点和掩码，对应于HIQuery中的点查询和元素查询，分别关注元素的局部和整体信息。在分界器示例中，第2层的锚点和掩码延伸到目标分界器和附近的边界。在第4层，它们都专注于目标分界器，但是锚点的方向仍然向左倾斜，锚掩码的长度不完美。在第6层，锚点和掩码更好地适应目标分界器。在过斑马线的示例中，在第2层，锚点向右漂移，锚掩码包括目标过斑马线外的额外像素。经过迭代学习和交互后，锚点和掩码都被转移到了过斑马线。这些可视化验证了点-元素交互有助于实现相互细化。

HIMap

在表5中，逐步研究了HIMap的几个关键设计，包括混合表示法、点-元素交互器和点-元素一致性。首先通过调整MapTR的配置（例如FPN、2D-to-BEV转换模块等）建立了点级表示学习基线。如表5的第1行所示，它达到了68.5 mAP。然后，利用混合表示法同时学习点级和元素级信息。元素级信息通过Masked attention进行细化，并受到分割损失的监督。该方法（第2行）达到了70.6 mAP，比基线提高了2.1 mAP。为了相互细化两个层次的信息，进一步用点-元素交互器替换了可变形和掩码注意力。这种设置（第3行）获得了73.1 mAP，并带来了额外的2.5 mAP收益。在添加点-元素一致性后，HIMap最终获得了73.7 mAP，比基线提高了5.2 mAP。

点-元素交互器

点-元素交互器中有几个关键因素，包括是否在特征提取器之间共享位置嵌入、是否利用集成信息更新点查询和元素查询。相应地，将这些因素标记为"share pos"、"inte-P"和"inte-E"，并在表6中对它们进行研究。为了专注于点-元素交互器的效果，在本部分不使用点-元素一致性。没有所有这些因素，等同于学习具有可变形和掩码注意力的HIQuery，其获得了70.6 mAP。共享位置嵌入旨在利用和增强点和元素之间的对应关系，并带来了1.0 mAP的增益（第2行）。利用集成信息仅更新点查询、仅更新元素查询或同时更新两个查询（第3、4、5行）分别带来了0.5、1.2、1.5 mAP的增益。这验证了利用集成信息同时更新两个查询能够相互细化点和元素。在所有这些因素中，点-元素交互器最终带来了2.5 mAP的增益。

点-元素一致性

点-元素一致性约束的损失权重以观察效果。如表7所示，结果对损失权重不敏感，但是过大的权重可能导致两个层次的信息过于相似，从而降低点-元素交互的效果。从经验上讲，可以将损失权重设置为2.0，并获得了73.7 mAP。

限制讨论

（1）这篇文章主要关注提高地图重建的准确性，将模型加速留给未来的工作。
（2）当前提出的方法构建了2D HD地图。考虑到道路高度变化对自动驾驶非常重要，如何预测准确的3D HD地图值得进一步探讨。
（3）考虑了HIMap中点-元素的一致性，但没有讨论跨多个时间戳的HD地图的一致性。作者相信探索时间信息并预测一致的HD地图是有价值的研究方向。

总结

这篇文章介绍了一种简单而有效的基于混合表示学习的HybrId框架（即HIMap），用于端到端矢量化HD地图构建。在HIMap中，引入了HIQuery来表示所有地图元素，引入了点-元素交互器来交互地提取和编码点级和元素级信息到HIQuery中，并引入了点-元素一致性约束来加强两个层次信息的一致性。通过以上设计，HIMap在nuScenes和Argoverse2数据集上实现了新的最先进性能。