问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

多模态3D场景理解最新进展:综合调查与评估

创作时间:
作者:
@小白创作中心

多模态3D场景理解最新进展:综合调查与评估

引用
CSDN
1.
https://blog.csdn.net/qq_57793109/article/details/144004865

多模态3D场景理解是当前计算机视觉领域的研究热点之一,它通过融合不同模态的信息(如3D点云、2D图像和自然语言)来提升场景理解的准确性和鲁棒性。本文对这一领域的最新进展进行了全面的综述,涵盖了3D+2D和3D+语言的融合方法、主要的技术挑战、代表性算法及其性能评估。

1. 研究背景

多模态3D场景理解的重要性在于,结合3D点云与其他模态(如2D图像、自然语言)可以提升场景理解的丰富性和精准性。这种融合方法在复杂环境(例如天气变化、场景动态变化等)中尤为重要。3D点云数据主要应用在自动驾驶、机器人导航、人机交互等领域。

多模态3D场景理解的主要任务包括3D+2D融合和3D+语言融合。3D+2D融合通过结合Lidar点云和相机图像,实现更全面的3D环境感知。3D+语言融合则结合自然语言描述与3D点云,增强用户交互性(如视觉定位、问答、场景生成等)。然而,这种融合也面临一些挑战,如Lidar点云与相机的模态差异、自然语言与3D几何信息的对齐复杂度,以及室内外场景的复杂度。

从数据角度来看,室内场景理解方法的3D点云数据来自RGB-D扫描仪,而室外场景理解方法的3D点云数据则来自LiDAR传感器。从应用角度来看,室内场景理解通常旨在帮助机器人了解场景中的内容以及物体在哪里,而室外场景理解算法主要应用于自动驾驶,能够实时感知周围环境并判断每个物体的类型以规划交互。

2. 研究任务与挑战

跨传感器校准

难点在于如何有效地将2D图像与3D点云数据融合。由于这两类数据是异构的,需要在聚合之间进行精准的对齐。点云转图像会失去几何信息,图像转点云会失去语义信息。

3D语言对齐

点云数据通常包含数百万个顶点和面,具有复杂的三维几何结构。将这些高维特征与语言描述中的低维特征对齐是一项极具挑战性的任务。自然语言描述可能包含不同粒度的描述,例如“树”和“叶子”。然而,点云数据通常以全局视角表示对象,难以对接更细的语言描述。自然语言比较复杂,模型需要综合多种语义线索来定位3D点云数据中的对象。

复杂场景理解

室内场景包含多种物体,每个室内区域通常具有特定功能,每个对象之间有复杂的逻辑或功能性关系(例如电视通常在沙发对面等)。室外场景中目标可能不断变化,场景规模较大,动态场景目标容易被遮挡。

3. D+2D多模态场景理解


图1:按时间顺序从 2020 年至今的 3D+2D 多模态场景理解代表性方法概述

室外场景中,激光雷达检测目标时,只能检测附近的大型物体,远处的小型目标很难检测到。为了检测远处的物体,一些方法依赖于2D图像来识别每个远处物体的类别,因为物体的形状不会随着深度(对应点云数据的距离信息)的增加而变化。

多模态室外目标检测

  • 基于相机-LIDAR投影的方法


图2:基于相机-LIDAR投影的方法示意图

对点云数据进行投影处理,然后在图像上找对应的像素点,使用加权平均的方式直接简单融合拼接,为后续的检测任务提供全面的特征表示。

  • 基于注意力机制的方法

通过自注意力机制对特征进行动态的调整,增强有用特征,抑制无关特征,这样可以更好的适应不同场景,例如在遮挡情况下更依赖点云特征,而在远距离监测时更多依赖图像特征。(因为图像是通过纹理去监测的,而点云是通过形状轮廓和深度信息去检测的)

  • 基于跨模态Transformer的方法

图像分割成图像块Token,点云通过PointNet或者VoxelNet这些特定的网络编码成点云特征,然后点云特征处理成Token, 其中引入了位置编码(由于transformer处理数据时,缺乏对顺序或空间内的感知能力),荣图像特征作为查询(query),用点云特征作为键值对(key,value)。通过交叉注意力机制,让图像特征聚焦于与其空间位置相关的点云特征。通过3D监测头,输出3D边界框和类别标签。

室内目标监测方法

  • 基于几何对齐的方法

ImVoteNet:通过投影技术将2D图像的特征对齐到3D点云空间,并利用基于投票的3D检测框架进行检测。

  • 基于模态增强的方法

EPNet:使用图像特征增强点云特征,再通过点云网络完成检测。

  • 基于跨模态注意力的方法

TransFusion:将图像和点云的特征输入到Transformer中,通过交叉注意力机制融合模态信息。

多模态室外3D语义分割

  • 基于交互式融合的方法

图像和点云特征输入到Interactive Fusion模块,然后模块通过多种融合策略(例如加权加法、注意力机制)实现特征交互,模型中有多个Interactive Fusion模块,在不同层次进行模态特征的逐步融合(从粗粒度到细粒度),最终输出的融合特征同时保留图像的纹理信息和点云的几何信息。

  • 基于知识蒸馏的方法


图3:基于知识蒸馏的方法示意图

图像分支和点云分支互相辅助,通过知识蒸馏机制共享有用的模态信息,图像分支补充点云的纹理和颜色信息,点云分支补充图像的深度和空间几何信息。

  • 基于无监督域适应的方法


图4:基于无监督域适应的方法示意图

输入是包含标注信息的源域数据,图像数据提取高层语义特征,点云数据提取几何特征,在源域的3D点云上进行语义分割,结果与源域的3D Ground Truth对比,通过分割损失函数 优化。

多模态室内3D语义分割

  • 基于投影的方法

Frustum PointNet:首先使用2D图像分割生成目标的2D区域,然后将区域内的点云投影到3D空间进行分割。

  • 基于点云增强的方法

RPVNet:使用范围图(Range View)结合图像信息对点云进行特征增强。

  • 基于注意力机制的方法

DeepFusion:通过跨模态注意力机制动态融合点云和图像特征。

  • 基于Transformer的方法

CMT:结合点云和图像,通过Transformer实现模态间的深度交互。

4. 3D+语言多模态场景理解

3D Visual Grounding

  • 两阶段检测然后匹配方法

检测阶段(用边界框选出候选区)和匹配阶段(与语义信息进行匹配)

  • 一阶段语言引导方法

端到端的学习方法,一步到位。

3D Dense Captioning

  • 两阶段检测然后描述方法

  • 一级并行检测描述方法

上图为一步到位与两阶段匹配的示例图

3D 问答


图5:3D问答流程示意图

先对问题进行分析,提取关键词,然后根据关键词对3D数据进行扫描,进行目标监测,然后答案生成,根据用户问题生成可行的答案推理。

文本驱动的 3D 场景生成

首先对文本描述进行分析,提取包含的多层语义信息,例如:物体信息,空间关系,场景背景等。然后根据描述生成3D模型,将对已生成的模型进行合理的布局。

Open-Vocabulary 3D Recognition

目标是在开放词汇条件下识别3D场景中的目标物体,不局限与预定义的类别集合,支持对未见类别的识别,支持使用自然语言描述的语义来完成识别任务。

5. 性能评估

图表中可以看出AM-based方法在kitti数据集上效果最好。

  • CLP-based:适用于对大目标检测要求较高的场景(如车辆检测)。
  • AM-based:适用于需要同时检测大目标和小目标的综合场景(如行人检测与车辆检测结合)。
  • CMT-based:适用于复杂多模态场景,对计算资源充足的实时应用(如自动驾驶中的动态目标检测)。

在3D visual grouding 任务上,一阶段和两阶段方法各有优势。

6. 贡献

  • 系统性综述:对多模态3D场景理解的研究进展进行了全面总结。
  • 综合性能评估:对现有方法在多个基准数据集上的表现进行了深入分析。
  • 前瞻性展望:指出了领域内尚未解决的问题,并提供了未来研究方向。
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号