三维重建大一统！LSM：无需先验位姿，首次实现实时语义3D重建！

创作时间:

作者:

@小白创作中心

三维重建大一统！LSM：无需先验位姿，首次实现实时语义3D重建！

引用

CSDN

https://m.blog.csdn.net/weixin_46788581/article/details/143365975

从有限数量的图像中重建和理解3D结构是计算机视觉中一个公认的问题。传统的方法通常将这个任务分成多个子任务，每个子任务都需要在不同的数据表示之间进行复杂的转换。例如，通过运动重建结构(SfM)的密集重建包括将图像转换成关键点、优化相机参数和估计结构。之后，需要精确的稀疏重建来进行进一步的密集建模，随后将其输入特定任务的神经网络。这种多步骤工艺导致相当长的处理时间和增加的工程复杂性。在这项工作中，我们提出了大空间模型(LSM)，该模型将未定位的RGB图像直接处理成语义辐射场。LSM在单个前馈操作中同时估计几何形状、外观和语义，并且它可以通过以新颖的观点与语言进行交互来生成通用的标签地图。利用基于变压器的架构，LSM通过像素对齐的点地图整合全球几何。为了增强空间属性回归，我们将局部上下文聚合与多尺度融合相结合，提高了精细局部细节的准确性。为了解决标记的3D语义数据的缺乏并实现自然语言驱动的场景操纵，我们将预训练的基于2D语言的分割模型合并到3D一致的语义特征场中。然后，一个高效的解码器将一组语义各向异性高斯函数参数化，从而促进有监督的端到端学习。各种任务的大量实验表明，LSM直接从未发布的图像中统一了多个3D视觉任务，首次实现了实时语义3D重建。

1. 引言

计算机视觉领域已投入大量精力，旨在从二维感官数据（例如图像）中恢复和理解三维信息（例如深度和语义）。此过程的目标是从廉价且广泛可用的二维数据中推导出包含几何和语义细节的三维表示，从而便于在三维物理世界中进行进一步的交互、推理和规划。传统方法通过一系列不同的任务流水线来解决这一问题：检测、匹配和三角剖分点，以进行初步的稀疏重建和后续的密集重建，随后整合专门的子模块以进行语义三维建模。

近年来，该领域的发展显著加快，通过使用稀疏重建以及随后通过多视图立体（MVS）、神经辐射场（NeRF）和三维高斯溅射（3D-GS）进行密集三维建模，实现了更强大的表示。这一趋势影响了包括自动驾驶、机器人技术、数字孪生以及虚拟现实/增强现实（VR/AR）在内的多个行业。由于从二维图像推断三维信息的复杂性，先前的方法将整体任务分解为不同的、易于管理的子问题。然而，这种策略会导致错误从阶段到阶段传播，并降低后续任务的性能。例如，利用运动恢复结构（SfM）预先计算相机姿态这一关键步骤已被证明是脆弱的，并且在视图稀疏或表面纹理低的场景中经常失败。相机姿态估计中的这种不准确性最终会导致对三维场景的解释不准确。

此外，对环境的推理和交互将从全面的三维理解中受益。开放词汇方法无需依赖固定标签集即可执行语义分割，提供了显著的灵活性。然而，与单图像理解不同，缺乏具有准确多视图语言注释的大规模且多样化的三维场景数据使这一挑战更加复杂。已有研究尝试将二维特征融入NeRF和3D-GS等框架中。然而，这些方法（如Feature-3DGS和DreamScene360）通常需要对每个三维场景分别进行过度拟合，并使用运动恢复结构对捕获的大量视角和预处理相机姿态进行拟合。

为解决上述挑战，我们首次提出了一种针对这些关键三维视觉子问题的新型统一框架：未定位和未校准图像的密集三维重建、开放词汇语义分割和新视角合成。我们的方法利用基于单个Transformer的模型，通过基于点的语义辐射场学习三维场景的属性。与依赖于已知相机参数的极线Transformer或需要每个场景进行大量拟合的先前方法不同，我们采用了一种由粗到细的策略。该策略使用像素对齐的点图预测密集三维几何，并在一次前向传递中逐步将这些点细化为各向异性高斯体。

我们的框架被命名为大空间模型（LSM），其以一个包含跨视图注意力的通用Transformer架构为起点，该架构在归一化尺度上构建像素对齐的点图，从而能够在各种数据集上进行泛化。LSM通过多尺度融合和使用ViT编码器的局部上下文聚合进一步增强了基于点的表示。此外，LSM执行分层跨模态融合，将来自预训练的二维语义模型的特征整合到一致的三维特征场中。通过回归的语义各向异性高斯体的可微溅射，LSM实现了端到端监督，并支持无需明确相机参数即可进行实时场景级三维语义重建和渲染。这实现了从新视角对标签的高效数据驱动渲染。

2. 效果展示

大空间模型以两张未定位图像为输入，重建一个显式辐射场，实时捕获几何、外观和语义。这使其在视图合成、深度预测和开放词汇三维分割等多种任务中表现出高性能。

三维特征场的可视化。我们展示了从新颖的视角呈现的特征的例子，说明了我们的方法如何将2D特征转换成一致的3D，促进通用和有效的分割。使用PCA生成可视化。

3. 主要贡献

我们的贡献总结如下：

我们引入了一种统一的三维表示和端到端框架，该框架在一次前向传递中直接从未定位图像中解决密集三维重建、基于三维语言的分割和新视角合成问题。
我们的方法利用具有跨视图注意力的Transformer架构进行多视图几何预测，并结合分层跨模态注意力传播几何丰富的特征。我们还整合了一个预训练的语义分割模型以增强三维理解。通过在点级别聚合局部上下文，我们实现了细粒度的特征整合，能够预测各向异性三维高斯体，并为RGB、深度和语义进行高效溅射。
我们的模型能够在单个GPU上同时执行多个任务，实现实时重建和渲染。实验表明，我们的统一方法在不同三维视觉任务上有效扩展，超越了许多最先进的基线方法，且无需额外的SfM步骤。

4. 方法

图2概述了用于训练大空间模型（LSM）的架构。在训练期间，输入包括立体图像对以及相关的相机内参和姿态：{(Ii ∈ RH×W×3), (Ti ∈ R3×4), (Ri ∈ R3×4)}2i=1。然而，在推理期间，未定位图像可以直接输入到框架中。使用具有输入视图之间跨注意力的标准Transformer架构预测像素对齐的几何形状。在训练期间，使用密集预测头回归归一化点图：{Di ∈ RH×W×3}2i=1。

为了支持细粒度的语义各向异性三维高斯回归，该回归表示三维场景并从预训练的二维视觉模型中提升通用特征场，我们在局部窗口中应用基于点的注意力以及可学习的位置编码。这将来自相邻点的特征进行传播，并使用二维预训练模型在多个尺度上有效合并编码特征与丰富语义。可以使用目标姿态上的溅射解码来自语义辐射场的新视图。在推理期间，直接预测语义各向异性高斯体，渲染器采用从点图导出的相机参数。模型架构的概述如图2所示。

5. 实验结果

基于语言的3D分割比较。我们可视化了四个不可见场景的分割结果，并观察到我们的方法与NeRF-DFF和Feature-3DGS的性能相当。这表明LSM在训练期间有效地将2D特征地图提升到一致的3D特征域中。

使用NeRFDFF和Feature-3DGS评估新的视图合成，这两种方法都能够预测RGB值和特征。此外，我们将我们的方法与最先进的、可推广的、基于posebased 3D Gaussian Splatting方法pixelSplat进行了比较，该方法通过前馈通道生成基于点的表示。与我们的方法不同，这些现有的方法依赖于已知的相机内在特性和评估前的姿态。如表1所示，NeRF-DFF和Feature-3dg倾向于在每个单独的场景上过度拟合，比我们的方法需要更多的时间，但在输出质量方面表现相当。pixelSplat利用核线转换器，使用GT相机参数沿着核线搜索，以回归高斯属性，从而导致更长的推理时间。

6. 总结 & 未来工作

我们引入了大型空间模型（LSM），这是一个从未校准和未定位的图像中进行整体三维语义重建的统一框架，并增加了通过语言进行交互的能力。LSM利用跨视图注意力来聚合多视图线索，并利用多尺度跨模态注意力将语义丰富的特征整合到基于点的表示中。层次化的逐点聚合层进一步精炼这些表示，并增强了跨模态注意力的整合。通过投射回归的非各向同性三维高斯分布，LSM能够生成具有多功能标签图的新视图。LSM具有高效性，能够实现端到端的三维建模，并支持各种下游应用。

虽然我们的方法显著加速了语义三维场景重建，但它依赖于预训练模型进行特征提升，这可能会增加训练期间的GPU内存需求，尤其是当集成的二维模型具有大量参数时。此外，尽管有数百万个带有真实深度图的多视图数据集，但对真实深度图的需求可能会限制其在大规模互联网视频应用中的可扩展性。

我们的研究实现了高效、实时的三维场景级重建和理解，这对于端到端机器人学习、增强现实/虚拟现实（AR/VR）和数字孪生等应用具有优势。然而，也存在滥用潜力，如数字资产的任意分发或与建筑结构相关的隐私泄露。通过将水印嵌入到三维资产中，可以减轻这些风险。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~