涨点神器!PointACL:无缝增强现有3D点云网络!全任务SOTA!
涨点神器!PointACL:无缝增强现有3D点云网络!全任务SOTA!
最近,基于变压器的模型通过利用自我注意机制提高了对点云的理解,但是,这些方法经常忽略不太突出的区域中的潜在信息,导致对扰动的敏感性增加和有限的全局理解。为了解决这个问题,我们引入了PointACL,这是一个注意力驱动的对比学习框架,旨在解决这些限制。我们的方法采用了一种注意力驱动的动态掩蔽策略,该策略引导模型聚焦于注意不足的区域,增强了对点云中全局结构的理解。然后,我们将原始的预训练损失与对比学习损失相结合,提高特征辨别和泛化能力。大量实验验证了PointACL的有效性,因为它在各种3D理解任务中实现了最先进的性能,包括对象分类、部分分割和少镜头学习。具体来说,当与Point-MAE和PointGPT等不同的Transformer主干集成时,PointACL在ScanObjectNN、ModelNet40和ShapeNetPart等数据集上表现出了更好的性能。这突出了它在捕捉全局和局部特征方面的卓越能力,以及它对扰动和不完整数据的增强的鲁棒性。
引言
点云作为三维空间中的一种表示方式,在机器人学、自动驾驶、增强现实和虚拟现实等领域得到了广泛应用。这些多样化的应用凸显了获取详细且富有洞察力的三维表示的重要性。尽管点云数据具有巨大潜力,但其不规则性和稀疏性给精确高效的三维处理和理解带来了重大挑战。
近年来,深度神经网络,特别是采用自监督学习的基于Transformer的模型,在点云理解方面展现出了巨大潜力。这些模型利用注意力机制来捕捉点块之间的复杂关系,优先关注理解点云时的重要区域,同时淡化不那么重要的区域。注意力机制原本是为自然语言设计的,但已成功应用于二维视觉领域。然而,与自然语言或图像(通常包含上下文结构和背景等冗余信息)不同,点云数据本身具有稀疏性,这意味着每个点或区域对于整体表示都至关重要。这种冗余信息的缺乏意味着,当基于Transformer的模型忽略不那么显著的点块时,可能会无意中忽略重要的潜在信息。这一观察结果引出了一个关键问题:我们能否设计一个框架来利用点云全局区域的潜在信息?
为了回答这个问题,我们重新审查了基于Transformer的点云模型中的注意力权重。我们发现诸如Point-MAE和PointGPT等模型主要依赖于有限的高注意力点块进行分析。这种依赖带来了两个显著问题:(1)对扰动的敏感性增加。过度关注高注意力点块会使模型更容易受到噪声和不完整数据的影响,因为这些区域的扰动会对性能产生不成比例的影响。(2)全局理解能力受限。忽略低注意力点块中的潜在信息会限制模型对点云全局结构进行全面理解的能力。
为了解决这些问题,我们引入了PointACL,这是一个面向点云的注意力驱动的对比学习框架,可以无缝集成到现有的基于Transformer的模型中。我们的方法包含两个关键组件:首先,我们提出了一种注意力驱动的动态掩码策略,旨在通过引导模型关注被忽视的区域,来减轻其对有限关键点子集的依赖。具体来说,我们根据最新的自注意力重要性分数构建了动态掩码概率,优先掩盖对全局特征表示贡献最大的点块。这一策略鼓励模型从不太显著的点块中推断全局特征,从而培养对点云更全面且稳健的理解。此外,我们将原始预训练损失与对比学习目标相结合,使模型在保留任务特定学习能力的同时,通过对比学习增强全局理解和泛化能力。与以往方法相比,我们的方法更好地捕捉了点云的全局结构,而不仅仅关注局部特征。因此,在高斯噪声、旋转、缩放和点删除等各种噪声环境下,PointACL显著提高了模型的鲁棒性。
我们的PointACL在各种三维理解任务中取得了最先进的性能。具体来说,在具有挑战性的ScanObjectNN PB-T50-RS设置下,PointACL在物体分类任务上达到了89.9%的准确率,在ModelNet40上达到了94.1%的准确率,即使竞争模型获得了额外的训练时间,其性能优势依然存在。在少样本学习方面,它在所有评估任务中都设立了新的基准。此外,PointACL在对抗扰动和不完整数据方面表现出更强的鲁棒性,在各种噪声环境下(如高斯噪声、旋转、缩放和点删除)始终优于以往方法。这些结果凸显了PointACL通过捕捉全面的全局结构和精细的局部细节来有效克服现有基于Transformer模型局限性的潜力。
效果展示
PointACL优势的说明。Point-MAE被用作我们提出的PointACL的主干。左图:PointACL强调从大量补丁中提取全局信息。右图:PointACL展示了比以前的方法更好的健壮性。
主要贡献
我们的主要贡献可以概括如下:
(I)我们提出了PointACL,这是一个新颖的框架,将自注意力机制与对比学习相结合,用于点云理解,增强了模型捕捉全局结构的能力,并显著提高了其鲁棒性和泛化能力。
(II)我们提出了一种注意力驱动的动态掩码策略,鼓励模型关注被忽视的区域,确保从多样化的点块中学习,而不是过度依赖一小部分点块。推荐课程:聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等。
(III)广泛的实验结果表明,PointACL可以无缝集成到主流Transformer架构中,并在各种三维理解任务上取得显著改进。
方法
PointACL的总体框架如图2所示。首先,注意力驱动的动态掩码模块生成一个注意力引导的掩码点云。然后,将掩码点云和原始输入点云都输入到共享主干模型中,以获得每个输入的全局特征。通过对比损失对齐这两个分支的特征,我们引导模型关注点云的低注意力区域,从而提高特征判别能力和泛化能力。在预训练阶段,我们使用对比损失和原始预训练损失(如Point-MAE的重建损失或PointGPT的生成损失)的组合来训练模型。预训练后,我们使用没有掩码策略的主干模型,利用学到的潜在表示进行下游任务。
实验结果
在ScanObjectNN数据集上的真实世界物体分类。表1比较了我们在OBJBG、ONLY-OBJ和PB-T50-RS设置下,于ScanObjectNN数据集上提出的PointACL方法与现有方法的性能。我们的PointACL方法在这些最先进的方法中始终表现更优。与Point-MAE[32]相比,PointACL在OBJ-BG、OBJ-ONLY和PB-T50-RS上分别实现了+0.9%、+0.5%和+0.2%的准确率提升。与PointGPTS[5]相比,PointACL在同一划分上分别实现了+0.7%、+1.6%和+0.2%的改进。通过简单的旋转增强(标记为*),PointACL取得了新的最优结果,在OBJ-BG上达到94.5%,在OBJ-ONLY上达到93.5%,在PB-T50-RS上达到89.9%。这些结果表明,PointACL有效增强了点云数据的特征表示,特别是在具有背景噪声和物体扰动的挑战性场景中。在所有设置下的一致性能提升突显了我们方法的鲁棒性和有效性。
在ModelNet40上的合成物体分类。表1展示了我们在ModelNet40数据集上提出的PointACL方法与现有自监督学习方法相比的性能,评估时分别考虑了无投票和有投票的情况。我们的PointACL方法在无投票情况下达到了93.7%的准确率,在有投票情况下达到了94.1%的准确率,超越了以往方法,且没有增加额外参数。具体而言,与Point-MAE相比,PointACL在无投票和有投票情况下分别提升了+0.5%和+0.3%的准确率。与PointGPT-S相比,我们的方法分别提升了+0.2%和+0.1%。这些结果表明,PointACL有效增强了3D点云数据的特征表示学习,从而在ModelNet40上实现了更优的分类性能。
在ModelNet40上的小样本分类。我们在ModelNet40数据集上评估了PointACL框架在小样本学习设置下的性能,结果如表2所示。遵循标准做法,我们对每个设置进行了10次独立实验,并报告了平均准确率及标准差。与监督学习方法和其他自监督表示学习方法相比,PointACL始终取得了更高的准确率。在5类10样本的任务中,我们的方法达到了97.1%的准确率,标准差为2.3%,优于以往方法。同样,在10类20样本的设置下,PointACL达到了95.6%的准确率,证明了在有限标签数据下具有优越的泛化能力。
在ShapeNetPart上的部件分割。我们使用ShapeNetPart数据集评估了PointACL框架在部件分割任务上的有效性,如表3所示。与PointNet和DGCNN等传统监督模型以及Point-MAE和PointGPT-S等近期自监督方法相比,PointACL取得了更优的性能。具体而言,我们的方法在Point-MAE的基础上实现了86.4%的实例平均交并比(mIoU)和85.2%的类别平均交并比(mIoU)。这些结果表明,我们基于注意力机制的对比学习策略有效增强了模型在复杂3D形状中分割部件的能力,证实了PointACL在推动点云分割领域最先进技术方面的有效性。
总结
在本工作中,我们提出了PointACL,一种基于注意力的对比学习框架。通过将基于注意力的动态掩码策略与对比学习相结合,我们的方法利用模型固有的注意力分布来动态掩蔽高注意力区域。这种方法引导网络关注于被忽视的低注意力区域,从而使其能够学习到更全面和鲁棒的点云特征表示。我们的大量实验表明,PointACL显著增强了对点云全局结构的理解,从而在包括物体分类、部件分割和小样本学习在内的各种任务中取得了显著改进。我们希望我们的工作能够激发更多关于点云理解中的自监督学习和对比学习的探索。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~