问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

ECAI 2024 | 可适应点云模型:通过适应二维视觉模型进行三维点云分析

创作时间:
作者:
@小白创作中心

ECAI 2024 | 可适应点云模型:通过适应二维视觉模型进行三维点云分析

引用
网易
1.
https://m.163.com/dy/article/JBV0LGBT0511CQLG.html

在ECAI 2024会议上,深圳大学可视计算研究中心提出了一种创新的3D点云分析方法——Adapt PointFormer(APF)。该方法通过微调2D预训练模型,使其能够处理3D点云数据,从而突破了传统3D点云分析中参数调整复杂、效率低下的难题。

一、研究背景与动机

近年来,自注意力模型(如BERT和ViT)在自然语言处理和图像识别领域取得了突破性进展。然而,在3D点云分析领域,由于三维数据标注难度大,大规模预训练模型相对稀缺。为了解决这一问题,研究团队提出了Adapt PointFormer(APF),旨在通过利用2D模型的预训练优势,为3D点云分析提供新的解决方案。

二、技术贡献

  1. 验证了预训练图像模型在三维点云分析中的潜力:研究发现,通过最小化微调参数,可以直接利用二维先验知识,并且可以超越直接在三维数据上训练的模型。
  2. 提出了一种新颖的框架:APF通过微调二维预训练模型,使其直接应用于三维点云分析,为三维点云处理领域提供了新的研究视角和技术途径。

三、方法介绍

Adapt PointFormer方法主要由两部分组成:

  1. 对齐图像和点云特征:首先将点云编码为无序的token块,然后利用Z-order曲线对这些token块进行排序,使其具有良好的结构性和顺序性。
  2. 微调图像模型:将排序后的有序token块输入至二维预训练模型中,并通过Point Former模块进行微调。Point Former模块由降维矩阵、激活函数和升维矩阵组成,能够减少需要训练的参数数量,同时增强特征表示能力。


图1:从头训练模型与微调方法性能比较


图2:Point Former结构图


图3:模型总体结构图

四、实验结果

研究团队在多个常用三维数据集上进行了实验,验证了APF的有效性。实验结果表明,APF在物体分类和部件分割等任务上均取得了显著的性能提升。


图4:一维点云块在实际三维物体中的位置


图5:T-SNE可视化特征的分布

五、总结与展望

尽管APF在多种三维点云分析任务中展现了其有效性,但相较于通过将三维模型映射为二维图像来利用二维预训练模型先验知识的方法,APF的性能提升伴随着训练参数数量的增加。未来的研究将聚焦于如何以更少的参数和更低的计算复杂度来校准二维预训练模型,以实现更加高效的三维点云分析。

六、思考与讨论

  1. 点云自身存在的位置信息是否会影响预训练ViT固有的位置信息?
  • 通过应用莫顿排序,将无序的点云块变成有序的点云块,以此对齐位置信息。
  1. 该方法和将点云映射成图片在利用2D模型的方法相比,即P2P,有什么不同?
  • 该方法直接利用2D模型,通过轻量的PointNet网络学习三维几何信息,并通过排序操作充分利用2维预训练模型的先验语义信息,最后通过微调二维预训练模型来提高性能。

参考文献

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. Conference of the North American Chapter of the Association for Computational Linguistics (NAACL). 4171-4186, 2019.

[2] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly. An image is worth 16x16 words: Transformers for image recognition at scale. International Conference on Learning Representations (ICLR). 2021.

[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. Attention is all you need. Advances in Neural Information Processing Systems (NeurIPS). 5998-6008, 2017.

[4] Alec Radford, Jong Wook Kim, Christine Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark. Learning transferable visual models from natural language supervision. International Conference on Learning Representations (ICLR). 2021.

[5] Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Sijia Wang, Lu Wang, Weizhu Chen. Lora: Low-rank adaptation of large language models. International Conference on Learning Representations (ICLR). 2022.

[6] Shoufa Chen, Chongjian Ge, Zhan Tong, Jianmin Wang, Yibing Song, Jian Yang Wang, Ping Luo. Adaptformer: Adapting vision transformers for scalable visual recognition. Advances in Neural Information Processing Systems (NeurIPS). 16664-16678, 2022.

论文链接:Adapt PointFormer: 3D Point Cloud Analysis via Adapting 2D Visual Transformers
项目主页https://vcc.tech/research/2024/PointFormer

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号