MMScan数据集:首个最大的多模态3D场景数据集,包含层次化的语言标注
MMScan数据集:首个最大的多模态3D场景数据集,包含层次化的语言标注
2024年10月24日,上海人工智能实验室联合多所高校共同创建了MMScan数据集,这是迄今为止最大的多模态3D场景数据集,包含了层次化的语言标注。数据集的建立,不仅推动了3D场景理解的研究进展,还为训练和评估多模态3D感知模型提供了宝贵的资源。
一、研究背景
随着大型语言模型(LLMs)的兴起和与其他数据模态的融合,多模态3D感知因其与物理世界的连接而受到越来越多的关注,并取得了快速进展。然而,现有的数据集限制了先前工作主要关注3D场景中对象属性的理解或对象间空间关系的认识。
目前遇到的困难和挑战
- 现有数据集规模有限,缺乏多模态标注,难以支持复杂的3D场景理解任务。
- 先前的研究主要集中在对象级别的理解,缺乏对3D世界中复杂层次和丰富上下文的理解。
- 现有的多模态3D数据集缺乏层次化的场景结构和细粒度的定位信息,导致训练3D-LLMs效率低下,指令跟随性能不理想。
二、MMScan数据集
MMScan是一个多模态3D场景数据集,包含了层次化的语言标注,覆盖了空间和属性理解的整体方面。基于自上而下的逻辑构建,从区域到对象级别,从单个目标到目标间关系,全面覆盖了空间和属性理解的各个方面。整个流程结合了强大的视觉语言模型(VLMs)通过精心设计的提示来高效地初始化标注,并进一步涉及人类的校正,以确保标注的自然性、正确性和全面性。
数据集构建
基于现有的3D扫描数据,MMScan数据集包含了109k个对象和7.7k个区域的1.4M个元标注字幕,以及超过3.04M个用于3D视觉定位和问答基准的样本。
数据集特点
- 层次化的语言标注,从区域到对象级别,从单个目标到目标间关系。
- 多模态3D数据,包括视觉和语言信息。
- 大规模样本,用于3D视觉定位和问答任务。
- 结合了VLMs和人类校正,确保标注的质量和准确性。
MMScan数据集可以用于训练3D视觉定位和大型语言模型,并在现有基准和野外评估中测试性能。
基准测试
MMScan提供了基准测试,用于评估代表性的基线模型,并分析它们在不同方面的能力。此外,使用这个数据集训练的模型在现有基准和野外评估中都获得了显著的性能提升。MMScan 提供有史以来最大的多模态 3D 场景数据集,具有 6.9M 分层接地语言注释,涵盖对象和区域级别的整体方面。
与其他多模态 3D 真实扫描场景数据集的比较。“Sent.”、“Obj.”、“Reg.”、“OO-Space”和“Temp.”是指“句子”、“对象”、“区域”、“对象-对象空间”和“模板”。MMScan 在注释的数量和质量方面都具有显著的优势。建具有分层接地语言注释的大规模 3D 场景数据集的方法。这涉及原始数据准备、自上而下的元注释生成以及视觉接地和 QA 任务样本的提取。最后,我们对注释进行统计,并分析它们相对于现有数据集的优势。对象级(顶部)和区域级(向下)元注释 UI、管道和示例。
基准测试的后处理注释。“O” 和 “R” 表示 “对象” 和 “区域”。除了图中所示的样本外,还有一小部分 QA 样本用于高级理解和推理,例如与日常生活相关的 QA,占 2.18%。
三、数据集的应用
MMScan数据集在实际应用中展现出了巨大的潜力。以室内设计为例,传统的设计流程需要设计师花费大量时间将客户的想法转化为设计图和模型,而客户往往难以直观感受到设计效果。现在,有了MMScan数据集训练的系统,设计师可以快速构建3D模型,实时调整布局和材质,客户可以像玩游戏一样直观感受设计效果,大大提高了设计效率和客户满意度。