文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
近日,上海科技大学、香港大学和忆生科技联合发布了一项突破性研究成果:全球首个支持文本、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。这一创新技术不仅降低了CAD设计的门槛,让非专业人士也能轻松创建高质量的CAD模型,更为专业设计师提供了更高效的工作工具。
研究背景
计算机辅助设计(CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前的CAD软件普遍缺乏简易的交互工具,这在一定程度上限制了未曾接触过CAD的用户尝试和探索的可能性。对于CAD建模从业者而言,多模态大模型技术的快速发展尚未充分转化为CAD领域实际应用的便利性和效率提升。如果能够通过多模态交互工具有效优化建模流程,提升效率、节约时间与精力,不仅可以进一步释放专业用户的创造潜能,还将为相关产业的发展注入新的活力。
技术创新
研究团队提出了首个支持文本、图像和点云三种模态及其组合模态输入的参数化CAD大模型——CAD-MLLM。该模型能够同时处理文本、图像和点云,最多三种模态输入数据。图像和点云输入首先通过一个冻结的编码器提取特征,经投影层对齐到大语言模型(LLM)的特征空间。随后,将各种模态的特征进行整合,并利用低秩适应(LoRA)对LLM进行微调,实现基于多模态输入数据的精确CAD模型生成。
为了支持模型训练,研究团队构建了一个包含45万条数据的多模态CAD数据集Omni-CAD。每条数据包含对应的CAD模型构造命令序列,以及文本描述、8个不同视角的图像(下图随机挑其中4个视角展示)以及点云数据,极大地填补了CAD多模态数据资源的空白,也有助于推动CAD生成领域的进一步发展。
在评估指标上,研究团队针对CAD模型的特性,基于最终生成的CAD模型的拓扑质量和空间封闭性,创新性地提出了四种量化指标。其中,Segment Error(SegE)检测CAD模型节点连接分段的准确性,Dangling Edge Length (DangEL) 评估悬边的比例来衡量生成模型流形的保真度,Self-Intersection Ratio (SIR) 检测生成模型中的自相交面问题。而Flux Enclosure Error (FluxEE) 则通过高斯散度原理,计算常矢量场穿过生成表面的通量,评估模型的空间封闭性。
性能评估
在基于点云的CAD模型生成性能评测中,研究团队的方法在重建精度上表现出色。而在拓扑完整性的评估上,该模型生成的CAD模型大多数生成结果都能保持严格的流形结构,没有出现悬边,具有较高的拓扑完整性。相比之下,基准模型在重建结果中往往存在许多悬空边缘(如图中蓝线所示)。
研究团队还针对两种受干扰的输入数据的情况进行了测评:添加噪声的点云数据及部分点缺失的点云数据。在从测试集中随机挑选的1000个样本上,使用Chamfer Distance来衡量生成结果,在两种情况下,CAD-MLLM的性能均优于基线工作,特别是在一些极端条件下,依然展现出了良好的性能。
研究团队通过三个实际场景展示了多模态数据训练对于模型生成能力的辅助提升:1)裁剪的点云数据;2)带有噪声的点云数据;3)双视角图像输入。以上三种情况,单一模态数据的训练,会由于细节丢失或者视角限制使得输入信息的不准确,进而导致生成结果的不完整或者不精准,而加入完整的模型的文本描述,可有效弥补未观测到的部分,生成更为完整、精确的CAD模型。
这一突破性研究不仅降低了非专业用户的使用门槛,激发了更多人参与CAD设计的兴趣,还为CAD建模从业者提供了高效可靠的工具支持。随着这项技术的不断发展和完善,未来有望在工业设计、建筑设计、游戏开发等多个领域发挥重要作用。
本文原文来自澎湃新闻