OmniManip:北大学者提出双闭环系统,大幅提升机器人3D理解能力
OmniManip:北大学者提出双闭环系统,大幅提升机器人3D理解能力
近年来,视觉语言基础模型(VLMs)在多模态理解和高层次常识推理方面取得了显著进展。然而,如何将这些模型应用于机器人以实现通用操作,一直是具身智能领域的重要挑战。针对这一问题,北京大学与智元机器人联合实验室提出了OmniManip系统,通过创新的双闭环系统设计,成功提升了机器人的3D理解能力和操作精度。
OmniManip系统的核心创新
OmniManip系统的关键设计包括:
基于VLM的任务解析:利用VLM强大的常识推理能力,将任务分解为多个结构化阶段,每个阶段明确指定了主动物体、被动物体和动作类型。
以物体为中心的交互基元作为空间约束:通过3D基座模型生成任务相关物体的3D模型和规范化空间,使VLM能够在该空间中采样3D交互基元,作为动作的空间约束。
闭环VLM规划:将目标交互姿态下的主动物体和被动物体渲染成图像,由VLM评估与重采样,实现对自身规划结果的闭环调整。
闭环机器人执行:通过物体6D姿态跟踪器实时更新主动物体和被动物体的位姿,转换为机械臂末端执行器的操作轨迹,实现闭环执行。
以物体为中心的交互基元
物体的交互基元通过其在标准空间中的交互点和方向来表征。交互点(p \in \mathbb{R}^3)表示物体上关键的交互位置,而交互方向(v \in \mathbb{R}^3)代表与任务相关的主要轴。这两者共同构成交互基元(O={p,v}),封装了满足任务约束所需的基本几何和功能属性。这些标准交互基元相对于其标准空间定义,能够在不同场景中保持一致,实现更通用和可重用的操作策略。
对于通用物体的交互点提取,OmniManip利用视觉语言模型(VLM)在原图(当部件可见且实体存在时)或在正交视图中渲染的3D网格(当部件不可见或实体不存在时)上进行定位。与CoPa和ReKep等方法不同,OmniManip直接让VLM进行grounding,不会受限于不稳定的part分割或聚类结果。
在交互方向的采样方面,由于物体的规范化空间通过Omni6DPose锚定,轴的方向与语义对齐,该团队让VLM直接对物体标准空间的轴进行语义描述,并根据操作任务进行匹配度排序,以获得交互方向的候选。
双闭环系统设计
李飞飞团队的工作ReKep通过关键点跟踪巧妙地实现了机械臂的闭环执行,但其VLM规划过程是开环的。OmniManip则更进一步,得益于以物体为中心的设计理念,首次在VLM规划和机械臂执行层面实现了双闭环系统:
闭环规划:在实验中,VLM推理很容易出现幻觉,导致错误的规划结果(尤其是在涉及3D旋转的任务中,如倒水、插笔)。OmniManip赋予VLM闭环规划能力,通过渲染物体的三维模型,帮助VLM“脑补”出规划结果后的物体样貌,再判断其合理性。这功能赋予了VLM空间反思能力,使其能够在测试时进行推理,类似于OpenAI的O1,大大提高了操作成功率。为了保持框架的简洁性,研究团队没有设计复杂的测试时推理流程,仅作一轮校验就已明显提高了VLM的规划准确率。
闭环执行:OmniManip提取的交互基元位于物体的规范空间中,只需引入一个6D位姿跟踪器即可轻松实现闭环操作。与ReKep使用的关健点跟踪器相比,基于物体的6D位姿跟踪方式更为稳定,并对遮挡具有更强的鲁棒性。(缺点则是不如关键点灵活、无法建模柔性物体操作。)
实验结果
强大的开放词汇操作性能
在12个真机短程任务上,OmniManip均展现出卓越的性能。
双闭环系统设计为OmniManip带来了约17%的性能提升,这证明了RRC在有效减少大模型幻觉影响方面的作用。
交互基元的鲁棒性
VLM需要基于交互基元对机器人操作进行规划,如果交互基元本身存在问题,VLM就会陷入“巧妇难为无米之炊”的困境。因此,可靠的交互基元至关重要。以往的方法通常是让VLM直接在相机拍摄的2D图像上采样交互基元,然后通过相机的内外参数转换到3D空间。然而,由于2D图像存在空间歧义,采样效果对相机视角、图像纹理和部件形状等因素极为敏感(例如,当相机平视杯子时,之前的方 法只能对准杯子的侧壁、而不是开口)。而OmniManip则是在物体的3D规范空间中进行采样,能够轻松克服2D图像的局限性,实现可靠的3D交互基元提取。
强大的拓展性和潜力
OmniManip能够与high-level任务规划器结合,实现长程任务操作。作为一种以物体为中心的算法,OmniManip与机械臂本体解耦,能够零成本迁移至不同形态的本体(例如双臂人形机器人)。OmniManip具有强大的通用泛化能力,不受特定场景和物体限制。团队已将其应用于数字资产自动标注/合成管道,实现大规模的机器人轨迹自动采集。该研究团队即将开源高质量的泛化操作大规模数据集和对应的仿真评测基准,敬请期待!