机器人实现“自我镜像”:向具身智能迈出重要一步
机器人实现“自我镜像”:向具身智能迈出重要一步
视觉的出现催化了一项关键的进化进步,使生物不仅能够感知环境,还能智能地与环境互动。这一转变在机器人系统的进化中得到了呼应,机器人通过利用视觉来模拟和预测自身动态,标志着向自主性和自我意识迈出了一大步。人类利用视觉记录经验并在内部模拟潜在行动。例如,我们可以想象站起来并举起双臂,身体会在形成一个“T”形,而不需要采取实际行动。同样,模拟使机器人能够在无需执行的情况下规划和预测潜在行动的结果。在此,我们引入了一种自监督学习框架,使机器人仅通过简短的原始视频数据就能建模和预测其形态、运动学和运动控制,从而无需大量的现实世界数据收集和运动学先验知识。通过观察自身的运动,类似于人类观察镜子中的反射,机器人学会了一种自我模拟的能力,并能够为各种任务预测其空间运动。我们的研究结果表明,这种自我学习的模拟不仅能够实现精确的运动规划,还能使机器人检测异常并从损伤中恢复。
研究领域:自监督学习,自我建模,神经辐射场(NeRF)、运动规划,异常检测,形态预测
论文题目:Teaching robots to build simulations of themselves
发表时间:2025年2月25日
论文地址:https://www.nature.com/articles/s42256-025-01006-w
期刊名称:Nature Machine Intelligence
机器人的“镜中自我”
机器人能否像人类一样通过“照镜子”认识自己?
视觉的进化让生物不仅能感知环境,还能通过想象预测行动的结果。当我们照镜子时,大脑会建立自身运动与视觉反馈之间的关联,最终可以闭眼模拟举手投足的姿态,而机器人能否像人一样,仅凭视觉观察构建对自身形态和运动能力的认知?
图 1. 正在探索“镜中自我”的机器人
近期,Nature Machine Intelligence 杂志上发表了一项研究:机器人无需详尽的CAD模型或复杂的外部传感器,仅凭单个摄像头观察自身运动,便能自主建立一个准确的自身模型(self-model)。机器人通过视觉反馈,逐渐掌握自己身体结构与运动的关系,仿佛人类通过镜子认识自己的过程一样。这种新颖的能力被研究人员称作“运动学自我意识(Kinematic Self-Awareness)”,其目标是赋予机器人理解自身、适应环境变化甚至在受损时快速恢复的能力,而无需频繁的人工干预。
机器人如何建立起“自我形象”?
传统机器人依赖工程师预先设计的CAD模型和运动学方程,而在该研究中,团队提出了一种自由形态运动学自模型(Free-Form Kinematic Self-Model, FFKSM),这是一种基于查询(query-based)的神经网络架构,它回答的问题是:给定空间坐标点 X=(x,y,z) 和关节角度 A = (A0, A1, A2, A3),输出该点是否被机器人占据和是否在摄像头视野中。
FFKSM 包含三个核心部分:坐标编码器(Coordinates Encoder)、运动学编码器(Kinematic Encoder)和预测模块(Predictive Module)。
图2. 自由形态运动学自模型(Free-Form Kinematic Self-Model, FFKSM)模型架构概览
想象一下机器人的"大脑"分为三个协同工作的区域:
坐标编码器 C(·) :
用于处理空间位置信息,输入当前查询点(query point)的位置坐标 X 和机器人的基础姿态,即底座的朝向 A0和主臂位置 A1。先通过变换矩阵 T 将查询点从世界坐标系 X 转换到虚拟坐标系 X’=T(X, A0, A1) 中。这相当于将“机器人底座移动”转换为“摄像头相对机器人底座的移动”,使模型能专注于手臂形态学习。坐标编码器输出该坐标的基础特征。运动学编码器 K(·) :
专注于手臂的弯曲方式,相当于人类感知自己手臂和手腕如何弯曲,它处理剩余关节的角度信息。输入关节角 A2, A3,运动学编码器输出运动学特征,表征机器人此刻关节弯曲状态。预测模块 P(·) :
综合前两个区域的信息,判断该空间点的密度 σ:是否被机器人身体占据;以及可见性α :摄像头能否看到这个点。通过大量的空间点预测,可以形成完整的机器人自我形象。
完整模型可表示为:
模型训练
当婴儿首次面对镜子抬起手臂时,会逐步领悟镜子里动作与自身肢体的对应关系。类似地,机器人通过建立自身位置、关节状态与相机图像之间的关系,理解自己的身体结构、预测运动形态。这种方法的巧妙之处在于,无需人为设定机器人每个身体部位的精确模型与参数,而是让它通过视觉反馈进行自监督学习,建立起一个对自身“身体”的理解。
训练数据:机器人的"咿呀学语"
在学习开始前,需要准备一些机器人“自我”的真实数据。就像人类婴儿在大量漫无目的地手脚挥动过程中,逐渐学会了如何控制自己的身体;在这个阶段,机器人也需要随机进行关节移动,摄像机会拍摄记录机器人每个姿态下的图像,作为真实值(groud truth)用于后续训练。通过这种方式,收集了机器人在12,000种不同姿势下的数据,其中80%用于模型训练,剩余20%用于模型效果验证。
为了帮助机器人更好地学习,研究团队将摄像头记录的图像进行预处理,将彩色图像处理成黑白二值图像,其中黑色为背景,白色部分是机器人本体。这种处理相当于仅给机器人提供自身关键轮廓信息,免受其他无关信息的干扰。
模型优化:“想象”与现实对齐
模型训练时,机器人会在“大脑”中(即通过FFKSM模型)尝试根据当前的关节角度,预测自身的形态,就像闭上眼睛想象自己伸手的位置一样。具体而言,针对图像每一个像素点,机器人会从摄像头发射一条射线,并在每条射线上均匀选取多个点,然后逐一查询这些点的密度和可见性。最后,机器人将射线上所有采样点的预测值加和起来,即为对该像素的预测值。通过这种射线扫描的方式,逐步预测出所有像素点的情况,也就是“完整形象”。
为了让机器人的预测更加准确,也就是更接近真实图像的情况,研究人员使用均方误差(MSE)作为损失函数,衡量机器人预测的图像与实际真实图像之间的差异。结合反向传播算法,调整自身神经网络内部的参数,直至预测误差最小。整个过程就好比,小孩总是对照镜子感到好奇,因为从镜子中见到没看见过的完整自我,直到有一天发现镜子中看到的与自己预期完全一致,也就不再感兴趣了(学习过程也就完成了)。
实验发现
FFKSM模型训练完成后,机器人初步具备了三项关键的“自我意识”:分别是3D形态预测能力,运动规划能力,和检测异常并自我修复的能力。
图3. 模型训练后机器人表现的三项关键能力
形态预测能力
机器人能够在任意关节配置下,准确预测自己在空间中的形态。当询问机器人:“如果你的关节角度设为 [30°, 45°, -20°, 15°],你身体的哪些位置会占据空间?”机器人便能清晰地想象并展示出自己的身体在空间中的分布位置。
这种能力不仅适用于训练用的机器人,还能泛化到不同硬件设计的机器人上,甚至能针对特定部件进行单独预测,例如图4中的蓝色执行器。机器人在大脑里形成了一个“数字版的自己”,能够随时“想象”自己的动作后果。
图4:3D形态预测。绿色点云表示预测结果,黑色轮廓显示实际机器人形态。
运动规划能力
过去,机器人实现动作控制通常需要复杂的运动学公式。而自由形态运动学自模型(FFKSM)使机器人能像人类凭直觉拿取物体一样,无需显式的运动学方程即可行动:在轨迹追踪任务上,能够控制手臂精确地沿着给定的3D轨迹运动,如图5A所示的螺旋路线。在避障规划任务上,机器人在有障碍的环境中,为自我规划安全的路径,避免碰撞障碍物。这是通过模型预测自身和末端执行器的位置,判断各处潜在的碰撞风险,并寻找安全路径实现的。
图 5. 运动规划应用
“自愈”能力
复杂的作业环境中有较大的损伤风险,如图6A发生连杆弯曲,因此及时的损伤检测能力非常关键。该模型训练的机器人可以根据当前姿势,预测出自己的应有的正常形态,再与实际看到的自己进行比较。类似人类觉察自己手臂无法抬起,如果预测与真实图像差距超出一定阈值,机器人便知道自己“受伤”了,随即启动新的自我探索过程,用新数据调整自身模型,以适应新的身体形态,进而恢复正常功能。图6B 中展示了使用10、100、1000和10000个数据点时的误差变化,证明随着数据增加,模型能够逐渐适应机器人的新形态。
试想一个在遥远或危险环境中工作的机器人,例如核电站,即使受损也能自我调整以完成任务,而无需人类干预。这种能力对于未来太空探索、深海作业或灾难救援等领域有着深刻意义。
图6. 异常检测与损伤恢复
通向“具身智能”的关键一步
这项研究突破了机器人自我建模对硬件和先验知识的依赖,其意义堪比生物进化史上的“镜像认知”跃迁。研究团队计划,未来将把框架扩展至柔性机器人,通过融合扭矩传感器实现软体形态预测。当机器人能像人类一样“感知身体、预判动作”,真正的自主适应性或许不再遥远。正如文章所说:“这不仅是算法的进步,更是机器认知边界的一次拓展——从执行指令的工具,迈向拥有‘身体自我意识’的智能体。”
本文原文来自Swarma.org