“人工智能那一套,对具身智能来说远远不够”
“人工智能那一套,对具身智能来说远远不够”
2024年7月8日,由腾讯研究院联合前海国际事务研究院、青腾和香港科技园公司等多家机构发起的AI&Society人工智能+社会发展高端研讨会第二期,在深圳香港科学园深圳分园成功举办。本次论坛的主题为《AI时代的人机关系展望》。
清华大学孙富春教授在会上发表了题为《具身智能如何赋能产业?》的主旨演讲。他指出,传统的AI大多是“纸上谈兵”,在离身数据集上做强化学习,这种强化学习没有考虑到感知和行为在环境交互过程中的合理性,特别是感知和行为过程中得到结果的好坏对认知决策的影响,这些统称为“内体作用”,也就是说机器人认知过程中知识的更新、生长,包括物理层面的发育。
由此,研究团队开始研究具身智能。具身智能是通过感知和行为的与物理世界的交互,通过内体作用,进行决策和行为,他们将其称为“身体力行”。孙教授举了一个服务机器人洗碗的例子,说明只有通过“具身”才能实现真正的智能交互。
1963年,麻省理工学院Richard Held 教授曾进行过一个实验,五对猫分别用数据集训练和物理世界训练,结果表明在物理世界的训练猫学会了行走,进一步说明了具身的重要性。
具身智能体和通用操作
2021年ICRA2021世界机器人大会上,孙教授提出了“具身智能体”的概念。具身智能具有感知体和行为体两个实体部分,行为体在生产线上完成各种任务,认知体能够运用大量知识进行认知与决策。具身智能的重要功能是“外感知,内体作用”,这个内体作用是知识的生长与更新。
在通用操作方面,机器人需要面对各种物理形态的物体,完成多任务,包括任务生成。例如,在手术过程中发现出血需要生成止血任务。机器人还需要针对操作过程中目标形态和姿态的连续变化,模拟人的大小脑、外周神经和中枢神经系统控制手的操作。
过去离身的强化学习只考虑奖惩机制,而具身强化学习既要考虑模型如何有利于产生决策,还要考虑决策如何优化模型,这里用到了神经符号系统来作残差,通过残差来做知识更新的过程。
研究团队还用GNN模拟外周神经,模拟人操作过程中的肌肉和关节的形态变化,通过多智能体模拟中枢神经系统和小脑如何通过与环境的交互过程实现行为控制。最后把这些技术集成到 “空间行为体”。
具身智能的产业赋能
具身智能特别强调“虚实一体”,要求计算机生成的操作环境与物理世界高度一致。这就需要对物理环境中的各种实体建立物理属性,如重量、转动惯量、泊松比等。还需要考虑实体在物理环境相互作用产生的力觉和听觉。
研究团队提出了“粒子交互”的建模方法,可以精细地建立实体之间相互作用的触觉。还使用神经辐射场的方法,适合视觉环境下的物体颜色、纹理和变形的建模。通过融合形成物理数字系统。
团队已经分析出计算机世界训练的策略误差和物理世界的策略误差之间的关系,通过这个关系可以知道误差的上界,从而指导物理数字系统的构建。
具身智能特别强调内体作用,要对各种感知、认知、操作和运动建立知识库。研究团队把人的学习过程分为三个阶段:认知阶段、精炼阶段和自主阶段。
研究团队还开发了一种感应式技能解析方法,通过视觉、触觉和听觉就能把操作行为转化成技能。例如,视觉主要是拓扑学习,触觉和听觉主要是基于事件。现在解析的准确度可以达到96%。
在具体应用方面,研究团队参加了在日本ICRA2024的操作抓取比赛和Sim2Real,取得了冠军。在3C装配这方面的项目获得了日内瓦国际发明展的金奖。
具身智能未来发展要素
具身智能的未来发展与四个要素密切相关:
- 本体技术:如何让机器人的手部操作更加精准和灵活。
- 知识+数据+场景:场景一定是物理数字系统。
- 具身智能体:能够实现感知和行为与物理世界的交互,同时实现知识的生长、更新和发育。
- 学习和进化的构架:包括软件和硬件层面的知识更新,以及物理发力的进化。
研究团队研制的基于微视觉的触觉传感器,在指尖上实现了一平方厘米500个点,通过超分可以做到5000个点,分辨率达到0.2毫米。研制的电容式触觉传感器分辨率达到0.625,研制的压阻式触觉传感器,分辨率达到1毫米,装配一只灵巧手的费用是1.5万元。
具身智能的未来将带来传感器技术革命,需要智能计算前移和行为能力,这对算力也提出了巨大的要求。