在人潮涌动的世界机器人大会上,我们看到了“万亿美金”的新起点
在人潮涌动的世界机器人大会上,我们看到了“万亿美金”的新起点
2024年世界机器人大会在北京盛大开幕,人形机器人成为本次大会的最大亮点。27家整机企业和30多家产业链上下游企业齐聚一堂,展示了这一领域的最新进展。从宇树科技的G1量产版本到智元机器人的多款商用产品,从银河通用的盖博特到星尘智能的Astribot S1,这些企业不仅带来了令人惊艳的技术突破,更预示着人形机器人正从科幻走向现实。
随着AI技术的突飞猛进,具身智能已成为资本市场上最炙手可热的领域之一。曾经仅存在于科幻电影中的机器人,如今正变得"看得见、摸得着"。2024年世界机器人大会在北京正式开幕,与以往最大的不同在于,今年是人形机器人参展企业最多的一届,共有27家人形机器人整机企业、30多家产业链上下游企业亮相。
在开幕前后,多家机器人公司发布了新产品。宇树科技发布了G1量产版本,起售价为9.9万元,这款产品在世界机器人大会上首次展出,以其更强的性能、终极外观和大批量生产能力吸引眼球。
宇树G1机器人身手敏捷,不仅可以空中劈腿,还可以自由地上下楼梯,轻巧敏捷
英伟达科学家Erwin Coumans迫不及待想搞一台来做实验。智元机器人则是一口气发布了五款商用人形机器人产品,包括3款适用于不同场景的远征系列(A2、A2-W、A2-Max),2款模块化机器人系列产品(灵犀X1和X1-W,后者面向专业数据采集)。
智元机器人远征系列和灵犀系列
星尘智能发布了新一代AI机器人助理Astribot S1,这款产品也在2024世界机器人大会上正式亮相。
星尘智能的机器人助理Astribot S1正在烘烤华夫饼
银河通用发布了第一代人形机器人盖博特,采用了轮式、双臂、折叠升降的设计,扩展了机器人的操作空间,并且拥有聪明的感知决策大脑,和精准控制身体进行泛化操作的小脑。
群雄逐鹿:技术路线与应用场景
随着人形机器人越来越走进现实,也迎来了群雄逐鹿的时刻,但技术路线仍不确定、应用场景皆有可能。在机器人软硬件一体化领域,多家优秀的全技术栈型创业公司各展风采,它们的技术切入方向和应用场景各不相同,涵盖了工业、仓储物流、零售、生物制药等多个场景。短期目标都是快速占领各自的应用场景,谁先把一个细分场景做好,积累出足够多的数据,就有可能继续拓展新的延展领域,最终走向通用化。
除了机器人软硬件一体化外,在产业链上游的两个重要方向(数据、一体化关节),行业也在积极布局。AI仿真数据领域的光轮智能正在为行业提供海量的高真实性、高效用性的训练数据;而在一体化关节/执行器领域,钛虎机器人则提供了非常高效和全面的产品系列,覆盖了从灵巧手到全身上下的所有关节。
工程实践与技术创新
相比于AI大模型,人形机器人更需要工程层面的实践与突破。例如,宇树科技创始人兼CEO王兴兴强调了组合式创新的重要性,认为只要集合最好的零部件,并且用上最先进的软件,就可以做出一个更好的产品。钛虎机器人创始人易港则强调了工程实践的重要性,认为做机器人需要对这个领域有真正的兴趣,并且愿意去一点点钻研,尝试各种各样的方法去解决技术难题。
软硬一体的重要性
今天的机器人与以往最大的区别在于,随着AI的爆发,智能泛化能力大幅加强,这让通用机器人成为可能。传统机器人并不需要对外界自主响应,所以这是一个自动化设备,不断地重复之前预设的程序。而现在有了智能泛化能力的突破,甚至只需要语音控制,机器人就能实现新功能,这是从自动化到智能化的底层转变。
而AI大模型的能力,不仅体现在规划层面,也开始进入感知和控制环节,机器人发展了50多年,第一次出现这样由学习算法驱动、以及一个非常大的预训练模型来推动控制环节的变化,这也是过去一年里,我们看到技术层面最大的突破。
"最终我们会有大脑大模型、小脑大模型,一起把本体串起来,构成一个通用机器人系统。"北大-银河通用具身智能联合实验室主任王鹤说。他认为,通用机器人应该由基石层和能力层支撑,在基石层最关键的是去打造一个通用的本体,数据依赖于本体,本体也决定了它能产生什么样的数据,两者相互绑定。基于本体和数据,进而发展出机器人能力,主要是"大脑"和"小脑",前者主要解决感知和决策问题,后者把大脑的感知和决策转换成动作。
低成本与供应链优势
低成本是人形机器人大规模运用的前提。今年5月,宇树在发布G1人形机器人时,把最低售价打到了9.9万元。但这款机器人的参数一个不差,身高约127厘米,体重约35公斤,具有超越常人的灵活性,小跑速度大于2m/s,拥有广阔的关节运动空间,23至43个关节,最大关节扭矩达到120N.m,可进行高难度的动态动作。比行业整体便宜80%的售价,再一次成为人形机器人领域的焦点。
"大部分人对社会的成本结构一无所知。"王兴兴说,"低成本的原因其实很简单,以前很多学术或公司主要靠去买工业电机,但它们很大、很贵、很重,所以做出来的效果也不太好。但我后来发现,其实可以对航模电机加以改造,所以后来的电机驱动器全是我自己做的,可以做到很小很便宜,再结合最新的运动控制技术,就可以把整体性能做得非常好。其实整个社会大部分创新,是组合式创新,我们需要把各个行业的一些想法、技术组合做新的实践,保证它是最前沿的,其实你就可以实现很多目标。"
G1采用3指力控灵巧手,通过力位混合控制,能模拟人手的各种精准操作
在2013年-2015年读研究生期间,王兴兴没什么资源和资金,却做出了一款当时特别火爆的产品XDog,拿到上海机器人设计大赛二等奖,这几乎是他一个人从头设计硬件、控制算法,自制驱动电机做出来的。相比之下波士顿动力的四足机器人,还是纯液压方案,虽然性能不错,但是很大、很贵、很重,那时候纯电机驱动方案还是比较领先的。
"在制造成本方面,我甚至认为机器人其实与家里的电风扇本质是一样的,都可以通过各种方法将成本做到极致。"王兴兴说,他认为大部分产品都可以分为"材料成本+加工成本",如果能优化整个流程,找到合适的加工方法,其实可以省很多钱。
真机数据与仿真数据
数据是AI下一个发展阶段的最大助推力,但真实世界的数据是远远不够的,这需要仿真数据来弥补。光轮智能联合创始人兼COO杨海波说,"我们认为很快就能找到Scaling Law,那么机器人也将很快变成数据驱动,这也是我们做仿真合成数据的初衷。"
GPT-3.5之所以能产生划时代的突破,核心在于Scaling law,而这离不开数以百亿的训练数据。训练AI大模型的数据在互联网上容易获取,但对于机器人来说,直接可用的数据几乎为零。
能否获得高质量且足够便宜的数据,是当下制约机器人发展的瓶颈,也是拉开公司之间竞争的重要手段。前车之鉴是Everyday Robots,它曾是谷歌的明星独立项目,但在今年2月被谷歌因成本控制而解散,并入谷歌其他部门。
造成Everyday Robots成本高昂的一个重要原因,就是数据采集成本过于昂贵。OpenAI曾经也有一个机器人部门,但后来放弃了,问题也出在数据收集上。
为什么采集成本这么高?主要是因为EverydayRobots基于真实环境来收集数据。谷歌为了训练PaLM-E,用了13台机器人,收集了17个月,才拿到足够的数据量,如果是在更复杂的工业场景,数据采集成本会更高。
机器人的遥操作
目前对于人形机器人来说,主流的数据获取手段分为两种:一种是真实数据,另一种是仿真数据。真实数据就是构建一个采集数据的基地,在里边搭建相关设备,比如遥操作、动作捕捉等等,比如家庭场景里的做饭,捕捉方方面面的动作数据,然后再对合并数据进行一些泛化,以及清洗,最终给到模型。
仿真数据则是完全在模拟器中进行的。首先用虚拟建模的方式,把环境场景搭建起来,然后再把机器人虚拟化放进去,形成一个动态的场景。这里面的一切物体,建模都要尽量接近真实,比如需要做一个苹果,那就要制作出大量不同的具体形态,比如不同的光照条件、不同的位置条件、不同的摩擦力情况等等。
从这样动态场景提取出来的数据,其实是一张张类似于"图片"的数据集,在这些"图片"上也需要补充针对性的标注,再给到机器人公司做算法训练。这个训练过程,就有点像特斯拉在训练FSD时,拿人类司机的真实驾驶视频训练。
仿真数据最核心的要求,就是尽可能的接近真实,真实度、泛化度都是重要指标。如何符合物理规律,是目前的一个难点,比如一个物体是软还是硬,这就需要更复杂的参数设计。
由于仿真数据多数是通过视觉,训练过程往往是,首先需要判断出来这个物体是什么材质,比如是个杯子,然后再去设计多大的力量,这个过程也可以加入大语言模型的能力。但这与在机器人的传动结构中,加一个力触觉是不同的技术方向。
所以,仿真数据与遥操作各有优劣。遥操作的优势在于,在将采集到的数据用于训练机器人后,这一项任务的成功率会很高。但劣势也很明显,机器人的能力缺乏泛化性。
比如在特斯拉训练机器人分拣电池的例子中,就是通过人类带着VR眼镜,去遥控操作机器人采集而来的。通过这种方法训练出来的机器人,几乎只会重复遥操作时的动作,比如把一个电池放到三乘三的盒子里,但当你把电池换成矿泉水瓶,同时将盒子换成更大的四乘六时,机器人就不知道怎么办了,这时候就又需要重新进行遥操作再去训练。在没有形成海量数据的时候,每做一个新动作都非常吃力,数据采集成本很高,并且难以在短时间获取大量数据。
与遥操作对比,仿真数据的优劣势几乎相反。首先可以用低成本生产海量数据,同时机器人在经过训练以后,能力是泛化的,因为可以仿真制造一系列所需要的场景和交互,以使机器人可以解决各种问题。
当然,仿真数据的劣势也很明显,问题主要出在仿真还不够接近真实,当把通过仿真数据训练的机器人用在真实场景中时,存在一定的失败率,比如在抓取任务中,因为光照、环境等各种因素的改变,机器人可能以为抓到了,但其实没抓到。
提高数据规模,尝试将大模型训练中的Scaling Law,应用在机器人仿真训练数据中,可能是准确率不足的解决之道。
在王鹤看来,他在一开始尝试用仿真数据时,也遭遇了准确率不足的问题。不过他很快意识到,当时只用了一个百万级的数据集,如果把规模扩大会怎样?
"我们自己的实验发现,比如在抓取这个任务上,在用灵巧手抓取没有见过的、随机乱放的物体时,在有十亿次抓取数据的情况下,机器人的成功率能到 86%,如果数据量缩到万分之一,也就是 10 万次抓取时,成功率就只有 58%。这说明具身智能也有清晰的 scaling law,它对数据有更大渴求。"王鹤说。
"传统的仿真是以测试为中心的,而为具身智能服务的仿真,则是需要以训练为中心。"光轮智能CEO谢晨说,他认为好的仿真数据首先要有自我真实性、效用性评测能力,如果没有这些,仿真数据也很难让客户的算法有所提升。谢晨曾在英伟达负责自动驾驶仿真,国际首创将生成式AI融入仿真,从0-1开发落地仿真数据,后选择回国创立光轮智能。
"仿真数据不会取代真实数据,而是放大它。" 他认为终极的Data for AI,会是真实的人的示范数据,与仿真数据能力的乘积。
未来展望
过去10年,AI给太多行业带来过希望和失望。而今天的人形机器人,正越来越逼近临界点。虽然机器人至今没有清晰的产品形态,但我们看到每一家机器人创业公司都在尝试各自的应用场景,像我们已经投资的四家机器人软硬件一体化公司(宇树科技、智元机器人、银河通用、星尘智能),再配合着产业链上游的核心一体化关节(钛虎机器人)、仿真数据(光轮智能),都在不同场景下有非常好的应用。
这一波人形机器人公司的短期目标,都是快速占领各自的应用场景,谁先把一个细分场景做好,积累出足够多的数据,就能建立护城河,再去拓展新领域,最终走向通用化。
而机器人的发展离不开硬件。与欧美市场对比,我们看到国内很多初创公司的硬件迭代能力,比海外要快很多,成本控制能力更好,在某些硬件细节方面超越了海外同行。
全球化几乎是中国通用机器人公司的必选战略,且与电动车行业不同,其在全球化中遇到的障碍会更小。其中一个原因是,几乎没有一个国家具备有规模的机器人产业,此时出海不会冲击当地的产业结构,只要产品质量和应用体验足够好,出海溢价可能达到国内的5倍以上,这将为中国通用机器人企业提供广阔的国际市场。
人形机器人能发展到今天的位置,来之不易。"我记得在2016年的时候,那时我还在百度,有一次参加完一个NLP的会议,结束之后充满了挫败感,感觉好像这辈子都看不到真正的应用,你也不知道那时的投入到底是不是对的。"星尘创始人来杰回忆,"但我也经常反思,从我过去十几年对未来的预判里,我发现AI和机器人整体的发展速度,又是大大超出我的预期了。短期内你永远会看到很多困难,但这么多聪明的头脑,其实在解决一个又一个问题,产生了一个又一个技术突破,就像有一只巨大的手在促使这个行业往上升,这给我带来很大的能量,让我一直坚守在这个行业里。"
"技术是一个日新月异的事儿,你无论是在做你的老本行,还是做一件新事,你都有可能明天就被更新的技术给'卷'了,AI和机器人行业尤其如此。与其说按兵不动,还不如主动的去创造变化。" 光轮智能创始人兼CEO谢晨说,"所以在我看来,现在的创业成本其实比之前要低太多了,因为现在不变的成本太高了。"