科技浪潮下,智元机器人如何打破次元壁,引领未来?
科技浪潮下,智元机器人如何打破次元壁,引领未来?
在科技的浩瀚宇宙中,智元机器人正宛如一颗璀璨新星,强势崛起。它以破竹之势,在具身智能、数据采集和国际布局这三个维度,掀起一场前所未有的科技风暴。
攻克具身智能核心难题,开辟技术新路径
具身智能领域长期面临着如何让机器人在任务指引和实时观测基础上规划未来动作的挑战,这一挑战主要受模态对齐和数据稀缺两大关键问题制约。模态对齐要求在语言、视觉和动作等多模态空间建立精确对齐机制,而数据稀缺则体现为缺乏规模化、多模态且有动作标签的数据集。
智元机器人团队提出的EnerVerse架构,为解决这些问题带来了曙光。该架构通过自回归扩散模型,在生成未来具身空间的同时引导机器人完成复杂任务。与现有简单应用视频生成模型的方法不同,EnerVerse深度结合具身任务需求,创新性地引入稀疏记忆机制与自由锚定视角(FAV)。
在技术实现上,EnerVerse采用逐块生成的自回归扩散模型(Next Chunk Diffusion)。其扩散模型架构基于结合时空注意力的UNet结构,块内通过卷积与双向注意力建模,块间通过单向因果逻辑保持时间一致性,确保生成序列逻辑合理。
稀疏记忆机制借鉴大语言模型的上下文记忆,在训练阶段对历史帧进行高比例随机掩码,推理阶段以较大时间间隔更新记忆队列,降低计算开销的同时提升长程任务生成能力,还通过特殊的结束帧实现对任务结束时机的精准监督。
针对具身操作中的复杂遮挡环境和多视角需求,自由锚定视角(FAV)方法应运而生。FAV支持动态调整锚定视角,克服固定多视角在狭窄场景的局限性,例如在厨房场景中能轻松适应动态遮挡关系。
基于光线投射原理,EnerVerse通过视线方向图作为视角控制条件,并将2D空间注意力扩展为跨视角的3D空间注意力,确保生成视频的几何一致性。通过在仿真数据上训练的4D生成模型(EnerVerse-D)与4D高斯泼溅交替迭代,构建数据飞轮,为真实场景下的FAV生成提供伪真值支持。
在高效动作规划方面,EnerVerse在生成网络下游集成Diffusion策略头。生成网络在逆扩散第一步即可输出未来动作序列,保证动作预测实时性,同时稀疏记忆队列在动作预测推理中存储真实或重建的FAV观测结果,提升长程任务规划能力。
实验结果令人瞩目,EnerVerse在视频生成性能上,短程与长程任务中均表现卓越,优于现有微调视频生成模型,在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到验证。在动作规划能力上,在LIBERO基准测试中,单视角设定下平均成功率超过现有方法,多视角设定下进一步提升任务成功率,在每一类任务上均超越当前最佳方法。
消融与训练策略分析表明,稀疏记忆机制对长程序列生成和长程动作预测精度至关重要,先进行未来空间生成训练,再进行动作预测训练的二阶段策略,可显著提升动作规划性能。注意力可视化直观体现了EnerVerse在未来空间生成与动作规划任务中的相关性与优势。
打造数据采集工厂,填补行业数据空白
对于机器人具身智能大模型的研发来说,海量高质量数据是关键。然而,大多数初创公司面临着建设数据采集工厂成本高昂的风险。智元机器人却毅然决然地在一个多月内完成搭建数据采集工厂,这背后是行业现存数据量在供给侧的巨大空白。
2024年6月,智元机器人决定研发机器人具身智能大模型,当他们试图寻找行业内开源数据库时,发现高质量、统一格式的数据几乎不存在。即使行业内有开源的百万条由真实机器人收集的训练数据集,但由于数据由不同公司、不同型号规格的机器人采集,数据质量低,不同传感器和形态的数据差异过大,严重削弱整体训练效果,无法满足智元的要求。
智元机器人在初期采集了几千条数据用于训练算法,虽然能让机器人完成某个动作,但缺乏泛化能力,改变物体种类、颜色或光线等条件,机器人就难以再次完成同样动作。因此,智元机器人下定决心建设工厂大规模采集数据。
在采集数万条机器人重复动作后,智元机器人收获了意外惊喜。机器人能够在未经训练的情况下,根据要求控制倒水量;只教了几十次,就能学会叠裤子。这正是智元机器人所追求的能够自主理解人类指令和外部环境,并适应复杂环境的机器人。
过去,机器人控制依赖预设规则,输入情况描述和应对方式,机器人按规则操作,但现实情况复杂多变,这种方式难以应对所有情况。大模型应用爆发后,让机器人拥有了智力,能够理解世界和人类。
智元机器人正在研发具备端到端大模型的机器人,其通用能力更强且反应速度更快。机器人从接受指令到完成动作通常有感知、决策、执行三个步骤,传统方式信息传递易失真,而端到端大模型不需要分模块,更不依赖精准测量,就像人类超车前无需精确测量距离。
智元机器人对端到端大模型机器人的设想是,它能够接受人类复杂指令,如从远处取手机或从冰箱拿薯片,这考验机器人对任务的理解、物体识别以及移动取物等一系列能力。要达到这一状态,需要不断向大模型投喂大量数据,预计需要几千万条到1亿条数据,因为机器人的Scaling Law远未到来。
加速国际化布局,拓展全球发展版图
智元机器人在技术研发和数据采集取得成果的同时,积极推进国际化布局。在“数字阿拉木图2025”论坛期间,智元机器人与哈萨克斯坦数字发展、创新和航空航天工业部签署协议,计划在哈萨克斯坦建立合资企业,在全国各地工业设施中制造和部署机器人,并引入人工智能解决方案。该项目得到了哈萨克斯坦投资公司股份公司与EWPartners的投资支持。
根据合作协议,智元机器人将与哈萨克斯坦政府及投资机构共同建立一座“数据工厂”,用于训练机器人及优化人工智能系统。Alem AI国际人工智能中心还计划设立联合研发中心,并展示智元机器人原型。
智元机器人选择与EWPartners合作,EWPartners是一家由波斯湾国家主要主权财富基金和国际金融投资者支持的私人投资公司,致力于连接中国领先工业企业与全球市场。同时,哈萨克斯坦投资公司股份公司提供资金支持,该机构自2007年成立以来,一直推动哈萨克斯坦的直接投资和风险资本发展。
此外,智元机器人还计划与哈萨克斯坦的多所大学展开合作,开展联合研究项目,并设立机器人组装培训课程,培养本地技术人才,进一步促进哈萨克斯坦在智能制造领域的竞争力。智元机器人此次在哈萨克斯坦的投资,不仅带来先进的机器人制造技术,也推动了当地人工智能和自动化产业的发展,为区域经济增长和产业升级注入新动力。
展望未来,智元机器人在具身智能技术上的持续创新、数据采集的不断积累以及国际化布局的稳步推进,将使其在全球机器人市场中占据重要地位。随着技术的不断成熟和应用场景的拓展,智元机器人有望引领机器人行业进入一个全新的发展阶段,为人类社会的发展带来更多的便利和可能。无论是在工业制造、家庭服务,还是在更广泛的领域,智元机器人都将以其卓越的技术和创新的理念,书写机器人产业发展的新篇章。