全国首个！成都创新团队发布机器人多模态模型

创作时间:

作者:

@小白创作中心

全国首个！成都创新团队发布机器人多模态模型

引用

澎湃

https://www.thepaper.cn/newsDetail_forward_28386054

8月12日，成都人形机器人创新中心（简称“中心”）发布最新研发成果——中国首个机器人多模态模型RRMM（Raydiculous Robot Multimodal Model）及双臂协作系统RTACS（Raydiculous Two-Arm Cooperation System）。这一突破性成果标志着我国在多模态模型应用于人形机器人领域取得重要进展。

多模态（即多种异构模态）数据协同推理，能融合两种或两种以上不同感知来源，进行综合推理，并完成复杂任务。例如，最新的ChatGPT4o展示其强大功能时，测试者不用传统的键盘输入问题指令，而是在一张纸上手写一个待解方程，以及手绘一个几何图形并用语音指令要求GPT4o解题，GPT4o通过图像识别、语音识别和语义理解及推理，快速给出准确答案，这就是典型的多模态应用。

那么，如果将多模态应用于人形机器人领域，是否可以让机器人获得自主思考的能力？“多模态可以使人形机器人融合像、语义、力感知、环境感知等多种因素，综合判断、生成任务并执行任务，这是人形机器人具有自主思考能力的关键核心技术。”中心负责人解释道。

在成都人形机器人创新中心发布的相关资料中可以看到，语义指令有相对明确的将水果和非水果，饮料和非饮料进行区分和分拣，也有相对抽象的将圆柱体和长方体物体进行区分和分拣，还有比较抽象的把可食用和不可食用物品进行区分和分拣，完成以上任务需要机器人通过多模态模型自主对所有物品进行提取归纳。特别是对多个相似瓶子形状的物体，需进一步通过瓶身包装上的文字、图片等要素综合判断其是否为可食用或非食用瓶装物，才能最终完成任务。