智源举办2024具身与世界模型专题峰会产学研共促技术创新与产业应用

创作时间:

作者:

@小白创作中心

智源举办2024具身与世界模型专题峰会产学研共促技术创新与产业应用

引用

来源

https://m.php.cn/faq/1176026.html

2024年11月5日，北京智源人工智能研究院在智源大厦成功举办“智源论坛·2024具身与世界模型专题峰会”。本次峰会汇聚了来自国内外知名高校、研究机构和企业的专家学者，共同探讨具身智能和世界模型的最新进展。

峰会围绕具身智能面临的挑战，例如硬件稳定性、数据采集、模型架构和应用场景等展开深入讨论。智源研究院院长王仲远在开幕致辞中表示，智源将携手高校和企业，共建具身智能创新平台，推动数据、模型和场景验证等方面的研究，构建具身智能创新生态。

智源具身多模态大模型研究中心推出的快慢系统框架，创新性地结合了快速预测和深入思考的机制，提升了机器人大脑能力。该中心还提出了四维世界模型Robo4D，旨在解决开放世界中物体和场景泛化问题，相关研究成果已发表在NeurIPS 2024和ICML 2024等国际顶级会议上。该中心利用世界模型预测机器人与环境交互结果，并通过Emu3多模态世界模型实现自我反思的思维链。

智源具身多模态大模型研究中心负责人仉尚航表示，中心将持续探索具身多模态大模型和海量数据构建，并践行机器人领域的Scaling Law，以实现真实世界的四维时空世界模型，推动机器人AGI发展。近期研究中，中心将世界模型从二维拓展到四维，利用先验引导的3D Gaussian Splatting算法，基于单一视角视频生成四维世界空间，并提升了机器人操作的泛化性。

智源具身智能研究中心负责人王鹤在特邀报告中强调了空间智能和交互智能的重要性，并提出利用合成数据替代真实数据采集，以满足大模型对数据规模的需求。该中心已完成10亿规模的灵巧抓取数据集DexGraspNet 2.0，并训练了全球首个基于视频流的端到端导航大模型NaVid，实现了在真实世界场景的zero-shot泛化。近期，他们又推出了NaVid-4D，进一步提升了导航能力。