问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

让机器人学会“读心术“:FABG如何实现情感零延迟交互?

创作时间:
作者:
@小白创作中心

让机器人学会“读心术“:FABG如何实现情感零延迟交互?

引用
CSDN
1.
https://blog.csdn.net/weixin_40359938/article/details/146454849

在人工智能和机器人领域,实现人机情感交互一直是一个巨大的挑战。最近,一项名为FABG(Facial Affective Behavior Generation)的研究成果为这一难题带来了新的解决方案。通过结合虚拟现实技术、深度学习和预测算法,FABG系统能够实现情感的零延迟交互,让机器人真正具备"读心术"的能力。

FABG系统的核心创新

论文《FABG:End-to-end Imitation Learning for Embodied Affective Human-Robot Interaction》明确提出了研究的核心目标:通过端到端模仿学习实现具有情感表达的具身人机交互。FABG系统针对传统人机交互中情感表达的机械化和不连贯问题,提出了三个关键创新:

  1. 沉浸式VR示范系统:通过虚拟现实技术实现操作者视角与机器人感知的对齐,确保示范数据的直观性和高保真度。
  2. 深度增强的观察表示:在RGB图像基础上融合深度信息,提升空间感知能力。
  3. 预测驱动的延迟补偿策略(PDLC):通过前瞻性动作序列预测优化实时交互的流畅性。

FABG系统的技术优势

VR示范系统

FABG系统采用PICO 4 Pro VR头盔和ZED立体相机,通过Unity实现环境渲染与数据同步。通过立体视觉对齐技术,将ZED相机的视场角与VR界面校准,消除视角偏差。同时,系统以30Hz频率同步采集480×640分辨率RGB-D图像、面部表情系数和头部姿态,确保操作者能够获得与机器人完全一致的3D环境感知。

深度增强的观察表示

FABG系统直接融合RGB与深度信息,通过高斯滤波抑制深度传感器的高频噪声。系统使用预训练DinoV2模型提取384维语义特征,通过多层CNN提取128维几何特征,并将两者拼接形成512×18×24的多模态张量。实验表明,深度信息使动态追踪任务的完成时间降低37%。

预测驱动的延迟补偿(PDLC)

PDLC策略通过前瞻性动作预测抵消系统延迟。在时间步t,策略网络输出未来k帧动作序列,根据预设偏移量n选择执行帧动作。通过分析多源延迟(感知、计算、通信)动态调整n值。这一策略将响应延迟压缩至0.116秒,较传统方法提升85%以上。

实验结果

实验在自研的25自由度仿人机器人头部进行,通过刚性-柔性混合结构模拟面部肌肉运动。实验结果表明:

  • 在情感交互任务中,RGB-D+PDLC在微笑和惊讶反应中分别耗时6.94s和7.55s,较RGB+TE提升85%。
  • 在动态追踪任务中,PDLC使手部追踪时间降至6.77s,较基线降低37%。
  • 深度信息使注视调整任务中的IPD(瞳距)调节精度提升35.4%。

结论与展望

FABG系统通过VR实现人类直觉行为的无损迁移,解决了时空不一致问题,并支持快速部署至不同机器人平台。未来方向包括整合语言模型实现多模态交互,以及探索无监督学习降低对示范数据的依赖。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号