2024年人机情感交互领域热点回眸 | 科技导报
2024年人机情感交互领域热点回眸 | 科技导报
人机情感交互研究旨在创建能感知、识别和理解人类情感,并作出智慧、灵敏、自然回应的智能系统,是实现机器人自然化、拟人化、人格化的基础技术。2024年,大语言模型的进步为该领域带来了深刻变革。本文从交互理论、情感认知、情感调节及交互效果评估层面回顾年度研究进展,并探讨存在的理论与技术问题。
1. 人机情感交互领域研究回眸
1.1 交互理论重要进展
人机情感交互理论研究自然人与机器(包括机器人)之间通过语言(文字、语音)与非语言(面部表情、手势、体姿、心跳、呼吸、皮肤电等)通道来相互作用与传递情感信息的理论框架与方法体系。Ren等在2024年提出了“可进化心状态转移模型”(evolutionary mental state transition model,EMSTM),旨在通过可观察行为和历史情感来模拟追踪自然人的心理状态转变过程。该模型融合了模式识别方法,创新地定义了情感表达强度(external emotional energy,EEE)这一概念,用以统一刻画不同模态情感外在表达,奠定了人机情感交互的可计算理论基础。
图1 可进化心状态转移模型
1.2 情感认知
情感计算的基础是情感量化模型,主要用于将无形的、抽象的人类情感转化为机器人可以理解、表达和处理的数据形式。2024年,Colombetti等关于效价和唤醒度之间关系的讨论,以及Smith等对唤醒度的质疑,都推动了情感量化模型的发展。此外,ChatGPT等基于Transformer结构的大语言模型语义理解能力的提升,对单模态情感认知产生了冲击,而类CLIP结构也被设计出来提升多模态计算(文本-图像)的效能。
1.3 情感调节
大语言模型如ChatGPT在语义理解与对话生成方面的进步极大地增强了机器对自然人情感调节的能力。在语言因素的调节通道中,以ChatGPT为代表的大语言模型,在现有的基准数据集上,对比以往的SOTA模型表现极其优越。此外,基于非语言因素(如手势)的智能机器人情感调节能力也获得了相当的重视。
1.4 情感交互能力评测
智能机器人交互能力评测方法可以分为2类:基于任务的评测和基于交互的评测。为有效评估大模型在复杂交互方面的能力,研究人员从不同角度提出多种评测基准。EmoBench是首个专门用于评估多模态大模型在5种主流情感任务中情感交互能力的综合基准,涵盖了通用情感任务(如多模态情绪识别和意图理解)和情感应用任务(如社交媒体应用中的特定挑战)。
2. 人机情感交互领域研究挑战
表1总结了人机情感交互环路中情感认知、情感调节与交互能力评测3方面在多模态大模型支撑下的研究回眸。公共安全、国防军事、医疗照护等国计民生领域对人机情感交互能力有着重大共性需求,但当前“感-析-互”机械式人机交互体系中存在的情感模态少、感知范围小、情绪知悉慢、自然交互难等缺陷,难以满足应用需求。
3. 人机情感交互领域未来研究方向
基于上述挑战,为赋予智能机器人人机情感自然交互能力,未来研究可以聚焦在以下具体方面:
- 情感认知可计算建模方法
- 情感调控可进化交互环路
- 情感交互可解释评估体系
解决上述“认知”→“调节”→“评估”问题,有望形成增强人机情感自然交互能力的研究闭环,其最显著的理论研究意义在于探索了多学科融合研究的新范式:以数据为驱动,以计算为核心,融合心理学和认知科学知识,提升研究的可解释性与效能。
4. 总结与展望
“人机情感交互”源于“情感计算”技术,20世纪90年代起源于美国,30年来一直是国际研究的前沿热点。国家《“十四五”机器人产业发展规划》中,也多次将“人机情感交互”列为主要攻关任务。该方向的研究具有很强的研究、社会与现实意义,其实施有望填补该项基础研究理论空白,使中国进入自然交互和机器人平台技术的国际前列,取得具有重大国际影响力的自然交互研究成果,加速推进我国信息技术与产业发展,使其在健康医疗、公共服务、科技文教等领域产生显著的社会和经济效益。