CPsyCoun:心理咨询多轮对话自动构建及评估方法
CPsyCoun:心理咨询多轮对话自动构建及评估方法
在心理咨询领域,如何利用人工智能技术构建高质量的对话数据集一直是一个挑战。CPsyCoun项目提出了一种基于报告的多轮对话重构与评估框架,通过Memo2Demo方法从公开的心理咨询报告中还原真实对话,并设计了全面的评估指标体系。本文将详细介绍这一创新性框架的核心理念和技术细节。
背景与动机
在大模型应用于心理咨询领域,目前开源的项目有:
训练一个大模型并不难,但如何获得高质量的领域内数据集却是一个难题。该论文提出了Memo2Demo方法,使用LLM从公开的心理咨询报告中还原真实的心理咨询多轮对话。同时,还提出了一个综合的心理咨询评估方法。
整体流程
数据收集:从壹点灵心理等心理咨询网站获取了3134个类型单纯的匿名心理咨询报告,形成了CPsyCounR数据集。
数据集构造方法:
- 基线方法:角色扮演方法。这是之前的smile等项目采用的。
- Memo2Demo方法:论文提出的两阶段方法。心理督导(LLM)首先将心理咨询报告转换为咨询笔记,然后心理咨询师(LLM)根据报告和笔记生成多轮咨询对话。
Memo Conversion
心理督导根据报告制作咨询笔记,包括基本的咨询信息和详细的咨询计划。咨询笔记的目标之一是提供与案例相关的专业见解,采用不同的心理咨询技术来解决客户的问题。同时,它还浓缩了与客户相关的核心信息,从而提高后续心理咨询过程的全面性。使用GLM-4模型。
Demo Generation
心理咨询师根据心理咨询报告和转换后的咨询笔记生成多轮咨询对话。同样使用GLM-4模型。
四阶段咨询框架
为了控制对话生成的方向,提高心理咨询师的专业性,将咨询过程简化为四个阶段:
- 接待和询问阶段:客户介绍自己的基本情况和咨询目的。
- 诊断阶段:心理咨询师分析并明确客户的心理问题,探索问题源头和严重程度。
- 咨询阶段:确认咨询目标,告知心理咨询技术,并分步执行具体计划。
- 巩固和结束阶段:回顾和总结咨询阶段的工作,让客户进行自我反思。
评估指标体系
设计了一个包含Comprehensiveness(全面性)、Professionalism(专业性)、Authenticity(真实性)和Safety(安全性)等四个方面的评估指标体系。在每个方面分解了小指标和权重,使用GPT4来判断每个小指标上的表现。
对于多轮对话的评估,将其拆分为单轮对话然后取均值,在大于一轮时附带上历史记录。CPsyCounE数据集在Smile项目的基础上将对话数据分为了九大话题,每个话题手动选择了五条最具代表性的对话用于评估。
总结
CPsyCoun项目提出了一条合理的心理咨询多轮对话数据集的构造流程,是非常有价值的,而且已经开源。这对于想要进入心理健康领域研究的开发者来说是一个重要的资源,解决了数据隐私性带来的数据获取难题。