清华团队发布重要研究成果:多模态大语言模型实现精准自杀风险预测
清华团队发布重要研究成果:多模态大语言模型实现精准自杀风险预测
每年全球有超过70万人因自杀而失去生命,其中15至29岁人群的自杀率尤为突出。面对这一严峻的公共卫生挑战,清华大学研究团队近日在INTERSPEECH 2024国际会议上发表了一项重要研究成果:通过整合文本和音频数据,首次实现了基于大语言模型的有效自杀风险预测。
研究背景
近年来,语音技术和人工智能大模型在精神疾病诊疗领域展现出巨大的应用潜力。随着语音分析技术的不断进步,研究人员能够通过分析参与者的语音特征,如语调、语速、情绪表达和语言内容等,来推断个体的心理和情绪状态。
目前对于学校青少年如何筛查自杀风险存在许多困难,传统的自杀风险识别方法通常依赖于问卷调查和临床访谈,但容易出现被测者自我报告偏差的情况,这导致潜在的风险难以被及时发现。因此,亟待开发更客观和精准的筛查工具。本研究通过整合文本和音频数据,基于青少年大样本人群,开发了用于自杀风险筛查的多模态大模型,从而提供了有效的技术支持和解决方案。
研究方法
研究团队采集了来自超过40所中小学,年龄范围为10-18岁的中国青少年。采用儿童版简明国际神经精神访谈(MINI-KID)对参与研究的青少年进行自杀风险评估,筛查出631名存在潜在的自杀风险参与者,与548名无自杀风险的参与者共同完成了语音任务测试。
本研究通过收集参与者自我介绍时自发产生的语音(通常长为30秒到1分钟),提取出了文本模态信息(通过语音识别得到的文本内容)和音频模态信息(包括语音的韵律和发音等)。接着,采用研究团队自主开发的能够同时处理文本和音频信息的多模态大语言模型进行综合分析,从而显著提升了自杀风险预测的准确性。
具体的系统流程如图1所示。系统包含音频和文本两个分支,音频分支中,使用语音模型提取声学特征;文本分支中,首先使用有15亿参数的Whisper-Large-v3语音识别大模型识别出语音对应的文本内容,然后利用文本模型提取文本特征。完成特征提取后,系统将语音和文本两种模态融合,用于自杀风险的检测。具体而言,研究尝试了具有70亿参数的百川2(Baichuan2-7B)和有70亿参数的千问1.5(Qwen1.5-7B)大语言模型(LLM)在文本模型方面的应用。
本研究尝试了两种不同的模型结构,如图2所示,分别是拼接融合(CC)和上下文融合(IC)。在拼接融合中,分别使用语音模型和文本模型进行特征提取,提取的特征经过时序池化后进行拼接,将拼接后的特征用于分类。在上下文融合中,使用Whisper-Large-v3模型得到语音特征后,将其通过一个全连接层映射到LLM的隐藏空间中,将其与文本embedding进行拼接,使用LLM解码器同时处理音频和文本embedding,后接分类层用于分类。
研究结果
研究结果显示,本研究提出的多模态大语言模型在自杀风险预测上表现出了较高的可靠性和准确性。模型的预测结果与临床访谈结果高度一致,证明了其在实际应用中的有效性。
表1中列出了不同模型和融合方式的在测试集上的自杀风险二分类结果,Whisper-Large-v3模型和Baichuan2-7B模型通过拼接融合达到了单系统的最佳结果。表2中列出了多个系统集成的结果,使用不同系统进行投票,可以得到的最高准确率为0.807、最高F1分数为0.846。
总结与展望
本研究通过采集参与者在任务设置下自发产生的语音数据,利用多模态大数据模型融合文本和音频信息,为精准预测自杀风险开辟了新的可能性。未来,研究团队将进一步扩展数据规模和应用场景,以进一步提升模型的泛化能力和普适性,推动多模态大语言模型在自杀风险预测中的应用。
本文原文来自CSDN