问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

大语言模型LLMs在医学领域中的评估方法分析

创作时间:
作者:
@小白创作中心

大语言模型LLMs在医学领域中的评估方法分析

引用
CSDN
1.
https://m.blog.csdn.net/star_nwe/article/details/142815281

随着人工智能技术的快速发展,大型语言模型(Large Language Models, LLMs)在医疗领域的应用越来越广泛。然而,要确保LLMs能够在医学领域提供准确、可靠的医疗信息,其性能评估尤为重要。本文通过系统性地回顾2023年1-9月期间的LLMs评估研究,分析了这些研究所使用的方法,旨在为未来LLMs评估研究的设计提供参考依据。

一、背景与意义

随着人工智能技术的快速发展,大型语言模型(Large Language Models, LLMs)在各个领域的应用越来越广泛,尤其是在医疗领域。LLMs,如ChatGPT、Google Bard等,已经被证明能够在大量文本数据上进行训练,表现出在人类语言处理和生成方面的卓越能力。由于其强大的语言生成和理解能力,LLMs在客户服务、聊天机器人和教育等领域已有成功应用。近年来,LLMs在医学领域的应用也逐渐增加,特别是在医疗教育、临床决策支持和医学文献分析方面。然而,要确保LLMs能够在医学领域提供准确、可靠的医疗信息,其性能评估尤为重要。

现有文献显示,LLMs需要在人类水平的医学知识和推理评估中表现出色,才能赢得医疗工作者的信任。然而,虽然已有一些关于LLMs的性能评估研究,但目前仍缺乏一个系统性的、针对医学领域LLMs评估的框架。为了填补这一空白,本研究通过回顾现有LLMs在医学领域的评估研究,分析这些研究所使用的方法,旨在为未来LLMs评估研究的设计提供参考依据。

二、方法

本研究采用范围综述(Scoping Review)的方法,系统性地回顾了现有的LLMs评估研究。综述按照PRISMA扩展指南(PRISMA-ScR)进行,研究的时间范围为2023年1月1日至2023年9月30日,涵盖了PubMed、EMBASE和MEDLINE三个数据库。搜索关键词包括“"Large Language Model*”、“evaluation, assessment, performance, and comparison”等,以及商业化LLMs工具如ChatGPT、Google Bard和微软的Bing Chat。由于LLMs术语在2023年才开始被广泛使用,研究中特意未使用MeSH术语,以便反映最新的研究趋势。

纳入和排除标准为文章必须是英文且聚焦于医学领域LLMs的评估。排除的文章类型包括会议摘要、社论、评论、研究信函、致编辑信以及意见信,牙科和药学领域的文献也不在本次综述的讨论范围内。最终共有142篇文章符合筛选标准,纳入了研究分析。

数据提取和分析过程中,研究总结了关于LLMs评估方法、所用模型及其在不同医学领域的应用情况。针对基于测试的评估方法,分析了问题的数量、重复测量、提示工程(例如少样本学习和角色设定)、附加分析(如问题难度)和主要结果。对于医学专业人员的评估,分析了查询数量、重复测量、评估者人数、提示工程、评估工具和来源、评估项目及其使用的尺度。

三、结果

1. 文献特征

在142篇符合条件的文献中,LLMs的评估主要分为两类:基于测试的评估(53篇,37.3%)和由医学专业人员进行的评估(80篇,56.3%)。还有少数研究采用了混合评估方法(9篇,6.3%),其中一些文章结合了测试和专家评估(4篇,2.8%)。

2. LLMs的模型使用情况

在研究中共使用了218个LLM模型,其中最常用的是OpenAI的GPT-3.5(114个,52.3%),其次是GPT-4(66个,30.1%)。Google的Bard(15个,6.9%)和微软的Bing Chat(12个,5.5%)也是常用的模型。一些研究者还通过微调模型开发了自己的模型(3个,1.4%)。

3. 医学领域的应用

LLMs在多个医学领域进行了应用,其中内科是最常见的应用领域(23篇,16.2%),其次是放射学(16篇,11.3%)和眼科(15篇,10.6%)。此外,还有一些研究未具体归属到某个医学专业(19篇,13.4%),主要是通过考试来验证LLMs的表现。

4. 基于测试的评估

对于基于测试的评估方法,大多数研究使用了少于100道题目(18篇,29.0%),有一些研究使用了200-300道题目(14篇,22.6%),而仅有少数研究使用了500道题目或以上(11篇,17.7%)。关于重复测量,约四分之三的研究没有进行重复测量(47篇,75.8%),而部分研究进行了2到4次重复测量。仅有少数研究(8篇,12.9%)使用了提示工程来优化LLMs的表现,主要通过角色设定或少样本学习的方式进行。

5. 医学专家评估

对于由医学专家进行的评估,54篇研究(64.3%)使用了50道或更少的查询问题。大多数研究中,评估者的数量为2人(43篇,48.3%),评估内容涵盖了准确性、信息质量、完整性和可复现性等方面。此外,14篇研究(14.7%)也使用了提示工程来改进LLMs的表现。

6. 提示工程的重要性

研究表明,提示工程(prompt engineering)对LLMs的表现有显著影响。LLMs的响应可以因提示的不同而大相径庭,因此,在设计提示时需要非常精确。未来的研究建议应提供提示的补充材料,以确保后续研究能够复现结果。

7. 可重复性的重要性

可重复性是评估LLMs性能的关键。一些研究通过多次测量来确保结果的稳定性,而LLMs的可重复性在90-100%之间。这说明尽管模型生成的结果可能在一定范围内有所不同,但仍需更多的重复测量来增强其可信度。

四、结论

本研究系统回顾了当前医学领域中LLMs的评估方法,发现LLMs在医学教育、临床决策支持和诊断中的应用潜力巨大。通过基于测试和医学专业人员的双重评估方式,LLMs在多个医学专业的应用得到了验证。然而,由于医学领域对准确性要求极高,因此在广泛应用LLMs之前,还需要进一步的评估以确保其提供的信息安全、准确和可信。

研究建议未来在LLMs评估中应采用系统的提示工程方法,并注重评估结果的可重复性。此外,未来的研究应该设计一个框架,用于系统性地评估LLMs在医学中的表现,特别是针对其推理过程和对复杂医学问题的应对能力。通过这样的框架,LLMs有望为医疗行业带来显著的改进,并帮助解决当前医疗工作中的一些关键挑战。

本文原文来自CSDN

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号