探索AI医疗:GPT-3.5与GPT-4.0的疾病问答实力对比
探索AI医疗:GPT-3.5与GPT-4.0的疾病问答实力对比
随着人工智能技术的不断发展,AI在医疗领域的应用也日益广泛。本文基于一篇发表在Journal of Translational Medicine上的研究,详细对比了GPT-3.5和GPT-4.0在回答急性胰腺炎相关问题时的表现。研究结果显示,ChatGPT-4.0在处理主观问题时表现更优,但在涉及复杂临床特征的问题上仍存在挑战。
近年来,急性胰腺炎(AP)的发病率明显上升,这已经成为了一个备受关注的公共健康问题。每年每10万人中大约会有34例急性胰腺炎病例。随着人口老龄化加剧,这种疾病给整体医疗负担带来了更大压力。为了让人们更了解AP,现在有很多研究在探索使用人工智能(AI)来传播相关信息的可能性。OpenAI开发的ChatGPT自2022年11月30日发布以来,引起了广泛关注。这项研究旨在评估和比较ChatGPT-3.5和ChatGPT-4.0在解答有关急性胰腺炎的问题时的表现,使用了主观和客观的评估方法。
研究方法
问题选择
使用了18个主观测试问题,分别来自亚特兰大AP分类共识和美国肠胃病协会(AGA)指南。此外,还从中国专业医师测试数据库中选择了73个测试次数最多的客观问题,并将其分为4个亚类。
问题主要分为以下几个大类:
- 疾病基础知识
- 疾病的诊断标准
- 治疗方法及疾病管理
- 发病原因及预防
- 其他相关问题
测试时间
在2024年2月1日和2024年2月8日分别进行了两次测试。
测试流程
- 将这些主观和客观问题分别提交给ChatGPT-3.5和ChatGPT-4.0。
- 对于主观问题,两位独立评审者使用5点Likert量表对ChatGPT的回答进行评分。如果评审者之间存在分歧,由第三位作者进行仲裁。
结果分析
使用卡方检验和Mann-Whitney U检验对回答的准确性进行分析,P值<0.05被认为具有统计学显著性。
研究结果
主观问题
ChatGPT-3.5在回答主观问题时的准确率为80%,而ChatGPT-4.0的准确率则达到了94%。
客观问题
在客观问题方面,ChatGPT-4.0的准确率为78.1%,明显高于ChatGPT-3.5的68.5%。
一致性
在所有测试问题中,ChatGPT-3.5和ChatGPT-4.0的总体一致率分别为80.8%和83.6%。
字数统计
ChatGPT-3.5平均回答问题的字数为218.5字,而ChatGPT-4.0则为246.0字。
(A)ChatGPT-4.0、ChatGPT-3.5与考生在AP测试客观题上的准确率比较;(B)ChatGPT-4.0、ChatGPT-3.5在AP试验客观题上的一致性比较
ChatGPT 3.5、ChatGPT 4.0 和医学院考生在急性胰腺炎测试问题和不同子领域的表现
结论总结
研究表明,ChatGPT-4.0在处理急性胰腺炎相关测试问题时表现优于ChatGPT-3.5,特别是在回答主观问题时表现突出。然而,ChatGPT在回答涉及临床特征的问题时准确率较低,可能是因为这些问题的复杂性和多样性所致。尽管如此,ChatGPT在提供广泛信息方面具有优势,但在提供最佳治疗管理策略和基于最新证据调整治疗计划方面仍有改进空间。
个人总结
本研究的创新之处在于系统性地比较了ChatGPT的两个版本在提供临床医学信息方面的表现,深入分析了它们在不同类型问题上的优势和限制。研究结果揭示了ChatGPT-4.0在回答主观问题方面表现优越的特点,同时也指出了ChatGPT在处理涉及复杂临床特征的问题时的挑战。这些发现为未来将人工智能应用于医疗领域提供了宝贵的见解和指导,有助于优化AI系统在提供最新、最有效医疗信息和个性化治疗建议方面的表现。