问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

百川智能最新医学大模型论文:用先进患者模拟器探索医疗"问诊-诊疗"关系

创作时间:
2025-03-12 15:56:20
作者:
@小白创作中心

百川智能最新医学大模型论文:用先进患者模拟器探索医疗"问诊-诊疗"关系

引用
1
来源
1.
https://www.bsia.org.cn/site/content/28720.html

在线医疗咨询(OMC)的兴起为患者提供了便捷的医疗服务,但同时也带来了新的挑战。如何在有限的询问机会内获取准确的诊断信息?百川智能最新发布的医学大模型论文,通过先进的患者模拟器,为我们揭示了"问诊-诊疗"关系的奥秘。

研究背景

在线医疗咨询(OMC)限制医生仅通过查询收集患者信息,这使得本已复杂的连续诊断决策过程更具挑战性。尽管大型语言模型(LLMs)在提高诊断准确性方面取得了显著进展,但大多数研究主要集中在信息充足条件下的诊断准确性,而忽略了咨询过程中的"询问"阶段。这种关注的缺失使得"询问"和"诊断"之间的关系没有得到充分的探索。

研究方法

这篇论文提出了一种基于真实医生-患者对话策略的患者模拟器,用于解决OMC中询问与诊断关系的问题。具体来说:

  1. 数据收集与预处理:首先,从MedDialog数据集中筛选出完整的初始咨询对话,并使用LLM对这些对话进行标注和标准化。然后,手动选择一组常用的对话策略标签,并使用GPT-4o扩展这些标签,形成候选对话策略标签集。

  2. 数据合成:由于可用的训练数据有限,采用上下文学习的方法合成医生-患者对话数据。具体步骤包括:随机选择一个医学记录和一个对话策略流,通过上下文学习生成符合该策略流的对话。

  1. 模型训练:使用Qwen2.5-72B-Instruct模型对患者模拟器进行有监督微调(SFT)。训练过程中,仅输入患者医学记录到一个简单的系统提示中,模型需要学习在没有对话策略标签的情况下预测适当的对话策略和内容。

  2. 评估指标:定义了三个评估指标:幻觉率(HR)、无关响应率(IRR)和拟人化评分(AS)。幻觉率指患者回答与医学记录矛盾的对话轮次比例;无关响应率指患者未回答医生问题的对话轮次比例;拟人化评分分析患者代理在对话中表现出的类人行为,如表达情感、主动提问和口语化程度。

实验设计

  1. 数据收集:使用MedDialog数据集作为原始数据,筛选出完整的初始咨询对话。

  2. 实验场景:设置OMC场景,医生和患者分别通过不同的模型进行固定轮数的交互,生成询问记录。诊断模型使用AgentClinic的MedQA-Extend提供的医学记录。

  3. 实验步骤:首先,使用不同的医生模型与患者模拟器交互生成询问记录;然后,使用不同的诊断模型对这些询问记录进行诊断,计算诊断准确性。

  4. 参数配置:设定询问轮数范围为1到5轮,诊断在第(n+1)轮进行。使用多种医生模型进行询问和诊断,具体模型包括GPT-4o、GPT-4o-mini、Claude-3-5-sonnet、o1-mini和o1-preview。

结果与分析

  1. 幻觉率(HR):患者模拟器在幻觉率方面显著优于所有基线模型,这可能是由于训练过程中包含了患者医学记录。

  2. 无关响应率(IRR):尽管我们的方法在IRR方面略高于基线模型,但仍显著低于AgentClinic的GPT-4模型。

  3. 拟人化评分(AS):我们的模型在拟人化评分方面显著优于所有基线模型,表明其能够成功模拟真实患者的对话策略。分析患者代理在整个对话过程中表现出的拟人行为,如情绪表达、主动提问以及回应中的口语化程度。GPT-4o会按0到1的等级打分,数值越接近1表示拟人化水平越高。

  4. 诊断准确性:实验结果表明,询问质量和诊断能力之间遵循勒宾定律:询问质量差会限制诊断的有效性,反之亦然。不同医生模型在询问和诊断能力上存在显著差异,某些模型在某些类型的询问上表现优异,而在其他类型上表现较差。

总体结论

这篇论文通过提取真实医生-患者对话策略,开发了一个高度逼真的患者模拟器。基于该模拟器,深入探讨了在线医疗咨询中询问与诊断的关系及其对诊断准确性的影响。实验结果表明,询问质量和诊断能力之间遵循勒宾定律,不同医生模型在询问和诊断能力上存在显著差异。未来的研究将进一步探索如何在有限的询问机会内有效分配询问,以提高在线医疗咨询的诊断准确性。

论文评价

  1. 优点与创新
  • 真实对话策略提取:从真实的医患对话中提取对话策略,并使用这些策略指导患者模拟器的训练,使其更接近真实世界的行为。
  • 合成数据生成:通过上下文学习技术合成医患对话数据,解决了训练数据有限的问题。
  • 多模型比较:对不同模型的询问过程和诊断能力进行了详细分析,揭示了各模型在询问策略上的显著差异。
  • Liebig定律验证:实验结果表明,询问质量和诊断能力之间遵循Liebig定律,即询问质量差会限制诊断的有效性,反之亦然。
  • 四类询问类型分类:将询问过程分为四类:主诉询问、已知症状的具体化、伴随症状的询问以及收集家族或病史。通过比较不同模型的分布和诊断准确性,揭示了各模型在询问策略上的具体差异。
  • 开源患者模拟器:计划开源患者模拟器的权重和相关代码,便于其他研究者使用和进一步研究。
  1. 不足与反思
  • 数据局限性:尽管通过上下文学习技术合成了数据,但可用训练数据的量仍然有限,缺乏相应的医疗记录。
  • 模型选择偏差:在实验中,某些模型(如o1-mini和o1-preview)由于其较强的推理能力,更适合用于诊断任务,但在询问任务中表现不佳。这表明在开发医疗AI模型时,如果单一模型在询问和诊断能力上都无法达到理想水平,可以考虑将任务分配给两个专门的模型。
  • 未来研究方向:未来的工作将进一步探索如何在有限的询问机会(通常为3到5轮)内有效分配询问,以提高诊断的准确性和效率。
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号