AIPatient：基于EHR和知识增强大模型智能体工作流的模拟患者

创作时间:

作者:

@小白创作中心

AIPatient：基于EHR和知识增强大模型智能体工作流的模拟患者

引用

CSDN

https://blog.csdn.net/z551646/article/details/144904940

AIPatient是一个基于电子健康记录（EHR）和知识增强大模型的智能体工作流的模拟患者系统。该系统由来自密歇根、斯坦福、哈佛医学院、康奈尔、山大、港大、医科院、北大六院等机构的研究人员共同开发。通过构建AIPatient知识图谱（AIPatient KG）和推理检索增强生成（Reasoning RAG）代理工作流程，该系统在医学问答（QA）中达到了94.15%的整体准确率，同时具有高可读性、稳健性和稳定性。

核心速览

研究背景

研究问题：如何利用大型语言模型（LLM）和电子健康记录（EHR）数据，开发一个先进的模拟病人系统（AlPatient），以高保真度和低成本复制医疗条件和医患互动。
研究难点：确保系统的有效性和可信度，需要大规模、多样化和精确的患者知识库，以及稳健且稳定的知识传播机制。
相关工作：现有模拟病人系统主要集中在基于事实的准确性和基于评分者一致性的评估方法，缺乏对情感共鸣和人际关系方面的评估。

研究方法

知识图谱构建：从MIMIC-III数据库中抽取1500名患者的记录，构建AlPatient知识图谱（AIPatient KG）。使用命名实体识别（NER）方法从出院小结中提取患者的症状、病史、过敏史、社会史和家庭史等信息，并将这些信息存储在Neo4j图数据库中。
推理检索增强生成（Reasoning RAG）代理工作流程：AlPatient系统采用推理检索增强生成（Reasoning RAG）代理工作流程，包括三个关键阶段：检索、推理和生成。

检索阶段：检索代理从AIPatient KG中选择与自然语言查询相关的节点和边。
推理阶段：推理代理包括抽象代理和检查代理。抽象代理将复杂的用户查询简化为更通用的高层问题，检查代理则决定是否批准检索到的信息与查询一致。
生成阶段：生成代理包括重写代理和总结代理。重写代理将技术性的KG查询结果转换为更易理解的自然语言格式，总结代理则整合重写结果和对话历史，更新对话历史。

实验设计

数据收集：从MIMIC-III数据库中抽取1500名患者的记录，包含超过40,000次住院记录。数据使用获得了PhysioNet临床数据库的授权。
样本选择：采用分层抽样方法，根据主要诊断类别对患者记录进行抽样，确保样本代表MIMIC-III中的主要诊断类别。
参数配置：在评估LLM的性能时，使用Azure OpenAI服务的GPT系列模型和Amazon Bedrock的Claude系列模型。设计了多个提示工程策略，包括角色规范、少样本学习和XML样式标签，以优化系统性能。

结果与分析

知识图谱统计：AIPatient KG包含1500个患者入院记录，共有15,441个节点和26,882条边。
LLM选择与知识图谱有效性（NER）评估：在知识图谱有效性评估中，GPT-4 Turbo模型的整体F1得分最高，为0.89。具体来说，GPT-4 Turbo模型在过敏史类别的F1得分为1.00，表现最佳。
问答准确性评估：通过消融研究评估了不同设置下的问答准确性。所有设置中使用所有代理和少样本学习的设置在大多数类别中达到了最高的准确性，整体准确率为94.15%。
可读性评估：Flesch阅读易度的中位数得分为68.77，Flesch-Kincaid年级水平的中位数为6.4，表明输出易于理解。
系统鲁棒性评估：方差分析结果显示，问答对话的变体对系统响应准确性没有显著影响，整体F值为0.6126，p值为0.5420。
稳定性评估：32种人格类型的方差分析结果显示，人格变体对系统性能没有显著影响，整体F值为0.7820，p值为0.7990。

总体结论

AIPatient系统通过LLM驱动的推理检索增强生成（Reasoning RAG）代理工作流程和可靠的AlPatient知识图谱（AIPatient KG），提供了一种高效且可信的医疗调查支持方式。该系统在医学教育和研究中具有广泛的应用潜力。

论文评价

优点与创新

先进的模拟病人系统：AlPatient系统利用LLM驱动的推理检索增强生成（Reasoning RAG）代理工作流程和可靠的AlPatient知识图谱（AIPatient KG），提供了一种高效且可信的医疗调查支持方式。
复杂的推理能力：通过LLM代理的交互作用，系统能够进行复杂的推理，并通过命名实体识别（NER）准确处理患者信息。
高准确率：系统在基于EHR的医学问答（QA）中达到了94.15%的整体准确率，超过了不使用代理或仅使用部分代理集成的基准。
高可读性：系统的输出具有高可读性，中位数Flesch阅读易度为77.23，中位数Flesch-Kincaid年级水平为5.6。
鲁棒性和稳定性：系统表现出高鲁棒性（ANOVA F-值为0.6126，p>0.1）和高稳定性（ANOVA F-值为0.782，p>0.1）。
多代理框架：Reasoning RAG框架扩展了传统的RAG策略，通过逐步和交互式的代理指令、少样本示例、反馈循环和对话历史更新来优化系统性能。
大规模NER处理：AIPatient KG原型展示了基于大规模NER的EHR处理方法，也使得LLM的选择适用于下游任务。
综合评估指南：从系统评估策略的角度，本文进一步贡献了对医疗NLP系统的综合评估指南，特别是对于基于EHR和LLM的多代理系统。

不足与反思

用户体验改进：尽管当前系统受益于Reasoning RAG框架和多代理工作流程，但进一步的增强可以改善用户体验。例如，开发并集成一个自动评估代理以在医疗调查中提供帮助评分和反馈的功能。
数据集多样性：当前实现的AIPatient KG主要依赖于MIMIC-III数据集的出院小结，这限制了场景的多样性，包括门诊、住院和长期护理环境。扩展数据库以包括这些额外领域的EHR将增强患者病例的多样性。
处理速度优化：当前系统由于需要多个代理顺序通过API调用操作，导致模拟过程等待时间较长。正在探索本地微调LLM或小型语言模型（SLM）以减少对外部API调用的依赖，从而提高交互速度和系统整体用户体验。
多模态集成：当前系统仅使用文本数据，而多模态大型语言模型（MLLMs）的出现开启了新的可能性。未来的迭代可以将医疗图像如ECG、X光、MRI和CT扫描整合到系统中，提供更丰富和更全面的患者模拟体验。
用户反馈：未来研究应探索受训者、医生和患者对生成式AI系统在临床教育和实践中实施的舒适度和担忧，确保系统与所有利益相关者的期望和舒适度保持一致。

关键问题及回答

问题1：AlPatient系统在构建知识图谱时，使用了哪些具体的数据源和抽取方法？

AlPatient系统在构建知识图谱时，使用了MIMIC-III数据库中的1500名患者的记录。具体的数据源包括患者信息表、入院信息表和生命体征表中的结构化数据，以及出院小结中的非结构化数据。使用命名实体识别（NER）方法从出院小结中提取患者的症状、病史、过敏史、社会史和家庭史等信息。这些信息被存储在Neo4j图数据库中，以便于高效地进行存储、检索和查询复杂的关系。