大模型在医疗隐私保护中的应用研究
大模型在医疗隐私保护中的应用研究
随着人工智能技术的快速发展,大模型在医疗领域的应用日益广泛,但随之而来的隐私保护问题也日益凸显。本文探讨了大模型在医疗领域隐私保护方面的最新研究进展,重点分析了一篇关于使用大模型进行会话数据隐私保护的论文,为相关领域的研究和实践提供了有价值的参考。
大模型隐私主要分为训练阶段、推理阶段以及用户与大模型交互过程中的隐私泄露,目前的研究重点在大模型训练阶段。传统隐私保护技术主要包括联邦学习、差分隐私、同态加密等,这些技术在大模型背景下的应用挑战不断加剧:(1)联邦学习应用于大模型中时更注重使用多个小模型来训练性能更强的大模型,对隐私的关注有所减少;(2)差分隐私应用于大模型中更加爱庞大的数据量和模型参数时,加剧了数据的可用性损失;(3)同态加密因其复杂度很难独立地应用于大模型全局的隐私保护,通常需要结合其他技术或应用于局部隐私保护。大模型的记忆能力带来的隐私泄露风险是大模型中特有的,缓解大模型的记忆能力对于隐私保护具有重要意义。除保护大模型本身的隐私问题以外,使用大模型用于隐私保护(比如AIGC for Privacy、用大模型覆盖数据隐私信息等)等工作也不断发展.
研究论文:使用大模型进行会话数据隐私保护
论文标题:Navigating Data Privacy and Analytics: The Role of Large Language Models in Masking conversational data in data platforms
这项工作利用LLM进行实时实体识别和替换,有效地屏蔽敏感信息,同时遵守隐私法规。这种方法特别适用于处理来自各种来源的会话数据的第三方分析提供商。利用LLM识别潜在的个人身份信息(PII)或敏感数据点,并用匿名占位符替换,保持数据的结构和上下文完整性。医疗保健场景展示了该方法在外部数据分析提供商的现实环境中的实际应用和效果。
方法
作者首先对数据建立基线,提取关键隐私指标(常见症状、患者情绪或医疗查询的趋势),用LLM掩盖敏感信息,确保仅更改数据的个人身份或敏感部分,数据的整体结构和本质保持不变,为实现在对话中保持历史背景(指向同一含义的不同token),方案中使用外部存储,将已识别的PII映射到其匿名对应项。最后对屏蔽数据集进行分析,旨在评估隐私保护后的数据效能是否与保护前相同。
实验
- 数据:使用ChatGPT3.5生成1000名病人与20名医生之间的约10,000行对话,涉及100种疾病
- 隐私信息处理:使用GPT-4 Turbo进行处理
- 实验结果:谈话中提到的所有姓名、电子邮件地址、医疗记录号码、电话号码、地址、疾病等都被完全屏蔽,但症状并没有被掩盖
- 屏蔽效果评估:通过比较屏蔽前后数据的分析结果,包括每个医生的患者数、诊断为特定疾病的患者数量、医生之间的疾病分布等指标
图1 生成的对话数据
图2 数据被处理前后每个医生的患者数比较
图3 数据被处理前后诊断为特定疾病的患者数量
缺点
- 实验在有限的数据集上进行,可扩展性不强
- 未开发参数调优,OpenAI提供了各种调优参数来微调模型,这些参数在实验中没有使用
- 确保跨对话的上下文一致性是一项复杂的任务,这对实现精确的分析一致性提出了挑战
- 在利用大型语言模型(LLM)进行数据屏蔽时,必须承认LLM方面潜在数据泄漏的固有风险。尽管LLM提供商保证数据安全,但数据泄漏的可能性仍然是一个值得注意的问题。
总结
这篇论文介绍了LLM用于隐私保护的新用途,通过智能制作的提示,为各个部门量身定制实时识别和掩盖PII。这种方法确保在数据传输到第三方之前删除敏感信息,同时保留数据的分析效用。进入门槛低,而且OpenAI等平台的api易于访问,这使得这种方法具备可行性,在医疗保健部门提出一个假设的案例研究和实验结果中证明了方法的有效性。
大模型用于隐私保护时,首先,大模型本身的隐私问题导致出现更复杂的隐私问题;其次,大模型用于隐私保护的能力本质上还是用户数据赋予的,因此需要有准确的定义与范畴。