问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

高效持续预训练:GPT4 水平的 8B 医疗大模型,解决微调收敛不稳定

创作时间:
作者:
@小白创作中心

高效持续预训练:GPT4 水平的 8B 医疗大模型,解决微调收敛不稳定

引用
CSDN
1.
https://blog.csdn.net/qq_41739364/article/details/141389469

在医疗大模型的持续预训练过程中,常常会出现性能波动和不稳定的问题。为了解决这一挑战,研究者提出了一种"高效持续预训练"方法,通过三个策略来缓解"稳定性差距"问题,不仅提升了模型在医疗领域的性能,还保持了其通用能力。

提出背景

当大型语言模型(LLMs)适应新领域语料库时,通常会经历一个性能先下降后恢复的过程,这导致了预训练效率低下、领域性能提升缓慢以及通用任务知识的潜在丢失。为了解决这一问题,研究者提出了"高效持续预训练"方法,通过三个策略来缓解这一问题,从而实现更快速、高效地提升模型在新领域(如医疗领域)的性能,同时保持其通用能力。

传统方法需要收集大量医学文献和数据(比如50亿个词),并直接用这些数据对模型进行一轮完整的训练。这种方法不仅训练时间长(假设需要1个月),而且性能变化不稳定,最终医学能力提升效率不高,通用能力可能有所下降。

而"高效持续预训练"方法则采取了更智能的策略:从50亿个词中精选出5亿个高质量的医学词汇,用这5亿词进行多轮训练(比如4轮),并在训练过程中混合一些原始的通用数据。这种方法不仅将训练时间缩短至约12天(原来的40%),而且性能几乎没有明显下降,持续提升。最终,模型在医学任务上的表现从36.2%提升到40.7%,训练时间和资源消耗减少了60%,同时保持了通用能力。

性能表现

研究结果显示,采用"高效持续预训练"方法的Llama-3-Physician-8B-instruct模型在医疗问答任务上明显优于其他同尺寸的开源模型,并且超过了闭源的GPT-3.5-turbo模型;平均医疗问答任务表现也接近GPT-4。此外,该模型在医疗分类、关系抽取、推理和总结任务上都取得了优异表现,且明显超过GPT-4表现。

创新策略

研究者提出了三个关键策略来实现"高效持续预训练":

  1. 对数据子集进行多轮次预训练:通过重复学习关键知识来加深模型理解。
  2. 在高质量子语料上预训练:精选高质量数据以提高学习效率和效果。
  3. 使用类似于预训练数据的混合比例:保持模型原有的通用知识。

这些策略的组合使用,不仅提高了模型在新领域的适应能力,还保持了其原有的通用能力。

创新点

研究者还提出了多个创新方向,包括动态数据筛选系统、基于案例的学习系统、错误分析和学习系统、情感感知模块等。这些创新点不仅在各自的维度上表现出色,而且能够互相补充,共同构建一个更全面、高效、人性化的医疗AI系统。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号