问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

如何使用大模型进行数据分类分级

创作时间:
作者:
@小白创作中心

如何使用大模型进行数据分类分级

引用
安全内参
1.
https://www.secrss.com/articles/72772

数据分级分类是数据治理和数据安全的基础性工作。随着大模型的出现,数据分类分级的效率和准确率得到了显著提升。本文将从大模型能力、Prompt优化、指令微调等多个维度,详细介绍如何使用大模型进行数据分类分级。

大模型的能力

大模型类似于人脑,具备强大的逻辑分析能力,可以直接用于数据分类。例如,可以要求大模型直接输出JSON格式,便于后续代码解析:

{
  "患者基本信息": {
    "姓名": "张三",
    "性别": "男",
    "年龄": "35岁",
    "联系方式": "13812345678"
  },
  "就医信息": {
    "入院日期": "2024年11月15日",
    "入院原因": "肺炎"
  },
  "医疗信息": {
    "诊断结果": "双侧肺炎",
    "治疗方案": "抗生素治疗"
  },
  "状态信息": {
    "病情状态": "稳定"
  }
}

Prompt增强

虽然大模型能够进行基本的数据分类,但要达到商用标准,还需要明确分类标准。可以通过增强Prompt,将具体的分类标准直接告知大模型。例如:

请你按照以下标准对医疗数据进行分类:
1. 患者基本信息:包括姓名、性别、年龄等
2. 就医信息:包括入院日期、入院原因等
3. 医疗信息:包括诊断结果、治疗方案等
4. 状态信息:包括病情状态等

指令微调

实际应用中,数据分类往往需要遵循各种国家标准、行业标准或企业自定义标准。这些标准可能非常复杂,难以通过简单的Prompt描述。此时,可以采用指令微调的方法。微调数据集通常包含输入、输出和指令三部分:

training_data = [
  {
    "instruction": "判断以下医疗文本的科室分类",
    "input": "患者出现头痛、恶心、视物模糊等症状",
    "output": "神经内科"
  },
  # 更多训练样本...
]

微调后的模型可以大幅简化Prompt,提高分类准确率。

更复杂的形式

在实际应用中,数据分类往往需要结合多种方法。一个典型的框架包括以下步骤:

  1. 从数据源收集数据以建立领域数据库
  2. 将特定领域的数据发送到预先训练的LLM模型(如GPT-4、Llama-3等)
  3. 使用领域特定数据进行微调或小样本学习
  4. 将微调或小样本学习应用于预训练的LLM模型
  5. (可选)利用领域知识专家设置提示以提高LLM性能
  6. 在预训练模型中应用提示
  7. 评估整个专家系统的性能
  8. 非专家用户通过用户界面向专家系统查询任务
  9. LLM API与用户界面和预训练的LLM模型交互,为用户界面提供建议

大模型用于分类的实际效果

安全公司提供的流程图和效果图显示,使用大模型进行数据分类的效果非常好,且效率大幅提升。

总结

基于大模型开发数据分类系统,相比传统方法具有显著优势:

  • 流程简化:以前复杂的分类流程被简化为直接调用大模型
  • 代码量减少:基于大模型的分类代码仅需几十行
  • 效率提升:大幅提升了数据分类的效率和准确率

这标志着软件世界正在发生剧变,大模型正在重塑数据处理的方式。

参考文献:

  1. GitHub示例代码:https://github.com/jeffheaton/app_generative_ai/blob/main/t81_559_class_03_4_classification.ipynb
  2. 相关论文:https://arxiv.org/html/2405.10523v1
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号