资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

如何使用大模型进行数据分类分级

创作时间:

作者:

@小白创作中心

如何使用大模型进行数据分类分级

引用

安全内参

https://www.secrss.com/articles/72772

数据分级分类是数据治理和数据安全的基础性工作。随着大模型的出现，数据分类分级的效率和准确率得到了显著提升。本文将从大模型能力、Prompt优化、指令微调等多个维度，详细介绍如何使用大模型进行数据分类分级。

大模型的能力

大模型类似于人脑，具备强大的逻辑分析能力，可以直接用于数据分类。例如，可以要求大模型直接输出JSON格式，便于后续代码解析：

{
  "患者基本信息": {
    "姓名": "张三",
    "性别": "男",
    "年龄": "35岁",
    "联系方式": "13812345678"
  },
  "就医信息": {
    "入院日期": "2024年11月15日",
    "入院原因": "肺炎"
  },
  "医疗信息": {
    "诊断结果": "双侧肺炎",
    "治疗方案": "抗生素治疗"
  },
  "状态信息": {
    "病情状态": "稳定"
  }
}

Prompt增强

虽然大模型能够进行基本的数据分类，但要达到商用标准，还需要明确分类标准。可以通过增强Prompt，将具体的分类标准直接告知大模型。例如：

请你按照以下标准对医疗数据进行分类：
1. 患者基本信息：包括姓名、性别、年龄等
2. 就医信息：包括入院日期、入院原因等
3. 医疗信息：包括诊断结果、治疗方案等
4. 状态信息：包括病情状态等

指令微调

实际应用中，数据分类往往需要遵循各种国家标准、行业标准或企业自定义标准。这些标准可能非常复杂，难以通过简单的Prompt描述。此时，可以采用指令微调的方法。微调数据集通常包含输入、输出和指令三部分：

training_data = [
  {
    "instruction": "判断以下医疗文本的科室分类",
    "input": "患者出现头痛、恶心、视物模糊等症状",
    "output": "神经内科"
  },
  # 更多训练样本...
]

微调后的模型可以大幅简化Prompt，提高分类准确率。

更复杂的形式

在实际应用中，数据分类往往需要结合多种方法。一个典型的框架包括以下步骤：

从数据源收集数据以建立领域数据库
将特定领域的数据发送到预先训练的LLM模型（如GPT-4、Llama-3等）
使用领域特定数据进行微调或小样本学习
将微调或小样本学习应用于预训练的LLM模型
（可选）利用领域知识专家设置提示以提高LLM性能
在预训练模型中应用提示
评估整个专家系统的性能
非专家用户通过用户界面向专家系统查询任务
LLM API与用户界面和预训练的LLM模型交互，为用户界面提供建议

大模型用于分类的实际效果

安全公司提供的流程图和效果图显示，使用大模型进行数据分类的效果非常好，且效率大幅提升。

总结

基于大模型开发数据分类系统，相比传统方法具有显著优势：

流程简化：以前复杂的分类流程被简化为直接调用大模型
代码量减少：基于大模型的分类代码仅需几十行
效率提升：大幅提升了数据分类的效率和准确率

这标志着软件世界正在发生剧变，大模型正在重塑数据处理的方式。

参考文献：

GitHub示例代码：https://github.com/jeffheaton/app_generative_ai/blob/main/t81_559_class_03_4_classification.ipynb
相关论文：https://arxiv.org/html/2405.10523v1

热门推荐

扒鸡、烧鸡、卤鸡、熏鸡、白斩鸡、口水鸡：六种经典鸡肴的制作方法与特点

如何给小猫进行日常清洁？

院子排水怎么做

INFJ提倡者人格深度解析：全球最稀有人格的特质与优势

BNC接头的技术原理与应用场景解析

推动自动驾驶安全标准化我国发布首个汽车智能安全评价体系

北京BJ30车性能如何？北京BJ30车友深度测评

绽放人生，价值在于深度与广度的交融

张三和李四的纠纷：法律视角下的案件分析与解决路径

颈椎腰椎不好怎么锻炼身体

失眠恐惧症的自我治疗方法

蛭石大家族：蛭石、膨胀蛭石、蛭石片、蛭石粉的区别

掌握ping命令，轻松检测网络状态与连接质量的方法解析

脚踝肿痛难耐，可以吃镇痛药吗？

如何照顾刚到家的小狗（宠物新手必看的小狗护理指南）

杨振宁与李政道“三起三落”的友情

从原始文明到数字文明，科技如何塑造文明？

陈皮怎么煮止咳化痰效果好

浙大实验室惊现：灵芝菌粉竟能激活 T 细胞，抗癌新路径诞生！