资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

使用大语言模型（LLMs）进行文本分类

创作时间:

作者:

@小白创作中心

使用大语言模型（LLMs）进行文本分类

引用

CSDN

https://blog.csdn.net/llm_way/article/details/144205224

随着大语言模型（LLMs）的快速发展，其在自然语言处理领域的应用越来越广泛。本文通过实证研究，探讨了LLMs在文本分类任务中的表现，并将其与传统机器学习模型进行了对比。研究发现，虽然LLMs在准确性上接近传统模型，但成本和延迟问题可能成为制约其使用的重要因素。

文本分类作为自然语言处理领域的重要任务之一，在众多领域都有着广泛的应用。从垃圾邮件检测到情感分析，再到支持工单路由等，准确的文本分类能够为决策提供关键支持，提升信息处理效率。近年来，大语言模型（LLMs）的发展引起了广泛关注，其在多种自然语言处理任务中展现出了强大的能力。然而，在文本分类任务中，LLMs 是否能够取代传统的机器学习模型，以及如何有效地利用 LLMs 进行文本分类，仍然是值得深入研究的问题。

一、LLMs文本分类实验设置

（一）数据集选择

为了评估 LLMs 在文本分类中的表现，需要合适的数据集。最初考虑使用 “20 Newsgroups” 数据集，但由于其已被所有最先进的 LLMs 所熟悉，可能无法客观评估模型性能。因此，采用了从印度快报收集的包含 10,000 篇文章的数据集，这些文章发表于今年早些时候，涵盖商业、教育、娱乐、体育和技术五个类别，每个类别有 2,000 条记录。文章长度从 101 到 15,677 个字符不等，中位数长度为 865 个字符。

（二）实验步骤

数据分割：将数据集划分为训练集和测试集，为后续模型训练和评估做准备。
文本嵌入：使用 “distiluse-base-multilingual-cased-v2” 模型（来自 Sentence-transformer 库）将训练集和测试集中的文章转换为数值表示，该模型具有 512 维嵌入维度。
训练机器学习模型：利用嵌入后的训练数据训练传统机器学习模型，这里选用 XGBoost 模型，并通过 FLAML AutoML 进行自动化机器学习和超参数调优，配置时间预算为 900 秒（15 分钟），优化指标为准确率，指定估计器为 XGBoost。
LLMs 预测：使用 GPT - 4o 和 GPT - 4o-mini 这两个 LLMs 对测试集中的每篇文章进行分类预测。在查询 LLMs 时，采用少样本提示（few-shot prompting）方法，在系统提示中描述任务为文本分类，并提供五个不同类别的示例。同时，为应对 LLMs 可能不精确遵循指令的问题，引入了简单的后处理步骤，将符合格式的答案转换为数值标签，不符合的标记为未分类。然而，Azure 的内容过滤器会过滤部分 “不适当” 内容，导致部分测试数据记录无法使用，在评估中需将这些记录省略。
模型评估与比较：运行训练好的 XGBoost 模型在嵌入后的测试数据上进行预测，将其结果与 LLMs 的预测结果进行评估和比较。此外，还让 LLMs 预测训练数据集的标签，并使用这些标签训练第二个 XGBoost 模型，进一步比较不同模型的性能。

（三）模型选择

嵌入模型：“distiluse-base-multilingual-cased-v2” 模型用于创建文本的数值表示，其多语言特性和合适的嵌入维度使其适用于本次实验中的文本分类任务。
LLMs：选用 GPT - 4o（2024 - 08 - 06 版本）和 GPT - 4o-mini（2024 - 07 - 18 版本），两者均来自 Azure，且知识截止到 2023 年 10 月，对实验数据集没有先验知识，能够较为公平地评估 LLMs 在新数据集上的文本分类能力。
传统机器学习模型基线：以 XGBoost 作为传统机器学习模型的代表，通过 FLAML AutoML 进行训练和优化，为与 LLMs 的比较提供基准。

三、实验结果分析

（一）准确性比较

实验结果表明，传统的 XGBoost 分类器表现出色，准确率达到 0.98。GPT - 4o 和 GPT - 4o-mini 这两个 LLMs 也取得了不错的成绩，准确率分别为 0.96 和 0.93，与 XGBoost 相比差距并不十分显著。同时，使用 GPT - 4o-mini 预测标签训练的 XGBoost 模型准确率也达到了 0.93，进一步说明 LLMs 在生成训练数据标签方面具有一定的有效性。尽管 LLMs 在准确性上接近传统模型，但要超越 XGBoost 这样高准确率的模型仍然具有挑战性。

（二）成本分析

OpenAI 和 Azure 根据输入和输出令牌数量收费，由于响应通常只需单个令牌，重点关注输入令牌。考虑到少样本示例，预测测试集所需的提示总共需要 4,648,530 个令牌。使用 GPT - 4o 预测测试集的成本为 10.76 欧元，使用 GPT - 4o-mini 的成本为 0.65 欧元。对于预测训练集，成本也因模型而异（如 GPT - 4o 为 43.08 欧元，GPT - 4o-mini 为 2.59 欧元）。可以看出，使用 LLMs 进行文本分类会产生不可忽视的成本，尤其是在大规模应用场景下，成本因素可能成为制约其使用的重要因素。

（三）延迟比较

调用 Azure API 进行 LLMs 预测的速度明显慢于本地 XGBoost 模型。单个预测调用 API 平均需要约 300 毫秒（两个 LLM 模型均如此），而 XGBoost 模型（包括嵌入过程）仅需 50 毫秒（在配备 M1 芯片的 MacBook 上测试）。较高的延迟可能影响实时性要求较高的文本分类应用，降低系统的响应效率。

四、使用 LLMs 进行文本分类的优势

（一）无需任务特定训练

LLMs 的一个显著优势是在进行文本分类时不需要针对特定任务进行训练。它们在大规模语料库上的预训练使其具备了广泛的语言理解能力，能够直接应用于文本分类任务，节省了大量的训练时间和资源。对于一些缺乏大量标注数据或训练资源有限的场景，这一特性尤为重要。

（二）减少标注数据需求

传统机器学习模型通常需要大量的标注数据来训练出准确的分类器，而 LLMs 可以利用其预训练知识，在较少的标注数据情况下仍能取得相对较好的分类效果。这在标注数据获取成本高或困难的领域（如某些专业领域或新兴领域）具有很大的优势，能够加快项目的开发进度，降低数据标注成本。

（三）模型通用性

LLMs 不仅可以用于文本分类，还可以在多种自然语言处理任务中发挥作用，如问答系统、文本生成、摘要提取等。使用 LLMs 进行文本分类意味着可以在一个模型框架内实现多种自然语言处理功能，无需为不同任务切换不同的模型，简化了系统架构，提高了模型的复用性和可扩展性。

五、使用 LLMs 进行文本分类面临的挑战

（一）准确性仍有提升空间

尽管 LLMs 在文本分类任务中取得了不错的成绩，但与一些精心调优的传统机器学习模型相比，其准确性仍有待进一步提高。在对结果准确性要求极高的应用场景中（如医疗诊断、金融风险评估等），目前 LLMs 可能无法完全满足需求，需要探索更有效的方法来提升其分类准确性。

（二）成本高昂

如前文所述，使用 LLMs 进行文本分类涉及到较高的成本，特别是对于大规模数据和频繁的 API 调用。这使得在一些预算有限的项目或应用中，使用 LLMs 可能不具备经济可行性。此外，成本的不确定性（模型价格可能随时间变化）也增加了长期规划和成本控制的难度。

（三）延迟问题

较高的延迟会影响系统的实时性能，在一些对响应速度要求较高的场景（如实时聊天机器人、实时新闻分类等）中，LLMs 的延迟可能导致用户体验下降。虽然可以通过优化 API 调用方式或采用异步处理等技术来一定程度缓解延迟问题，但这需要额外的开发和部署成本，并且无法从根本上解决 LLMs 本身的处理速度问题。

（四）缺乏置信度分数

LLMs 在进行文本分类时通常无法提供置信度分数，这在实际应用中是一个重要的缺失。置信度分数不仅有助于评估模型预测的可靠性，还在决策过程中起着关键作用。例如，在多分类任务中，根据置信度分数可以选择最可靠的分类结果，或者在不确定时采取进一步的验证措施。缺乏置信度分数可能导致在一些关键应用中无法准确评估模型输出的可信度，增加决策风险。

（五）内容过滤问题

Azure 等平台的内容过滤机制虽然有助于维护道德和法律规范，但在文本分类任务中可能会带来一些麻烦。由于其过滤规则的敏感性，部分正常但可能被误判为 “不适当” 的内容会被过滤，导致数据丢失或评估不准确。而且，用户通常无法调整内容过滤器的设置，这限制了对某些特定内容的处理能力，影响了实验和应用的完整性。

使用 LLMs 进行文本分类在模型性能方面具有一定的竞争力，其无需任务特定训练和减少标注数据需求等优势使其在某些场景下具有独特的价值。然而，LLMs 也面临着准确性有待提高、成本高昂、延迟较大、缺乏置信度分数以及内容过滤等问题。在当前阶段，LLMs 不太可能在短期内完全取代传统的机器学习模型用于文本分类任务。相反，将 LLMs 与传统模型相结合的方法更具前景，能够充分发挥两者的优势，克服各自的局限性。随着技术的不断演进，我们期待 LLMs 在文本分类领域能够取得更大的突破，为自然语言处理技术的发展带来更多的可能性。

本文原文来自CSDN