问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

训练大型语言模型的成本是多少?LLM 训练成本分析

创作时间:
作者:
@小白创作中心

训练大型语言模型的成本是多少?LLM 训练成本分析

引用
1
来源
1.
https://www.jaeaiot.com/news/detail/325.html

大型语言模型(LLM)的训练成本一直是AI领域关注的焦点。从硬件投入、计算时间到数据管理,训练一个高质量的LLM需要巨额的资金支持。本文将从多个维度分析LLM的训练成本,并提供具体的优化策略,帮助读者全面了解这一过程。

什么是大型语言模型?

LLM旨在模仿人类智能。它们接受大量数据集的训练,这些数据集包含来自书籍、网站和其他数字内容的文本。

它们学习语言的统计特性,从而能够根据收到的输入生成连贯且与上下文相关的文本。例如,GPT等模型经过各种互联网文本的训练,可以生成在许多上下文和主题中模仿人类写作风格的文本。

这些模型使用注意力和上下文感知等机制来处理相互关联的文本部分。这使得模型能够根据文本其他部分提供的上下文,以不同的方式衡量输入文本不同部分的重要性。这种上下文感知对于理解和生成连贯且适合上下文的响应至关重要。

BERT就是一个例子,因为它可以通过双向阅读文本(从左到右和从右到左)来理解句子中单词的上下文,这比以前单向处理文本的模型有了很大的进步。这种能力使得BERT特别适合那些需要深入理解语言上下文的任务,例如回答问题或对文本进行分类。

大型语言模型的应用范围十分广泛,涉及医疗保健等各个行业,可以预测患者的结果基于历史数据,进行娱乐,为虚拟角色生成逼真的对话。

使用云服务器训练大型语言模型的成本

由于多种原因,人工智能开发越来越多地转向云平台,包括GPU短缺,云服务是培训LLM最简单、最可靠的方式之一。它们的可扩展性对于AI培训周期不断变化的需求也非常出色。

NVIDIA首席执行官黄仁勋在NVIDIA GTC 2024上表示,使用25,000块基于Ampere的GPU(很可能是A100)训练GPT-MoE-1.8T模型需要3到5个月的时间。使用Hopper(H100)进行同样的训练则需要大约8,000块GPU,耗时90天。

由于需要大量资金投入,大多数用户不会从头开始训练LLM。相反,他们会利用其他公司或组织提供的预训练模型(如ChatGPT或Llama2)。

使用此方法培训LLM有两种方式:

  • 托管您自己的模型
  • 按代币付费

让我们看一下每种方法。

在云中托管模型

捷智算平台提供全面的套件,支持整个机器学习生命周期——从数据存储和计算到部署和管理。然而,基于云的培训的便利是有代价的。

在训练大型模型或具有数十亿个参数的模型(如GPT-3B或Falcon 180B)时,成本不仅仅在于GPU(例如A100)。在云服务环境中,您还需要考虑:

  • 虚拟CPU(vCPU)管理模型训练任务的执行
  • 内存(RAM)用于存储计算的即时数据
  • 存储成本,包括保存模型的参数和训练数据

这些组件中的每一个都会增加成本,优化资源使用以有效管理费用至关重要。云提供商通常根据计算时间、分配的内存量以及存储或传输的数据量收费,这使得训练大型AI模型的成本特别高。

在捷智算平台上训练大型语言模型的成本

让我们分析一下在大型模型上训练LLM时如何实现这一点:

在撰写本文时,A100在捷智算平台上起价为每小时1.67美元或每月1,219.94美元。如果考虑其他成本(例如所需的vCPU和内存),则每个费用均根据位置收费。

使用捷智算平台上A100 GPU的中位数价格,以下是每种所需资源的成本:

建议使用多个GPU以获得最佳效果。根据在AWS上训练相同模型的默认实例,这是在捷智算上训练Falcon 180B所需的建议数量:

上述配置与AWS上用于在同一模型上训练LLM的默认配置非常相似。要在捷智算上使用此配置,每月总计将超过13,000美元。以下是明细:

请记住,训练LLM可能需要数月时间,因此这笔费用会随着时间的推移而增加,特别是当训练涉及对大量数据集进行多次迭代时。CUDO Compute定价极具竞争力,因此其他平台上的计算成本通常更高。例如,在AWS上使用具有类似配置的实例(ml.p4de.24xlarge)每月将花费超过23,000美元。

考虑到成本,一些用户可能更愿意按代币付费。具体操作如下。

按照代币(PPT)付费获取大型语言模型(LLM)访问权限

培训和维护LLM的高成本导致了按代币付费(PPT)模式的兴起,用于访问这些强大的语言模型。其工作原理如下:

OpenAI和Google AI等公司利用通过API公开的大量数据集对大量LLM进行预训练。这样一来,开发者和企业就可以使用这些模型(例如GPT-3或类似模型),而无需承担训练此类模型的高昂成本和技术挑战。

用户无需承担培训和基础设施的前期成本。相反,他们只需根据LLM在完成文本生成、翻译或代码编写等任务时处理的标记数量(大致相当于单词或子单词)支付费用。

对于不需要大量使用LLM的任务,PPT模式比内部培训更具成本效益。用户只需为实际使用的资源付费。

按代币付费的好处:

  • 降低成本:该模型消除了对硬件、软件和训练数据的前期投资。
  • 可扩展性:用户可以根据需要轻松地扩大或缩小LLM的使用量,只需为他们消耗的代币付费。
  • 可访问性:PPT允许更广泛的用户和小型公司访问LLM,而无需承担高昂的内部培训费用。

为何培养大型语言模型(LLM)这么贵?

训练大型语言模型(LLM)需要巨大的计算能力。这些模型有数十亿个参数,训练它们需要在强大的硬件(如GPU)上运行数天甚至数月的复杂算法。提供这种基础设施的云服务成本高昂,计算时间、存储空间和数据传输等因素都会增加总体费用。

按代币付费的注意事项:

  • 定价模式:不同的提供商根据特定的LLM模型和使用的令牌量提供不同的定价结构。有些提供商可能会为更高的使用层级提供折扣。
  • 控制有限:与内部训练相比,用户对预训练模型所使用的训练数据和具体配置的控制较少。
  • 延迟:根据响应的长度以及模型在后端硬件上每秒可以生成的令牌数,用户在通过API与LLM交互时可能会遇到一些延迟。

对于大多数希望使用LLM而又不想承担内部培训的巨大财务负担的用户来说,按代币付费模式是一种极具吸引力的替代方案。然而,在选择此方法之前,了解定价结构、控制限制和潜在的延迟问题非常重要。

控制大型语言模型培训成本的步骤

虽然大型语言模型的成本仍然很高,但有一些策略可以优化资源利用率并降低费用:

  1. 实施模型优化技术:
  • 模型架构选择:仔细选择模型架构,以平衡复杂性和所需性能。较小的模型通常需要较少的资源来训练。修剪技术可以进一步减小模型大小,而不会造成明显的准确度损失。
  • 训练数据优化:确保您的训练数据质量高且与当前任务相关。过滤掉不相关的数据可以缩短训练时间并降低计算成本。
  • 知识提炼:知识提炼在这个过程中,训练一个较小的“学生”模型来复制较大的“老师”模型的性能。这使得学生模型能够从老师的知识中受益,而无需从头开始训练较大的模型所需的大量计算资源。由于更紧凑,学生模型的部署效率更高,尤其是在资源受限的环境中。
  • 混合精度训练:混合精度训练在单个训练工作流程中使用半精度(FP16)和单精度(FP32)浮点格式。目标是加快训练速度并减少内存使用量,同时保持模型的准确性和稳定性。使用损失缩放等特殊技术来管理降低的数值精度对训练动态的影响。这可以在兼容硬件(如NVIDIA H100 GPU)上完成。
  1. 考虑硬件优化:
  • 高效的硬件利用率:监控训练期间的资源利用率。梯度累积等技术可以帮助实现更高的GPU利用率,从而缩短训练时间并降低成本。
  • 选择合适的硬件:选择能够满足您特定训练需求且性价比最高的硬件。考虑使用较新的GPU,例如H100,其性能比前几代产品有显著提升。
  • 云服务优化:探索不同的云服务提供商和定价模式。与预留实例相比,按需定价可能会节省成本,具体取决于您的训练计划可预测性。
  1. 优化训练配置:
  • 超参数调整:尝试不同的学习率、批量大小和其他训练超参数,以找到平衡训练速度和准确性的最佳配置。
  • 提前停止:实施技术来监控训练进度,并在达到所需的性能水平后停止训练。这可以避免不必要的资源消耗。
  • 梯度检查点:在训练期间定期保存模型状态。这样,您可以在发生硬件故障或中断时从检查点恢复训练,从而节省时间和资源。
  1. 考虑使用混合专家模型:
  • 专用子网:专家汇聚(MoE)架构将训练工作量分配给多个专门的子网络或“专家”。每个专家专注于数据的一个特定子集,与传统模型相比,这有可能缩短训练时间并提高效率。技术集。
  • 减少计算负荷:通过将训练分配给多位专家,MoE可以更有效地利用硬件资源,减少总体计算需求并降低成本。
  • 复杂性和研究:MoE正迅速成为一种流行的方法,既能保持模型大小易于管理,又能涵盖广泛的主题。实施MoE需要仔细的配置和专业知识。
  1. 协作并利用开源工具:
  • 利用开源工具:利用TensorFlow或PyTorch等提供高效LLM训练功能的开源框架。
  • 与研究机构合作:与可能获得LLM培训补贴计算资源的研究机构合作。
  • 数据采集也可以增加LLM的培训,让我们看看数据要求及其相关成本。

数据要求和成本

数据是LLM的命脉。数据质量、数量和多样性直接影响模型的有效性和准确性。收集、清理和管理这些数据需要大量成本。数据需要足够庞大和多样化,才能训练出一个没有偏见、可以在不同环境中推广的模型。数据集创建过程涉及大量劳动力,包括人工任务,例如监督学习场景的标记,这增加了成本。

然而,这些数据并非免费提供,有效管理这些数据会大大增加总体成本。以下是法学硕士数据管理的主要财务方面的细目:

  • 数据获取:获取LLM培训数据的主要方式有两种:购买现有数据集或授权访问它们。知名研究机构和私营公司通常会整理和出售专门用于训练AI模型的文本和代码数据集。这些数据集可能非常昂贵,具体取决于其大小、领域特异性和质量。
  • 数据存储:存储海量数据集需要大量存储容量。传统的本地存储解决方案维护和扩展成本高昂。云存储服务提供了更灵活且更具成本效益的替代方案,但持续的存储费用会随着时间的推移而累积,尤其是对于TB或PB级的数据集。
  • 数据预处理:原始数据很少以其原始形式用于LLM培训。它通常需要大量的清理、标记和格式化。这种预处理可能涉及:
  • 清理:删除不相关的信息(如代码注释、HTML标签或重复条目)可能是一项计算量很大的任务,尤其是对于大型数据集而言。
  • 标记:根据训练目标,可能需要用特定类别或信息标记数据。这可能是一个需要人力的劳动密集型过程,也可以使用专门的工具自动完成,但会产生软件许可成本。
  • 格式化:确保数据具有适合LLM培训的一致格式可能涉及额外的处理和潜在的定制软件开发。

此外,负责任地处理此类数据以遵守隐私法和道德标准会带来额外的复杂性和费用。数据匿名化、安全存储以及遵守法规可能会增加任何AI项目的管理成本。

优化这些数据管理流程对于成本控制至关重要。数据选择(仅使用相关子集)和迁移学习(利用预训练模型)等技术可以帮助减少对大量昂贵数据集的依赖。

通过实施这些策略,研究人员和开发人员可以显著降低LLM培训成本。精心优化模型、利用高效的硬件和云服务以及采用节省成本的培训配置对于管理LLM开发的财务负担都至关重要。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号