大语言模型背后的黑科技：你真的了解吗？

创作时间:

作者:

@小白创作中心

引用

CSDN

等

来源

https://blog.csdn.net/liuhenghui5201/article/details/138976605

https://zhuanlan.zhihu.com/p/338817680

https://blog.csdn.net/earthbingshi/article/details/139704509

https://cloud.baidu.com/article/3327385

https://blog.csdn.net/m0_63260018/article/details/135057029

https://blog.csdn.net/dongtuoc/article/details/137797026

https://cloud.baidu.com/article/3368598

https://juejin.cn/post/7309921468011134985

https://www.cnblogs.com/mantch/p/11591937.html

2022年11月30日，OpenAI发布了一款名为ChatGPT的AI聊天机器人，它迅速成为史上最快达到100万用户的线上产品之一。这款能够与人类流畅对话、创作文章、编写代码的AI，让全世界为之震撼。那么，这个看似神奇的AI背后究竟隐藏着怎样的原理呢？今天，就让我们一起揭开大语言模型的神秘面纱。

大语言模型（LLM，Large Language Model）是用于执行自然语言相关任务的深度学习模型。简单来说，给模型输入一些文本内容，它就能返回相应的输出。这些任务可以是续写、分类、总结、改写、翻译等等。

大语言模型的“大”主要体现在两个方面：

训练数据巨大：以GPT3为例，它的训练数据来自广泛的互联网文本语料，如电子书、新闻文章、博文、论文、百科、社交媒体帖子等。
参数量巨大：参数在模型中用于刻画从庞大训练数据集中学习到的规律，决定模型如何响应输入数据。随着参数增加，模型能力增强，甚至能创造出全新的内容。例如，GPT系列的参数从GPT1的1.17亿增长到GPT3的1750亿。

在Transformer架构出现之前，语言模型主要使用循环神经网络（RNN）。但RNN存在顺序处理、无法并行计算和难以处理长序列的问题。

Transformer通过自注意力机制和位置编码解决了这些问题，实现了对所有输入词的同时关注和理解，以及长距离依赖性的捕获。

输入TOKEN化：将输入的文本拆分成计算机能处理的TOKEN，每个TOKEN被转换为一串整数，作为其在词汇表中的索引。
嵌入层（Embedding Layer）：将TOKEN化的整数序列转换为向量表示，这些向量（通常称为词嵌入）捕获词汇之间的语法和语义关系。
位置编码（Positional Encoding）：向嵌入向量中添加位置信息，以确保模型能够理解词在句子中的顺序。位置编码是与嵌入向量具有相同维度的向量，并通过特定的数学函数生成。
自注意力机制（Self-Attention Mechanism）：编码器中的核心部分，用于捕捉输入序列中的关键特征。通过计算每个词与其他所有词之间的相关性来确定注意力权重。
多头自注意力（Multi-Head Self-Attention）：将自注意力机制应用于多个不同的“头”或子空间。每个头关注输入数据的不同方面，从而增强模型的表达能力。
前馈神经网络（Feed Forward Neural Network）：对多头自注意力的输出进行进一步的数值变换，这有助于模型捕捉更复杂的模式和关系。
堆叠编码器（Stacked Encoders）：通过将多个编码器堆叠在一起，模型能够在不同层级上理解输入数据。每个编码器都处理前一个编码器的输出，从而逐步提炼和抽象化信息。