问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

深度解析AI大模型原理:从文本生成到实际应用

创作时间:
作者:
@小白创作中心

深度解析AI大模型原理:从文本生成到实际应用

引用
CSDN
1.
https://blog.csdn.net/m0_59235945/article/details/140779989

AI大模型是当前科技领域的热门话题,从ChatGPT到Claude,从Llama3到文心一言,各种大模型层出不穷。但是,你真的了解这些大模型是如何工作的吗?本文将从文本生成原理、模型结构和实际推理实验三个方面,深入浅出地讲解AI大模型的工作机制,帮助读者真正理解这些神奇的AI系统是如何生成对话和文本的。

文本生成的原理

让我们从一个常见的现象开始:无论向ChatGPT输入什么样的问题,它都能准确地回复。更令人惊讶的是,ChatGPT还能参考过去的对话内容,生成符合历史对话的新回复。不仅如此,如果我们觉得ChatGPT的回复效果不够好,还可以让它重新生成一个、不同于之前的回复。

这究竟是什么样的原理呢?

实际上,我们看似是与ChatGPT进行问答式的沟通与对话交流,但对于GPT来说,它做的事情,仍然是文本生成。也就是基于过去的数据,预测出下一个最有可能出现的单词。

什么是文本生成?

假设我们有一个AI大模型,比如GPT2。此时我们向模型输入,“[CLS]、今、天、天、气、真”,一共6个字(单词)。我们希望模型基于这6个字,生成第7个字。此时,模型会输出第7个字,是“的”字。

这里要需要特殊说明:最开始的[CLS],是一个特殊标记;它用于标记句子的起始位置;模型需要基于一些特殊的标记来进行计算。现在不太理解也没关系,可以暂时忽略这个CLS标记。

接着,我们要生成第8个字。对于第8个字的生成,就会依赖初始输入的6个字,与刚刚生成的第7个“的”字。基于这7个字,模型会继续生成“很”字。接着,我们可以再基于这8个字,再向后生成一个字;也就是第9个字,模型会输出“好”字。以此类推,接着往后生成“,我们一行人去吃的,我们点了一个牛肉锅”。

总结来说:文本生成,就是使用前面的字作为输入,生成新的字。而到底要生成多少内容,取决于我们希望生成多少内容。也就是,只要你愿意,大语言模型可以生成无穷无尽的文本。

ChatGPT和文本生成的关系

ChatGPT就是对话形式的文本生成。假如此时,我们有一个经过对话数据微调的、中文GPT2大语言模型。同样向这个模型输入“[CLS]、今、天、天、气、真”,一共6个字。这一次我们会发现,生成的下一个字是“好”;然后是“[SEP]”;接着是“是的,你最近怎么样[SEP]挺好的,你呢[SEP]”。

这又代表什么意思呢?

实际上,SEP就像一开始的[CLS],是一种预定义的特殊字符;SEP用于表示对话的分隔符。我们可以将SEP看做是两个人对话的分隔标记。模型专门输出这个特殊字符[SEP],来指示对话的结构。例如,如果以SEP分割模型生成的文本,就会模拟出两个人的对话。例如,我们可以将:

第1句“今天天气真好”看做是A说的;
第2句“是的,你最近怎么样”看做是B说的;
第3句“挺好的,你呢”,又是A说的;
第4句“我也是,还在上班”,又是B说的。

这样就得到了,对话形式的生成结果。我们在使用模型的输出时,也就是ChatGPT在展示结果的时候:只需要展示、输出第1个SEP后与第2个SEP前的文本就可以了。也就是说,ChatGPT会回复:“是的,你最近怎么样”,这样就可以了。这之后的输出,对于此时的对话是没有意义的。当看到SEP后,就代表了本次的回复结束了。

综合上面这两个例子:我们就会发现:ChatGPT的本质,就是文本生成。模型本身,并没有试图去理解对话本身的意义。ChatGPT仅仅是通过文本生成,模拟出对话的效果而已。

如何推理计算出下一个字

如何基于已有的文本,计算出下一个字呢?也就是:如何基于“[CLS]、今、天、天、气、真、”;计算出下一个单词是“的”;再下一个字是“很”;再下一个是“好”呢?

下面我基于Llama3模型,来说明这个问题。

简单介绍Llama3,它是Meta的开源AI大模型;效果先放一边,最关键的是它的资料非常全面;对于学习者来说,是难得的学习资源。

Llama3基于Transformer架构。如果真想搞懂Llama,肯定需要先理解Transformer。下面我会基于Transformer和Llama的模型结构图;来解释大语言模型的推理过程。大家即使看着似懂非懂也没关系,关键是感受一下大模型是如何工作的。

模型的结构

左图是Transformer结构图,右图是Llama结构图。Transformer中的左侧结构是编码器,右侧是解码器。对比观察这两个结构图可以看到,Llama模型借鉴了Transformer的解码器。实际上,生成式的AI大模型,都依赖Transformer的解码器架构。如果深入来看模型方框中的结构;Transformer的解码器和Llama模型,同时都包括了:

  • 红色的embedding层
  • 绿色的标准化层
  • 橙色的自注意力机制
  • 蓝色的前馈神经网络

在模型的输出位置,又同时都有:

  • 一个灰色linear线性层
  • 一个绿色的softmax层

数据流的计算

输入数据Input标记为1,会从下方输入。首先经过2号embedding,进行词嵌入,将单词序列转为向量序列。接着进入N个transformer块,进行特征提取。虚线框中的结构,编号3到10,都是Transformer块中的内容。我们只需要知道,它们会将Input,转换为一个固定长度的向量。接着,这个向量会被11号RMS-norm和12号Linear层处理。

预测下一个字

预测下一个字,就是使用Linear层+softmax层。Linear层用于将特征向量的维度数,转换为字典中字的数量。softmax层用于计算下一个字出现的概率,也就是预测下一个字。这实际上是一个分类的过程!

假如在中文词汇表中,有1000个字:那么它就是一个1000个类别的多分类任务。具体来说:给定的输入文本会被Transformer转为固定长度的向量:图中标记的4096,就是输入文本转换后的维度。这个4096的向量会输入到Linear线性层:

通过Linear线性层:我们可以将这个4096维的向量,转换为字典中字的个数的维度的向量;比如字典中有1000个字,那么就被转为1000维的向量。从而进行1000个类别的分类。分类的结果,就是具体的某一个字。

将1000维的向量,继续输入到softmax层:softmax层会给出1000个字,每个字可能的概率。例如,对输入文本“今天天气真”进行“分类”,就得到“好”字。

如何选择输出结果

贪心方式选择:如果我们选择概率最大的字作为下一个字,进行输出;这是贪心的方式来选择结果。例如,1000个字:“好”字的概率是0.67;“糟”字的概率是0.32;其他所有加一起是“0.01”。这时我们可以直接输出“好”字。这种选择结果的方式,虽然简单,但也存在弊端:因为直接输出概率最大的字,输出结果总是固定的。ChatGPT的回复就没有多样性了。

基于概率分布选择:我们可以基于概率分布,随机的取出下一个字作为输出。就像从一个黑箱中有放回的摸球,摸到哪个字,就输出哪个字;我们也不用担心摸到不常用的字;因为我们可以将概率过低的字进行丢弃。这时我们就会选择“好”字,或者“糟”字;从而生成出两不同的结果了。这就是为什么,ChatGPT可以生成不同结果的原理。

GPT2模型的推理实验

最后我们在本地电脑,进行大模型的推理实验。这里选择GPT2进行实验。

简单介绍GPT2:它是GPT4的前身,是OpenAI的最后一个开源版本。之所选择GPT2进行推理实验,是因为它所依赖的资源很少;单机环境就可以运行大模型推理;并且对于初学者,如果你想学大语言模型;GPT2就是最合适的!因为它的资料,真的很多!

模型下载

GPT2的中文模型,可以从HuggingFace上下载。我们选择其中的clue-corpus-small,这个版本。为了部署模型,需要下载其中的3个关键文件:

  • 模型的配置:config.json
  • 模型本身:pytorch_model.bin
  • 切词字典:vocab.txt

实验代码1

使用这个模型需要基于Transformer库。主要需要使用Transformer库的切词组件与GPT2模型组件。下面在讲解代码时,我会基于代码的调试信息来说明。实验整体包括两个部分,分词部分和推理部分。

分词部分:首先定义设备变量device,打印后会看到我们当前的设备是cuda,GPU设备。定义分词器,BertTokenizerFast。使用分词器的encode函数,可以将句子分词,并将中文词语转为数字索引的形式。例如,输入句子“[CLS]今天天气真”;它就会被转换为6个整数索引,分别是101、791等等。我们可以在字典vacab.txt中,找到这些词和对应的索引。

打开vacab.txt文件观察:找到字典的第102行,就是[CLS]这个词。找到字典的第792行,就是“今”这个字。

推理部分:接着,我们使用接口from_pretrained,加载预训练模型。定义max_len=20,表示向后生成20个字。在循环中,每循环一次,就生成一个字。将输入序列input_ids输入到模型model后,会计算出推理结果output。这里我们直接选择概率最大的字,作为下一个字。也就是使用softmax函数,计算出所有字出现的概率后;使用torch.max,贪心的选择最大概率的字。将这个字作为下一个生成结果,添加到response中。然后更新输入序列input_ids,把新生成的next_token,cat到input_ids中。接着我们将input_ids的整数索引与文本形式打印出来。

输出结果:这时会看到,每一轮循环,都会生成一个字。i=0时,生成了“的”字;i=1时,生成了“很”字;i=2时,生成了“好”字;…i=19时,就基于前面的19个字,就会生成最后一个“锅”字。这样我们就基于“[CLS]今天天气真”;生成了“的很好,我们一行人去吃的,点了一个牛肉锅”。

实验代码2:

实验代码1,是普通的文本生成;实验代码2,是对话形式的文本生成。这两个代码,只是加载的模型不同:左侧是基础中文GPT2模型,右侧是中文对话微调的GPT2模型。我们会发现,使用对话文本微调的GPT2模型,输出的结果包括了SEP分隔符。如果输入“[CLS]今天天气真”;就会输出“好[SEP]是的,你最近怎么样”等等。通过SEP分隔符,我们就可以模拟出对话的效果了。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号