人工智能AI的100问之07:大模型(LLM)是什么?
人工智能AI的100问之07:大模型(LLM)是什么?
这篇我们简单聊聊大模型,像我们熟悉的ChatGPT、文心一言、豆包等都是大模型的应用。虽然这篇文章内容简单,但这是大模型的底层硬货。聊三点:大模型是什么?其基本工作原理是什么?其参数又是什么意思?
1. 大模型是什么?
大模型全称是大规模语言模型(英文:Large Language Model 简写:LLM),一般简称大模型。我们说文解字每个单词分别解释:模型(Model)指这是一种人工智能模型,即属于AI范畴;语言(Language)指可理解或输出人类熟悉的自然语言;“大”指模型的参数量大(通常10亿个参数以上,10亿的单位用B表示,通常看到什么7B就是70亿参数,14B就是140亿参数。现在像OpenAI的GPT-4、华为盘古、百度文心等大模型其参数量已达上万亿参数)。
2.大模型基本工作原理是什么?
简单来说,就是本系列之前的文章——《人工智能AI的100问之04:AI的智慧来自哪里?》
大模型工作原理也是来自三大要素:算力、算法、数据。
算法:
当前大多数大模型的算法均是来自Transformer(Transformer 是以自注意力机制为核心的深度学习神经网络模型。后期文章会专门介绍)。
数据:大模型的数据应用最广泛,因为大模型的就奔着向人类这种通用智能体的方向发展的。其“泛化”性非常高。其训练数据可以说目前世界上能获取到数据的全集。短短几年间,据说现在能获取的数据都被大模型学习完了,大模型学习出现了“数据荒”,现在有公司提出了只有让大模型学习大模型生成的二次数据了。
算力:就是我们现在都在争抢的GPU资源。现在我们看到英伟达赚得那个样子,3万亿美元市值,说实话就是大模型的“训练”将他推高的。
3.大模型的参数是什么?
现在大模型发布时,其公司都会标识一个突出的规格,就是其参数量是多少?来显示其能力和智慧程度的大小,从某种程度上,二者的确成正比关系。
大模型可以简单的看是一个输入输出的函数,如上图所示,这可以看成一个大模型的最小的逻辑处理单元,其参数就是权重,或理解成一种开关,大模型针对用户输入的内容,通过上亿个开关的协同配合,将所“学习”的数据进行组合,输出较为合理的答案。所以,可见参数多少对输出内容质量关系很大。下图是处理单元更多更复杂的结构,感知一下。
可以再对比一下我们大脑的神经元,是否很相似?是的,AI的结构就是模拟大脑神经系统,所以大多数AI的内部结构都称为“神经网络”。我们人类大脑有百亿个神经元,与大模型有上百亿个参数的说法和量级有些异曲同工之妙。