人工智能AI的100问之07：大模型（LLM）是什么？

创作时间:

作者:

@小白创作中心

人工智能AI的100问之07：大模型（LLM）是什么？

引用

百度

https://baijiahao.baidu.com/s?id=1815932753258776123

这篇我们简单聊聊大模型，像我们熟悉的ChatGPT、文心一言、豆包等都是大模型的应用。虽然这篇文章内容简单，但这是大模型的底层硬货。聊三点：大模型是什么？其基本工作原理是什么？其参数又是什么意思？

1. 大模型是什么？

大模型全称是大规模语言模型（英文：Large Language Model 简写：LLM），一般简称大模型。我们说文解字每个单词分别解释：模型（Model）指这是一种人工智能模型，即属于AI范畴；语言（Language）指可理解或输出人类熟悉的自然语言；“大”指模型的参数量大（通常10亿个参数以上，10亿的单位用B表示，通常看到什么7B就是70亿参数，14B就是140亿参数。现在像OpenAI的GPT-4、华为盘古、百度文心等大模型其参数量已达上万亿参数）。

2.大模型基本工作原理是什么？

简单来说，就是本系列之前的文章——《人工智能AI的100问之04：AI的智慧来自哪里？》
大模型工作原理也是来自三大要素:算力、算法、数据。

算法：
当前大多数大模型的算法均是来自Transformer（Transformer 是以自注意力机制为核心的深度学习神经网络模型。后期文章会专门介绍）。

数据：大模型的数据应用最广泛，因为大模型的就奔着向人类这种通用智能体的方向发展的。其“泛化”性非常高。其训练数据可以说目前世界上能获取到数据的全集。短短几年间，据说现在能获取的数据都被大模型学习完了，大模型学习出现了“数据荒”，现在有公司提出了只有让大模型学习大模型生成的二次数据了。

算力：就是我们现在都在争抢的GPU资源。现在我们看到英伟达赚得那个样子，3万亿美元市值，说实话就是大模型的“训练”将他推高的。

3.大模型的参数是什么？

现在大模型发布时，其公司都会标识一个突出的规格，就是其参数量是多少？来显示其能力和智慧程度的大小，从某种程度上，二者的确成正比关系。

大模型可以简单的看是一个输入输出的函数，如上图所示，这可以看成一个大模型的最小的逻辑处理单元，其参数就是权重，或理解成一种开关，大模型针对用户输入的内容，通过上亿个开关的协同配合，将所“学习”的数据进行组合，输出较为合理的答案。所以，可见参数多少对输出内容质量关系很大。下图是处理单元更多更复杂的结构，感知一下。

可以再对比一下我们大脑的神经元，是否很相似?是的，AI的结构就是模拟大脑神经系统，所以大多数AI的内部结构都称为“神经网络”。我们人类大脑有百亿个神经元，与大模型有上百亿个参数的说法和量级有些异曲同工之妙。

热门推荐

富二代炫富背后的心理真相揭秘