问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

人工智能AI的100问之07:大模型(LLM)是什么?

创作时间:
作者:
@小白创作中心

人工智能AI的100问之07:大模型(LLM)是什么?

引用
百度
1.
https://baijiahao.baidu.com/s?id=1815932753258776123

这篇我们简单聊聊大模型,像我们熟悉的ChatGPT、文心一言、豆包等都是大模型的应用。虽然这篇文章内容简单,但这是大模型的底层硬货。聊三点:大模型是什么?其基本工作原理是什么?其参数又是什么意思?

1. 大模型是什么?

大模型全称是大规模语言模型(英文:Large Language Model 简写:LLM),一般简称大模型。我们说文解字每个单词分别解释:模型(Model)指这是一种人工智能模型,即属于AI范畴;语言(Language)指可理解或输出人类熟悉的自然语言;“大”指模型的参数量大(通常10亿个参数以上,10亿的单位用B表示,通常看到什么7B就是70亿参数,14B就是140亿参数。现在像OpenAI的GPT-4、华为盘古、百度文心等大模型其参数量已达上万亿参数)。

2.大模型基本工作原理是什么?

简单来说,就是本系列之前的文章——《人工智能AI的100问之04:AI的智慧来自哪里?》
大模型工作原理也是来自三大要素:算力、算法、数据。

算法:
当前大多数大模型的算法均是来自Transformer(Transformer 是以自注意力机制为核心的深度学习神经网络模型。后期文章会专门介绍)。

数据:大模型的数据应用最广泛,因为大模型的就奔着向人类这种通用智能体的方向发展的。其“泛化”性非常高。其训练数据可以说目前世界上能获取到数据的全集。短短几年间,据说现在能获取的数据都被大模型学习完了,大模型学习出现了“数据荒”,现在有公司提出了只有让大模型学习大模型生成的二次数据了。

算力:就是我们现在都在争抢的GPU资源。现在我们看到英伟达赚得那个样子,3万亿美元市值,说实话就是大模型的“训练”将他推高的。

3.大模型的参数是什么?

现在大模型发布时,其公司都会标识一个突出的规格,就是其参数量是多少?来显示其能力和智慧程度的大小,从某种程度上,二者的确成正比关系。

大模型可以简单的看是一个输入输出的函数,如上图所示,这可以看成一个大模型的最小的逻辑处理单元,其参数就是权重,或理解成一种开关,大模型针对用户输入的内容,通过上亿个开关的协同配合,将所“学习”的数据进行组合,输出较为合理的答案。所以,可见参数多少对输出内容质量关系很大。下图是处理单元更多更复杂的结构,感知一下。

可以再对比一下我们大脑的神经元,是否很相似?是的,AI的结构就是模拟大脑神经系统,所以大多数AI的内部结构都称为“神经网络”。我们人类大脑有百亿个神经元,与大模型有上百亿个参数的说法和量级有些异曲同工之妙。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号