深度学习模型大盘点:从基础架构到大模型时代
深度学习模型大盘点:从基础架构到大模型时代
深度学习是人工智能领域的重要分支,涵盖了从基础模型到高级技术的广泛内容。本文将从基础模型架构、高级模型和技术,以及当下最火的LLM大模型三个维度,详细介绍各分类下主要模型的原理、优缺点和适用任务。
1、基础模型架构
1)卷积神经网络CNN(Convolutional Neural Network)
卷积:卷积的本质是通过矩阵运算的方式将输入数据进行空间上的滤波,有效地提取数据中的局部特征,从而实现特征数据更高程度的抽象表示。
池化:可以理解成“压缩”,用来降低卷积层输出的特征维度,减少网络参数和计算量。
CNN通过多个卷积层和池化层对输入图像进行多次特征提取和降采样,最终得到全局特征表示,再通过全连接层进行分类。
优点:
- 参数数量小,训练时间短。
缺点:
- 不适用于序列数据,无法处理时序信息。
CNN 的实际应用(更适合图像任务):
- 图像分类
- 图像检索
- 目标检测
- 人脸识别
- 文本分类
- 语音识别
2)循环神经网络 RNN (Recurrent Neural Network)
RNN是将CNN进行了改造,简单来说就是把上一次的输出混合下一次的输入再做一次计算,每次计算都对上一次的计算结果有一定的依赖。
优点:
- 解决了输入数据是连续的序列问题(例如“我喜欢人工智能”每个字之间有时序关系,也有逻辑关系)。
缺点:
- 梯度消失或梯度爆炸
- 训练速度较慢,计算量较大
- 复杂序列数据支持得不够好
RNN 的实际应用(更适合NLP任务):
- 机器翻译
- 语音识别
- 图片描述
- 时间序列分析等任务
3)长短期记忆网络 LSTM(long short-term memory)(基于RNN的扩展)
RNN的工作方式,决定了它不会“遗忘”,前面内容的信息会不断被代入到后续输入中进行计算,从而导致梯度消失或梯度爆炸问题。
LSTM 是RNN的一种变体,通过“门”结构引入“选择性遗忘”机制,解决RNN的这一弊端。
优点:
- 解决了传统RNN中存在的梯度消失和梯度爆炸问题,从而更好地处理长序列数据。
缺点:
- 因为 LSTM 是RNN的一种变体,因此缺点方面,仍然是RNN的那些缺点。
LSTM 的实际应用(更适合NLP任务):
- 文本情感分析
- 语音识别
- 机器翻译
- 序列预测
- 图像分析
- 语音生成
- 时间序列分析
2、高级模型和技术
1)生成对抗网络GAN(Generative Adversarial Networks)
GAN由生成器和判别器组成。二者相互对抗,生成器网络负责生成数据并且欺骗判别器网络,而判别器网络负责识别哪些数据是真实的。
优点:
- 生成能力强
- 不需要显式监督
缺点:
- 训练过程复杂
- 数据要求高
GAN 的实际应用:
- 图像生成
- 图像修复
- 风格迁移
- 去掉图像遮挡
- 年龄转移
- 语音合成等
2)Transformer:
2017年,Google发表论文《Attention is all you need》,成为Transformer开山之作。通过引入自注意力机制、多头自注意力机制、前馈神经网络和位置编码等技术,Transformer实现了高效的并行计算和强大的表示能力。
自此,Transformer架构一路开挂,形成了一个枝繁叶茂的大家族,在文本分类、命名实体识别、情感分析、问答系统、机器翻译、语音识别、图像分类等领域都取得了显著的成果。
3、大型预训练语言模型(Large Language Model)(通常基于Transformer架构)
近年来,BERT、GPT4、LLaMa等一大批优秀大模型纷纷亮相,开启了大模型新时代的新篇章。前不久,谷歌多模态大模型Gemini Ultra也重磅发布,如今大模型不能说是热点,而要说是沸点了。
对于技术人员来说,无论是从原理还是从使用上,大模型都注定成为“兵家必争之地”。
思考:大模型时代,学习传统经典模型还有意义吗?
尽管随着大模型如火如荼的发展,我们不断听到“算法已死”的哀嚎,但是传统经典模型的意义和不容小觑。
第一,了解RNN和LSTM等传统模型的基本原理和特点,才能够准确理解和分析业务场景,根据实际情况进行选择和调整,以确保模型能够取得最佳的性能和效果。
第二,小模型胜在专而精,小而美,在一些特定场景下,例如车牌识别、人脸识别等,传统经典模型仍然具有超强的竞争力。
第三,传统经典模型提供了更好的可解释性。在如医疗和金融等应用中,模型的可解释性是非常重要的。
第四,很多优秀的模型,都是通过融入了其它模型的理念和特质而形成的。通过学习传统经典模型,我们可以更好地利用它们与大型预训练模型的互补性,甚至为之添上神来之笔,通过融合和嫁接做出重大改进。
总结
在实际应用中,每个分支都有大量的著名的变种模型。万变不离其宗,了解了基本原理和设计思想,就能够更容易理解各个变种模型的妙处以及适用场景。