资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

深度学习模型大盘点：从基础架构到大模型时代

创作时间:

作者:

@小白创作中心

深度学习模型大盘点：从基础架构到大模型时代

引用

CSDN

https://m.blog.csdn.net/hellozhxy/article/details/136680036

深度学习是人工智能领域的重要分支，涵盖了从基础模型到高级技术的广泛内容。本文将从基础模型架构、高级模型和技术，以及当下最火的LLM大模型三个维度，详细介绍各分类下主要模型的原理、优缺点和适用任务。

1、基础模型架构

1）卷积神经网络CNN（Convolutional Neural Network）

卷积：卷积的本质是通过矩阵运算的方式将输入数据进行空间上的滤波，有效地提取数据中的局部特征，从而实现特征数据更高程度的抽象表示。

池化：可以理解成“压缩”，用来降低卷积层输出的特征维度，减少网络参数和计算量。

CNN通过多个卷积层和池化层对输入图像进行多次特征提取和降采样，最终得到全局特征表示，再通过全连接层进行分类。

优点：

参数数量小，训练时间短。

缺点：

不适用于序列数据，无法处理时序信息。

CNN 的实际应用（更适合图像任务）：

图像分类
图像检索
目标检测
人脸识别
文本分类
语音识别

2）循环神经网络 RNN (Recurrent Neural Network)

RNN是将CNN进行了改造，简单来说就是把上一次的输出混合下一次的输入再做一次计算，每次计算都对上一次的计算结果有一定的依赖。

优点：

解决了输入数据是连续的序列问题（例如“我喜欢人工智能”每个字之间有时序关系，也有逻辑关系）。

缺点：

梯度消失或梯度爆炸
训练速度较慢，计算量较大
复杂序列数据支持得不够好

RNN 的实际应用（更适合NLP任务）：

机器翻译
语音识别
图片描述
时间序列分析等任务

3）长短期记忆网络 LSTM（long short-term memory）（基于RNN的扩展）

RNN的工作方式，决定了它不会“遗忘”，前面内容的信息会不断被代入到后续输入中进行计算，从而导致梯度消失或梯度爆炸问题。

LSTM 是RNN的一种变体，通过“门”结构引入“选择性遗忘”机制，解决RNN的这一弊端。

优点：

解决了传统RNN中存在的梯度消失和梯度爆炸问题，从而更好地处理长序列数据。

缺点：

因为 LSTM 是RNN的一种变体，因此缺点方面，仍然是RNN的那些缺点。

LSTM 的实际应用（更适合NLP任务）：

文本情感分析
语音识别
机器翻译
序列预测
图像分析
语音生成
时间序列分析

2、高级模型和技术

1）生成对抗网络GAN（Generative Adversarial Networks）

GAN由生成器和判别器组成。二者相互对抗，生成器网络负责生成数据并且欺骗判别器网络，而判别器网络负责识别哪些数据是真实的。

优点：

生成能力强
不需要显式监督

缺点：

训练过程复杂
数据要求高

GAN 的实际应用：

图像生成
图像修复
风格迁移
去掉图像遮挡
年龄转移
语音合成等

2）Transformer：

2017年，Google发表论文《Attention is all you need》，成为Transformer开山之作。通过引入自注意力机制、多头自注意力机制、前馈神经网络和位置编码等技术，Transformer实现了高效的并行计算和强大的表示能力。

自此，Transformer架构一路开挂，形成了一个枝繁叶茂的大家族，在文本分类、命名实体识别、情感分析、问答系统、机器翻译、语音识别、图像分类等领域都取得了显著的成果。

3、大型预训练语言模型（Large Language Model）（通常基于Transformer架构）

近年来，BERT、GPT4、LLaMa等一大批优秀大模型纷纷亮相，开启了大模型新时代的新篇章。前不久，谷歌多模态大模型Gemini Ultra也重磅发布，如今大模型不能说是热点，而要说是沸点了。

对于技术人员来说，无论是从原理还是从使用上，大模型都注定成为“兵家必争之地”。

思考：大模型时代，学习传统经典模型还有意义吗？

尽管随着大模型如火如荼的发展，我们不断听到“算法已死”的哀嚎，但是传统经典模型的意义和不容小觑。

第一，了解RNN和LSTM等传统模型的基本原理和特点，才能够准确理解和分析业务场景，根据实际情况进行选择和调整，以确保模型能够取得最佳的性能和效果。

第二，小模型胜在专而精，小而美，在一些特定场景下，例如车牌识别、人脸识别等，传统经典模型仍然具有超强的竞争力。

第三，传统经典模型提供了更好的可解释性。在如医疗和金融等应用中，模型的可解释性是非常重要的。

第四，很多优秀的模型，都是通过融入了其它模型的理念和特质而形成的。通过学习传统经典模型，我们可以更好地利用它们与大型预训练模型的互补性，甚至为之添上神来之笔，通过融合和嫁接做出重大改进。

总结

在实际应用中，每个分支都有大量的著名的变种模型。万变不离其宗，了解了基本原理和设计思想，就能够更容易理解各个变种模型的妙处以及适用场景。

热门推荐

数据结构与算法：基础与进阶

什么是期货交易及其运作方式？这种交易方式存在哪些风险？

卫生巾标准：健康与安全的选择指南

建筑节能项目管理指南：从设计到运营的全方位解决方案

聚碳酸酯（PC）的基本性能与应用

全画幅和半画幅的区别：数字越小等级越高，明白4点改变你的想法

Link的含义是什么？

物联网平台设备管理系统开发指南

掌握平方根计算方法及其在生活中的实际应用解析

蒲公英茶的十大功效与禁忌

备用金能延期归还吗？

马来亚大学优势专业及马来西亚留学指南

新茶饮集体“变轻”，我们看到了未来奶茶的爆款公式

不仅降血尿和尿蛋白，更能延缓肾衰竭！这5类情况可以用布地奈德肠溶胶囊么

国际白塞病关爱日 | 从《新英格兰杂志》《柳叶刀》综述看白塞综合征的诊疗理念

5人团队取名字：创意、个性、共识、相关性、记忆性

专利申请流程详解

连续性肾脏替代治疗中局部枸橼酸抗凝的管理：来自中国急诊医师共识的指南推荐

党参采收与加工全攻略：从种子到成品的完整指南

邱仁宗：科技伦理治理的基本原则

如何提高论文的创新性和实用性

日文女生名字精选，探索日本文化中的女性之美