问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

CNN卷积神经网络原理详解:从机器识图到图片分类

创作时间:
作者:
@小白创作中心

CNN卷积神经网络原理详解:从机器识图到图片分类

引用
CSDN
1.
https://blog.csdn.net/kun1280437633/article/details/80817129

卷积神经网络(CNN)是深度学习中用于处理图像数据的重要模型。本文将从机器识图的基本概念出发,详细讲解CNN的核心组件——卷积层和池化层的工作原理,并通过具体的数学运算和示例图来帮助读者理解。

一、机器如何识图

先给大家出个脑筋急转弯:在白纸上画出一个大熊猫,一共需要几种颜色的画笔?——大家应该都知道,只需要一种黑色的画笔,只需要将大熊猫黑色的地方涂上黑色,一个大熊猫的图像就可以展现出来。

我们画大熊猫的方式,其实和妈妈们的十字绣很接近——在给定的格子里,绣上不同的颜色,最后就可以展现出一幅特定的“图片”。而机器识图的方式正好和绣十字绣的方式相反,现在有了一幅图片,机器通过识别图片中每个格子(像素点)上的颜色,将每个格子里的颜色都用数字类型存储,得到一张很大的数字矩阵,图片信息也就存储在这张数字矩阵中。

上图中每一个格子代表一个像素点,像素点里的数字代表颜色码,颜色码范围是[0,255],(各式各样的颜色都是由红、绿、蓝三色组成,每个颜色都是0~255之间数字)

我们在得到的一张大数字矩阵的基础上开展卷积神经网络识别工作:

机器识图的过程:机器识别图像并不是一下子将一个复杂的图片完整识别出来,而是将一个完整的图片分割成许多个小部分,把每个小部分里具有的特征提取出来(也就是识别每个小部分),再将这些小部分具有的特征汇总到一起,就可以完成机器识别图像的过程了

二、卷积神经网络原理介绍

用CNN卷积神经网络识别图片,一般需要的步骤有:

  1. 卷积层初步提取特征
  2. 池化层提取主要特征
  3. 全连接层将各部分特征汇总
  4. 产生分类器,进行预测识别

1、卷积层工作原理

卷积层的作用:就是提取图片每个小部分里具有的特征

假定我们有一个尺寸为66 的图像,每一个像素点里都存储着图像的信息。我们再定义一个*卷积核(相当于权重),用来从图像中提取一定的特征。卷积核与数字矩阵对应位相乘再相加,得到卷积层输出结果。


(429 = 181+540+511+550+1211+750+351+240+204*1)

卷积核的取值在没有以往学习的经验下,可由函数随机生成,再逐步训练调整

当所有的像素点都至少被覆盖一次后,就可以产生一个卷积层的输出(下图的步长为1)

机器一开始并不知道要识别的部分具有哪些特征,是通过与不同的卷积核相作用得到的输出值,相互比较来判断哪一个卷积核最能表现该图片的特征——比如我们要识别图像中的某种特征(比如曲线),也就是说,这个卷积核要对这种曲线有很高的输出值,对其他形状(比如三角形)则输出较低。卷积层输出值越高,就说明匹配程度越高,越能表现该图片的特征

卷积层具体工作过程:

比如我们设计的一个卷积核如下左,想要识别出来的曲线如下右:

现在我们用上面的卷积核,来识别这个简化版的图片——一只漫画老鼠

当机器识别到老鼠的屁股的时候,卷积核与真实区域数字矩阵作用后,输出较大:6600

而用同一个卷积核,来识别老鼠的耳朵的时候,输出则很小:0

我们就可以认为:现有的这个卷积核保存着曲线的特征,匹配识别出来了老鼠的屁股是曲线的。我们则还需要其他特征的卷积核,来匹配识别出来老鼠的其他部分。卷积层的作用其实就是通过不断的改变卷积核,来确定能初步表征图片特征的有用的卷积核是哪些,再得到与相应的卷积核相乘后的输出矩阵

2、池化层工作原理

池化层的输入就是卷积层输出的原数据与相应的卷积核相乘后的输出矩阵

池化层的目的:

  • 为了减少训练参数的数量,降低卷积层输出的特征向量的维度
  • 减小过拟合现象,只保留最有用的图片信息,减少噪声的传递

最常见的两种池化层的形式:

  • 最大池化:max-pooling——选取指定区域内最大的一个数来代表整片区域
  • 均值池化:mean-pooling——计算指定区域内的平均值来代表整片区域

通过池化层,可以进一步压缩特征图的尺寸,同时保留最重要的特征信息,为后续的全连接层做准备。

3、全连接层与分类器

全连接层的作用是将前面所有卷积层和池化层提取到的特征进行汇总,形成一个完整的特征向量。这个特征向量会输入到一个或多个全连接层中,通过神经网络的权重和偏置进行进一步的特征组合和分类。

最后,通过一个softmax分类器,将特征向量映射到各个可能的类别上,输出每个类别的概率分布。概率最高的类别即为模型的最终预测结果。

通过以上步骤,卷积神经网络能够有效地从图像中提取特征并进行分类,广泛应用于图像识别、目标检测等任务中。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号