问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

机器学习与深度学习基础知识概述

创作时间:
作者:
@小白创作中心

机器学习与深度学习基础知识概述

引用
CSDN
1.
https://blog.csdn.net/weixin_63872630/article/details/145964281

机器学习和深度学习是当前最热门的技术领域之一,它们在图像识别、自然语言处理、推荐系统等领域有着广泛的应用。本文将从基础知识出发,帮助读者快速了解机器学习和深度学习的核心概念。

介绍

对于传统的系统来说,工作原理是将规则和数据输入,得到答案,对于机器学习来说,可以将答案和数据输入,通过模型分析得到隐藏的规则,即f(x);
深度学习∈机器学习∈人工智能,机器学习主要是指能够随着数据量的增加不断改进性能的算法,深度学习是机器学习的一个子集,利用多层神经网络大量数据中学习。

机器学习

机器学习一般基于数学或者统计学的方法,具有很强的可解释性。但是准确率不是百分百,且不灵活,不同情况要使用不同的算法构建不同的模型。

经典的传统机器学习算法有:KNN、决策树、朴素贝叶斯等。

KNN

K最近邻居算法,是通过测量不同数据点之间的距离(通常欧氏距离)来进行预测。

决策树

根据不同情况分类,简单来说就是if,elif,主要工作在于分化特征,对于未见过的特征则不擅长处理。

朴素贝叶斯

后验,先确定结果,再推断过程。

深度学习

设计一个深层次的网络架构,让机器自己学习其中的规律(即寻找一个函数f),f由于参数量过大或者维度过高,以至于没有可解释性(黑匣子,炼丹),因此深度学习以实践为主。

输入

神经网络的输入一般有三种形式。

向量

理解为一维的线,如(身高,体重,财富)=(180,140,-1000),向量在运算时仍然转为张量,因为需要计算梯度。

矩阵/张量

如图片,可转为矩阵形式,矩阵再转为张量。

序列

有前后关系的一组数据,不能打乱其顺序,如“我吃的苹果”和“我用的苹果”,以及视频,可输入为一排的向量。

输出

输出也可分为以下三种。

回归任务

填空题,比如根据以前的温度推测明天的温度。

分类任务

选择题,比如给一张图片,让你识别猫还是狗,给一个句子,判断是积极还是消极的。

生成任务(结构化)

简答题,比如声生成式人工智能,比如给一句话让模型生成图片。

分类任务和回归任务是结构化任务的基础。

深度学习的步骤

定义一个函数(模型model)→定义一个合适的损失函数(loss函数,如|y'-y|)→根据损失,对模型进行优化。

拿线性模型y'=wx+b来举例,w——权重weight,b——偏差bias,二者为参数,随机选取初值;给出一个训练集(x, y)(即(数据,标签)),根据模型推算出y';再根据损失函数,如L(w, b)=|y‘-y|,推测出预测值和真实值的偏差大小(L=1/N(L1+L2+...+Ln),作用是评估模型训练程度);再根据L(w, b)对w和b求偏导,得知参数更新方向,为了防止震荡可以将偏导数lr(learning rate,学习率,超参数,无法更新,模型本身也是超参数);接着更新参数,w1=w0-lrL对w求偏导,即梯度回传过程,进行参数优化。

一般,称为这样的一个线性模型为神经元,现在问题在于,根据线性代数知识可知,如果只有这样一种神经元,那么就算中间有无数层,最后也可以只简化为一层计算,串联的神经元只有传递的作用,那么一根和多跟没有任何区别。也就是说,只有神经元的模型只能画出一条直线。

激活函数

这时就需要激活函数出场,下图为激活函数的位置,同时,激活函数也要能求导。引入激活函数之后,由于激活函数都是非线性的,这样就给神经元引入了非线性元素,使得神经网络可以逼近任何非线性函数,这样使得神经网络应用到更多非线性模型中(通俗一点就是让预测值变弯)。

常见的激活函数:

前者实际不太好用,因为函数本身比较复杂求导计算量较大,其次x值越大,函数越平,反响较弱,而后者函数简单,收敛效果也较好,但由于在0点不可导(能作为激活函数是因为很少有数据碰巧是0点),最后回归拟合的函数会出现不平滑的点。


参数运算法则

前向过程、梯度回传、梯度下降

这个网络又称全连接网络(Full Connected Network,FC),中间的称为多层感知机,名字换了:Neural Network(神经网络)→Deep Learning(深度学习)

但是,必须要考虑到这几种情况:

无所谓,反正最后都会得到一个预测值(只不过参数可能需要调整),这个训练过程有很强的不可解释性,也就是黑匣子。

正则化loss

loss=loss(如L(w, b))+λ×正则化项,正则化项用于限制模型参数的数量或幅度。

L1正则化:正则化项为模型参数的绝对值之和(只有权重w),即Σ|w|,倾向于使一些参数变为0,从而实现特征选择的效果,适合特征维度较高,且存在较多不相关特征的情况。

L2正则化:模型参数的平方和,即Σw²,使所有参数都较小,但不会将参数压缩到0,适合特征维度较低,且特征之间相关性较高的情况,有助于减少模型对个别特征的过度依赖。

正则化loss的作用:防止过拟合,帮助模型特征选择,提高泛化能力。

神经网络可以完成超级复杂的任务,比如图片生成,人脸识别等,但是对于简单的任务,比如判断一个数字是否为偶数等,表现却没那么好,因为缺乏先验知识。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号