问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

机器学习基础:线性模型详解

创作时间:
作者:
@小白创作中心

机器学习基础:线性模型详解

引用
CSDN
1.
https://m.blog.csdn.net/WBingJ/article/details/142938424

线性模型是机器学习中使用非常广泛的一类模型,它通过输入样本特征的线性函数或线性组合来进行结果预测。本文将详细介绍线性回归、逻辑回归、多分类问题、过拟合与正则化以及特征缩放等核心概念,帮助读者深入理解线性模型的工作原理和应用场景。


线性回归示意图


逻辑回归示意图

线性回归(LR)

工作机理

线性回归通过特征的线性组合来进行预测,目标是最小化预测值与真实值之间的误差。

成本函数 J

针对n个样本,在参数θ下,线性回归模型的成本函数可定义为均方误差的形式:

训练线性回归模型的过程,就是在训练集上搜寻使 J 最小 的θ参数组合的过程。

梯度下降

迭代地调整参数θ,从而使 J 最小。梯度下降有三种主要类型:

  • 批量梯度下降:每次调参,用训练集的所有样本来计算新参数
  • 随机梯度下降:每次调参,在训练集中随机选择一个样本来更新参数
  • 小批量梯度下降:每次调参,都会对训练集中一小部分进行梯度下降计算更新参数

逻辑回归

工作原理

逻辑回归通过定义一个线性分界线和引入逻辑函数来进行分类:

成本函数(损失函数)

其中z(i)=θ0 +θ1x1*(i)+θ2x2(i)* … +θdxd(i)

寻找让 J 最小的 θ 组合

可利用梯度下降等方法。

多分类问题

二分类器

区分两个类,如经典逻辑回归。

多类分类器

区分多个类,例如决策树。

多分类的逻辑回归方法

  • 一对一(ovo)

  • 例如识别0-9数字,可以训练多个二分类器,一个用于区分0和1,一个用于区分0和2,以此类推。

  • 训练阶段:设数据集有N个类别,两两配对,生成N(N-1)/2个二分类器。

  • 测试&应用阶段:把新样本分别交给所有的分类器,投票产生最终结果。

  • 一对剩余(ovr)

  • 工作机理:每次将一个类作为正例,其他所有类作为反例。

  • 例如识别0-9数字,训练10个二分类器,分别是0检测器、1检测器、2检测器等。

过拟合和正则化

线性模型正则化的工作原理

通过约束模型权重,即减小参数θ的值,使得每个特征都对输出的影响尽可能小。

两种约束权重方法

  • Lasso回归(L1)
  • 岭回归(L2)

训练期间,将正则化项添加到线性回归的成本函数中。

  • λ小,正则化程度轻,如果发生过拟合,需要调大λ
  • λ大,正则化程度高,可能会导致欠拟合,需要调小λ

特征缩放

最小-最大规范化

某一特征的最大值为xmax,最小值为xmin,该特征的最小-最大规范化计算如下:

取值范围[0,1],把原始数据压缩在0~1之间。

Z-score标准化

假设一组数据x=x1, x2…xn,其均值为𝒙 x ̅ ,标准差为s,那么该组数中某值x的z-score值为:

  • Z-score适合最大值和最小值未知的情况,只要具备均值和标准差,Z-score可以将其转变为均值为0方差为1的值。
  • Z-score不修改原来的数据分布。

例子1:计算z-score
入学考试分数均值82,标准差5;如果某个学生获得90分,那么他的z-score值为:
Z=(90 – 82) / 5=1.6
该值表示:该生的分数在均值上1.6标准差位置上。

例子2:通过z-score进行数值对比
入学考试(一)分数均值82,标准差5;某学生A获得90分,z-score为1.6
入学考试(二)分数均值490,标准差20,某学生B获得530分,z-score为2
学生B的成绩好于A

Z-score表

标准正态分布表,又称为z-table

设学生分数符合正态分布。如果某学生的z-score= -1.07,查上表,值为0.1423,表示大约14.23% 其他人比该学生分数低。

数据规范化和标准化的原因

  • 不同的数据源度量方法(例如单位)不同,数值大小也不同。例如,某数据集,特征1身高范围为1-2米,特征2体重范围为50-200斤。
  • 很多机器学习算法要求特征值规范化/标准化,特别是基于距离的算法。如果直接使用上例原始数据,那么体重数据将起主导作用。

线性模型的其他说明

线性模型训练速度稍慢,但是使用它进行预测等工作时的计算速度非常快。对于一个应用,如果内存和时间都很重要,那么可以考虑线性模型。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号