问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

什么是回归？

创作时间:

作者:

@小白创作中心

什么是回归？

引用

1

来源

1.

https://learn.microsoft.com/zh-cn/training/modules/understand-regression-machine-learning/2-what-is-regression

回归是一种简单、常见且非常有用的数据分析技术，通常俗称“拟合线”。它可以帮助我们理解变量之间的关系，并基于这种关系进行预测。本文将从基本概念出发，逐步深入到拟合过程和模型优缺点，帮助读者全面理解回归这一机器学习基础概念。

什么是回归？

回归是一种简单、常见且非常有用的数据分析技术，通常俗称“拟合线”。最简单的形式是回归在一个变量（特征）和另一个变量（标签）之间拟合一条直线。在更复杂的形式中，回归可以找到单个标签与多个特征之间的非线性关系。

简单线性回归

简单的线性回归将单个特征与通常连续的标签之间的线性关系建模，使特征可以预测标签。直观上它应如下所示：

简单的线性回归有两个参数：截距 (c)，表示特征设为零时的标签值；斜率 (m)，表示特征每增加 1 点时标签的增加量。

如果你想要以数学方式思考，可简单地表示为：

y=mx+c

其中 y 是标签，x 是特征。

例如，在我们的方案中，如果我们要尝试基于患者的年龄预测哪些患者的体温升高，可以得到以下模型：

体温=m*年龄+c

还需要在拟合过程中找出“m”和“c”的值。如果我们发现 m = 0.5，c = 37，可将其可视化为：

这意味着年龄每增加一岁，体温增加 0.5°C，起点为 37°C。

拟合线性回归

我们通常会使用现有库来拟合回归模型。回归通常旨在找出产生最少误差量的线，此处的误差是指实际数据点值与预测值之间的差异。例如，在下图中，黑线指示了预测值（红线）和一个实际值（圆点）之间的误差。

通过在 y 轴上查看这两个点，可以看到预测值为 39.5，而实际值为 41。

因此，对于该数据点，该模型的误差为 1.5。

最常见的情况是，我们通过最大限度地减少残差平方和来拟合模型。这意味着按如下方式计算成本函数：

计算每个数据点的实际值和预测值之间的差异（如上文所示）。
求这些值的平方。
求这些平方值的和（或平均值）。

此求平方值的步骤表示并非所有点都均匀地分布在线上：离群值（即不在预期图案中的点）具有不成比例的较大误差，可能会影响线条的位置。

回归的优点

回归技术有很多优点是更复杂的模型不具备的。

可预测且易于理解

回归很容易解释，因为它们描述了简单的数学方程式，且通常可以绘制成图表。更复杂的模型通常称为“黑箱”解决方案，因为很难理解它们如何做出预测，或它们对于特定输入有哪些行为。

易于推断

通过回归，可轻松地进行推断；对数据集范围以外的值进行预测。例如，在前面的示例中，可以很简单地估计一只九岁狗狗的体温是 40.5°C。推断时应务必谨慎：此模型预测 90 岁时的体温热到几乎可以使水沸腾。

通常保证最佳拟合

大多数机器学习模型都使用梯度下降来拟合模型，其涉及优化梯度下降算法，且不保证会找到最佳解决方案。相反，使用平方和作为成本函数的线性回归实际上不需要迭代梯度下降过程。而是可以使用精妙的数学方法来计算要放置线条的最佳位置。该数学方法不在此模块的范围内，但知道此知识点（只要样本大小不太大）很有用。线性回归不需要特别关注拟合过程，并且可保证最佳解决方案。

本文原文来自微软官方文档

热门推荐

AI Agent 核心架构与实战案例详解

AI Agent 核心架构与实战案例详解

HTML文件路径自动更改的四种方法

HTML文件路径自动更改的四种方法

面试攻略：如何展示沟通、团队协作和问题解决能力

面试攻略：如何展示沟通、团队协作和问题解决能力

乌龟为什么经常抬起头？

乌龟为什么经常抬起头？

项目管理品牌名称怎么写

项目管理品牌名称怎么写

委托书格式要求及范文

委托书格式要求及范文

Win11和Win10 i5 9代兼容吗？升级后性能如何？

Win11和Win10 i5 9代兼容吗？升级后性能如何？

网络基础安全“6件套”：防火墙、WAF、IPS、上网行为管控、DDOS、蜜罐

网络基础安全“6件套”：防火墙、WAF、IPS、上网行为管控、DDOS、蜜罐

盐水滴鼻有助治疗感冒

盐水滴鼻有助治疗感冒

比较光栅光谱与棱镜光谱的异同

比较光栅光谱与棱镜光谱的异同

国内断层第一！吴艳妮比巴黎慢8秒仍夺冠：一年内大满贯创生涯纪录

国内断层第一！吴艳妮比巴黎慢8秒仍夺冠：一年内大满贯创生涯纪录

胫骨骨折术后怎样恢复

胫骨骨折术后怎样恢复

小型洁净室的设计与施工：预算有限情况下的优化方案

小型洁净室的设计与施工：预算有限情况下的优化方案

福王朱常洵的最终命运：福禄酒传说与史实揭秘

福王朱常洵的最终命运：福禄酒传说与史实揭秘

胡豆：一种古老而珍贵的作物

胡豆：一种古老而珍贵的作物

蚕豆好吃，有些人却要慎吃

蚕豆好吃，有些人却要慎吃

探究牛肉与马肉口感差异：从来源、烹饪方式到营养成分全面解析

探究牛肉与马肉口感差异：从来源、烹饪方式到营养成分全面解析

房屋买卖合同范本私人应该怎么写

房屋买卖合同范本私人应该怎么写

刑事案件报警有用吗：法律视角下的报警机制分析

刑事案件报警有用吗：法律视角下的报警机制分析

体重下降会影响身高增长吗？医生的专业解答来了

体重下降会影响身高增长吗？医生的专业解答来了

如何在减肥的同时保证身高增长

如何在减肥的同时保证身高增长

建设项目管理中的资源优化配置方法

建设项目管理中的资源优化配置方法

三国：诸葛连弩与木牛流马是否真实存在？

三国：诸葛连弩与木牛流马是否真实存在？

果树病虫害防治：保护你的果园

果树病虫害防治：保护你的果园

银行的手机银行如何进行无卡取款？

银行的手机银行如何进行无卡取款？

大提琴的音色是怎样的？

大提琴的音色是怎样的？

r5 5500相当于i5几代

r5 5500相当于i5几代

连翘的养殖方法和注意事项

连翘的养殖方法和注意事项

房间闷热的成因有哪些？如何有效进行通风和降温？

房间闷热的成因有哪些？如何有效进行通风和降温？

党参对肾脏的副作用是什么

党参对肾脏的副作用是什么

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号