什么是回归?
什么是回归?
回归是一种简单、常见且非常有用的数据分析技术,通常俗称“拟合线”。它可以帮助我们理解变量之间的关系,并基于这种关系进行预测。本文将从基本概念出发,逐步深入到拟合过程和模型优缺点,帮助读者全面理解回归这一机器学习基础概念。
什么是回归?
回归是一种简单、常见且非常有用的数据分析技术,通常俗称“拟合线”。最简单的形式是回归在一个变量(特征)和另一个变量(标签)之间拟合一条直线。 在更复杂的形式中,回归可以找到单个标签与多个特征之间的非线性关系。
简单线性回归
简单的线性回归将单个特征与通常连续的标签之间的线性关系建模,使特征可以预测标签。 直观上它应如下所示:
简单的线性回归有两个参数:截距 (c),表示特征设为零时的标签值;斜率 (m),表示特征每增加 1 点时标签的增加量。
如果你想要以数学方式思考,可简单地表示为:
y=mx+c
其中 y 是标签,x 是特征。
例如,在我们的方案中,如果我们要尝试基于患者的年龄预测哪些患者的体温升高,可以得到以下模型:
体温=m*年龄+c
还需要在拟合过程中找出“m”和“c”的值。 如果我们发现 m = 0.5,c = 37,可将其可视化为:
这意味着年龄每增加一岁,体温增加 0.5°C,起点为 37°C。
拟合线性回归
我们通常会使用现有库来拟合回归模型。 回归通常旨在找出产生最少误差量的线,此处的误差是指实际数据点值与预测值之间的差异。 例如,在下图中,黑线指示了预测值(红线)和一个实际值(圆点)之间的误差。
通过在 y 轴上查看这两个点,可以看到预测值为 39.5,而实际值为 41。
因此,对于该数据点,该模型的误差为 1.5。
最常见的情况是,我们通过最大限度地减少残差平方和来拟合模型。 这意味着按如下方式计算成本函数:
- 计算每个数据点的实际值和预测值之间的差异(如上文所示)。
- 求这些值的平方。
- 求这些平方值的和(或平均值)。
此求平方值的步骤表示并非所有点都均匀地分布在线上:离群值(即不在预期图案中的点)具有不成比例的较大误差,可能会影响线条的位置。
回归的优点
回归技术有很多优点是更复杂的模型不具备的。
可预测且易于理解
回归很容易解释,因为它们描述了简单的数学方程式,且通常可以绘制成图表。 更复杂的模型通常称为“黑箱”解决方案,因为很难理解它们如何做出预测,或它们对于特定输入有哪些行为。
易于推断
通过回归,可轻松地进行推断;对数据集范围以外的值进行预测。 例如,在前面的示例中,可以很简单地估计一只九岁狗狗的体温是 40.5°C。 推断时应务必谨慎:此模型预测 90 岁时的体温热到几乎可以使水沸腾。
通常保证最佳拟合
大多数机器学习模型都使用梯度下降来拟合模型,其涉及优化梯度下降算法,且不保证会找到最佳解决方案。 相反,使用平方和作为成本函数的线性回归实际上不需要迭代梯度下降过程。 而是可以使用精妙的数学方法来计算要放置线条的最佳位置。 该数学方法不在此模块的范围内,但知道此知识点(只要样本大小不太大)很有用。线性回归不需要特别关注拟合过程,并且可保证最佳解决方案。
本文原文来自微软官方文档