什么是回归?——回归分析入门指南
什么是回归?——回归分析入门指南
回归分析是机器学习中的一个重要概念,它通过在数据中的变量之间建立关系来预测连续型目标变量的值。本文将通过一个具体的例子,帮助读者理解回归分析的基本原理和应用。
什么是回归?
回归分析的工作原理是在数据中的变量之间建立关系。观察到的事物的特征称为特征(或自变量),要预测的变量称为标签(或因变量)。
例如,假设你的公司要出租自行车,并且想要预测某一天内的预期出租数量。在这个场景中,特征可能包括星期几、月份和天气情况等,而标签则是自行车租赁数。
为了训练回归模型,你需要从包含特征和标签已知值的历史数据开始。这些数据将被拆分为两个子集:
- 训练数据集:用于训练模型,即确定一个函数,该函数能够根据特征值预测标签值。
- 验证或测试数据集:用于评估模型的预测性能,通过将模型的预测值与实际的已知标签值进行比较。
使用具有已知标签值的历史数据来训练模型使回归成为监督式机器学习的一个示例。
一个简单示例
让我们通过一个示例来了解训练和评估过程的原理。在这个简化方案中,我们将使用单个特征(每日平均温度)来预测自行车租赁标签。
准备数据
你从一些数据开始,其中包括每日平均温度特征和自行车租赁标签的已知值:
温度 | 租赁数 |
---|---|
56 | 115 |
61 | 126 |
67 | 137 |
72 | 140 |
76 | 152 |
82 | 156 |
54 | 114 |
62 | 129 |
训练模型
首先,从数据中随机选择五个观察值作为训练数据集:
x(温度) | y(租赁数) |
---|---|
56 | 115 |
61 | 126 |
67 | 137 |
72 | 140 |
76 | 152 |
在图表上绘制这些训练值:
从图中可以看出,x(温度)和y(租赁数)之间存在明显的线性关系。我们需要找出最适合数据样本的线性函数。可以使用多种算法来确定此函数。这些算法最终将找到一条与所绘制点的总体方差最小的直线:
该线表示一个线性函数,可以将其与任何 x 值一起使用,以应用该线的斜率及其截距来计算 y。在本例中,如果将该线向左延伸,会发现当 x 为 0 时 y 约为 20。该线的斜率决定了 x 每向右移动一个单位,y 会增加约 1.7。因此,预测函数可以表示为:
f(x) = 20 + 1.7x
评估模型
现在可以使用这个预测函数来预测所保留的验证数据的标签。可以将预测值与实际已知的 y 值进行比较。通常用符号“ŷ”或“y-hat”表示预测值。
x(温度) | y(实际租赁数) | ŷ(预测租赁数) |
---|---|---|
82 | 156 | 159.4 |
54 | 114 | 111.8 |
62 | 129 | 125.4 |
让我们看一下 y 和 ŷ 值在绘图中的比较情况:
函数线上的绘制点是由函数计算的预测 ŷ 值。其他绘制点是实际 y 值。
可以采用多种方法来度量预测值和实际值之间的差值。最常用的方法之一是均方误差(MSE)。对于我们的验证数据,计算结果如下:
x | y | y - ŷ | (y - ŷ)² |
---|---|---|---|
156 | 159.4 | -3.4 | 11.56 |
114 | 111.8 | 2.2 | 4.84 |
129 | 125.4 | 3.6 | 12.96 |
Sum | ∑ | 29.36 | |
平均值 | x̄ | 9.79 |
因此,基于 MSE 指标的模型损失为 9.79。为了使损失值更具可解释性,我们通常计算 MSE 的平方根,即均方根误差(RMSE):
√9.79 = 3.13
模型的 RMSE 表明损失刚超过 3。可以将此 RMSE 粗略地解释为,平均而言,错误的预测约为 3 次租赁。
除了 MSE 和 RMSE,还有许多其他指标可用于度量回归中的损失。例如,R²(R 平方)(有时称为确定系数),是 x 和 y 平方之间的相关性。此指标会生成一个介于 0 和 1 之间的值,该值可测量模型可以解释的方差量。通常,此值越接近 1,模型的预测效果就越好。
总结
通过这个简单的例子,我们了解了回归分析的基本原理:通过训练数据集建立特征与标签之间的关系,然后使用验证数据集评估模型的预测性能。回归分析是机器学习中一个非常基础且重要的概念,广泛应用于各种预测问题中。