资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

机器学习之拟合：欠拟合、适度拟合与过拟合详解

创作时间:

作者:

@小白创作中心

机器学习之拟合：欠拟合、适度拟合与过拟合详解

引用

CSDN

https://blog.csdn.net/dundunmm/article/details/144538936

在机器学习中，拟合（Fitting）是一个核心概念，它决定了模型的表现。本文将从拟合的基本概念出发，详细探讨欠拟合、适度拟合和过拟合三种情况，并给出相应的解决方案。通过可视化图表和代码示例，帮助读者更好地理解这些概念。

1. 拟合的概念

拟合：通过训练数据调整模型参数，使得模型输出接近真实数据。
目标：找到一个能够较好地泛化到未见数据的模型，而不仅仅是“记住”训练数据。

2. 拟合的三种情况

(1) 欠拟合（Underfitting）

定义：模型过于简单，无法捕捉数据中的模式和复杂关系，导致训练误差较大。
原因：
模型复杂度不足（如线性模型拟合非线性数据）。
特征不足，未提取有效信息。
训练不充分或超参数设置不合理。
解决方案：
使用更复杂的模型（例如：增加非线性特征或选择更强的算法）。
添加更多有效特征。
提高训练时间或优化超参数。

(2) 适度拟合（Good Fit）

定义：模型能够很好地捕捉数据的模式，训练误差和测试误差都较小，具有良好的泛化能力。
特征：
训练误差和测试误差接近且较小。
模型复杂度适中，能够准确反映数据规律。
目标：这是我们训练模型的理想状态。

(3) 过拟合（Overfitting）

定义：模型过于复杂，捕捉到了数据中的噪声和细节，导致训练误差较小但测试误差较大。
原因：
模型复杂度过高。
训练数据量不足。
数据中存在噪声，模型对噪声进行了学习。
解决方案：
正则化：如 L1 和 L2 正则化，限制模型复杂度。
增加数据量：提供更多的训练数据来提升泛化能力。
简化模型：选择更简单的模型或减少特征。
使用交叉验证：如 K 折交叉验证，选择最佳模型。
早停法（Early Stopping）：在训练过程中监控验证集误差，防止训练过度。

3. 拟合的可视化理解

示例图：

拟合情况可以通过训练数据和模型预测之间的关系图来直观理解：

欠拟合：模型的预测结果偏离数据真实分布，表现为高偏差（Bias）。
适度拟合：模型的预测结果与数据真实分布较为一致，泛化能力较好。
过拟合：模型过于贴合训练数据，表现为高方差（Variance）。

4. 控制拟合的技巧

数据增强：

扩展训练集，特别在深度学习中，如图像、文本数据增强。

正则化技术：

L1 正则化（Lasso）：引入稀疏性，减少不重要的特征。
L2 正则化（Ridge）：平滑权重，避免模型过于复杂。

交叉验证：

使用验证集调整模型参数，选择最佳拟合效果。

早停法（Early Stopping）：

在验证集误差停止改善时，提前停止训练。

使用集成学习：

如 Bagging、Boosting 等方法，通过多个模型的组合提升泛化性能。

简化模型结构：

减少模型的参数和层数，防止过拟合。

5. 代码示例

以线性回归为例，展示欠拟合、适度拟合和过拟合：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 生成数据
np.random.seed(0)
X = np.linspace(-3, 3, 100).reshape(-1, 1)
y = X**3 + np.random.normal(0, 3, size=X.shape)  # 非线性数据

# 拆分训练和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 定义不同复杂度的模型
degrees = [1, 3, 9]  # 1表示欠拟合，3表示适度拟合，9表示过拟合
plt.figure(figsize=(18, 5))
for i, d in enumerate(degrees):
    poly = PolynomialFeatures(degree=d)
    X_poly_train = poly.fit_transform(X_train)
    X_poly_test = poly.transform(X_test)
    
    model = LinearRegression()
    model.fit(X_poly_train, y_train)
    
    y_pred_train = model.predict(X_poly_train)
    y_pred_test = model.predict(X_poly_test)
    
    train_error = mean_squared_error(y_train, y_pred_train)
    test_error = mean_squared_error(y_test, y_pred_test)
    
    # 绘图
    plt.subplot(1, 3, i+1)
    plt.scatter(X, y, color='gray', label='Data')
    X_plot = np.linspace(-3, 3, 100).reshape(-1, 1)
    y_plot = model.predict(poly.transform(X_plot))
    plt.plot(X_plot, y_plot, color='red', label=f"Degree {d}")
    plt.title(f"Degree {d}\nTrain Error: {train_error:.2f}, Test Error: {test_error:.2f}")
    plt.legend()
plt.show()