资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

使用XGBoost进行单变量时间序列预测：从数据准备到模型优化

创作时间:

作者:

@小白创作中心

使用XGBoost进行单变量时间序列预测：从数据准备到模型优化

引用

CSDN

https://blog.csdn.net/sinat_41858359/article/details/145704577

本文通过一个具体的案例，逐步讲解了如何使用XGBoost模型进行单变量时间序列预测。内容包括数据读取、格式转换、模型训练、预测、评估等多个环节，并配有详细的代码示例和结果展示。

一、引言

XGBoost 是一种高效的梯度提升树（Gradient Boosting Decision Tree, GBDT）算法。尽管 XGBoost 主要用于监督学习任务（如分类和回归），但通过适当的数据预处理，它也可以用于时间序列预测（Time Series Forecasting）。本文通过一个具体的案例逐步讲解XGBoost模型用于单变量时序数据预测。

二、实现过程

2.1 读取时间序列数据

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

data = pd.read_csv('data.csv')
data['Month'] = pd.to_datetime(data['Month'])
df = data

sns.set(font_scale=1.2)
plt.rc('font', family=['Times New Roman', 'SimSun'], size=12)
plt.figure()
plt.plot(df['Month'], df['Passengers'], color='b', alpha=0.6, label='Original Time Series')
plt.title('Original Time Series', fontsize=12)
plt.legend()
plt.tight_layout()
plt.show()

2.2 数据格式转换

使用滑动窗口法将时间序列数据转换为监督学习格式：

from sklearn.preprocessing import create_lag_features

df_lagged = create_lag_features(df, lags=10)
X = df_lagged.drop(columns=['Passengers'])
y = df_lagged['Passengers']

2.3 数据集划分

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

2.4 模型训练

from xgboost import XGBRegressor

model = XGBRegressor(objective='reg:squarederror', n_estimators=200, learning_rate=0.1, max_depth=5)
model.fit(X_train, y_train)

2.5 模型预测

y_pred = model.predict(X_test)

2.6 模型评估

from sklearn.metrics import mean_squared_error

mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse:.4f}')

可视化预测结果：

plt.figure()
plt.plot(y_test.values, label='Actual', color='g')
plt.plot(y_pred, label='Predicted', color='r', linestyle='dashed')
plt.title('Actual vs Predicted', fontsize=12)
plt.legend()
plt.tight_layout()
plt.show()

查看预测误差的分布情况：

plt.figure()
sns.histplot(y_test - y_pred, bins=30, kde=True, color='purple')
plt.title('Error Distribution', fontsize=12)
plt.tight_layout()
plt.show()

2.7 特征重要性分析

分析哪些滞后变量对预测最重要：

plt.figure()
feature_importance = model.feature_importances_
sns.barplot(x=X.columns, y=feature_importance, palette='viridis')
plt.title('Feature Importance', fontsize=12)
plt.xticks(X.columns, rotation=45)
plt.tight_layout()
plt.show()

2.8 参数调优

使用网格搜索进行参数调优：

from sklearn.model_selection import GridSearchCV

grid_params = {
    'n_estimators': [100, 200, 500],
    'max_depth': [3, 5, 7],
    'learning_rate': [0.01, 0.1, 0.2]
}
grid_search = GridSearchCV(XGBRegressor(objective='reg:squarederror'), grid_params, cv=3, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)
print(f'Best Parameters: {grid_search.best_params_}')

热门推荐

颈椎操：告别"低头族"的颈椎疼痛