资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

LightGBM参数调优、模型训练与评估全攻略

创作时间:

作者:

@小白创作中心

LightGBM参数调优、模型训练与评估全攻略

引用

来源

https://cloud.tencent.com/developer/article/2435845

LightGBM是微软开发的一个机器学习工具，擅长处理大数据和高维数据。本文将详细介绍LightGBM的参数调优、模型训练和模型评估等关键问题，并提供具体的代码示例。

参数调优

在使用LightGBM时，了解和调优超参数是非常重要的。下面介绍一些常见的LightGBM超参数：

主要超参数

num_leaves：这个参数控制树的复杂度。树的叶子数越多，模型越复杂，越容易过拟合。合理设置这个参数可以在精度和过拟合之间找到平衡。
max_depth：这个参数控制树的最大深度。它用于限制树的深度，从而防止过拟合。
learning_rate：学习率决定每次迭代更新的幅度。较低的学习率通常需要更多的迭代次数来收敛，但能带来更好的模型性能。
n_estimators：这个参数设置提升的树的数量。一般来说，更多的树可以提高模型的性能，但也增加了计算时间。

树的构建参数

min_data_in_leaf：一个叶子节点中最少的数据量。这个参数可以用来防止过拟合。
min_sum_hessian_in_leaf：一个叶子节点中最小的hessian和（Hessian矩阵是目标函数的二阶导数矩阵）。这个参数同样可以用来防止过拟合。
bagging_fraction：每次迭代时用来训练的数据比例。用于Bagging，防止过拟合。
feature_fraction：每次迭代时用来训练的特征比例。用于特征采样，防止过拟合。

正则化参数

lambda_l1：L1正则化项的权重。可以用来减少模型的复杂度，防止过拟合。
lambda_l2：L2正则化项的权重。同样可以用来减少模型的复杂度，防止过拟合。

其他

objective：目标函数，决定了任务的类型（如回归、二分类、多分类等）。
metric：评估指标，用于评估模型的性能（如rmse、auc等）。

下面是一个完整的参数调优代码示例：

import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np

# 示例数据集
X, y = np.random.rand(1000, 10), np.random.rand(100)
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建数据集
train_data = lgb.Dataset(X_train, label=y_train)
test_data = lgb.Dataset(X_test, label=y_test, reference=train_data)
# 设置参数
params = {
    'num_leaves': 31,
    'max_depth': -1,
    'learning_rate': 0.1,
    'n_estimators': 100,
    'min_data_in_leaf': 20,
    'min_sum_hessian_in_leaf': 1e-3,
    'bagging_fraction': 0.8,
    'feature_fraction': 0.8,
    'lambda_l1': 0.1,
    'lambda_l2': 0.2,
    'objective': 'regression',
    'metric': 'rmse'
}
# 训练模型
gbm = lgb.train(params, train_data, valid_sets=[test_data], early_stopping_rounds=10)
# 预测
y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration)
# 评估
rmse = mean_squared_error(y_test, y_pred, squared=False)
print(f'Test RMSE: {rmse}')

模型训练

在大数据集上使用LightGBM时，可以通过以下几种方法来进一步优化训练速度：

减少数据量：

采样：对非常大的数据集，可以尝试进行数据采样（比如随机采样），这样可以减少训练数据的量，从而加快训练速度。
特征选择：移除那些对模型贡献不大的特征，减少特征数量也可以显著提高训练速度。

调节参数：

num_leaves：树的叶子节点数量，通常设置为2^(max_depth)。降低num_leaves会减少模型的复杂度，从而加快训练速度。
max_depth：树的最大深度。设置一个合适的max_depth可以防止树过深，从而减少训练时间。
min_data_in_leaf：每个叶子节点的最小样本数量。增加这个值可以减少树的复杂度，从而加快训练速度。
feature_fraction：每次迭代时用来训练的特征比例。减少这个比例可以加快训练速度。
bagging_fraction和bagging_freq：Bagging的采样比例和频率，增加采样比例和频率可以加快训练速度。

并行化：

使用多线程或多进程来加速训练。LightGBM本身支持多线程，可以通过设置num_threads参数来控制使用的线程数。

数据格式优化：

将数据转换成LightGBM专用的二进制格式（.bin），这样可以显著减少数据加载时间。

硬件优化：

使用更强大的硬件，比如更多的CPU核、更大的内存，以及使用SSD而不是HDD来存储数据。

下面是一个优化训练速度的代码示例：

import lightgbm as lgb
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
import time

# 生成一个大的数据集
X, y = make_classification(n_samples=1000000, n_features=50, n_informative=30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建数据集格式
train_data = lgb.Dataset(X_train, label=y_train)
test_data = lgb.Dataset(X_test, label=y_test, reference=train_data)
# 设置参数
params = {
    'objective': 'binary',
    'metric': 'binary_logloss',
    'num_leaves': 31,
    'max_depth': -1,
    'min_data_in_leaf': 20,
    'learning_rate': 0.1,
    'feature_fraction': 0.8,
    'bagging_fraction': 0.8,
    'bagging_freq': 5,
    'num_threads': 8  # 使用8个线程
}
# 训练模型并计时
start_time = time.time()
gbm = lgb.train(params,
                train_data,
                num_boost_round=100,
                valid_sets=[train_data, test_data],
                early_stopping_rounds=10)
print(f"Training completed in {time.time() - start_time:.2f} seconds")
# 预测并计算精度
y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration)
accuracy = sum((y_pred > 0.5) == y_test) / len(y_test)
print(f"Accuracy: {accuracy:.2%}")

模型评估

交叉验证是一种常用的方法来评估模型的泛化能力。交叉验证通过将数据集分成多个子集，反复训练和验证模型，从而能够更可靠地评估模型在未见数据上的表现。

交叉验证的基本概念：

k折交叉验证：将数据集分为k个子集（折），每次用k-1个子集训练模型，剩下的1个子集验证模型。重复k次，每次用不同的子集作为验证集，最后计算k次验证结果的平均值。
评估指标：常用的评估指标包括准确率（Accuracy）、AUC、F1-Score、均方误差（MSE）等，根据具体任务选择合适的评估指标。

LightGBM的交叉验证函数：

LightGBM提供了lightgbm.cv函数，用于执行交叉验证。它可以自动处理数据分割、模型训练和评估。

超参数调优：

通过交叉验证结果，可以调节LightGBM的超参数，以找到最佳参数组合，提高模型的性能。

下面是一个完整的交叉验证代码示例：

import lightgbm as lgb
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split

# 加载加州房价数据集
data = fetch_california_housing()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target)
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建LightGBM数据集
lgb_train = lgb.Dataset(X_train, y_train)
lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)

# 设置参数
params = {
    'objective': 'regression',  # 目标函数：回归
    'metric': 'mse',            # 评估指标：均方误差
    'boosting_type': 'gbdt',    # 提升类型：梯度提升决策树
    'learning_rate': 0.1,       # 学习率
    'num_leaves': 31,           # 叶子节点数
    'max_depth': -1,            # 树的最大深度
    'feature_fraction': 0.9,    # 特征选择比例
    'bagging_fraction': 0.8,    # 数据选择比例
    'bagging_freq': 5,          # bagging的频率
    'verbose': -1               # 日志信息
}

# 执行交叉验证
cv_results = lgb.cv(
    params,
    lgb_train,
    num_boost_round=1000,          # 最大训练轮数
    nfold=5,                       # 5折交叉验证
    stratified=False,              # 是否进行分层抽样
    shuffle=True,                  # 是否在每次分割时打乱数据
    metrics='mse',                 # 评估指标
    early_stopping_rounds=50,      # 提前停止的轮数
    seed=42                        # 随机种子
)
# 输出交叉验证结果
print(f"最佳迭代次数：{len(cv_results['l2-mean'])}")
print(f"交叉验证的均方误差：{cv_results['l2-mean'][-1]}")

需要注意以下几点：