XGBoost/LightGBM 调参与优化：超参数搜索与集成学习策略 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，咱们今天就来聊聊XGBoost和LightGBM这两位“梯度提升天团”的当红炸子鸡的调参与优化。别怕，咱们不搞学术论文那一套，就用大白话，加上代码，让你听得懂，用得上。

开场白：为啥要死磕调参？

话说，模型就像汽车，算法是发动机，数据是汽油，而调参呢，就是那个老司机，负责调整方向盘、油门和刹车，让汽车跑得更快、更稳。没有老司机，再好的车也可能跑偏或者直接翻车。

XGBoost和LightGBM本身已经很强大了，但想要它们在你的特定数据集上发挥出120%的实力，调参是必不可少的。参数调好了，效果提升那是杠杠的！

第一部分：XGBoost调参大法

XGBoost，全称Extreme Gradient Boosting，是陈天奇大佬的杰作。它以速度快、效果好著称，但参数也是真不少。咱们一个个来攻破。

1. 参数分类：三大金刚

XGBoost的参数可以分为三类：

通用参数（General Parameters）： 控制宏观功能，比如用哪个boosting器。
Booster参数（Booster Parameters）： 控制boosting过程，比如树的深度、学习率。
学习目标参数（Learning Task Parameters）： 控制学习的目标，比如回归、分类。

2. 通用参数：打好地基

booster：选择用哪个booster。一般用gbtree（基于树的模型）或者gblinear（线性模型）。默认是gbtree。如果数据特征是稀疏矩阵，推荐使用gblinear。
nthread：并行线程数。如果你有很多核心，可以充分利用。设为-1表示使用所有核心。
verbosity：控制打印信息的级别。0表示静默模式，1表示打印警告信息，2表示打印调试信息。

3. Booster参数：精雕细琢

这部分是调参的重头戏！

树模型参数（Tree Booster）：
- eta (又名 learning_rate)：学习率。控制每次迭代的步长。值越小，模型越稳健（不容易过拟合），但训练时间越长。典型值：0.01-0.2. 建议先设置一个较大的值(比如0.1), 找到一个比较好的n_estimators，然后再减小eta，找到更优的参数组合。
- gamma (又名 min_split_loss)：分裂所需的最小损失减少。只有当分裂带来的损失减少大于gamma时，才会分裂。值越大，模型越保守。
- max_depth：树的最大深度。值越大，模型越复杂，容易过拟合。典型值：3-10. 一般从3开始尝试。
- min_child_weight：子节点所需的最小样本权重和。用于控制过拟合。值越大，模型越保守。
- subsample：训练样本的采样比例。例如，0.8表示每次迭代随机抽取80%的样本进行训练。
- colsample_bytree：构造每棵树时，对特征的采样比例。例如，0.8表示每次迭代随机抽取80%的特征进行训练。
- colsample_bylevel：每次树的层次分裂时，对特征的采样比例。
- lambda (又名 reg_lambda)：L2正则化系数。用于控制过拟合。
- alpha (又名 reg_alpha)：L1正则化系数。用于控制过拟合。
- tree_method: 树的构造算法。可选值包括auto, exact, approx, hist, gpu_hist. hist和gpu_hist是加速训练的常用方法。 gpu_hist需要在GPU上运行。
线性模型参数（Linear Booster）：
- lambda (又名 reg_lambda)：L2正则化系数。
- alpha (又名 reg_alpha)：L1正则化系数。
- updater：用于构造线性模型的算法。

4. 学习目标参数：指明方向

objective：定义学习任务及相应的学习目标。
- reg:linear：线性回归。
- reg:logistic：逻辑回归。
- binary:logistic：二分类逻辑回归，输出概率。
- binary:logitraw：二分类逻辑回归，输出未经过sigmoid变换的原始值。
- multi:softmax：多分类softmax，需要设置num_class。
- multi:softprob：多分类softmax，输出概率，需要设置num_class。
- rank:pairwise：排序任务。
eval_metric：评估指标。根据你的任务选择合适的指标。
- rmse：均方根误差。
- mae：平均绝对误差。
- logloss：负对数似然损失。
- error：错误率（二分类）。
- merror：错误率（多分类）。
- auc：AUC (Area Under the Curve)。
seed：随机种子。用于保证结果的可重复性。

5. 实战演练：XGBoost调参代码

import xgboost as xgb
from sklearn.model_selection import GridSearchCV, StratifiedKFold
from sklearn.datasets import make_classification
from sklearn.metrics import accuracy_score

# 1. 准备数据
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

# 2. 定义参数空间
param_grid = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.1, 0.3],
    'max_depth': [3, 5, 7],
    'subsample': [0.8, 1.0],
    'colsample_bytree': [0.8, 1.0],
    'gamma': [0, 0.1, 0.2],
    'reg_alpha': [0, 0.1, 0.2],
    'reg_lambda': [0, 1, 2]
}

# 3. 创建XGBoost分类器
xgb_model = xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42) # Important: Set use_label_encoder to False

# 4. 使用GridSearchCV进行参数搜索
skf = StratifiedKFold(n_splits=3, shuffle=True, random_state=42)
grid_search = GridSearchCV(xgb_model, param_grid, scoring='accuracy', cv=skf, verbose=1, n_jobs=-1)

# 5. 训练模型
grid_search.fit(X, y)

# 6. 输出最佳参数和得分
print("Best parameters:", grid_search.best_params_)
print("Best score:", grid_search.best_score_)

# 7. 使用最佳参数的模型进行预测
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X)
accuracy = accuracy_score(y, y_pred)
print("Accuracy on the whole dataset:", accuracy)

代码解读：

这段代码使用GridSearchCV进行网格搜索，遍历所有可能的参数组合。
StratifiedKFold用于分层交叉验证，保证每个fold中正负样本比例一致。
scoring='accuracy'指定评估指标为准确率。
verbose=1表示打印搜索过程中的信息。
n_jobs=-1表示使用所有CPU核心进行并行计算。
use_label_encoder=False是为了避免警告，因为XGBoost新版本不再推荐使用LabelEncoder。
eval_metric='logloss' 设置评估指标为对数损失，这对于分类问题很重要。

第二部分：LightGBM调参秘籍

LightGBM，全称Light Gradient Boosting Machine，是微软出品的另一款梯度提升框架。它的特点是速度更快、内存占用更少，尤其擅长处理大规模数据。

1. 参数分类：异曲同工

LightGBM的参数分类和XGBoost类似：

核心参数（Core Parameters）： 指定任务类型、目标函数等。
控制参数（Control Parameters）： 控制模型复杂度、防止过拟合。
IO参数（IO Parameters）： 控制数据输入输出。

2. 核心参数：定下基调

objective：和XGBoost类似，定义学习任务及相应的学习目标。
boosting_type：boosting算法类型。gbdt（梯度提升决策树），rf（随机森林），dart（Dropout meets Multiple Additive Regression Trees），goss（Gradient-based One-Side Sampling）。默认是gbdt。
num_leaves：每棵树上的叶子节点数。这是控制模型复杂度的主要参数。典型值：20-70。
learning_rate：学习率。和XGBoost的eta一样。
n_estimators： boosting迭代次数，即生成的树的棵数。

3. 控制参数：拿捏细节

max_depth：树的最大深度。和XGBoost一样。
min_child_samples：一个叶子上包含的最少样本数。用于控制过拟合。
min_child_weight：一个叶子上包含的最小权重和。和XGBoost类似。
subsample：训练样本的采样比例。和XGBoost一样。
colsample_bytree：特征的采样比例。和XGBoost一样。
reg_alpha：L1正则化系数。和XGBoost一样。
reg_lambda：L2正则化系数。和XGBoost一样。
feature_fraction：特征的采样比例。和colsample_bytree类似。
bagging_fraction：数据的采样比例。和subsample类似。需要同时设置bagging_freq。
bagging_freq：bagging的频率。例如，设为5表示每5次迭代进行一次bagging。

4. IO参数：数据通道

data：训练数据。
label：标签。
num_threads：线程数。
verbose：控制打印信息的级别。

5. 实战演练：LightGBM调参代码

import lightgbm as lgb
from sklearn.model_selection import GridSearchCV, StratifiedKFold
from sklearn.datasets import make_classification
from sklearn.metrics import accuracy_score

# 1. 准备数据
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

# 2. 定义参数空间
param_grid = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.1, 0.3],
    'num_leaves': [20, 31, 40],
    'subsample': [0.8, 1.0],
    'colsample_bytree': [0.8, 1.0],
    'reg_alpha': [0, 0.1, 0.2],
    'reg_lambda': [0, 1, 2]
}

# 3. 创建LightGBM分类器
lgb_model = lgb.LGBMClassifier(random_state=42)

# 4. 使用GridSearchCV进行参数搜索
skf = StratifiedKFold(n_splits=3, shuffle=True, random_state=42)
grid_search = GridSearchCV(lgb_model, param_grid, scoring='accuracy', cv=skf, verbose=1, n_jobs=-1)

# 5. 训练模型
grid_search.fit(X, y)

# 6. 输出最佳参数和得分
print("Best parameters:", grid_search.best_params_)
print("Best score:", grid_search.best_score_)

# 7. 使用最佳参数的模型进行预测
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X)
accuracy = accuracy_score(y, y_pred)
print("Accuracy on the whole dataset:", accuracy)

代码解读：

这段代码和XGBoost的类似，只是将模型换成了lgb.LGBMClassifier。
注意num_leaves是LightGBM特有的重要参数，控制了模型的复杂度。

第三部分：调参的正确姿势

调参不是玄学，而是一门科学。要讲究方法，才能事半功倍。

1. 明确目标：想要啥？

在开始调参之前，先问问自己：

我的目标是什么？是追求最高的准确率，还是更快的训练速度，还是更小的模型体积？
我的数据有什么特点？是高维稀疏数据，还是低维稠密数据？

不同的目标和数据特点，决定了不同的调参策略。

2. 确定评估指标：用啥衡量？

选择合适的评估指标非常重要。例如，对于不平衡数据集，准确率可能不是一个好的指标，可以考虑使用AUC、F1-score等。

3. 粗调 + 精调：循序渐进

不要一开始就尝试所有参数的所有可能值。可以先进行粗调，找到几个比较重要的参数的大致范围，然后再进行精调，在这些范围内进行更细致的搜索。

4. 网格搜索 vs. 随机搜索：各有所长

网格搜索（GridSearchCV）： 遍历所有可能的参数组合。适合参数空间较小的情况。
随机搜索（RandomizedSearchCV）： 随机选择参数组合。适合参数空间较大的情况。

5. 贝叶斯优化：智能调参

贝叶斯优化是一种更高级的调参方法。它利用先验知识，不断优化参数搜索策略，能够更快地找到最优参数。

6. 交叉验证：避免过拟合

使用交叉验证来评估模型的性能，可以更可靠地估计模型在未知数据上的表现，避免过拟合。

7. Early Stopping：及时止损

Early Stopping是一种常用的防止过拟合的技巧。在训练过程中，如果模型在验证集上的性能不再提升，就提前停止训练。

8. 调参的经验法则

参数	影响	调参建议
`learning_rate`	学习率越小，模型越稳健，但训练时间越长。	先设置一个较大的值(比如0.1), 找到一个比较好的`n_estimators`，然后再减小`learning_rate`，找到更优的参数组合。
`n_estimators`	boosting迭代次数，即生成的树的棵数。	可以配合`learning_rate`一起调整， `learning_rate`降低， `n_estimators`可以适当增加。
`max_depth`	树的最大深度。值越大，模型越复杂，容易过拟合。	一般从3开始尝试，逐步增加。
`num_leaves`	每棵树上的叶子节点数。这是控制模型复杂度的主要参数。	LightGBM特有，可以配合`max_depth`一起调整。一般`num_leaves` < 2^`max_depth`。
`min_child_samples`	一个叶子上包含的最少样本数。用于控制过拟合。	越大，模型越保守。
`subsample`	训练样本的采样比例。	典型值：0.5-1.0。
`colsample_bytree`	特征的采样比例。	典型值：0.5-1.0。
`reg_alpha`	L1正则化系数。	越大，模型越保守。
`reg_lambda`	L2正则化系数。	越大，模型越保守。
`gamma`	分裂所需的最小损失减少。	越大，模型越保守。

第四部分：集成学习策略：更上一层楼

除了调参，集成学习也是提升模型性能的利器。

1. Bagging：并行训练，减少方差

Bagging（Bootstrap Aggregating）是一种并行集成学习方法。它通过对训练集进行有放回的抽样，生成多个不同的训练集，然后训练多个模型，最后将它们的预测结果进行平均或投票。

随机森林（Random Forest）是Bagging的典型代表。

2. Boosting：串行训练，减少偏差

Boosting是一种串行集成学习方法。它通过迭代的方式，每次训练一个新的模型，来纠正之前模型的错误。

XGBoost和LightGBM都是Boosting的典型代表。

3. Stacking：多层模型，博采众长

Stacking是一种更高级的集成学习方法。它将多个基模型的预测结果作为新的特征，训练一个元模型（meta-model）来进行最终的预测。

4. 实战演练：Stacking代码

from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification
from sklearn.metrics import accuracy_score
import numpy as np

# 1. 准备数据
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 2. 定义基模型
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
xgb_model = xgb.XGBClassifier(n_estimators=100, use_label_encoder=False, eval_metric='logloss', random_state=42)
lgb_model = lgb.LGBMClassifier(n_estimators=100, random_state=42)

# 3. 训练基模型
rf_model.fit(X_train, y_train)
xgb_model.fit(X_train, y_train)
lgb_model.fit(X_train, y_train)

# 4. 生成基模型的预测结果
rf_pred = rf_model.predict_proba(X_test)[:, 1]
xgb_pred = xgb_model.predict_proba(X_test)[:, 1]
lgb_pred = lgb_model.predict_proba(X_test)[:, 1]

# 5. 将基模型的预测结果作为新的特征
X_stacked = np.column_stack((rf_pred, xgb_pred, lgb_pred))

# 6. 定义元模型
lr_model = LogisticRegression(random_state=42)

# 7. 训练元模型
lr_model.fit(X_stacked, y_test)

# 8. 预测
rf_pred_train = rf_model.predict_proba(X_train)[:, 1]
xgb_pred_train = xgb_model.predict_proba(X_train)[:, 1]
lgb_pred_train = lgb_model.predict_proba(X_train)[:, 1]

X_stacked_train = np.column_stack((rf_pred_train, xgb_pred_train, lgb_pred_train))

lr_pred = lr_model.predict(X_stacked)
accuracy = accuracy_score(y_test, lr_pred)
print("Stacking Accuracy:", accuracy)

代码解读：

这段代码使用了随机森林、XGBoost和LightGBM作为基模型，逻辑回归作为元模型。
首先训练基模型，然后用基模型预测测试集，将预测结果作为新的特征。
然后训练元模型，用元模型对新的特征进行预测。

第五部分：总结与展望

今天咱们聊了XGBoost和LightGBM的调参与优化，以及集成学习策略。记住，调参不是一蹴而就的事情，需要不断尝试、不断总结。

未来，AutoML（自动化机器学习）将会越来越普及，能够自动完成特征工程、模型选择和参数调优等任务。但即使有了AutoML，了解模型的原理和调参技巧仍然非常重要，这样才能更好地理解AutoML的结果，并进行必要的干预。

希望今天的分享能帮助你更好地驾驭XGBoost和LightGBM，在机器学习的道路上越走越远！

最后，记住：没有最好的模型，只有最适合的模型！

发表回复 取消回复

发表回复取消回复