AutoGluon：自动化机器学习 (AutoML) 的集成与高级配置 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷们，今天咱们来聊聊AutoGluon这个“懒人神器”。什么？你说你不想费劲调参，不想研究各种模型？没问题，AutoGluon帮你搞定！它就像一个超级智能的AI助手，能自动帮你选择最佳模型、优化参数，让你轻轻松松就能获得高性能的机器学习模型。

AutoGluon：自动化机器学习的集成与高级配置

一、什么是AutoGluon？

简单来说，AutoGluon就是一个自动化机器学习（AutoML）框架。它能自动完成以下任务：

数据预处理： 自动处理缺失值、类别变量编码等。
特征工程： 自动生成新的特征，提升模型性能。
模型选择： 自动选择合适的模型，比如线性模型、决策树、神经网络等。
超参数优化： 自动调整模型的参数，找到最佳配置。
模型集成： 将多个模型组合起来，获得更强的预测能力。

听起来是不是很厉害？更厉害的是，你只需要几行代码就能完成所有这些操作！

二、AutoGluon的基本用法

我们先来一个简单的例子，让你感受一下AutoGluon的魅力。假设我们有一个关于房价的数据集，包含房屋的各种特征（面积、卧室数量、地理位置等），以及对应的房价。我们的目标是使用这些数据来预测房价。

from autogluon.tabular import TabularPredictor
import pandas as pd

# 1. 加载数据
train_data = pd.read_csv("train.csv")  # 替换为你的训练数据文件
test_data = pd.read_csv("test.csv")    # 替换为你的测试数据文件

# 2. 指定目标列
label = "price"  # 替换为你的目标列名称

# 3. 创建TabularPredictor对象
predictor = TabularPredictor(label=label, path="AutoGluonModels") # path 用于保存模型，可选

# 4. 训练模型
predictor.fit(train_data)

# 5. 预测
predictions = predictor.predict(test_data)

# 6. 评估模型 (可选)
eval_results = predictor.evaluate(test_data)
print(eval_results)

这段代码做了什么呢？

加载数据： 使用pandas加载训练数据和测试数据。
指定目标列： 告诉AutoGluon我们要预测的是哪个列（房价）。
创建TabularPredictor对象： 这是AutoGluon的核心类，用于训练和预测。path参数指定了保存模型的路径，可以省略。
训练模型： 调用fit()方法，AutoGluon会自动完成所有任务，包括数据预处理、模型选择、超参数优化等。
预测： 调用predict()方法，使用训练好的模型对测试数据进行预测。
评估模型： 调用evaluate()方法，评估模型在测试数据上的性能。

怎么样，是不是很简单？只需要几行代码，就能完成一个完整的机器学习流程！

三、AutoGluon的高级配置

虽然AutoGluon很智能，但有时候我们也需要对其进行一些高级配置，以满足特定的需求。下面我们来介绍一些常用的高级配置选项。

1. 指定模型类型 (presets)

presets参数允许你指定AutoGluon使用的模型类型。不同的presets对应不同的模型组合和训练策略。常用的presets包括：

"best_quality": 使用所有可用的模型，并进行最充分的训练，通常能获得最佳性能，但耗时较长。
"high_quality": 使用多种模型，并进行较长时间的训练，性能较好，耗时适中。
"good_quality": 使用一部分模型，并进行中等时间的训练，性能和耗时都比较平衡。
"medium_quality": 使用较少的模型，并进行较短时间的训练，适合快速原型设计。
"optimize_for_deployment": 专注于生成易于部署的模型，通常是单个模型，而不是模型集成。
"ignore_text": 忽略文本特征，适用于只使用数值和类别特征的情况。

例如，如果你想使用高性能的模型，可以这样设置：

predictor = TabularPredictor(label=label, path="AutoGluonModels", eval_metric="rmse")
predictor.fit(train_data, presets="best_quality", time_limit=3600) # time_limit单位为秒

2. 指定评估指标 (eval_metric)

eval_metric参数允许你指定用于评估模型性能的指标。常用的评估指标包括：

回归问题：
- "rmse"：均方根误差（Root Mean Squared Error），越小越好。
- "mae"：平均绝对误差（Mean Absolute Error），越小越好。
- "r2"：R平方（R-squared），越大越好。
分类问题：
- "accuracy"：准确率（Accuracy），越大越好。
- "f1"：F1分数（F1-score），越大越好。
- "roc_auc"：ROC曲线下面积（Area Under the ROC Curve），越大越好。
- "log_loss"：对数损失（Log Loss），越小越好。

例如，如果你想使用均方根误差作为评估指标，可以这样设置：

predictor = TabularPredictor(label=label, path="AutoGluonModels", eval_metric="rmse")
predictor.fit(train_data)

3. 指定训练时间 (time_limit)

time_limit参数允许你指定AutoGluon的训练时间，单位为秒。AutoGluon会在指定的时间内尽可能地优化模型。

例如，如果你只想让AutoGluon训练10分钟，可以这样设置：

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data, time_limit=600)  # 600秒 = 10分钟

4. 指定模型列表 (hyperparameters)

hyperparameters参数允许你指定AutoGluon使用的模型列表，并为每个模型设置超参数。这可以让你更精细地控制AutoGluon的行为。

例如，如果你想只使用LightGBM和RandomForest模型，并为它们设置一些超参数，可以这样设置：

hyperparameters = {
    "GBM": {"num_leaves": 31, "learning_rate": 0.05},  # LightGBM
    "RF": {"n_estimators": 100, "max_depth": 10},       # RandomForest
}

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data, hyperparameters=hyperparameters)

5. 自定义数据类型 (column_types)

AutoGluon会自动推断每个列的数据类型，但有时候我们需要手动指定数据类型，以获得更好的性能。column_types参数允许你指定每个列的数据类型。

例如，如果你想将zip_code列指定为类别类型，可以这样设置：

column_types = {"zip_code": "category"}

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data, column_types=column_types)

6. 特征工程 (feature_generator)

AutoGluon自带特征生成器，可以自动生成新的特征。你可以通过feature_generator参数来控制特征生成器的行为。

常用的特征生成器选项包括：

"auto"：自动选择特征生成策略。
"simple"：只生成简单的特征，如数值特征的平方、立方等。
"numerical"：只生成数值特征。
"categorical"：只生成类别特征。
"text"：只生成文本特征。
None：禁用特征生成。

例如，如果你想禁用特征生成，可以这样设置：

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data, feature_generator=None)

7. 模型集成策略 (stack_ensemble_level)

AutoGluon使用模型集成来提高预测能力。stack_ensemble_level参数控制模型集成的层数。

stack_ensemble_level = 0：禁用模型集成，只使用单个模型。
stack_ensemble_level = 1：使用一层模型集成。
stack_ensemble_level = 2：使用两层模型集成。
以此类推。

通常情况下，增加模型集成的层数可以提高性能，但也会增加训练时间。

例如，如果你想使用两层模型集成，可以这样设置：

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data, stack_ensemble_level=2)

四、AutoGluon的常用函数

除了上面介绍的fit()、predict()和evaluate()方法，AutoGluon还提供了一些其他的常用函数，可以帮助你更好地使用AutoGluon。

leaderboard()： 显示模型排行榜，列出每个模型的性能指标。

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data)
leaderboard = predictor.leaderboard()
print(leaderboard)

info()： 显示模型的详细信息，包括使用的模型、超参数、训练时间等。

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data)
info = predictor.info()
print(info)

fit_summary()： 返回一个包含模型训练过程信息的字典。

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data)
summary = predictor.fit_summary()
print(summary)

refit_full()： 使用所有数据重新训练最佳模型。这可以进一步提高模型的性能。

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data)
predictor.refit_full()

五、AutoGluon与其他AutoML框架的比较

AutoGluon不是唯一的AutoML框架，还有一些其他的框架，比如H2O AutoML、TPOT等。它们各有优缺点。

框架	优点	缺点
AutoGluon	易于使用，性能优秀，支持多种模型，支持模型集成，支持自定义模型。	对文本数据的处理能力相对较弱，需要一定的内存空间。
H2O AutoML	支持大规模数据，支持多种模型，支持分布式计算。	学习曲线较陡峭，需要一定的H2O知识。
TPOT	基于遗传算法，可以自动生成复杂的pipeline。	训练时间较长，容易过拟合。

选择哪个框架取决于你的具体需求。如果你需要一个易于使用、性能优秀的框架，AutoGluon是一个不错的选择。

六、AutoGluon的适用场景

AutoGluon适用于各种机器学习任务，包括：

表格数据分类： 预测类别标签，如客户流失预测、欺诈检测等。
表格数据回归： 预测数值，如房价预测、销售额预测等。
图像分类： 识别图像中的物体，如猫狗识别、交通标志识别等。
文本分类： 对文本进行分类，如情感分析、垃圾邮件检测等。
目标检测： 在图像中检测物体的位置和类别，如人脸检测、车辆检测等。
时间序列预测： 预测未来的时间序列值，如股票价格预测、天气预测等。

七、AutoGluon的局限性

虽然AutoGluon很强大，但它也有一些局限性：

计算资源： AutoGluon的训练过程需要消耗大量的计算资源，特别是当使用"best_quality"预设时。
内存需求： AutoGluon需要将数据加载到内存中进行处理，因此需要足够的内存空间。
可解释性： 虽然AutoGluon可以自动选择最佳模型，但有时候很难解释模型的预测结果。
数据质量： AutoGluon对数据质量有一定要求，如果数据质量较差，可能会影响模型的性能。

八、AutoGluon的未来发展

AutoGluon是一个快速发展的项目，未来会继续增加新的功能和改进现有功能。未来的发展方向可能包括：

更强大的文本处理能力： 更好地支持文本数据的处理，包括自然语言处理任务。
更高效的计算： 优化算法，减少计算资源的消耗。
更强的可解释性： 提供更多的工具来解释模型的预测结果。
更广泛的应用： 扩展到更多的机器学习任务，如强化学习、生成模型等。

九、总结

AutoGluon是一个功能强大的自动化机器学习框架，可以帮助你快速构建高性能的机器学习模型。它易于使用，支持多种模型，支持模型集成，支持自定义模型。如果你想快速上手机器学习，或者不想费劲调参，AutoGluon是一个不错的选择。

当然，AutoGluon也不是万能的，它也有一些局限性。在使用AutoGluon时，需要根据你的具体需求和数据情况进行选择和配置。

希望今天的讲座能帮助你更好地了解AutoGluon。如果你有任何问题，欢迎随时提问。

十、代码示例汇总

为了方便大家查阅，这里汇总一下上面提到的代码示例：

基本用法：

from autogluon.tabular import TabularPredictor
import pandas as pd

# 1. 加载数据
train_data = pd.read_csv("train.csv")  # 替换为你的训练数据文件
test_data = pd.read_csv("test.csv")    # 替换为你的测试数据文件

# 2. 指定目标列
label = "price"  # 替换为你的目标列名称

# 3. 创建TabularPredictor对象
predictor = TabularPredictor(label=label, path="AutoGluonModels")

# 4. 训练模型
predictor.fit(train_data)

# 5. 预测
predictions = predictor.predict(test_data)

# 6. 评估模型 (可选)
eval_results = predictor.evaluate(test_data)
print(eval_results)

指定模型类型 (presets)：

predictor = TabularPredictor(label=label, path="AutoGluonModels", eval_metric="rmse")
predictor.fit(train_data, presets="best_quality", time_limit=3600) # time_limit单位为秒

指定评估指标 (eval_metric)：

predictor = TabularPredictor(label=label, path="AutoGluonModels", eval_metric="rmse")
predictor.fit(train_data)

指定训练时间 (time_limit)：

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data, time_limit=600)  # 600秒 = 10分钟

指定模型列表 (hyperparameters)：

hyperparameters = {
    "GBM": {"num_leaves": 31, "learning_rate": 0.05},  # LightGBM
    "RF": {"n_estimators": 100, "max_depth": 10},       # RandomForest
}

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data, hyperparameters=hyperparameters)

自定义数据类型 (column_types)：

column_types = {"zip_code": "category"}

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data, column_types=column_types)

特征工程 (feature_generator)：

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data, feature_generator=None)

模型集成策略 (stack_ensemble_level)：

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data, stack_ensemble_level=2)

leaderboard()：

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data)
leaderboard = predictor.leaderboard()
print(leaderboard)

info()：

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data)
info = predictor.info()
print(info)

fit_summary()：

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data)
summary = predictor.fit_summary()
print(summary)

refit_full()：

predictor = TabularPredictor(label=label, path="AutoGluonModels")
predictor.fit(train_data)
predictor.refit_full()

希望这些示例能帮助你更好地使用AutoGluon。祝你使用愉快！

发表回复 取消回复

发表回复取消回复