Scikit-learn：机器学习算法实战与模型评估 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位朋友们，大家好！我是你们的老朋友，今天咱们来聊聊机器学习领域里的一位“老大哥”——Scikit-learn。这玩意儿，就像咱们厨房里的瑞士军刀，功能多，用处广，无论是你想做个简单的预测，还是想搞个复杂的模型，它都能帮上忙。

开场白：机器学习，不再神秘

可能有些人听到“机器学习”就觉得高深莫测，仿佛只有数学天才才能玩转。其实不然！机器学习的核心思想很简单：让计算机从数据中学习，然后用学到的知识去做预测或者决策。就像咱们小时候，父母教我们认识猫和狗，教多了，我们自己也能分辨出来，这就是一个简单的“机器学习”过程。

Scikit-learn 呢，就是把这些“学习”的过程封装成一个个工具包，咱们只需要像搭积木一样，把这些工具包拼起来，就能构建出各种各样的机器学习模型。

第一部分：Scikit-learn 的“身世之谜”

Scikit-learn 是一个基于 Python 的开源机器学习库，它建立在 NumPy、SciPy 和 matplotlib 之上。这意味着什么呢？这意味着它拥有强大的数值计算能力，丰富的科学计算工具，以及漂亮的可视化效果。

NumPy： 负责处理数据，就像 Excel 表格一样，可以进行各种运算。
SciPy： 提供了各种科学计算的函数，比如线性代数、优化、积分等等。
matplotlib： 负责把数据可视化，让咱们一眼就能看出数据的规律。

Scikit-learn 的目标是提供简单高效的工具，用于数据挖掘和数据分析。它涵盖了分类、回归、聚类、降维、模型选择、预处理等一系列常用的机器学习算法。

第二部分：Scikit-learn 的“核心武功”

Scikit-learn 的核心在于它提供了一套统一的 API，无论你用的是什么算法，它们的用法都大同小异。这就像咱们学开车，无论是开手动挡还是自动挡，方向盘和油门刹车的位置都是一样的，上手很快。

下面，咱们来认识一下 Scikit-learn 的几个核心模块：

sklearn.datasets：数据集模块

这个模块里藏着各种各样的数据集，就像一个巨大的图书馆，里面存放着各种书籍（数据）。有经典的 Iris 数据集（鸢尾花数据集），MNIST 数据集（手写数字数据集），还有一些可以用来生成模拟数据的函数。
```
from sklearn import datasets
# 加载 Iris 数据集
iris = datasets.load_iris()
X = iris.data # 特征数据
y = iris.target # 标签数据
```
sklearn.preprocessing：预处理模块

数据就像一块璞玉，需要经过精心的雕琢才能焕发光彩。这个模块就是负责对数据进行预处理的，比如标准化、归一化、编码等等。
- 标准化 (StandardScaler)： 把数据变成均值为 0，方差为 1 的分布。
- 归一化 (MinMaxScaler)： 把数据缩放到 0 和 1 之间。
- 编码 (LabelEncoder, OneHotEncoder)： 把文本数据转换成数字数据。
```
from sklearn import preprocessing
# 创建 StandardScaler 对象
scaler = preprocessing.StandardScaler()
# 对数据进行标准化
X_scaled = scaler.fit_transform(X)
```

sklearn.model_selection：模型选择模块

这个模块负责模型的选择、评估和调优。就像咱们买衣服，要试穿才知道合不合身，模型也需要经过评估才能知道好不好用。

训练集/测试集划分 (train_test_split)： 把数据集分成两部分，一部分用来训练模型，一部分用来测试模型的性能。
交叉验证 (cross_val_score)： 把数据集分成 K 份，每次用 K-1 份训练模型，用剩下的 1 份测试模型，重复 K 次，取平均值作为模型的性能指标。
网格搜索 (GridSearchCV)： 自动搜索最佳的超参数组合，让模型达到最佳性能。

from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.svm import SVC # 以支持向量机为例

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建 SVC 对象
svc = SVC()

# 交叉验证
scores = cross_val_score(svc, X_train, y_train, cv=5)
print("交叉验证得分：", scores)

# 网格搜索
param_grid = {'C': [0.1, 1, 10], 'gamma': [0.001, 0.1, 1]}
grid = GridSearchCV(SVC(), param_grid, refit=True, verbose=2) # verbose 控制输出详细程度
grid.fit(X_train, y_train)

print("最佳参数：", grid.best_params_)
print("最佳得分：", grid.best_score_)

sklearn.linear_model：线性模型模块

这个模块包含各种线性模型，比如线性回归、逻辑回归等等。线性模型的特点是简单、易于理解，但有时候效果可能不够好。
- 线性回归 (LinearRegression)： 用于预测连续值，比如房价、股票价格等等。
- 逻辑回归 (LogisticRegression)： 用于分类问题，比如判断邮件是否是垃圾邮件。
```
from sklearn.linear_model import LinearRegression
# 创建 LinearRegression 对象
model = LinearRegression()
# 训练模型
model.fit(X_train, y_train)
# 预测
y_pred = model.predict(X_test)
```
sklearn.svm：支持向量机模块

支持向量机 (SVM) 是一种强大的分类器，它通过找到最佳的超平面来分隔不同的类别。SVM 的特点是效果好，但训练时间可能比较长。
```
from sklearn.svm import SVC
# 创建 SVC 对象
model = SVC()
# 训练模型
model.fit(X_train, y_train)
# 预测
y_pred = model.predict(X_test)
```

sklearn.tree：决策树模块

决策树是一种基于树结构的分类器，它通过一系列的判断来做出决策。决策树的特点是易于理解，但容易过拟合。

from sklearn.tree import DecisionTreeClassifier
# 创建 DecisionTreeClassifier 对象
model = DecisionTreeClassifier()
# 训练模型
model.fit(X_train, y_train)
# 预测
y_pred = model.predict(X_test)

sklearn.ensemble：集成学习模块

集成学习是一种将多个弱分类器组合成一个强分类器的方法。就像咱们集思广益，每个人都提出自己的意见，综合起来就能得到更好的结果。常见的集成学习算法有随机森林、梯度提升树等等。
- 随机森林 (RandomForestClassifier, RandomForestRegressor)： 通过随机选择特征和样本来训练多个决策树，然后取平均值作为最终的预测结果。
- 梯度提升树 (GradientBoostingClassifier, GradientBoostingRegressor)： 通过迭代的方式来训练多个决策树，每次都关注上次预测错误的样本，然后将所有决策树的结果加起来作为最终的预测结果。
```
from sklearn.ensemble import RandomForestClassifier
# 创建 RandomForestClassifier 对象
model = RandomForestClassifier()
# 训练模型
model.fit(X_train, y_train)
# 预测
y_pred = model.predict(X_test)
```
sklearn.cluster：聚类模块

聚类是一种将数据分成不同组别的方法，每组数据都有相似的特征。就像咱们把人群分成不同的兴趣小组一样。常见的聚类算法有 K-means、DBSCAN 等等。
- K-means： 随机选择 K 个中心点，然后将每个数据点分配到离它最近的中心点所在的组别，重复这个过程直到中心点不再变化。
- DBSCAN： 基于密度的聚类算法，它将密度相连的数据点划分为同一个组别。
```
from sklearn.cluster import KMeans
# 创建 KMeans 对象
kmeans = KMeans(n_clusters=3, random_state=0)
# 训练模型
kmeans.fit(X)
# 预测
y_pred = kmeans.predict(X)
```

第三部分：模型评估的“七十二变”

模型训练完了，咱们得知道它表现如何。就像咱们考试，考完得看分数才知道考得好不好。Scikit-learn 提供了各种各样的评估指标，让咱们可以全方位地了解模型的性能。

分类问题的评估指标

准确率 (Accuracy)： 预测正确的样本数占总样本数的比例。
- 优点：简单易懂。
- 缺点：在类别不平衡的情况下，准确率可能会误导我们。
精确率 (Precision)： 预测为正例的样本中，真正是正例的比例。
- 优点：可以衡量模型预测正例的准确性。
- 缺点：容易受到负例的影响。
召回率 (Recall)： 真正是正例的样本中，被预测为正例的比例。
- 优点：可以衡量模型找到所有正例的能力。
- 缺点：容易受到正例的影响。
F1-score： 精确率和召回率的调和平均值。
- 优点：综合考虑了精确率和召回率。
- 缺点：对精确率和召回率的权重相同。
ROC 曲线和 AUC 值： ROC 曲线是以假正率 (FPR) 为横坐标，真正率 (TPR) 为纵坐标绘制的曲线。AUC 值是 ROC 曲线下的面积，AUC 值越大，模型的性能越好。

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt

# 假设 y_true 是真实标签，y_pred 是预测标签，y_proba 是预测概率
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

# 计算 ROC 曲线
fpr, tpr, thresholds = roc_curve(y_test, grid.predict_proba(X_test)[:, 1]) # 以网格搜索调优后的模型为例

# 计算 AUC 值
auc = roc_auc_score(y_test, grid.predict_proba(X_test)[:, 1])

print("准确率：", accuracy)
print("精确率：", precision)
print("召回率：", recall)
print("F1-score：", f1)
print("AUC：", auc)

# 绘制 ROC 曲线
plt.plot(fpr, tpr, label=f'AUC = {auc:.2f}')
plt.plot([0, 1], [0, 1], linestyle='--', color='gray', label='Random') # 随机猜测的 ROC 曲线
plt.xlabel('False Positive Rate (FPR)')
plt.ylabel('True Positive Rate (TPR)')
plt.title('ROC Curve')
plt.legend()
plt.show()

回归问题的评估指标
- 均方误差 (Mean Squared Error, MSE)： 预测值与真实值之差的平方的平均值。
  - 优点：简单易懂，对异常值敏感。
  - 缺点：量纲与原始数据不同。
- 均方根误差 (Root Mean Squared Error, RMSE)： 均方误差的平方根。
  - 优点：量纲与原始数据相同，更易于理解。
  - 缺点：对异常值敏感。
- 平均绝对误差 (Mean Absolute Error, MAE)： 预测值与真实值之差的绝对值的平均值。
  - 优点：对异常值不敏感。
  - 缺点：不如均方误差光滑。
- R 平方 (R-squared)： 解释了模型可以解释的方差比例。
  - 优点：可以衡量模型的解释能力。
  - 缺点：可能会随着特征数量的增加而增加。
```
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# 假设 y_true 是真实值，y_pred 是预测值
mse = mean_squared_error(y_test, y_pred)
rmse = mean_squared_error(y_test, y_pred, squared=False) # squared=False 返回 RMSE
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("均方误差：", mse)
print("均方根误差：", rmse)
print("平均绝对误差：", mae)
print("R 平方：", r2)
```

第四部分：实战演练：用 Scikit-learn 预测房价

光说不练假把式，咱们来做一个实际的项目：用 Scikit-learn 预测房价。

准备数据

咱们使用 Boston 房价数据集，这个数据集包含 506 个样本，每个样本有 13 个特征，比如犯罪率、房屋平均大小、离市中心的距离等等。

from sklearn.datasets import load_boston
import pandas as pd

# 加载 Boston 房价数据集
boston = load_boston()
X = boston.data
y = boston.target

# 将数据转换为 Pandas DataFrame，方便查看
df = pd.DataFrame(X, columns=boston.feature_names)
df['PRICE'] = y # 添加房价列
print(df.head())

数据预处理

咱们对数据进行标准化，让每个特征的尺度相同。

from sklearn.preprocessing import StandardScaler

# 创建 StandardScaler 对象
scaler = StandardScaler()
# 对数据进行标准化
X_scaled = scaler.fit_transform(X)

模型选择

咱们选择线性回归模型。

from sklearn.linear_model import LinearRegression

# 创建 LinearRegression 对象
model = LinearRegression()

训练模型

咱们用训练集训练模型。

from sklearn.model_selection import train_test_split

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 训练模型
model.fit(X_train, y_train)

模型评估

咱们用测试集评估模型的性能。

from sklearn.metrics import mean_squared_error, r2_score

# 预测
y_pred = model.predict(X_test)

# 计算均方误差和 R 平方
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("均方误差：", mse)
print("R 平方：", r2)

模型调优

可以尝试使用岭回归 (Ridge Regression) 或者 Lasso 回归，它们可以防止模型过拟合。也可以使用网格搜索来寻找最佳的超参数。

from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV

# 创建 Ridge 对象
ridge = Ridge()

# 定义参数网格
param_grid = {'alpha': [0.01, 0.1, 1, 10]}

# 创建 GridSearchCV 对象
grid = GridSearchCV(ridge, param_grid, cv=5)

# 训练模型
grid.fit(X_train, y_train)

# 打印最佳参数和最佳得分
print("最佳参数：", grid.best_params_)
print("最佳得分：", grid.best_score_)

# 预测
y_pred = grid.predict(X_test)

# 计算均方误差和 R 平方
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("均方误差：", mse)
print("R 平方：", r2)

第五部分：Scikit-learn 的“江湖地位”

Scikit-learn 在机器学习领域拥有举足轻重的地位，它被广泛应用于各种场景，比如：

推荐系统： 根据用户的历史行为，推荐用户可能感兴趣的商品或者内容。
金融风控： 根据用户的信用记录，判断用户是否有违约风险。
图像识别： 识别图像中的物体或者人脸。
自然语言处理： 分析文本的语义，进行机器翻译或者情感分析。

总结：Scikit-learn，你的机器学习好帮手！

Scikit-learn 是一个功能强大、易于使用的机器学习库，它提供了各种各样的算法和工具，可以帮助咱们快速构建机器学习模型。只要掌握了 Scikit-learn，咱们就能轻松玩转机器学习，让计算机为咱们服务。

希望今天的分享对大家有所帮助！如果大家有什么问题，欢迎随时提问。咱们下次再见！👋

发表回复 取消回复

发表回复取消回复