聚类分析：无监督学习中的数据分组方法

介绍

大家好，欢迎来到今天的讲座！今天我们要聊一聊无监督学习中的一种非常有趣的技术——聚类分析（Clustering）。如果你对机器学习有所了解，你可能会觉得它听起来有点神秘。其实，聚类分析就像是把一群陌生人分成几个小组，让他们各自找到自己的“同类”。这个过程不需要我们提前告诉模型每个数据点属于哪个类别，而是让模型自己去发现数据之间的相似性。

在正式开始之前，我想先给大家讲个小故事。假设你是一个酒吧老板，每天晚上都有很多顾客光顾你的酒吧。你想要根据他们的行为模式（比如喝酒的频率、停留的时间、点的食物种类等）将他们分成不同的群体，以便更好地为他们提供服务。但是你并不知道这些顾客具体可以分为几类，也不知道每个顾客应该属于哪一类。这时候，聚类分析就能派上用场了！

什么是聚类分析？

聚类分析是一种无监督学习技术，它的目标是将一组数据点分成若干个簇（Cluster），使得同一簇内的数据点尽可能相似，而不同簇之间的数据点尽可能不同。换句话说，聚类分析试图找出数据中的“自然分组”。

聚类分析的应用场景

聚类分析在许多领域都有广泛的应用：

市场细分：根据消费者的购买行为将他们分成不同的群体，以便制定更有针对性的营销策略。
图像分割：将图像中的像素分成不同的区域，帮助识别物体或背景。
社交网络分析：根据用户的行为和兴趣将他们分成不同的社区。
基因表达分析：根据基因表达模式将细胞分成不同的类型，帮助研究疾病的发生机制。

常见的聚类算法

接下来，我们来了解一下几种常见的聚类算法。每种算法都有其特点和适用场景，选择合适的算法对于聚类结果至关重要。

1. K-Means 聚类

K-Means 是最常用的聚类算法之一。它的基本思想是通过迭代的方式将数据点分配到 K 个簇中，并不断调整簇的中心位置，直到达到最优解。

K-Means 的步骤：

初始化：随机选择 K 个数据点作为初始簇中心。
分配：将每个数据点分配到距离最近的簇中心。
更新：重新计算每个簇的中心位置（即簇内所有数据点的平均值）。
重复：重复步骤 2 和 3，直到簇中心不再发生变化或达到最大迭代次数。

代码示例（Python + Scikit-learn）：

from sklearn.cluster import KMeans
import numpy as np

# 生成一些随机数据
X = np.random.rand(100, 2)

# 创建 K-Means 模型，指定 K=3
kmeans = KMeans(n_clusters=3, random_state=0)

# 训练模型
kmeans.fit(X)

# 获取每个数据点的簇标签
labels = kmeans.labels_

# 获取簇中心
centroids = kmeans.cluster_centers_

print("簇标签:", labels)
print("簇中心:", centroids)

K-Means 的优点和缺点：

优点：简单易懂，计算效率高，适用于大规模数据集。
缺点：需要事先指定 K 的值，容易陷入局部最优解，对异常值敏感。

2. 层次聚类（Hierarchical Clustering）

层次聚类是一种基于距离的聚类方法，它通过不断合并或分裂簇来构建一个层次结构。层次聚类可以分为两种类型：

凝聚层次聚类（Agglomerative Clustering）：从每个数据点作为一个单独的簇开始，逐步合并距离最近的簇，直到所有数据点都属于同一个簇。
分裂层次聚类（Divisive Clustering）：从所有数据点属于同一个簇开始，逐步分裂簇，直到每个数据点都成为一个独立的簇。

凝聚层次聚类的步骤：

初始化：每个数据点作为一个单独的簇。
合并：找到距离最近的两个簇并合并它们。
更新：重新计算簇之间的距离。
重复：重复步骤 2 和 3，直到所有数据点都属于同一个簇或达到预定的簇数。

代码示例（Python + Scikit-learn）：

from sklearn.cluster import AgglomerativeClustering
import numpy as np

# 生成一些随机数据
X = np.random.rand(100, 2)

# 创建凝聚层次聚类模型，指定 K=3
hclust = AgglomerativeClustering(n_clusters=3)

# 训练模型
labels = hclust.fit_predict(X)

print("簇标签:", labels)

层次聚类的优点和缺点：

优点：不需要事先指定 K 的值，能够生成一个完整的层次结构，适合探索性数据分析。
缺点：计算复杂度较高，不适合大规模数据集，且一旦合并或分裂就无法撤销。

3. DBSCAN（Density-Based Spatial Clustering of Applications with Noise）

DBSCAN 是一种基于密度的聚类算法，它通过寻找数据点的密集区域来形成簇，并将稀疏区域标记为噪声点。DBSCAN 不需要事先指定簇的数量，能够自动发现任意形状的簇。

DBSCAN 的步骤：

定义核心点：如果一个数据点周围的 ε 邻域内有至少 MinPts 个数据点，则该点为核心点。
扩展簇：从核心点开始，递归地将邻域内的其他核心点加入同一个簇。
标记噪声点：不属于任何簇的数据点被标记为噪声点。

代码示例（Python + Scikit-learn）：

from sklearn.cluster import DBSCAN
import numpy as np

# 生成一些随机数据
X = np.random.rand(100, 2)

# 创建 DBSCAN 模型，指定 ε=0.3 和 MinPts=5
dbscan = DBSCAN(eps=0.3, min_samples=5)

# 训练模型
labels = dbscan.fit_predict(X)

print("簇标签:", labels)

DBSCAN 的优点和缺点：

优点：能够发现任意形状的簇，不需要事先指定簇的数量，能够处理噪声点。
缺点：对参数 ε 和 MinPts 的选择较为敏感，计算复杂度较高。

如何评估聚类效果？

聚类分析的结果通常没有明确的“正确答案”，因此评估聚类效果是一个相对主观的过程。常用的方法包括：

轮廓系数（Silhouette Coefficient）：衡量每个数据点与其所属簇的紧密程度以及与其他簇的距离。轮廓系数的取值范围为 [-1, 1]，值越大表示聚类效果越好。
```
from sklearn.metrics import silhouette_score

# 计算轮廓系数
score = silhouette_score(X, labels)
print("轮廓系数:", score)
```
肘部法（Elbow Method）：通过绘制不同 K 值下的簇内平方和（Within-Cluster Sum of Squares, WCSS），找到使 WCSS 开始显著下降的 K 值。
```
wcss = []
for k in range(1, 11):
  kmeans = KMeans(n_clusters=k, random_state=0)
  kmeans.fit(X)
  wcss.append(kmeans.inertia_)

print("WCSS:", wcss)
```

Calinski-Harabasz 指数：衡量簇间的分离程度与簇内的紧凑程度的比值。指数越高，表示聚类效果越好。

from sklearn.metrics import calinski_harabasz_score

# 计算 Calinski-Harabasz 指数
score = calinski_harabasz_score(X, labels)
print("Calinski-Harabasz 指数:", score)

总结

今天我们介绍了聚类分析的基本概念、常见算法及其应用场景。聚类分析作为一种无监督学习技术，能够在没有标签的情况下发现数据中的隐藏结构。不同的聚类算法适用于不同的场景，选择合适的算法和评估方法对于获得良好的聚类效果至关重要。

希望今天的讲座对你有所帮助！如果你有任何问题或想法，欢迎随时提问。下次再见！

参考资料：

Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley.
Ester, M., Kriegel, H.-P., Sander, J., & Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining.

聚类分析：无监督学习中的数据分组方法

介绍

什么是聚类分析？

聚类分析的应用场景

常见的聚类算法

1. K-Means 聚类

K-Means 的步骤：

代码示例（Python + Scikit-learn）：

K-Means 的优点和缺点：

2. 层次聚类（Hierarchical Clustering）

凝聚层次聚类的步骤：

代码示例（Python + Scikit-learn）：

层次聚类的优点和缺点：

3. DBSCAN（Density-Based Spatial Clustering of Applications with Noise）

DBSCAN 的步骤：

代码示例（Python + Scikit-learn）：

DBSCAN 的优点和缺点：

如何评估聚类效果？

总结

发表回复 取消回复

发表回复取消回复