Python的`PySpark`：如何使用`PySpark`在`Spark`集群上进行大规模数据处理和机器学习。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

PySpark 大规模数据处理与机器学习讲座

大家好，今天我们来深入探讨如何利用 PySpark 在 Spark 集群上进行大规模数据处理和机器学习。PySpark 作为 Spark 的 Python API，让我们可以用熟悉的 Python 语法来操作 Spark 的强大分布式计算能力，从而高效地处理海量数据。

1. Spark 和 PySpark 概述

首先，我们需要理解 Spark 的基本架构和 PySpark 的角色。

Spark: 一个快速且通用的集群计算系统。它提供高级 API，支持 Java, Scala, Python 和 R 等语言。Spark 的核心是 RDD (Resilient Distributed Dataset)，一个分布式的、容错的数据集合，可以进行并行操作。Spark 还包含 SQL、Streaming、MLlib (机器学习库) 和 GraphX (图计算) 等组件。
PySpark: Spark 的 Python API。它允许我们使用 Python 编写 Spark 应用，并利用 Spark 集群的并行处理能力。PySpark 使用 Py4J 作为桥梁，连接 Python 和 Java SparkContext。这意味着 Python 代码实际调用的是 Java SparkContext 的方法。

2. PySpark 环境搭建与配置

在使用 PySpark 之前，需要确保以下环境已正确配置：

Java: Spark 依赖 Java 运行环境。
Python: 推荐使用 Python 3.6+。
Spark: 下载并解压 Spark 二进制包。
PySpark: 通常随 Spark 一起安装，也可以通过 pip install pyspark 单独安装。

配置环境变量：

SPARK_HOME: 指向 Spark 安装目录。
PYSPARK_PYTHON: 指向 Python 可执行文件路径。
PYTHONPATH: 包含 $SPARK_HOME/python 和 $SPARK_HOME/python/lib/py4j-*.zip。

一个典型的 .bashrc 或 .zshrc 配置如下：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export SPARK_HOME=/opt/spark-3.2.1-bin-hadoop3.2
export PYSPARK_PYTHON=/usr/bin/python3
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9-src.zip:$PYTHONPATH
export PATH=$SPARK_HOME/bin:$PATH

3. PySpark 核心概念：SparkSession 和 RDD

SparkSession: PySpark 程序的入口点。它代表与 Spark 集群的连接，并用于创建 DataFrame、Dataset 和 RDD。

from pyspark.sql import SparkSession

spark = SparkSession.builder 
    .appName("MyPySparkApp") 
    .master("local[*]") 
    .getOrCreate()

# 现在可以使用 spark 对象进行数据操作
spark.stop()  # 关闭 SparkSession

master("local[*]") 表示在本地模式运行，[*] 代表使用所有可用的 CPU 核心。在集群环境中，master 应指向 Spark 集群的 master 地址 (例如：spark://<master-ip>:<port>)。

RDD (Resilient Distributed Dataset): Spark 的核心数据抽象。RDD 是一个不可变的、分布式的对象集合，可以进行并行转换和操作。

创建 RDD:

从现有集合创建：

data = [1, 2, 3, 4, 5]
rdd = spark.sparkContext.parallelize(data)

从外部数据源创建 (例如：文本文件)：

rdd = spark.sparkContext.textFile("path/to/your/file.txt")

RDD 转换操作 (Transformation): 创建新的 RDD，是惰性的。

map(func): 将 RDD 中的每个元素传递给函数 func 并返回一个新的 RDD。

squared_rdd = rdd.map(lambda x: x * x)

filter(func): 返回一个包含 func 返回 True 的元素的新的 RDD。

even_rdd = rdd.filter(lambda x: x % 2 == 0)

flatMap(func): 类似于 map，但 func 应该返回一个列表，并将结果扁平化。

lines = spark.sparkContext.parallelize(["hello world", "spark is awesome"])
words = lines.flatMap(lambda line: line.split(" "))

distinct(): 返回一个包含 RDD 中不同元素的新 RDD。

unique_rdd = rdd.distinct()

union(other_rdd): 返回一个包含两个 RDD 中所有元素的新 RDD (允许重复)。

rdd1 = spark.sparkContext.parallelize([1, 2, 3])
rdd2 = spark.sparkContext.parallelize([3, 4, 5])
union_rdd = rdd1.union(rdd2) # [1, 2, 3, 3, 4, 5]

intersection(other_rdd): 返回一个包含两个 RDD 中相同元素的新 RDD。

intersection_rdd = rdd1.intersection(rdd2) # [3]

subtract(other_rdd): 返回一个包含只存在于第一个 RDD，但不存在于第二个 RDD 中的元素的新 RDD。

subtract_rdd = rdd1.subtract(rdd2) # [1, 2]

groupBy(func): 根据 func 的返回值对 RDD 中的元素进行分组。返回一个 Key-Value 对 RDD。

grouped_rdd = rdd.groupBy(lambda x: x % 2) # {0: [2, 4], 1: [1, 3, 5]}

sortBy(func, ascending=True): 对 RDD 中的元素进行排序。

sorted_rdd = rdd.sortBy(lambda x: x) # [1, 2, 3, 4, 5]

repartition(numPartitions): 增加或减少 RDD 的分区数。

repartitioned_rdd = rdd.repartition(10)

RDD 行动操作 (Action): 触发计算并返回结果。

collect(): 将 RDD 中的所有元素收集到 Driver 节点的列表中。谨慎使用，尤其是在处理大型数据集时，可能导致 Driver 节点内存溢出。

result = squared_rdd.collect() #  [1, 4, 9, 16, 25]

count(): 返回 RDD 中元素的数量。

count = rdd.count()

first(): 返回 RDD 中的第一个元素。

first_element = rdd.first()

take(n): 返回 RDD 中的前 n 个元素。

top_3 = rdd.take(3)

reduce(func): 使用函数 func 聚合 RDD 中的元素。func 必须是可交换和关联的。

sum_of_elements = rdd.reduce(lambda x, y: x + y)

foreach(func): 将 RDD 中的每个元素传递给函数 func。主要用于副作用操作，例如写入数据库。

rdd.foreach(lambda x: print(x)) #  注意：输出顺序是不确定的

saveAsTextFile(path): 将 RDD 中的元素保存到文本文件中。

squared_rdd.saveAsTextFile("output/squared_numbers.txt")

4. PySpark DataFrame 和 Spark SQL

DataFrame 是 Spark SQL 的核心数据结构，类似于关系型数据库中的表。它提供了更丰富的 API 和优化，使得数据处理更加方便和高效。

创建 DataFrame:

从 RDD 创建：

from pyspark.sql import Row

data = [Row(name="Alice", age=30), Row(name="Bob", age=25)]
rdd = spark.sparkContext.parallelize(data)
df = spark.createDataFrame(rdd)

从 CSV 文件创建：

df = spark.read.csv("path/to/your/data.csv", header=True, inferSchema=True)

header=True 表示 CSV 文件包含表头，inferSchema=True 表示自动推断列的数据类型。

从 JSON 文件创建：

df = spark.read.json("path/to/your/data.json")

DataFrame 操作:

查看数据:

df.show()  # 显示前 20 行
df.printSchema()  # 打印 Schema
df.describe().show() # 计算统计信息

选择列:

df.select("name", "age").show()

过滤数据:

df.filter(df["age"] > 25).show()

排序数据:

df.orderBy("age", ascending=False).show()

聚合数据:

from pyspark.sql import functions as F

df.groupBy("age").agg(F.count("*").alias("count")).show()

添加列:

df = df.withColumn("age_plus_10", df["age"] + 10)

删除列:

df = df.drop("age_plus_10")

重命名列:

df = df.withColumnRenamed("name", "full_name")

写入数据:

df.write.csv("output/data.csv", header=True)
df.write.parquet("output/data.parquet")

Spark SQL:

可以使用 SQL 语句查询 DataFrame：

df.createOrReplaceTempView("people")  # 创建临时视图

results = spark.sql("SELECT name, age FROM people WHERE age > 25")
results.show()

5. PySpark 机器学习 (MLlib)

MLlib 是 Spark 的机器学习库，提供了各种机器学习算法和工具。

数据准备:

MLlib 算法通常需要数值型特征向量。需要将数据转换为 MLlib 期望的格式。

VectorAssembler: 将多个列合并为一个向量列。

from pyspark.ml.feature import VectorAssembler

assembler = VectorAssembler(inputCols=["feature1", "feature2", "feature3"], outputCol="features")
df = assembler.transform(df)

StringIndexer: 将字符串类型的列转换为数值索引。

from pyspark.ml.feature import StringIndexer

indexer = StringIndexer(inputCol="category", outputCol="categoryIndex")
df = indexer.fit(df).transform(df)

OneHotEncoder: 将类别索引转换为 one-hot 编码向量。

from pyspark.ml.feature import OneHotEncoder

encoder = OneHotEncoder(inputCol="categoryIndex", outputCol="categoryVec")
df = encoder.fit(df).transform(df)

StandardScaler: 对数值特征进行标准化。

from pyspark.ml.feature import StandardScaler

scaler = StandardScaler(inputCol="features", outputCol="scaledFeatures")
scaler_model = scaler.fit(df)
df = scaler_model.transform(df)

机器学习算法示例：线性回归

from pyspark.ml.regression import LinearRegression

# 将数据拆分为训练集和测试集
train_data, test_data = df.randomSplit([0.8, 0.2], seed=42)

# 创建线性回归模型
lr = LinearRegression(featuresCol="scaledFeatures", labelCol="label")

# 训练模型
lr_model = lr.fit(train_data)

# 预测
predictions = lr_model.transform(test_data)

# 评估模型
from pyspark.ml.evaluation import RegressionEvaluator

evaluator = RegressionEvaluator(labelCol="label", predictionCol="prediction", metricName="rmse")
rmse = evaluator.evaluate(predictions)
print("Root Mean Squared Error (RMSE) on test data = %g" % rmse)

# 保存模型
lr_model.save("output/linear_regression_model")

# 加载模型
from pyspark.ml.regression import LinearRegressionModel
loaded_model = LinearRegressionModel.load("output/linear_regression_model")

其他 MLlib 算法:

MLlib 提供了许多其他机器学习算法，包括：

分类: 逻辑回归、决策树、随机森林、梯度提升树、朴素贝叶斯。
聚类: K-means、高斯混合模型 (GMM)。
推荐: 协同过滤 (ALS)。
降维: PCA (主成分分析)。

6. PySpark 性能优化

数据本地化: 尽量将计算移动到数据所在的节点，减少数据传输。
数据分区: 合理设置 RDD 或 DataFrame 的分区数，充分利用集群资源。
数据序列化: 选择高效的序列化方式，例如 Kryo。
避免 shuffle 操作: shuffle 操作 (例如 groupByKey、reduceByKey、sortByKey) 会导致大量数据传输，尽量避免或优化。可以使用 reduceByKey 代替 groupByKey。
缓存 RDD 或 DataFrame: 对于需要多次使用的 RDD 或 DataFrame，可以使用 cache() 或 persist() 将其缓存在内存中。
广播变量: 对于需要在多个节点上使用的只读变量，可以使用 broadcast() 将其广播到每个节点，减少数据传输。
使用 DataFrame API: DataFrame API 通常比 RDD API 更高效，因为它允许 Spark SQL 优化查询计划。

7. 案例分析：使用 PySpark 进行电影推荐

假设我们有电影评分数据，包含用户 ID、电影 ID 和评分。我们可以使用 PySpark 和 MLlib 的 ALS (Alternating Least Squares) 协同过滤算法来构建电影推荐系统。

from pyspark.ml.recommendation import ALS
from pyspark.ml.evaluation import RegressionEvaluator

# 加载数据
data = spark.read.csv("path/to/your/movie_ratings.csv", header=True, inferSchema=True)

# 准备数据
ratings = data.select("userId", "movieId", "rating").withColumnRenamed("userId", "user").withColumnRenamed("movieId", "item")

# 将数据拆分为训练集和测试集
(training, test) = ratings.randomSplit([0.8, 0.2])

# 创建 ALS 模型
als = ALS(maxIter=5, regParam=0.01, userCol="user", itemCol="item", ratingCol="rating", coldStartStrategy="drop")

# 训练模型
model = als.fit(training)

# 预测
predictions = model.transform(test)

# 评估模型
evaluator = RegressionEvaluator(metricName="rmse", labelCol="rating", predictionCol="prediction")
rmse = evaluator.evaluate(predictions)
print("Root-mean-square error = " + str(rmse))

# 为用户推荐电影
user_recs = model.recommendForAllUsers(10) # 为每个用户推荐 10 部电影

user_recs.show()

# 为电影推荐用户
movie_recs = model.recommendForAllItems(10) # 为每部电影推荐 10 个用户

movie_recs.show()

8. PySpark 的一些高级主题

UDF (User-Defined Functions): 允许用户自定义函数，并在 Spark 中使用。
Structured Streaming: 用于处理实时数据流。
Delta Lake: 一个开源的存储层，为 Spark 提供 ACID 事务和统一的数据管理。
Spark on Kubernetes: 在 Kubernetes 集群上部署和管理 Spark 应用。

使用 PySpark 进行大规模数据处理和机器学习，需要深入理解 Spark 的核心概念，熟练掌握 PySpark 的 API，并不断探索优化技巧。

RDD 是 Spark 的数据抽象基础，DataFrame 则提供了更结构化的数据处理方式

希望今天的讲座对大家有所帮助。通过掌握 PySpark 的核心概念和技术，我们可以高效地处理大规模数据，并构建强大的机器学习应用。

PySpark 大规模数据处理与机器学习讲座

发表回复 取消回复

发表回复取消回复