如何使用`Dask`进行`多核`和`分布式`计算，并处理`超出内存`的`数据集`。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Dask：多核、分布式与超内存数据集处理

各位同学，大家好！今天我们来深入探讨如何使用 Dask 进行多核和分布式计算，并处理超出内存的数据集。在数据科学和工程领域，我们经常会遇到需要处理大量数据的情况，这些数据往往无法一次性加载到内存中。Dask 正是解决这类问题的利器。

1. Dask 简介

Dask 是一个用于并行计算的灵活的 Python 库。它可以让你轻松地将现有的 Python 代码扩展到多核处理器和分布式集群。Dask 的核心思想是将大型计算任务分解成小的、独立的任务，然后并行执行这些任务。

Dask 提供了两种主要的编程接口：

Dask Arrays: 用于处理大型多维数组，类似于 NumPy 数组。
Dask DataFrames: 用于处理大型表格数据，类似于 Pandas DataFrames。

此外，Dask 还提供了 Dask Delayed 接口，允许你将任意的 Python 函数转换为 Dask 任务图，从而实现更灵活的并行计算。

2. Dask 的优势

并行性: Dask 可以利用多核处理器和分布式集群进行并行计算，显著提高计算速度。
弹性: Dask 可以处理超出内存的数据集，因为它将数据分成小的块，并根据需要从磁盘加载这些块。
易用性: Dask 提供了类似于 NumPy 和 Pandas 的接口，使得熟悉这些库的用户可以快速上手。
灵活性: Dask 可以与现有的 Python 代码集成，允许你将现有的代码扩展到并行计算。
可伸缩性: Dask 可以扩展到大规模的集群，处理 TB 甚至 PB 级别的数据。

3. Dask 的核心概念

Task Graph (任务图): Dask 将计算任务表示为一个有向无环图 (DAG)，其中节点表示任务，边表示任务之间的依赖关系。
Scheduler (调度器): Dask 的调度器负责将任务分配给可用的计算资源 (例如，CPU 核心或集群节点)。
Collections (集合): Dask Collections 是对大型数据集的抽象，例如 Dask Arrays 和 Dask DataFrames。

4. Dask Arrays：处理大型数组

Dask Arrays 允许你处理大于内存的 NumPy 数组。它们将数组分成小的块，并将对这些块的操作转换为 Dask 任务图。

4.1 创建 Dask Arrays

可以使用 dask.array.from_array 函数从 NumPy 数组创建 Dask Arrays：

import dask.array as da
import numpy as np

# 创建一个 NumPy 数组
x = np.arange(10000).reshape((100, 100))

# 从 NumPy 数组创建 Dask 数组，指定块的大小
dask_array = da.from_array(x, chunks=(25, 25))

print(dask_array)

输出:

dask.array<array, shape=(100, 100), dtype=int64, chunksize=(25, 25), chunktype=numpy.ndarray>

你也可以使用 dask.array.random.random 函数创建随机的 Dask Arrays：

import dask.array as da

# 创建一个大小为 (1000, 1000) 的随机 Dask 数组，块大小为 (250, 250)
random_array = da.random.random((1000, 1000), chunks=(250, 250))

print(random_array)

输出:

dask.array<random_sample, shape=(1000, 1000), dtype=float64, chunksize=(250, 250), chunktype=numpy.ndarray>

4.2 Dask Arrays 的操作

Dask Arrays 支持类似于 NumPy 数组的各种操作，例如：

算术运算: +, -, *, /
索引和切片: x[i:j], x[:, k]
聚合函数: sum(), mean(), std(), max(), min()

import dask.array as da
import numpy as np

# 创建两个 Dask 数组
x = da.random.random((1000, 1000), chunks=(250, 250))
y = da.random.random((1000, 1000), chunks=(250, 250))

# 计算两个数组的和
z = x + y

# 计算数组的平均值
mean = z.mean()

# 计算结果 (需要调用 .compute() 触发计算)
result = mean.compute()

print(result)

注意： Dask 的操作是延迟执行的。这意味着当你对 Dask Arrays 执行操作时，Dask 会创建一个任务图，但不会立即执行计算。你需要调用 .compute() 方法来触发计算并获取结果。

4.3 处理超出内存的数组

Dask 可以处理超出内存的数组，因为它将数组分成小的块，并根据需要从磁盘加载这些块。你可以使用 dask.array.from_npy_stack 函数从磁盘上的 NumPy 文件创建 Dask Arrays：

假设你有一系列 NumPy 文件 data_0.npy, data_1.npy, …, data_9.npy，每个文件包含一个形状为 (1000, 1000) 的数组。

import dask.array as da
import numpy as np

# 创建一些 NumPy 文件 (示例)
for i in range(10):
    data = np.random.random((1000, 1000))
    np.save(f"data_{i}.npy", data)

# 使用 from_npy_stack 从磁盘上的 NumPy 文件创建 Dask 数组
arrays = [np.load(f"data_{i}.npy") for i in range(10)]
dask_array = da.stack(arrays, axis=0)

# 打印 Dask 数组的信息
print(dask_array)

# 计算数组的总和
total_sum = dask_array.sum()

# 触发计算
result = total_sum.compute()

print(result)

在这个例子中，Dask 会根据需要从磁盘加载 NumPy 文件，并将它们组合成一个 Dask 数组。这意味着你可以处理比内存更大的数据集。实际上 da.stack 会自动调用 da.from_array 并确定合适的 chunks 大小。

5. Dask DataFrames：处理大型表格数据

Dask DataFrames 允许你处理大于内存的 Pandas DataFrames。它们将 DataFrame 分成小的分区，并将对这些分区的操作转换为 Dask 任务图。

5.1 创建 Dask DataFrames

可以使用 dask.dataframe.read_csv 函数从 CSV 文件创建 Dask DataFrames：

import dask.dataframe as dd
import pandas as pd
import numpy as np

# 创建一个大型 CSV 文件 (示例)
data = {'col1': np.random.rand(1000000), 'col2': np.random.randint(0, 100, 1000000)}
df = pd.DataFrame(data)
df.to_csv("large_data.csv", index=False)

# 从 CSV 文件创建 Dask DataFrame
ddf = dd.read_csv("large_data.csv")

print(ddf)

输出:

Dask DataFrame Structure:
              col1   col2
npartitions=1           ...    ...
0           float64  int64
999999        ...    ...
Dask Name: read-csv, 1 graph layer

你也可以使用 dask.dataframe.from_pandas 函数从 Pandas DataFrames 创建 Dask DataFrames：

import dask.dataframe as dd
import pandas as pd

# 创建一个 Pandas DataFrame
df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [6, 7, 8, 9, 10]})

# 从 Pandas DataFrame 创建 Dask DataFrame
ddf = dd.from_pandas(df, npartitions=2)

print(ddf)

5.2 Dask DataFrames 的操作

Dask DataFrames 支持类似于 Pandas DataFrames 的各种操作，例如：

选择列: ddf['col1']
过滤行: ddf[ddf['col1'] > 0.5]
分组和聚合: ddf.groupby('col2').mean()
连接: ddf1.merge(ddf2, on='key')

import dask.dataframe as dd
import pandas as pd
import numpy as np

# 创建一个大型 CSV 文件 (示例)
data = {'col1': np.random.rand(1000000), 'col2': np.random.randint(0, 100, 1000000)}
df = pd.DataFrame(data)
df.to_csv("large_data.csv", index=False)

# 从 CSV 文件创建 Dask DataFrame
ddf = dd.read_csv("large_data.csv")

# 选择 'col1' 列
col1 = ddf['col1']

# 过滤 'col1' 大于 0.5 的行
filtered_ddf = ddf[ddf['col1'] > 0.5]

# 计算 'col2' 的平均值
mean_col2 = ddf['col2'].mean()

# 触发计算
result = mean_col2.compute()

print(result)

5.3 处理超出内存的表格数据

Dask 可以处理超出内存的表格数据，因为它将 DataFrame 分成小的分区，并根据需要从磁盘加载这些分区。这使得你可以处理比内存更大的 CSV 文件或其他表格数据。

6. Dask Delayed：灵活的并行计算

Dask Delayed 允许你将任意的 Python 函数转换为 Dask 任务图，从而实现更灵活的并行计算。

6.1 使用 Dask Delayed

可以使用 dask.delayed 装饰器将一个 Python 函数转换为 Dask 任务：

from dask import delayed
import time

@delayed
def inc(x):
    time.sleep(1)  # 模拟耗时操作
    return x + 1

@delayed
def add(x, y):
    time.sleep(1)  # 模拟耗时操作
    return x + y

# 创建 Dask 任务图
a = inc(1)
b = inc(2)
c = add(a, b)

# 打印 Dask 任务图
print(c)

# 触发计算
result = c.compute()

print(result)

在这个例子中，inc 和 add 函数都被 dask.delayed 装饰器装饰，这意味着它们变成了 Dask 任务。当我们调用这些函数时，Dask 会创建一个任务图，但不会立即执行计算。只有当我们调用 .compute() 方法时，Dask 才会执行计算并获取结果。

6.2 Dask Delayed 的应用场景

Dask Delayed 可以应用于各种并行计算场景，例如：

并行化循环: 可以使用 Dask Delayed 并行化循环中的计算任务。
构建复杂的任务图: 可以使用 Dask Delayed 构建复杂的任务图，其中任务之间存在依赖关系。
自定义数据处理流程: 可以使用 Dask Delayed 构建自定义的数据处理流程，例如，并行地读取、处理和写入数据。

7. Dask 的调度器

Dask 提供了多种调度器，用于将任务分配给可用的计算资源。

单线程调度器: 这是默认的调度器，它在单个线程中执行任务。
多线程调度器: 它使用多个线程并行执行任务。
多进程调度器: 它使用多个进程并行执行任务。
分布式调度器: 它使用一个集群的机器并行执行任务。

可以使用 dask.config.set 函数设置 Dask 的调度器：

import dask
#使用多线程调度器
dask.config.set(scheduler='threads')

#使用多进程调度器
dask.config.set(scheduler='processes')

#使用分布式调度器 (需要先启动 Dask 集群)
#dask.config.set(scheduler='distributed')

7.1 分布式调度器

要使用 Dask 的分布式调度器，需要先启动一个 Dask 集群。可以使用 dask.distributed.Client 类连接到现有的 Dask 集群，也可以使用 dask.distributed.LocalCluster 类在本地启动一个 Dask 集群。

from dask.distributed import Client, LocalCluster

# 在本地启动一个 Dask 集群
cluster = LocalCluster(n_workers=4)  # 创建一个包含 4 个 worker 的本地集群
client = Client(cluster)  # 连接到集群

# 现在可以使用 Dask 进行分布式计算了
# ...

# 关闭集群
client.close()
cluster.close()

8. Dask 的最佳实践

选择合适的块大小: 块大小会影响 Dask 的性能。选择合适的块大小需要根据你的数据集和计算任务进行调整。通常，较大的块大小可以减少调度开销，但可能会增加内存消耗。
避免不必要的计算: Dask 是延迟执行的，因此只有当你需要结果时才会执行计算。避免不必要的计算可以提高性能。
使用 Dask 的优化工具: Dask 提供了多种优化工具，例如 dask.optimize 函数，可以优化 Dask 任务图。
监控 Dask 的性能: 可以使用 Dask 的诊断工具监控 Dask 的性能，例如 Dask 的 Dashboard。

9. 实际应用场景

Dask 可以应用于各种实际应用场景，例如：

数据科学: 数据清洗、数据转换、特征工程、模型训练和评估。
图像处理: 图像分割、图像识别、图像增强。
科学计算: 模拟、仿真、数据分析。
金融分析: 风险管理、交易策略、量化分析。

10. 代码示例：使用 Dask 进行并行数据处理

假设你有一个包含大量 CSV 文件的数据集，每个文件包含一些传感器数据。你需要计算每个传感器的平均值和标准差。

import dask.dataframe as dd
import pandas as pd
import numpy as np
import os

# 创建一些 CSV 文件 (示例)
data_dir = "sensor_data"
os.makedirs(data_dir, exist_ok=True)

for i in range(5):
    data = {'sensor_id': np.random.randint(0, 10, 1000),
            'value': np.random.rand(1000)}
    df = pd.DataFrame(data)
    df.to_csv(os.path.join(data_dir, f"data_{i}.csv"), index=False)

# 读取所有 CSV 文件
ddf = dd.read_csv(os.path.join(data_dir, "data_*.csv"))

# 计算每个传感器的平均值和标准差
grouped = ddf.groupby('sensor_id')['value'].agg(['mean', 'std'])

# 触发计算
result = grouped.compute()

print(result)

这个例子演示了如何使用 Dask DataFrames 并行地读取和处理大量 CSV 文件。Dask 会自动将计算任务分配给可用的 CPU 核心，从而提高计算速度。

11. Dask 与其他并行计算框架的比较

特性	Dask	Spark
编程语言	Python	Scala, Python, Java, R
数据处理	数组、DataFrames、自定义任务图	RDDs, DataFrames, Datasets
延迟执行	是	是
内存管理	灵活的内存管理，可以处理超出内存的数据集	基于 JVM 的内存管理，可能存在内存溢出问题
易用性	易于学习和使用，特别是对于 Python 用户	学习曲线较陡峭
适用场景	中小型数据集，Python 生态系统	大型数据集，需要高性能和可伸缩性

12. 结尾的概括

今天我们学习了 Dask 的基本概念和使用方法，包括 Dask Arrays、Dask DataFrames 和 Dask Delayed。Dask 是一个强大的并行计算库，可以让你轻松地处理大型数据集和复杂的计算任务。希望今天的课程对大家有所帮助，谢谢大家！

Dask 提供了处理大规模数据集的强大能力，通过任务图和调度器实现并行计算，适用于各种数据科学和工程场景。掌握 Dask 可以显著提高数据处理效率，解决内存限制问题。

Dask：多核、分布式与超内存数据集处理

发表回复 取消回复

发表回复取消回复