`dask.delayed`：构建复杂延迟计算图以优化执行 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷，欢迎来到今天的“Dask.delayed：延迟满足的快乐编程之旅”！今天我们要聊聊Dask中的一个神器，它能让你构建复杂的计算图，然后让Dask像个精明的管家一样，优化执行，榨干你CPU的每一滴性能。这个神器就是——dask.delayed。

啥是延迟计算？

首先，我们得明白啥是“延迟计算”。想象一下，你让你的小弟去买咖啡，你说：“先买两杯美式，一杯加糖，一杯不加糖，然后给我送过来。” 你的小弟并没有立刻跑去买咖啡，而是记下了你的需求，然后等你告诉他“可以去买了” 的时候，他才行动。

这就是延迟计算的思想：先定义计算步骤，但不立即执行。只有在真正需要结果的时候，才触发计算。

为啥要延迟计算？

延迟计算有什么好处呢？主要有以下几点：

构建计算图： 可以先定义复杂的计算流程，形成一个计算图。这个图可以被Dask分析，从而进行优化。
并行计算： Dask可以自动将计算图分解成小的任务，并行执行，充分利用多核CPU。
避免不必要的计算： 只有真正需要的结果才会被计算，避免了浪费资源。
处理大数据： 可以处理超出内存的数据集，因为Dask会将数据分割成小块，逐块计算。

dask.delayed：延迟计算的瑞士军刀

dask.delayed 就像一把瑞士军刀，可以用来装饰任何Python函数或代码块，让它们变成延迟计算的一部分。

基本用法：

import dask

def add(x, y):
  return x + y

# 使用 dask.delayed 装饰 add 函数
delayed_add = dask.delayed(add)

# 现在 delayed_add(1, 2) 并不会立即计算 1 + 2
result = delayed_add(1, 2)
print(result) # 输出: Delayed('add-xxxxxxxxxxxxxxxx', dask_key_name='add-xxxxxxxxxxxxxxxx')

# 只有调用 compute() 才会真正计算
final_result = result.compute()
print(final_result) # 输出: 3

是不是很简单？ dask.delayed 就像给 add 函数穿上了一件“延迟战甲”。调用 delayed_add(1, 2) 时，并没有直接计算，而是返回了一个 Delayed 对象，这个对象代表一个尚未执行的计算任务。只有调用 compute() 方法，才会触发计算。

构建复杂的计算图：

dask.delayed 的真正威力在于构建复杂的计算图。我们可以将多个延迟计算任务组合起来，形成一个庞大的计算流程。

import dask

def inc(x):
  return x + 1

def double(x):
  return x * 2

# 使用 dask.delayed 装饰 inc 和 double 函数
delayed_inc = dask.delayed(inc)
delayed_double = dask.delayed(double)

# 构建计算图
x = 1
y = delayed_inc(x)
z = delayed_double(y)
result = delayed_inc(z)

# 查看计算图
result.visualize() # 这会生成一个图形，展示计算流程 (需要 graphviz 库)

# 执行计算
final_result = result.compute()
print(final_result) # 输出: 5

在这个例子中，我们定义了两个简单的函数 inc 和 double，然后使用 dask.delayed 将它们变成了延迟计算任务。接着，我们将这些任务组合起来，形成一个计算图：

y = delayed_inc(x) (x + 1)
z = delayed_double(y) ((x + 1) * 2)
result = delayed_inc(z) (((x + 1) * 2) + 1)

只有调用 result.compute() 时，Dask 才会按照计算图的顺序执行这些任务。

dask.delayed 和循环：

dask.delayed 经常与循环一起使用，可以方便地并行处理大量数据。

import dask

def square(x):
  return x * x

# 使用 dask.delayed 装饰 square 函数
delayed_square = dask.delayed(square)

# 并行计算 0 到 9 的平方
results = [delayed_square(i) for i in range(10)]

# 计算所有平方的和
total = dask.delayed(sum)(results)

# 执行计算
final_result = total.compute()
print(final_result) # 输出: 285

在这个例子中，我们使用列表推导式和 dask.delayed 并行计算了 0 到 9 的平方。然后，我们使用 dask.delayed(sum) 计算了所有平方的和。 Dask 会自动将这些计算任务分解成小的任务，并行执行。

dask.delayed 和条件语句：

dask.delayed 还可以与条件语句一起使用，根据条件执行不同的计算任务。

import dask

def process_data(data):
  if data > 0:
    return data * 2
  else:
    return data / 2

# 使用 dask.delayed 装饰 process_data 函数
delayed_process_data = dask.delayed(process_data)

# 根据条件执行不同的计算任务
data = -5
result = delayed_process_data(data)

# 执行计算
final_result = result.compute()
print(final_result) # 输出: -2.5

dask.delayed 和函数参数：

dask.delayed 可以处理各种类型的函数参数，包括列表、字典、NumPy数组等。

import dask
import numpy as np

def process_array(arr):
  return np.mean(arr)

# 使用 dask.delayed 装饰 process_array 函数
delayed_process_array = dask.delayed(process_array)

# 处理 NumPy 数组
data = np.array([1, 2, 3, 4, 5])
result = delayed_process_array(data)

# 执行计算
final_result = result.compute()
print(final_result) # 输出: 3.0

进阶技巧：dask.delayed 的一些高级用法

persist()： 将中间结果保存在内存中，避免重复计算。

import dask

def expensive_function(x):
  # 模拟一个耗时的计算
  import time
  time.sleep(2)
  return x * x

delayed_expensive = dask.delayed(expensive_function)

x = delayed_expensive(5)
y = delayed_expensive(5) # 如果没有 persist(), 会重复计算 expensive_function(5)

# 将 x 的结果保存在内存中
x = x.persist()

result = dask.delayed(lambda a, b: a + b)(x, y)

# 只有第一次调用 expensive_function(5)，第二次直接从内存中读取结果
final_result = result.compute()
print(final_result) # 输出: 50

compute(scheduler='threads') or compute(scheduler='processes') or compute(scheduler='distributed')： 选择不同的调度器。

threads: 使用线程池并行计算 (适合 CPU 密集型任务)。
processes: 使用进程池并行计算 (适合 I/O 密集型任务，可以绕过 GIL 限制)。
distributed: 使用 Dask 分布式集群进行计算 (适合大规模数据集和复杂计算)。

import dask
import time

def slow_function(x):
  time.sleep(1)
  return x * 2

delayed_slow = dask.delayed(slow_function)

results = [delayed_slow(i) for i in range(4)]

# 使用线程池并行计算
start_time = time.time()
final_results_threads = dask.compute(*results, scheduler='threads')[0]
end_time = time.time()
print(f"Threads scheduler time: {end_time - start_time:.2f} seconds")

# 使用进程池并行计算
start_time = time.time()
final_results_processes = dask.compute(*results, scheduler='processes')[0]
end_time = time.time()
print(f"Processes scheduler time: {end_time - start_time:.2f} seconds")

dask.config.set(scheduler='threads')： 设置全局调度器。

import dask

# 设置全局调度器为线程池
dask.config.set(scheduler='threads')

# 之后的 compute() 调用都会使用线程池

dask.visualize()： 可视化计算图，帮助你理解计算流程。

import dask

def add(x, y):
  return x + y

delayed_add = dask.delayed(add)

x = delayed_add(1, 2)
y = delayed_add(3, 4)
z = delayed_add(x, y)

# 可视化计算图
z.visualize(filename='computation_graph.png') # 需要 graphviz 库

这会生成一个名为 computation_graph.png 的图片，展示计算图的结构。

一些使用注意事项：

避免在 dask.delayed 函数中使用全局变量： 这可能会导致不可预测的结果，因为 Dask 会在不同的进程或线程中执行任务。
尽量使用纯函数： 纯函数是指没有副作用的函数，即函数的输出只取决于输入，不会修改任何全局状态。使用纯函数可以提高代码的可维护性和可测试性。
注意数据序列化： Dask 需要将数据序列化才能在不同的进程或线程之间传递数据。因此，尽量使用可以高效序列化的数据类型，例如 NumPy 数组和 Pandas DataFrame。

监控计算进度： 可以使用 Dask 的进度条来监控计算进度。

from dask.distributed import Client
import dask

# 创建一个 Dask 分布式客户端
client = Client()

def inc(x):
    import time
    time.sleep(1)
    return x + 1

delayed_inc = dask.delayed(inc)
results = [delayed_inc(i) for i in range(10)]

# 使用 Dask 的进度条监控计算进度
with dask.config.set(scheduler='processes'):
    dask.compute(*results)

client.close()

dask.delayed 总结：

dask.delayed 是 Dask 中一个非常强大的工具，可以让你轻松构建复杂的延迟计算图，并利用 Dask 的并行计算能力来加速你的代码。掌握 dask.delayed，你就可以像一位优秀的指挥家一样，调度你的 CPU，让它们高效地完成各种计算任务。

dask.delayed 适用场景表格：

场景	描述	优势
并行处理循环	需要对大量数据进行相同的操作，例如计算每个文件的平均值。	可以将循环中的每次迭代变成一个独立的任务，并行执行，充分利用多核 CPU。
构建复杂的计算流程	需要将多个函数组合起来，形成一个复杂的计算流程，例如数据清洗、特征工程、模型训练。	可以将每个函数变成一个独立的任务，构建计算图，让 Dask 自动优化执行顺序和并行度。
处理超出内存的数据集	需要处理的数据集太大，无法一次性加载到内存中。	Dask 可以将数据集分割成小块，逐块计算，避免内存溢出。
需要避免不必要的计算	只有在真正需要结果的时候才需要计算，例如根据条件执行不同的计算任务。	可以延迟计算，只有在需要结果的时候才触发计算，避免浪费资源。
需要在分布式集群上运行计算任务	需要在多台机器上并行计算，以加速计算过程。	Dask 可以将计算任务分发到分布式集群上执行，充分利用集群的计算资源。

最后，送给大家一句名言：

“延迟的快乐才是真正的快乐！” —— 佚名 (其实是我编的)

希望今天的讲解对大家有所帮助，下次再见！

发表回复 取消回复

发表回复取消回复