Python高级技术之：`Dask`的`DataFrame`：如何处理超出内存的大型数据集。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众老爷，早上好/下午好/晚上好！今天咱们来聊聊Python世界里处理超大型数据集的秘密武器——Dask DataFrame。啥？你的数据动不动就GB甚至TB级别，Pandas直接给你跪了？别慌，Dask DataFrame就是来拯救你的！

第一部分：Dask DataFrame是个啥？

简单来说，Dask DataFrame就像一个“升级版”的Pandas DataFrame。 Pandas把数据都放在内存里，内存不够就歇菜；而Dask DataFrame聪明多了，它把数据分成很多小块（partitions），可以放在硬盘上，需要的时候再读到内存里计算。这样，即使你的数据比内存大得多，也能轻松处理。

你可以把Dask DataFrame想象成一个施工队，Pandas DataFrame是单打独斗的包工头，啥都自己干；Dask DataFrame是总指挥，把任务分解成小块，分配给不同的工人（partitions）并行处理，最后再把结果汇总起来。人多力量大嘛！

第二部分：为啥要用Dask DataFrame？

用Dask DataFrame的好处简直不要太多：

处理超大型数据集： 这是最核心的功能，内存不够用？Dask DataFrame表示毫无压力。
并行计算： Dask能充分利用你的CPU核心，加速计算过程。
熟悉的使用方式： Dask DataFrame的API和Pandas DataFrame非常相似，学习成本很低，几乎可以无缝切换。
延迟计算： Dask采用延迟计算（lazy evaluation）的策略，只有在真正需要结果的时候才开始计算，可以避免不必要的计算，提高效率。
与Dask生态系统的整合： Dask可以和其他Dask组件（如Dask Array、Dask ML）无缝整合，构建更强大的数据处理流程。

第三部分：Dask DataFrame上手实战

光说不练假把式，咱们来点真格的。

安装Dask：
```
pip install dask[dataframe]
```
或者直接安装全部Dask依赖：
```
pip install dask
```

创建Dask DataFrame：

从Pandas DataFrame创建：

import pandas as pd
import dask.dataframe as dd

# 创建一个Pandas DataFrame
df_pandas = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                         'B': ['a', 'b', 'c', 'd', 'e'],
                         'C': [0.1, 0.2, 0.3, 0.4, 0.5]})

# 从Pandas DataFrame创建Dask DataFrame
df_dask = dd.from_pandas(df_pandas, npartitions=2) # 将数据分成2个partitions

print(df_dask)

注意 npartitions 参数，它决定了数据被分成多少块。分的越多，并行度越高，但也会增加调度开销，需要根据实际情况调整。
输出结果类似：

Dask DataFrame Structure:
                 A     B    C
npartitions=2
0                int64 object  float64
2                  ...    ...      ...
Dask Name: from_pandas, dtype: object

注意，这里只是创建了Dask DataFrame的“蓝图”，并没有真正开始计算。

从CSV文件创建：

这是最常用的方式，毕竟数据一般都存在文件里。
```
import dask.dataframe as dd

# 从CSV文件创建Dask DataFrame
df_dask = dd.read_csv('my_large_data.csv', assume_missing=True) # 假设有缺失值
print(df_dask)
```
assume_missing=True 参数告诉Dask，CSV文件中可能存在缺失值，这样Dask会更智能地处理数据类型。当然你也可以指定数据类型，比如：
```
df_dask = dd.read_csv('my_large_data.csv', dtype={'col1': 'int64', 'col2': 'float64', 'col3': 'object'})
```
dtype参数可以强制指定每一列的数据类型，避免Dask自动推断错误。

你还可以使用通配符读取多个CSV文件：
```
df_dask = dd.read_csv('data_*.csv') # 读取所有以"data_"开头的CSV文件
```

从Parquet文件创建：

Parquet是一种列式存储格式，适合存储大型数据集，读取速度更快。

import dask.dataframe as dd

# 从Parquet文件创建Dask DataFrame
df_dask = dd.read_parquet('my_large_data.parquet')
print(df_dask)

Dask DataFrame基本操作：

Dask DataFrame的API和Pandas DataFrame非常相似，你可以像使用Pandas一样使用Dask。
- 查看数据：
```
# 查看前几行数据
print(df_dask.head())

# 查看数据信息
print(df_dask.info())
```
  注意： head() 函数会触发计算，将一部分数据加载到内存中。 info()函数也会进行一些计算来推断数据类型和统计信息。
- 选择列：
```
# 选择单列
col_a = df_dask['A']
print(col_a)

# 选择多列
cols_ab = df_dask[['A', 'B']]
print(cols_ab)
```
- 过滤数据：
```
# 过滤数据
filtered_df = df_dask[df_dask['A'] > 2]
print(filtered_df)
```
- 新增列：
```
# 新增列
df_dask['D'] = df_dask['A'] + df_dask['C']
print(df_dask)
```
- 分组聚合：
```
# 分组聚合
grouped_df = df_dask.groupby('B')['A'].mean()
print(grouped_df)
```
  注意：分组聚合操作通常会涉及到数据洗牌（shuffling），Dask会将数据重新分配到不同的partitions，这可能会比较耗时。
- 排序：
```
# 排序
sorted_df = df_dask.sort_values('A')
print(sorted_df)
```
  注意：排序操作也会涉及到数据洗牌，尽量避免对大型数据集进行排序。
计算：

Dask采用延迟计算策略，所以上面的操作只是构建了计算图，并没有真正执行。要想得到结果，需要调用 compute() 函数。
```
# 计算结果
result = grouped_df.compute()
print(result)
```
compute() 函数会将计算图提交给Dask调度器，Dask会将任务分配到不同的partitions并行执行，最后将结果汇总起来。

重要提示： compute() 函数会把所有数据加载到内存中，如果数据太大，可能会导致内存溢出。所以，在调用 compute() 之前，一定要确保结果集的大小在可控范围内。
持久化：

如果你需要多次使用同一个Dask DataFrame，可以将其持久化到内存或硬盘上，避免重复计算。
```
# 持久化到内存
df_dask = df_dask.persist()

# 或者
from dask import persist
df_dask = persist(df_dask)[0]
```
persist() 函数会将Dask DataFrame的中间结果存储在内存中，下次使用时直接从内存读取，速度更快。如果内存不够，Dask会自动将数据溢出到硬盘上。

你也可以将Dask DataFrame存储到硬盘上，例如存储为Parquet文件：
```
# 存储为Parquet文件
df_dask.to_parquet('my_dask_data.parquet')
```

第四部分：Dask DataFrame高级技巧

自定义函数：

你可以使用 map_partitions() 函数将自定义函数应用到每个partition上。

import dask.dataframe as dd
import pandas as pd

def my_function(df):
   # 自定义函数，例如将A列的值乘以2
   df['A_multiplied'] = df['A'] * 2
   return df

# 创建Dask DataFrame
df_dask = dd.read_csv('my_large_data.csv')

# 应用自定义函数
df_dask = df_dask.map_partitions(my_function)

# 计算结果
print(df_dask.head())

并行计算优化：
- 调整npartitions参数： 根据你的CPU核心数和数据大小，调整npartitions参数，找到最佳的并行度。
- 使用Dask Dashboard： Dask Dashboard可以监控Dask的计算过程，帮助你发现性能瓶颈。
```
from dask.distributed import Client

# 启动Dask Client
client = Client() # 默认会使用所有CPU核心

# 执行计算
result = df_dask.groupby('B')['A'].mean().compute()

# 关闭Dask Client
client.close()
```
  然后在浏览器中打开Dask Dashboard的地址（通常是 http://localhost:8787），就可以看到Dask的计算过程了。
- 避免不必要的数据洗牌： 数据洗牌会消耗大量时间和资源，尽量避免在大型数据集上进行排序、分组等操作。
与Dask生态系统整合：

Dask可以和其他Dask组件（如Dask Array、Dask ML）无缝整合，构建更强大的数据处理流程。例如，你可以使用Dask Array处理大型数组，然后将结果传递给Dask DataFrame进行分析。

第五部分：Dask DataFrame注意事项

内存管理： 虽然Dask可以将数据放在硬盘上，但内存仍然是关键资源。尽量避免一次性加载大量数据到内存中，合理使用 persist() 函数。
数据类型： Dask DataFrame对数据类型要求比较严格，需要确保数据类型一致。可以使用 dtype 参数强制指定数据类型。
计算图优化： Dask会自动优化计算图，但有时候也需要手动优化。可以使用 dask.optimize() 函数手动优化计算图。
错误处理： Dask DataFrame的错误信息可能比较复杂，需要仔细分析。可以使用 try...except 语句捕获异常。

第六部分：Dask DataFrame VS Pandas DataFrame

特性	Dask DataFrame	Pandas DataFrame
数据大小	处理超出内存的大型数据集	只能处理内存中的数据集
计算方式	延迟计算，并行计算	立即计算，单线程计算
数据存储	可以存储在硬盘上	必须存储在内存中
API	与Pandas DataFrame类似	常用数据分析和处理工具
适用场景	大型数据集的分析和处理，需要并行计算的场景	小型数据集的快速分析和原型设计
复杂度和学习曲线	相对复杂，需要了解Dask的基本概念和API	简单易用，学习曲线平缓

第七部分：总结

Dask DataFrame是处理超大型数据集的利器，它可以让你轻松应对内存不足的挑战，利用并行计算加速数据处理过程。虽然Dask DataFrame的学习曲线相对陡峭，但一旦掌握，你就能在数据分析的道路上更上一层楼。记住，熟能生巧，多练习，多踩坑，你也能成为Dask高手！

今天的讲座就到这里，感谢各位观众老爷的观看！下次再见！

发表回复 取消回复

发表回复取消回复