大型 DataFrame 的分块处理与迭代 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷，欢迎来到“数据魔法师”的奇妙课堂！今天我们要聊点实在的，也是各位数据民工们经常会遇到的难题：如何优雅地驯服那些动辄几个G、几十个G甚至几百个G的巨型DataFrame怪兽！

想象一下，你面前堆积如山的Excel表格，每一个都像是《哈利波特》里的活点地图一样复杂，里面藏着各种各样的数据秘密。如果你想一口气把它们全塞进电脑里，那你的小电脑可能瞬间就会跪给你看，发出绝望的哀嚎：“OutOfMemoryError！救命啊！”

所以，为了避免这种悲剧的发生，我们需要掌握一项关键技能：分块处理与迭代。这就像把一座大山分解成一块块小石头，然后一块一块地搬运，最终也能完成移山填海的壮举！

第一章：怪兽来袭！认识超大型DataFrame

首先，让我们先来认识一下我们今天的主角：超大型DataFrame。

什么是超大型DataFrame？简单来说，就是你的电脑内存吃不消的DataFrame。具体多大算大？这取决于你的电脑配置，一般来说，如果你的DataFrame超过了你可用内存的一半，就可以考虑分块处理了。

为什么要分块处理？

避免内存溢出 (OutOfMemoryError)： 这是最直接的原因。一次性加载整个DataFrame很容易导致内存溢出，程序崩溃。
提高处理效率： 对于某些操作，分块处理可能比一次性处理更快。例如，当你只需要读取DataFrame的一部分数据时，分块处理可以避免加载整个文件。
方便数据探索： 分块处理可以让你逐步探索数据，了解数据的结构和内容，而无需一次性加载所有数据。

第二章：庖丁解牛！DataFrame分块的N种姿势

接下来，我们来学习如何将超大型DataFrame“大卸八块”。Pandas提供了多种方法来实现分块处理，每种方法都有其适用场景。

1. 使用chunksize参数读取数据

这是最简单也是最常用的方法。在pd.read_csv()、pd.read_excel()等函数中，都有一个chunksize参数，可以指定每次读取的行数。

import pandas as pd

# 假设我们有一个名为"huge_data.csv"的超大型CSV文件
chunk_size = 10000  # 每次读取10000行
reader = pd.read_csv("huge_data.csv", chunksize=chunk_size)

# reader是一个TextFileReader对象，可以像迭代器一样使用
for chunk in reader:
    # 对每个chunk进行处理
    print(f"处理chunk，大小为：{len(chunk)}")
    # 在这里可以进行各种数据处理操作
    # 例如：
    # print(chunk.head())  # 查看chunk的前几行
    # chunk['new_column'] = chunk['column1'] + chunk['column2']  # 添加新列
    # results.append(process_chunk(chunk)) # 调用函数处理chunk

优点：

简单易用，代码简洁。
适用于各种文件格式，如CSV、Excel等。
可以自定义每次读取的行数。

缺点：

只能按行分块，无法按列分块。
需要提前知道文件的格式和结构。

2. 使用pandas.io.common.get_filepath_or_buffer和pandas.read_csv分块读取

这种方法更灵活，可以自定义读取的起始位置和行数。

import pandas as pd
import pandas.io.common

filepath = 'huge_data.csv'
chunk_size = 10000
total_rows = sum(1 for row in open(filepath)) - 1 # 获取文件总行数（减去标题行）
print(f"文件总行数: {total_rows}")

for i in range(0, total_rows, chunk_size):
    # 计算当前chunk的起始行和结束行
    start_row = i + 1 # 跳过标题行
    end_row = min(i + chunk_size, total_rows)
    print(f"读取从 {start_row} 到 {end_row} 行")

    # 使用skiprows和nrows参数读取数据
    df_chunk = pd.read_csv(filepath, skiprows=range(1, start_row), nrows=chunk_size)

    # 对chunk进行处理
    print(f"处理chunk，大小为：{len(df_chunk)}")
    # 在这里可以进行各种数据处理操作

优点：

可以自定义读取的起始行和行数。
更灵活，可以根据需要调整分块大小。

缺点：

需要提前知道文件的总行数。
代码相对复杂。

3. 使用Dask DataFrame

Dask是一个并行计算库，可以处理超出内存的数据。Dask DataFrame是基于Pandas DataFrame构建的，可以像Pandas DataFrame一样使用，但它可以将数据存储在磁盘上，并并行处理数据。

import dask.dataframe as dd

# 创建Dask DataFrame
ddf = dd.read_csv("huge_data.csv")

# 像Pandas DataFrame一样使用Dask DataFrame
print(ddf.head())  # 查看前几行（Dask会延迟计算）
print(ddf.columns) # 查看列名
# 计算列的平均值
mean_value = ddf['column1'].mean().compute() # 使用.compute()触发计算
print(f"column1的平均值：{mean_value}")

优点：

可以处理超出内存的数据。
支持并行计算，提高处理效率。
与Pandas DataFrame兼容，易于使用。

缺点：

需要安装Dask库。
某些操作可能比Pandas DataFrame慢。
学习曲线相对较陡峭。

表格总结：DataFrame分块方法对比

方法	优点	缺点	适用场景
`chunksize`参数	简单易用，代码简洁，适用于各种文件格式。	只能按行分块，需要提前知道文件格式。	适用于简单的数据读取和处理，例如数据清洗、转换等。
`skiprows`和`nrows`参数	可以自定义读取的起始行和行数，更灵活。	需要提前知道文件的总行数，代码相对复杂。	适用于需要精确控制读取范围的场景，例如按时间段读取数据。
`Dask DataFrame`	可以处理超出内存的数据，支持并行计算，与Pandas DataFrame兼容。	需要安装Dask库，某些操作可能比Pandas DataFrame慢，学习曲线较陡峭。	适用于需要处理超大型数据，并需要并行计算的场景，例如大规模数据分析、机器学习等。

第三章：迭代的艺术！如何优雅地处理分块数据

当我们把DataFrame分成一块块之后，下一步就是如何迭代地处理这些数据块。这就像流水线作业，每个数据块都经过相同的处理流程，最终得到我们想要的结果。

1. 简单的迭代处理

import pandas as pd

chunk_size = 10000
reader = pd.read_csv("huge_data.csv", chunksize=chunk_size)

for chunk in reader:
    # 对每个chunk进行处理
    # 例如，统计每个chunk中某列的平均值
    average = chunk['column1'].mean()
    print(f"当前chunk的平均值为：{average}")

    # 将结果保存到文件或数据库中
    # chunk.to_csv("output.csv", mode='a', header=False, index=False)

2. 使用生成器函数

生成器函数可以延迟计算，只有在需要的时候才生成数据。这可以节省内存，提高效率。

import pandas as pd

def read_in_chunks(file_path, chunk_size=10000):
    """
    逐块读取CSV文件，并返回一个生成器。
    """
    reader = pd.read_csv(file_path, chunksize=chunk_size)
    for chunk in reader:
        yield chunk

# 使用生成器函数
for chunk in read_in_chunks("huge_data.csv"):
    # 对每个chunk进行处理
    print(f"处理chunk，大小为：{len(chunk)}")
    # do something

3. 链式操作

我们可以使用Pandas的链式操作，将多个操作连接在一起，使代码更简洁易读。

import pandas as pd

chunk_size = 10000
reader = pd.read_csv("huge_data.csv", chunksize=chunk_size)

for chunk in reader:
    # 链式操作
    result = (
        chunk
        .groupby('column1')['column2']
        .mean()
        .reset_index()
    )
    print(result)

4. 并行处理

对于CPU密集型的操作，可以使用多进程或多线程来并行处理数据块，提高处理效率。

import pandas as pd
import multiprocessing

def process_chunk(chunk):
    """
    处理单个chunk的函数。
    """
    # 对chunk进行处理
    result = chunk['column1'].mean()
    return result

def main():
    chunk_size = 10000
    reader = pd.read_csv("huge_data.csv", chunksize=chunk_size)

    # 创建进程池
    pool = multiprocessing.Pool(processes=4)  # 使用4个进程

    # 使用map函数并行处理数据块
    results = pool.map(process_chunk, reader)

    # 关闭进程池
    pool.close()
    pool.join()

    # 合并结果
    total_average = sum(results) / len(results)
    print(f"总平均值为：{total_average}")

if __name__ == "__main__":
    main()

第四章：实战演练！一个完整的案例

现在，让我们通过一个完整的案例来巩固一下所学知识。

案例：分析超大型订单数据

假设我们有一个包含数百万条订单数据的CSV文件，我们需要统计每个商品的平均订单金额。

import pandas as pd

def analyze_orders(file_path, chunk_size=10000):
    """
    分析超大型订单数据，统计每个商品的平均订单金额。
    """
    results = {}
    reader = pd.read_csv(file_path, chunksize=chunk_size)
    for chunk in reader:
        # 按照商品ID分组，计算订单金额的平均值
        grouped = chunk.groupby('product_id')['order_amount'].mean()
        # 将结果合并到results字典中
        for product_id, average_amount in grouped.items():
            if product_id in results:
                results[product_id]['sum'] += average_amount * grouped.size
                results[product_id]['count'] += grouped.size
            else:
                results[product_id] = {'sum': average_amount * grouped.size, 'count': grouped.size}
    #计算总体平均值
    final_results = {}
    for product_id, values in results.items():
        final_results[product_id] = values['sum'] / values['count']
    return final_results

# 调用函数
results = analyze_orders("huge_orders.csv")

# 打印结果
for product_id, average_amount in results.items():
    print(f"商品ID：{product_id}，平均订单金额：{average_amount:.2f}")

第五章：总结与展望

恭喜你，成功地完成了今天的课程！🎉🎉🎉

我们学习了如何使用多种方法来分块处理超大型DataFrame，以及如何迭代地处理这些数据块。掌握了这些技能，你就可以轻松地应对各种数据挑战，成为一名真正的数据魔法师！

总结：

分块处理是处理超大型DataFrame的关键。
Pandas提供了多种分块处理的方法，可以根据实际情况选择合适的方法。
迭代处理是处理分块数据的常用方法。
可以结合生成器函数、链式操作和并行处理来提高处理效率。

展望：

随着数据量的不断增长，分块处理和迭代处理将变得越来越重要。未来，我们可以期待更多更强大的工具和技术来帮助我们更好地处理超大型数据。

希望今天的课程对你有所帮助！如果你有任何问题，欢迎在评论区留言，我们一起探讨！下次再见！👋

发表回复 取消回复

发表回复取消回复