PHP处理大数据CSV/Excel：使用Generator生成器降低内存消耗的流式处理 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

PHP 大数据 CSV/Excel 处理：使用 Generator 生成器降低内存消耗的流式处理

各位朋友，大家好！今天我们来聊聊 PHP 中处理大数据 CSV 和 Excel 文件时，如何利用 Generator 生成器实现流式处理，从而有效降低内存消耗的问题。

传统方法处理 CSV/Excel 的困境

在 PHP 中，处理 CSV 或 Excel 文件，我们通常会使用 fgetcsv、SplFileObject 或一些专门的库（如 PHPExcel、PhpSpreadsheet）将文件内容一次性读取到内存中，然后进行处理。

这种方法对于小文件来说没有问题，但当文件体积达到 GB 级别，甚至更大时，一次性读取会导致内存溢出，程序崩溃。想象一下，一个 5GB 的 CSV 文件，即使每一行数据都很短，也可能包含数百万行。将所有数据加载到内存中，对服务器的压力是巨大的。

Generator 生成器：化整为零的利器

Generator 生成器是 PHP 5.5 引入的一个强大的特性，它允许你像迭代器一样处理数据，但实际上并不需要将所有数据都加载到内存中。Generator 函数在每次调用 yield 关键字时暂停执行，并返回一个值，直到函数执行完毕或者遇到 return 语句。

这意味着我们可以将 CSV/Excel 文件的读取和处理过程分解成多个小步骤，每次只读取一行或一小部分数据到内存中进行处理，然后将结果返回，释放内存，再进行下一轮处理。这种方式极大地降低了内存消耗，使得 PHP 能够处理远大于可用内存的文件。

实战：使用 Generator 处理 CSV 文件

下面我们通过一个具体的例子来演示如何使用 Generator 生成器处理 CSV 文件。假设我们有一个名为 data.csv 的文件，包含以下内容：

id,name,age,city
1,Alice,30,New York
2,Bob,25,London
3,Charlie,35,Paris
4,David,40,Tokyo

现在，我们需要读取这个 CSV 文件，并筛选出年龄大于 30 岁的人员信息。

<?php

function readCsv(string $filename, string $delimiter = ',', string $enclosure = '"', string $escape = '\'): Generator
{
    $file = fopen($filename, 'r');

    if ($file === false) {
        throw new Exception("Unable to open file: $filename");
    }

    // Skip the header row
    fgetcsv($file, 0, $delimiter, $enclosure, $escape);

    while (($row = fgetcsv($file, 0, $delimiter, $enclosure, $escape)) !== false) {
        yield $row;
    }

    fclose($file);
}

function filterByAge(Generator $rows, int $minAge): Generator
{
    foreach ($rows as $row) {
        if ((int) $row[2] > $minAge) {
            yield $row;
        }
    }
}

$filename = 'data.csv';
$minAge = 30;

try {
    $rows = readCsv($filename);
    $filteredRows = filterByAge($rows, $minAge);

    foreach ($filteredRows as $row) {
        echo "ID: " . $row[0] . ", Name: " . $row[1] . ", Age: " . $row[2] . ", City: " . $row[3] . PHP_EOL;
    }
} catch (Exception $e) {
    echo "Error: " . $e->getMessage() . PHP_EOL;
}

?>

代码解释：

readCsv 函数：
- 接收 CSV 文件名、分隔符、包围符和转义符作为参数。
- 使用 fopen 打开文件，并进行错误处理。
- 使用 fgetcsv 读取 CSV 文件的一行数据。
- 使用 yield 关键字返回每一行数据，并将函数暂停。
- 循环读取并返回每一行数据，直到文件结束。
- 最后关闭文件。
filterByAge 函数：
- 接收一个 Generator 对象和一个最小年龄作为参数。
- 遍历 Generator 对象中的每一行数据。
- 将年龄转换为整数，并与最小年龄进行比较。
- 如果年龄大于最小年龄，则使用 yield 关键字返回该行数据。
主程序：
- 定义 CSV 文件名和最小年龄。
- 调用 readCsv 函数创建一个 Generator 对象。
- 调用 filterByAge 函数创建一个新的 Generator 对象，用于筛选数据。
- 遍历筛选后的 Generator 对象，并输出符合条件的数据。
- 使用 try...catch 块捕获可能发生的异常。

运行结果：

ID: 1, Name: Alice, Age: 30, City: New York
ID: 3, Name: Charlie, Age: 35, City: Paris
ID: 4, Name: David, Age: 40, City: Tokyo

关键点：

readCsv 函数使用 yield 关键字将每一行数据作为 Generator 的一个元素返回，而不是一次性将所有数据加载到内存中。
filterByAge 函数也使用了 Generator，它接收一个 Generator 对象作为参数，并返回一个新的 Generator 对象，用于筛选数据。这种链式操作可以进一步降低内存消耗。
在主程序中，我们通过 foreach 循环遍历 Generator 对象，每次只处理一行数据，避免了内存溢出。

处理 Excel 文件：与 PhpSpreadsheet 结合

虽然 PHP 内置函数可以直接处理 CSV 文件，但对于 Excel 文件（.xls 或 .xlsx），我们需要借助第三方库，如 PhpSpreadsheet。PhpSpreadsheet 是一个强大的 PHP 库，可以读取、写入和操作各种 Excel 文件格式。

下面我们演示如何使用 PhpSpreadsheet 和 Generator 来处理大型 Excel 文件。

1. 安装 PhpSpreadsheet:

composer require phpoffice/phpspreadsheet

2. 代码示例:

<?php

require 'vendor/autoload.php';

use PhpOfficePhpSpreadsheetIOFactory;

function readExcel(string $filename): Generator
{
    $spreadsheet = IOFactory::load($filename);
    $worksheet = $spreadsheet->getActiveSheet();

    // Get the highest row and column numbers referenced in the worksheet
    $highestRow = $worksheet->getHighestRow(); // e.g. 10
    $highestColumn = $worksheet->getHighestColumn(); // e.g 'F'
    $highestColumnIndex = PhpOfficePhpSpreadsheetCellCoordinate::columnIndexFromString($highestColumn); // e.g. 6

    // Loop through each row of the worksheet in turn
    for ($row = 1; $row <= $highestRow; ++$row) {
        $rowData = [];
        //  Read a row of data into an array
        for ($col = 1; $col <= $highestColumnIndex; ++$col) {
            $cell = $worksheet->getCellByColumnAndRow($col, $row);
            $value = $cell->getValue();
            $rowData[] = $value;
        }
        yield $rowData;
    }
}

$filename = 'data.xlsx';

try {
    $rows = readExcel($filename);

    foreach ($rows as $row) {
        // Process each row here
        print_r($row);
    }
} catch (Exception $e) {
    echo "Error: " . $e->getMessage() . PHP_EOL;
}

?>

代码解释：

引入 PhpSpreadsheet:
- 使用 require 'vendor/autoload.php'; 引入 Composer 自动加载器。
- 使用 use PhpOfficePhpSpreadsheetIOFactory; 引入 IOFactory 类。
readExcel 函数：
- 接收 Excel 文件名作为参数。
- 使用 IOFactory::load 加载 Excel 文件。
- 获取活动工作表。
- 获取工作表的最高行号和最高列号。
- 使用循环遍历每一行数据。
- 使用 getCellByColumnAndRow 获取单元格的值。
- 将每一行数据存储到一个数组中。
- 使用 yield 关键字返回每一行数据。
主程序：
- 定义 Excel 文件名。
- 调用 readExcel 函数创建一个 Generator 对象。
- 遍历 Generator 对象，并处理每一行数据。
- 使用 try...catch 块捕获可能发生的异常。

关键点：

readExcel 函数使用了 PhpSpreadsheet 库来读取 Excel 文件，但仍然使用了 Generator 来逐行返回数据，避免了将整个 Excel 文件加载到内存中。
在主程序中，我们可以对每一行数据进行处理，例如筛选、转换、存储到数据库等。

更进一步：优化 Generator 的使用

虽然 Generator 可以显著降低内存消耗，但在处理非常大的文件时，仍然需要注意一些优化技巧。

1. 批量处理：

可以考虑每次 yield 返回一批数据，而不是单行数据。这可以减少 Generator 的暂停和恢复次数，提高处理速度。

function readCsvInBatches(string $filename, int $batchSize = 100): Generator
{
    $file = fopen($filename, 'r');

    if ($file === false) {
        throw new Exception("Unable to open file: $filename");
    }

    fgetcsv($file); // Skip header

    $batch = [];
    $count = 0;

    while (($row = fgetcsv($file)) !== false) {
        $batch[] = $row;
        $count++;

        if ($count >= $batchSize) {
            yield $batch;
            $batch = [];
            $count = 0;
        }
    }

    // Yield any remaining rows
    if (!empty($batch)) {
        yield $batch;
    }

    fclose($file);
}

// Usage:
foreach (readCsvInBatches('data.csv', 500) as $batch) {
    // Process $batch (an array of 500 rows)
    foreach ($batch as $row) {
        // ...
    }
}

2. 使用 SplFileObject:

SplFileObject 是 PHP 内置的文件处理类，它提供了更方便的文件操作方法，例如可以直接迭代文件中的每一行。

function readCsvWithSplFileObject(string $filename, string $delimiter = ',', string $enclosure = '"', string $escape = '\'): Generator
{
    $file = new SplFileObject($filename);
    $file->setFlags(SplFileObject::READ_CSV | SplFileObject::SKIP_EMPTY);
    $file->setCsvControl($delimiter, $enclosure, $escape);

    // Skip the header row
    $file->next();

    while (!$file->eof()) {
        yield $file->fgetcsv();
        $file->next();
    }
}

3. 限制内存使用：

可以使用 memory_get_usage() 函数监控内存使用情况，并在达到一定阈值时，主动释放一些资源，例如将处理后的数据写入到临时文件或数据库中。

Generator 的优势与局限

优势：

极低的内存消耗： 每次只处理一部分数据，避免了内存溢出。
代码简洁： 可以将复杂的数据处理流程分解成多个小步骤，提高代码的可读性和可维护性。
惰性求值： 只有在需要的时候才进行计算，提高了程序的效率。
链式操作： 可以将多个 Generator 连接起来，实现复杂的数据处理流程。

局限：

只能向前迭代： Generator 只能向前迭代，不能倒退或随机访问。
不能重置： 一旦 Generator 迭代完毕，就不能再次使用。
调试困难： Generator 的执行过程比较复杂，调试起来可能比较困难。

表格总结 Generator 使用场景

使用场景	是否适合使用 Generator	理由
处理大型 CSV/Excel 文件	是	显著降低内存消耗，避免内存溢出。
需要对数据进行筛选、转换、聚合等操作	是	可以将复杂的数据处理流程分解成多个小步骤，提高代码的可读性和可维护性。
需要将数据流式写入到文件或数据库中	是	可以避免将所有数据加载到内存中，提高程序的效率。
需要随机访问数据或多次迭代数据	否	Generator 只能向前迭代，不能倒退或随机访问，也不能重置。
数据量较小，可以一次性加载到内存中进行处理	否	使用 Generator 的优势不明显，反而会增加代码的复杂性。

选择合适的策略

在处理大数据 CSV/Excel 文件时，选择合适的策略至关重要。Generator 提供了一种非常有效的解决方案，可以显著降低内存消耗，提高程序的稳定性和效率。但是，也需要根据实际情况进行优化，例如批量处理、使用 SplFileObject、限制内存使用等。

希望今天的分享能够帮助大家更好地理解和使用 Generator，解决大数据 CSV/Excel 处理中的难题。

总结：Generator 如何解决大数据处理的内存问题

Generator 通过 yield 关键字将数据处理过程分解成小块，每次只加载和处理一部分数据，而不是一次性加载整个文件，从而显著降低了内存消耗。它允许 PHP 处理远大于可用内存的文件，同时保持代码的简洁性和可维护性。这种流式处理方式是解决大数据处理内存瓶颈的关键。