Python 生成器（Generators）与迭代器（Iterators）：高效内存处理 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Python 生成器与迭代器：内存魔术师的优雅舞步 ?

各位观众，各位看官，欢迎来到“Python内存魔术秀”的现场！我是你们的魔术师（兼程序员）— 码农老王。今天要给大家揭秘的是Python中两位重量级选手：生成器（Generators）和迭代器（Iterators）。

别害怕，这俩家伙听起来像是魔法咒语，但实际上，它们是Python在内存管理上的两张王牌。它们优雅、高效，能让你的程序在资源有限的环境下翩翩起舞，而不是笨重地瘫倒在地。准备好了吗？让我们一起探索它们的奥秘吧！

迭代器：循环的优雅使者 ?‍♀️

在开始之前，让我们先认识一下迭代器。你可以把迭代器想象成一个优雅的信使，它负责遍历一个序列，一次只给你一个元素。它遵守着一个简单的约定：

__iter__(): 返回迭代器自身。这是个自我介绍的仪式，表明“我就是迭代器，请多多关照！”
__next__(): 返回序列中的下一个元素。如果序列已经遍历完毕，它会抛出一个 StopIteration 异常，礼貌地告诉你：“没货啦！”

举个例子，一个普通的列表就是一个可迭代对象（iterable），但它不是迭代器。你需要通过 iter() 函数把它变成迭代器：

my_list = [1, 2, 3, 4, 5]
my_iterator = iter(my_list)

print(next(my_iterator))  # 输出: 1
print(next(my_iterator))  # 输出: 2
print(next(my_iterator))  # 输出: 3
# ... 依次类推

#当迭代到列表的末尾时，调用next()会抛出StopIteration异常
#try:
#    print(next(my_iterator)) # 抛出 StopIteration
#except StopIteration:
#    print("迭代完毕!")

#你也可以使用for循环，Python 会自动处理 StopIteration 异常
for item in my_list:
    print(item) #输出 1 2 3 4 5

哇哦！是不是很简单？迭代器就像一个勤劳的快递员，每次只给你一个包裹，而不是把所有东西一股脑儿地塞给你。

为什么我们需要迭代器呢？

内存效率: 想象一下，你要处理一个巨大的文件，比如一个10GB的日志文件。如果一次性把所有数据加载到内存中，你的电脑可能会直接崩溃?。但如果使用迭代器，你可以逐行读取文件，每次只处理一行，大大节省了内存。
延迟计算: 迭代器可以按需生成数据。只有当你需要下一个元素时，它才会进行计算。这在处理无限序列或者计算成本很高的序列时非常有用。

自定义迭代器

当然，你也可以自己创建一个迭代器。这需要定义一个类，并实现 __iter__() 和 __next__() 方法。例如，我们可以创建一个生成斐波那契数列的迭代器：

class FibonacciIterator:
    def __init__(self, max_num):
        self.max_num = max_num
        self.a = 0
        self.b = 1

    def __iter__(self):
        return self  # 返回迭代器自身

    def __next__(self):
        if self.a > self.max_num:
            raise StopIteration  # 停止迭代

        value = self.a
        self.a, self.b = self.b, self.a + self.b
        return value

# 使用自定义迭代器
fib_iter = FibonacciIterator(10)
for num in fib_iter:
    print(num)  # 输出: 0 1 1 2 3 5 8

这个 FibonacciIterator 类就是一个自定义的迭代器。它就像一个魔术盒子，每次调用 next() 方法，它都会吐出一个新的斐波那契数。

生成器：迭代器的魔法变体 ✨

现在，让我们进入今天的主角：生成器！生成器是迭代器的一种特殊形式，它提供了一种更简洁、更优雅的方式来创建迭代器。你可以把生成器看作是迭代器的魔法变体，它拥有迭代器的所有优点，而且写起来更简单。

生成器有两种形式：

生成器函数: 使用 yield 关键字的函数。
生成器表达式: 类似于列表推导式，但使用圆括号 ()。

生成器函数

生成器函数就像一个暂停的机器。每次遇到 yield 关键字，它就会暂停执行，并返回一个值。下次调用 next() 方法时，它会从上次暂停的地方继续执行。

让我们用生成器函数重新实现斐波那契数列：

def fibonacci_generator(max_num):
    a = 0
    b = 1
    while a <= max_num:
        yield a  # 暂停并返回值
        a, b = b, a + b

# 使用生成器函数
fib_gen = fibonacci_generator(10)
for num in fib_gen:
    print(num)  # 输出: 0 1 1 2 3 5 8

看到 yield 的魔力了吗？生成器函数不需要显式地定义 __iter__() 和 __next__() 方法，Python 会自动帮你处理。

生成器表达式

生成器表达式是一种更简洁的方式来创建生成器。它的语法类似于列表推导式，但使用圆括号 () 代替方括号 []。

例如，我们可以使用生成器表达式创建一个生成平方数的生成器：

squares = (x * x for x in range(10))

for square in squares:
    print(square)  # 输出: 0 1 4 9 16 25 36 49 64 81

生成器表达式的优势在于简洁。它可以在一行代码中完成复杂的迭代逻辑。

生成器与迭代器的区别

特性	迭代器	生成器
实现方式	需要定义类，实现 `__iter__()` 和 `__next__()` 方法	可以使用生成器函数（`yield`）或生成器表达式
代码量	较多	较少
内存占用	相同	相同
灵活性	更灵活，可以实现更复杂的迭代逻辑	适合简单的迭代逻辑

总结一下，生成器是迭代器的语法糖。它们都具有内存效率和延迟计算的优点，但生成器写起来更简单、更优雅。

真实世界中的应用场景 ?

现在，让我们看看生成器和迭代器在真实世界中的应用场景：

处理大型文件: 就像前面提到的，你可以使用生成器逐行读取大型文件，而不会耗尽内存。
数据流处理: 在数据科学领域，你可以使用生成器处理数据流，例如从传感器读取数据，或者从网络抓取数据。
无限序列: 你可以使用生成器创建无限序列，例如生成随机数，或者生成素数。
协程: 生成器可以与 async/await 关键字一起使用，实现协程，从而实现并发编程。

案例：读取大型CSV文件

假设你有一个巨大的CSV文件，包含数百万行数据。如果一次性把所有数据加载到内存中，你的程序可能会崩溃。但如果使用生成器，你可以逐行读取CSV文件，并进行处理：

import csv

def read_csv_file(filename):
    with open(filename, 'r') as f:
        reader = csv.reader(f)
        next(reader) # 跳过标题行
        for row in reader:
            yield row

# 使用生成器读取CSV文件
for row in read_csv_file('large_file.csv'):
    # 对每一行数据进行处理
    print(row)

在这个例子中，read_csv_file 函数就是一个生成器函数。它逐行读取CSV文件，并使用 yield 关键字返回每一行数据。这样，你就可以高效地处理大型CSV文件，而不会耗尽内存。

案例：处理无限数据流

假设你需要从一个传感器读取数据，并进行实时分析。你可以使用生成器创建一个无限数据流：

import random
import time

def sensor_data_stream():
    while True:
        # 模拟从传感器读取数据
        data = random.randint(0, 100)
        yield data
        time.sleep(0.1) # 模拟传感器读取数据的间隔

# 使用生成器处理无限数据流
for data in sensor_data_stream():
    # 对每一条数据进行分析
    print(f"传感器数据: {data}")

在这个例子中，sensor_data_stream 函数就是一个生成器函数。它不断地生成随机数据，并使用 yield 关键字返回每一条数据。这样，你就可以实时地处理传感器数据，而不需要担心数据源何时结束。

进阶技巧：生成器的链式调用 ?

生成器可以像乐高积木一样，互相连接起来，形成一个处理数据的流水线。这种链式调用可以让你以一种非常优雅的方式处理复杂的数据转换。

例如，假设你需要从一个文件中读取数据，过滤掉空行，并将每一行转换为大写。你可以使用生成器链式调用来实现：

def read_file(filename):
    with open(filename, 'r') as f:
        for line in f:
            yield line.strip() #移除首尾空白符

def filter_empty_lines(lines):
    for line in lines:
        if line: #如果行不为空
            yield line

def to_uppercase(lines):
    for line in lines:
        yield line.upper()

# 使用生成器链式调用
data = read_file('data.txt')
data = filter_empty_lines(data)
data = to_uppercase(data)

for line in data:
    print(line)

在这个例子中，我们定义了三个生成器函数：read_file、filter_empty_lines 和 to_uppercase。我们将它们连接起来，形成一个处理数据的流水线。每个生成器函数只负责一个简单的任务，这样可以使代码更加清晰、易于维护。

总结：内存魔术师的谢幕 ?

恭喜各位，我们已经成功地探索了Python生成器和迭代器的奥秘！希望通过今天的学习，你能够掌握这两位内存魔术师的优雅舞步，并在你的程序中灵活运用它们。

记住，生成器和迭代器是Python在内存管理上的两张王牌。它们优雅、高效，能让你的程序在资源有限的环境下翩翩起舞。

下次当你需要处理大型数据、无限序列，或者实现复杂的迭代逻辑时，不妨试试生成器和迭代器。它们会给你带来意想不到的惊喜！

感谢大家的观看！我是码农老王，我们下次再见！ ?