生成器（Generators）与迭代器（Iterators）：惰性求值与自定义遍历 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷们，晚上好！欢迎来到今晚的“Python魔法秀”！我是你们的老朋友，人见人爱，花见花开，车见车爆胎的…（此处省略一万字自夸）…总之，我是你们最靠谱的Python导师！今天，我们要聊聊Python里两位“懒癌晚期”的超级英雄：生成器（Generators）和迭代器（Iterators）。

准备好了吗？让我们一起踏上这场关于惰性求值和自定义遍历的奇妙旅程吧！🚀

第一幕：迭代器，遍历的幕后英雄

首先，让我们认识一下迭代器（Iterators）。想象一下，你面前有一箱子的巧克力，你想一个一个地品尝。迭代器就像是一位专业的“巧克力分配师”，他知道如何从箱子里取出下一个巧克力，并且在你需要的时候才给你。

什么是迭代器？

简单来说，迭代器是一个对象，它实现了迭代器协议，这意味着它必须具有以下两个方法：

__iter__(): 返回迭代器对象本身。这就像告诉巧克力分配师：“开始吧，准备好分巧克力了！”
__next__(): 返回序列中的下一个元素。如果没有更多元素，则引发 StopIteration 异常。这就像你对巧克力分配师说：“给我下一块巧克力！”如果箱子里空了，分配师会告诉你：“没了，吃完了！”

迭代器的优点

节省内存： 迭代器不会一次性加载所有数据到内存中，而是按需生成，这对于处理大型数据集非常有用。想象一下，如果一箱巧克力有1000块，你一次性全拿出来，估计还没吃完就化了！
延迟计算： 迭代器只有在你请求数据时才进行计算，这被称为“惰性求值”。这就像巧克力分配师只有在你想要的时候才给你巧克力，而不是一开始就把所有巧克力都掰开。
可定制遍历： 迭代器允许你自定义遍历数据的方式。你可以按照任何你想要的顺序品尝巧克力，先吃黑巧克力，再吃牛奶巧克力，最后吃白巧克力，完全由你决定！

一个简单的迭代器例子

让我们创建一个简单的迭代器，它可以按顺序返回1到5的数字。

class MyIterator:
    def __init__(self, max_num):
        self.current = 1
        self.max_num = max_num

    def __iter__(self):
        return self

    def __next__(self):
        if self.current <= self.max_num:
            value = self.current
            self.current += 1
            return value
        else:
            raise StopIteration  # 告诉迭代器已经遍历结束

# 使用迭代器
my_iterator = MyIterator(5)
for num in my_iterator:
    print(num)  # 输出 1 2 3 4 5

表格总结：迭代器

特性	描述	优点	缺点
协议	实现 `__iter__()` 和 `__next__()` 方法	节省内存，延迟计算，可定制遍历	实现相对复杂，状态需要手动维护
工作方式	按需生成数据，直到 `StopIteration` 异常	适用于大型数据集和复杂计算	不支持随机访问（只能一个一个地取），遍历后需要重新创建迭代器才能再次遍历
应用场景	文件读取、数据库查询、大型数据集处理	可以处理无限序列，例如斐波那契数列	调试相对困难
典型例子	文件对象，`map`、`filter` 等函数返回的对象

第二幕：生成器，优雅的“懒人”迭代器

现在，让我们请出今天的另一位主角：生成器（Generators）。生成器可以看作是迭代器的“豪华升级版”。它继承了迭代器的所有优点，并且使用起来更加简单和优雅。

什么是生成器？

生成器是一种特殊的函数，它使用 yield 语句来产生一个序列的值。当你调用一个生成器函数时，它不会立即执行，而是返回一个生成器对象。每次你从生成器对象请求一个值时，生成器函数会从上次 yield 的地方继续执行，直到遇到下一个 yield 语句或函数结束。

生成器的优点

更简洁的代码： 生成器可以使用函数来定义迭代逻辑，代码更易读和维护。
自动状态管理： 生成器会自动保存函数的状态，包括局部变量和执行点，无需手动管理。
易于创建复杂的迭代器： 生成器可以轻松地创建复杂的迭代器，而无需编写大量的样板代码。

生成器的两种形式

生成器函数： 使用 yield 语句的函数。

def my_generator(max_num):
    n = 1
    while n <= max_num:
        yield n
        n += 1

# 使用生成器函数
for num in my_generator(5):
    print(num)  # 输出 1 2 3 4 5

生成器表达式： 类似于列表推导式，但使用圆括号 () 而不是方括号 []。

# 生成器表达式
my_generator = (x for x in range(1, 6))

# 使用生成器表达式
for num in my_generator:
    print(num)  # 输出 1 2 3 4 5

生成器的魔法：yield 语句

yield 语句是生成器的核心。它有以下作用：

产生一个值并返回给调用者。
暂停生成器函数的执行。
保存生成器函数的状态，以便下次调用时可以从上次 yield 的地方继续执行。

你可以把 yield 想象成一个“暂停按钮”。每次你按下“暂停按钮”，生成器函数就会暂停执行，并把当前的值返回给你。当你再次请求值时，生成器函数会从上次暂停的地方继续执行，直到遇到下一个“暂停按钮”或函数结束。

一个更复杂的生成器例子

让我们创建一个生成器，它可以生成斐波那契数列。

def fibonacci_generator(max_num):
    a, b = 0, 1
    while a <= max_num:
        yield a
        a, b = b, a + b

# 使用斐波那契数列生成器
for num in fibonacci_generator(10):
    print(num)  # 输出 0 1 1 2 3 5 8

这个例子展示了生成器的强大之处。你可以轻松地创建复杂的迭代器，而无需编写大量的代码。

表格总结：生成器

特性	描述	优点	缺点
协议	隐式实现迭代器协议（通过 `yield` 语句）	代码简洁易读，自动状态管理，易于创建复杂的迭代器	调试相对困难，不支持随机访问
工作方式	使用 `yield` 语句按需生成数据，函数暂停和恢复执行	适用于大型数据集和复杂计算，可以处理无限序列
应用场景	数据流处理、无限序列生成、复杂迭代逻辑实现
典型例子	斐波那契数列生成器、文件读取生成器、数据处理管道

第三幕：生成器与迭代器的爱恨情仇

现在，让我们来比较一下生成器和迭代器，看看它们之间的爱恨情仇。

关系： 生成器是一种特殊的迭代器。换句话说，所有生成器都是迭代器，但并非所有迭代器都是生成器。
实现： 迭代器需要显式地实现 __iter__() 和 __next__() 方法，而生成器可以通过函数或表达式隐式地实现迭代器协议。
代码简洁性： 生成器通常比迭代器更简洁，因为它们可以自动管理状态。
灵活性： 迭代器提供了更多的灵活性，因为你可以完全控制迭代逻辑。
适用场景： 如果你需要创建简单的迭代器，或者需要自动管理状态，那么生成器是更好的选择。如果你需要完全控制迭代逻辑，或者需要创建非常复杂的迭代器，那么迭代器可能更适合你。

用人话说： 迭代器就像手动挡汽车，你需要自己控制离合器、油门和档位。生成器就像自动挡汽车，你只需要踩油门和刹车，剩下的事情交给电脑处理。

举个栗子🌰:

假设我们要读取一个大文件，并逐行处理。

使用迭代器：

class FileIterator:
    def __init__(self, filename):
        self.file = open(filename, 'r')

    def __iter__(self):
        return self

    def __next__(self):
        line = self.file.readline()
        if not line:
            self.file.close()
            raise StopIteration
        return line

# 使用迭代器
file_iterator = FileIterator('large_file.txt')
for line in file_iterator:
    # 处理每一行
    print(line.strip())

使用生成器：

def file_generator(filename):
    with open(filename, 'r') as file:
        for line in file:
            yield line

# 使用生成器
for line in file_generator('large_file.txt'):
    # 处理每一行
    print(line.strip())

可以看到，使用生成器更加简洁和易读。

第四幕：惰性求值，性能优化的秘密武器

生成器和迭代器的核心思想是“惰性求值”。惰性求值意味着只有在你需要数据时才进行计算。这种方式可以带来很多好处，尤其是在处理大型数据集时。

惰性求值的优点

节省内存： 只有需要的数据才会被加载到内存中，避免了内存溢出的风险。
提高性能： 避免了不必要的计算，提高了程序的运行效率。
支持无限序列： 可以处理无限序列，例如斐波那契数列或素数序列。

一个生动的例子：

想象一下，你要计算1到1亿的平方和。

立即求值：

numbers = [x * x for x in range(1, 100000001)]  # 创建一个包含1亿个元素的列表
total = sum(numbers)  # 计算列表的和
print(total)

这种方式会立即创建一个包含1亿个元素的列表，这会消耗大量的内存。

惰性求值：

numbers = (x * x for x in range(1, 100000001))  # 创建一个生成器表达式
total = sum(numbers)  # 计算生成器表达式的和
print(total)

这种方式只会创建一个生成器表达式，它不会立即计算所有平方值。只有在 sum() 函数请求数据时，生成器才会按需计算平方值。这可以大大节省内存，并提高程序的运行效率。

第五幕：自定义遍历，掌控数据的节奏

生成器和迭代器可以让你自定义遍历数据的方式。你可以按照任何你想要的顺序访问数据，或者只访问你需要的数据。

自定义遍历的例子

假设你有一个包含学生信息的列表，每个学生信息是一个字典。

students = [
    {'name': 'Alice', 'age': 20, 'grade': 'A'},
    {'name': 'Bob', 'age': 22, 'grade': 'B'},
    {'name': 'Charlie', 'age': 19, 'grade': 'C'},
    {'name': 'David', 'age': 21, 'grade': 'A'}
]

你可以创建一个生成器，只返回成绩为 ‘A’ 的学生的名字。

def a_grade_students(students):
    for student in students:
        if student['grade'] == 'A':
            yield student['name']

# 使用生成器
for name in a_grade_students(students):
    print(name)  # 输出 Alice David

这种方式可以让你只访问你需要的数据，而无需遍历整个列表。

第六幕：总结与展望

今天，我们深入探讨了Python中的生成器和迭代器。它们是处理大型数据集、实现复杂迭代逻辑和优化程序性能的强大工具。

迭代器： 遍历数据的幕后英雄，实现了迭代器协议。
生成器： 优雅的“懒人”迭代器，使用 yield 语句生成序列。
惰性求值： 性能优化的秘密武器，按需计算数据。
自定义遍历： 掌控数据的节奏，只访问你需要的数据。

希望今天的讲解能够帮助你更好地理解和使用生成器和迭代器。记住，掌握这些技巧可以让你写出更高效、更优雅的Python代码！

最后，送给大家一句名言：

“懒惰是程序员的美德。” – 比尔·盖茨（据说）

当然，这里的懒惰不是指不干活，而是指用更聪明的方式解决问题，避免不必要的重复劳动！ 😉

感谢大家的观看！我们下次再见！ 👋

发表回复 取消回复

发表回复取消回复