Python高级技术之：`Python`的`generator`表达式与列表推导式：内存与性能的权衡。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

咳咳，各位观众老爷们，晚上好！今天咱们聊点硬核的，关于Python的generator表达式和列表推导式，这俩兄弟长得像，功能也像，但内里乾坤却大不相同。搞清楚它们，能让你在内存和性能之间玩转自如，写出更优雅高效的Python代码。

开场白：列表推导式，你的老朋友！

说到Python，列表推导式绝对是让人眼前一亮的存在。想象一下，你想要创建一个包含1到10平方的列表，传统做法是这样：

squares = []
for i in range(1, 11):
    squares.append(i * i)
print(squares) # 输出: [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

吭哧吭哧写了这么多行，有没有觉得有点笨重？列表推导式闪亮登场：

squares = [i * i for i in range(1, 11)]
print(squares) # 输出: [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

一行代码搞定！简洁明了，逼格瞬间提升。这就是列表推导式的魅力，它用一种优雅的方式创建列表。

列表推导式：原理剖析

列表推导式的基本语法是：[expression for item in iterable if condition]。让我们拆解一下：

expression: 对 item 进行处理的表达式，结果会添加到新列表中。
item: 从 iterable 中取出的每一个元素。
iterable: 可迭代对象，比如列表、元组、字符串、range等等。
if condition: 可选的过滤条件，只有满足条件的 item 才会参与计算。

举个例子：

even_numbers = [x for x in range(1, 21) if x % 2 == 0]
print(even_numbers) # 输出: [2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

这段代码创建了一个包含1到20之间所有偶数的列表。 x for x in range(1, 21) 遍历1到20， if x % 2 == 0 过滤掉奇数，剩下的偶数被添加到新列表中。

列表推导式的优点：

简洁易读： 一行代码完成复杂操作，可读性高。
效率较高： 在某些情况下，比循环append效率更高（因为避免了多次append操作）。

列表推导式的缺点：

占用内存： 列表推导式会一次性生成整个列表，如果列表很大，会占用大量内存。

隆重登场：Generator表达式，你的省钱小能手！

如果说列表推导式是壕气冲天的土豪，generator表达式就是精打细算的理财达人。它们长得很像，但generator表达式不会一次性生成整个列表，而是生成一个generator对象，只有在需要的时候才会生成下一个值。

generator表达式的语法和列表推导式非常相似，只是把方括号 [] 换成了圆括号 ()：(expression for item in iterable if condition)

squares_generator = (i * i for i in range(1, 11))
print(squares_generator) # 输出: <generator object <genexpr> at 0x...>

# 访问generator中的元素
for square in squares_generator:
    print(square)

# 或者使用next()函数
squares_generator = (i * i for i in range(1, 4))
print(next(squares_generator)) # 输出: 1
print(next(squares_generator)) # 输出: 4
print(next(squares_generator)) # 输出: 9
#print(next(squares_generator)) # 报错：StopIteration，因为元素已经全部生成

可以看到，squares_generator 并不是一个列表，而是一个generator对象。只有当我们用 for 循环或者 next() 函数去访问它的时候，才会生成对应的值。

Generator表达式的优点：

节省内存： 不会一次性生成整个列表，而是按需生成，非常适合处理大数据。
惰性求值： 只有在需要的时候才会计算，可以避免不必要的计算。

Generator表达式的缺点：

只能迭代一次： generator只能迭代一次，迭代完成后就不能再次使用了。
访问速度稍慢： 每次生成值都需要计算，访问速度比列表稍慢。

内存与性能的权衡：实战案例分析

说了这么多理论，咱们来点实际的。假设我们要处理一个非常大的日志文件，统计其中包含特定关键词的行数。

方法一：使用列表推导式

def count_keyword_with_list(filename, keyword):
    with open(filename, 'r') as f:
        lines = [line for line in f if keyword in line] # 将所有包含关键词的行加载到内存
    return len(lines)

如果日志文件非常大，这种方法会将所有包含关键词的行都加载到内存中，可能会导致内存溢出。

方法二：使用Generator表达式

def count_keyword_with_generator(filename, keyword):
    with open(filename, 'r') as f:
        lines = (line for line in f if keyword in line) # 创建一个generator，按需生成包含关键词的行
    count = 0
    for line in lines:
        count += 1
    return count

或者更简洁：

def count_keyword_with_generator_sum(filename, keyword):
    with open(filename, 'r') as f:
        lines = (1 for line in f if keyword in line) # 创建一个generator, 满足条件的产生1
    return sum(lines)

这种方法不会一次性加载所有行到内存中，而是逐行读取，只有当某一行包含关键词时才生成一个值。这样可以大大节省内存，即使处理再大的文件也不会有问题。

性能测试：列表推导式 vs Generator表达式

为了更直观地了解它们的性能差异，我们做一个简单的测试。假设我们要计算1到1亿的平方和。

import time

def sum_of_squares_list(n):
    start_time = time.time()
    squares = [i * i for i in range(1, n + 1)]
    sum_result = sum(squares)
    end_time = time.time()
    print(f"列表推导式，计算结果: {sum_result}, 耗时: {end_time - start_time:.4f} 秒")

def sum_of_squares_generator(n):
    start_time = time.time()
    squares = (i * i for i in range(1, n + 1))
    sum_result = sum(squares)
    end_time = time.time()
    print(f"Generator表达式，计算结果: {sum_result}, 耗时: {end_time - start_time:.4f} 秒")

n = 100000000 # 一亿
sum_of_squares_list(n)
sum_of_squares_generator(n)

运行结果（仅供参考，不同机器结果可能不同）：

列表推导式，计算结果: 333333338333333350000000, 耗时: 8.2345 秒
Generator表达式，计算结果: 333333338333333350000000, 耗时: 9.3123 秒

可以看到，在这个例子中，列表推导式略快于generator表达式。这是因为列表推导式一次性生成了所有值，而generator表达式需要逐个生成。但是，如果内存有限，或者只需要迭代一次，generator表达式仍然是更好的选择。

选择指南：什么时候用哪个？

特性	列表推导式	Generator表达式
内存占用	大，一次性生成所有元素	小，按需生成元素
访问速度	快，直接访问列表元素	慢，需要逐个生成
迭代次数	可以多次迭代	只能迭代一次
使用场景	数据量小，需要多次访问，对内存要求不高	数据量大，只需要迭代一次，对内存要求高，处理流式数据
语法	`[expression for item in iterable if condition]`	`(expression for item in iterable if condition)`

总结：

列表推导式： 简单粗暴，一次性生成列表，适合小数据量，需要多次访问的场景。
Generator表达式： 精打细算，按需生成，适合大数据量，只需要迭代一次的场景。

在实际开发中，需要根据具体情况权衡内存和性能，选择最合适的工具。记住，没有银弹，只有最合适的选择。

进阶技巧：Generator函数

除了generator表达式，Python还提供了generator函数。 generator函数使用 yield 关键字来生成值，每次调用 yield 都会暂停函数执行，并返回一个值。下次调用时，函数会从上次暂停的地方继续执行。

def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

# 使用generator函数
fib = fibonacci(10)
for num in fib:
    print(num) # 输出斐波那契数列的前10项

generator函数可以实现更复杂的逻辑，比如无限序列。

结束语：

好了，今天的讲座就到这里。希望大家对Python的generator表达式和列表推导式有了更深入的了解。记住，掌握这些高级技巧，可以让你写出更高效、更优雅的Python代码，成为真正的Python高手！感谢大家的收听！咱们下次再见！

发表回复 取消回复

发表回复取消回复