Python的垃圾回收机制：详细分析引用计数、标记-清除和分代回收的协同工作原理。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Python 垃圾回收机制：引用计数、标记清除与分代回收详解

大家好，今天我们来深入探讨 Python 的垃圾回收机制。对于任何程序员来说，理解垃圾回收机制都是至关重要的，尤其是在处理大型项目或者对性能有较高要求的应用时。Python 的垃圾回收机制并非单一技术，而是多种技术的协同工作，包括引用计数、标记清除和分代回收。我们将逐一剖析这些机制，并阐述它们如何共同保证 Python 程序的内存管理。

1. 引用计数 (Reference Counting)

引用计数是 Python 最基础的垃圾回收方式。它的核心思想是：每个对象都维护一个引用计数器，记录有多少个变量指向这个对象。当引用计数变为 0 时，说明没有任何变量指向这个对象，该对象就成为了垃圾，可以被回收。

工作原理：

创建对象： 当创建一个新的对象时，该对象的引用计数初始化为 1。

引用增加： 当有新的变量指向该对象时，引用计数加 1。例如：

a = [1, 2, 3]  # 创建列表，引用计数为 1
b = a           # b 指向 a，引用计数增加到 2

引用减少： 当一个变量不再指向该对象时，引用计数减 1。例如：

del a           # 删除 a，引用计数减少到 1
b = None        # b 不再指向列表，引用计数减少到 0

垃圾回收： 当一个对象的引用计数变为 0 时，Python 解释器会立即回收该对象所占用的内存。

优点：

实时性： 垃圾可以立即被回收，不会造成内存长时间占用。
简单直接： 实现简单，易于理解。

缺点：

循环引用： 无法处理循环引用问题。例如：

class Node:
    def __init__(self):
        self.next = None

a = Node()
b = Node()

a.next = b
b.next = a  # 循环引用

del a
del b  # 引用计数无法归零，造成内存泄漏

在这个例子中，a 和 b 互相引用，即使删除了 a 和 b 变量，它们的引用计数仍然为 1，导致内存泄漏。

开销： 每次赋值操作都需要更新引用计数，增加了运行时的开销。

代码示例：

虽然我们无法直接观察到引用计数的变化，但可以使用 sys.getrefcount() 函数来查看对象的引用计数（需要注意的是，sys.getrefcount() 本身也会增加引用计数）。

import sys

a = [1, 2, 3]
print(f"Initial reference count of a: {sys.getrefcount(a)}")  # 输出：Initial reference count of a: 2 (或更大的值)

b = a
print(f"Reference count of a after b = a: {sys.getrefcount(a)}")  # 输出：Reference count of a after b = a: 3 (或更大的值)

del b
print(f"Reference count of a after del b: {sys.getrefcount(a)}")  # 输出：Reference count of a after del b: 2 (或更大的值)

del a
# 在删除 a 之后，引用计数可能会立即变为 0，也可能因为其他内部引用而保持大于 0。
# 无法直接验证引用计数是否为 0，因为对象可能已经被回收。

请注意，sys.getrefcount() 返回的值通常比我们预期的要大，因为 Python 解释器内部也会对对象进行引用。

2. 标记-清除 (Mark and Sweep)

为了解决引用计数无法处理循环引用的问题，Python 引入了标记-清除机制。标记-清除是一种延迟回收机制，它不会立即回收垃圾，而是在一定的时间间隔后进行扫描。

工作原理：

标记阶段： 从根对象（例如全局变量、活动栈帧等）出发，递归地标记所有可达对象。可达对象是指从根对象可以直接或间接访问到的对象。
清除阶段： 扫描堆内存，清除所有未被标记的对象。这些未被标记的对象就是垃圾对象，可以被回收。

图示说明：

[Root Objects] --> A --> B --> C (循环引用)
                  ^     |     |
                  |_____|_____|

标记阶段：
[Root Objects] --> A (标记) --> B (标记) --> C (标记)  所有对象都被标记

清除阶段：
扫描堆内存，没有未标记的对象，不清除任何对象

如果没有循环引用，那么A、B、C在标记阶段都不会被标记，在清除阶段会被清除。

解决循环引用：

标记-清除机制能够有效地处理循环引用。例如，对于前面循环引用的 Node 例子，在标记阶段，如果 a 和 b 没有被根对象引用，那么它们就不会被标记，最终会被清除。

缺点：

暂停时间： 标记-清除需要在整个应用程序暂停的情况下进行，这可能会导致明显的卡顿。
效率： 标记和清除过程需要遍历整个堆内存，效率较低。

代码示例：

Python 的 gc 模块提供了访问垃圾回收器的接口。我们可以使用 gc.collect() 函数手动触发垃圾回收。

import gc

class Node:
    def __init__(self):
        self.next = None

a = Node()
b = Node()

a.next = b
b.next = a

del a
del b

print(f"Number of unreachable objects before collection: {gc.collect()}") # 触发垃圾回收
print(f"Number of unreachable objects after collection: {gc.collect()}")

gc.collect() 函数返回的是被回收的对象的数量。第一次调用可能会回收一些内部对象，第二次调用回收我们创建的循环引用对象。

3. 分代回收 (Generational Garbage Collection)

为了进一步提高垃圾回收的效率，Python 引入了分代回收机制。分代回收基于一个假设：新创建的对象更有可能成为垃圾，而存活时间较长的对象则更有可能继续存活。

工作原理：

分代： 将堆内存划分为不同的代（generation），通常是 3 代：第 0 代（新生代）、第 1 代和第 2 代（老年代）。
频率： 新创建的对象都放在第 0 代。垃圾回收器会更频繁地扫描第 0 代，较少扫描第 1 代，最少扫描第 2 代。
晋升： 如果一个对象在第 0 代经历多次扫描后仍然存活，那么它会被晋升到第 1 代；如果在第 1 代经历多次扫描后仍然存活，那么它会被晋升到第 2 代。

参数：

gc 模块提供了三个参数来控制分代回收的行为：

gc.set_threshold(threshold0, threshold1, threshold2)：设置每一代的垃圾回收阈值。
- threshold0：第 0 代对象数量达到该值时，触发第 0 代的垃圾回收。
- threshold1：第 0 代垃圾回收次数达到该值时，触发第 1 代的垃圾回收。
- threshold2：第 1 代垃圾回收次数达到该值时，触发第 2 代的垃圾回收。

默认值通常是 (700, 10, 10)。这意味着：当第 0 代对象数量达到 700 时，触发第 0 代的垃圾回收；当第 0 代垃圾回收次数达到 10 时，触发第 1 代的垃圾回收；当第 1 代垃圾回收次数达到 10 时，触发第 2 代的垃圾回收。

优点：

效率： 通过只扫描部分对象，提高了垃圾回收的效率。
减少暂停时间： 由于新生代回收频率高，每次回收的对象数量较少，可以减少暂停时间。

代码示例：

import gc

# 获取当前的分代阈值
print(f"Current garbage collection thresholds: {gc.get_threshold()}")

# 设置新的分代阈值
gc.set_threshold(500, 5, 5)
print(f"New garbage collection thresholds: {gc.get_threshold()}")

# 创建大量对象，触发垃圾回收
for i in range(1000):
    obj = {}  # 创建字典对象

# 手动触发垃圾回收
collected = gc.collect()
print(f"Garbage collected: {collected}")

#查看当前各代的数量
print(f"Generations: {gc.get_generation()}") #查看当前是哪一代
print(f"Count in generation 0: {gc.get_count()}") #查看各代的数量

这个例子展示了如何获取和设置分代回收的阈值，以及如何手动触发垃圾回收。通过创建大量对象，我们模拟了第 0 代对象数量达到阈值的情况，从而触发了垃圾回收。gc.get_generation()返回的是当前正在被检查的代数, gc.get_count()返回的是各代的数量。

4. 协同工作机制

引用计数、标记-清除和分代回收并非独立工作，而是协同配合，共同完成 Python 的垃圾回收任务。

引用计数： 作为最基础的垃圾回收机制，负责实时回收不再使用的对象。
标记-清除： 用于处理引用计数无法解决的循环引用问题，定期扫描堆内存，清除垃圾对象。
分代回收： 在标记-清除的基础上，通过分代策略，提高垃圾回收的效率。

流程总结：

当创建一个对象时，引用计数器初始化为 1。
当对象的引用计数变为 0 时，立即释放该对象。
定期执行标记-清除，解决循环引用问题。
分代回收机制根据对象的存活时间，将其划分到不同的代，并根据代的优先级进行垃圾回收。

表格总结：

机制	优点	缺点	适用场景
引用计数	实时性，简单直接	无法处理循环引用，开销大	适用于小型对象，生命周期短，不需要处理循环引用的场景。
标记-清除	可以处理循环引用	暂停时间长，效率较低	适用于需要处理循环引用的场景，但对实时性要求不高。
分代回收	提高效率，减少暂停时间	实现复杂	适用于大型应用程序，对象生命周期差异较大，需要优化垃圾回收效率的场景。

5. 优化垃圾回收

了解 Python 的垃圾回收机制后，我们可以采取一些措施来优化程序的性能：

避免循环引用： 尽量避免创建循环引用，可以使用弱引用（weakref 模块）来打破循环引用。
手动触发垃圾回收： 在必要时，可以使用 gc.collect() 手动触发垃圾回收。但是，过度使用 gc.collect() 可能会降低性能，需要谨慎使用。
调整垃圾回收阈值： 可以根据应用程序的特点，调整分代回收的阈值。例如，如果应用程序创建大量临时对象，可以适当降低第 0 代的阈值。
使用 slots： 对于类，可以使用 __slots__ 来减少内存占用。__slots__ 可以防止 Python 为每个实例创建 __dict__ 属性，从而节省内存。
使用生成器： 对于大型数据集，可以使用生成器来避免一次性加载所有数据到内存中。
使用数据结构优化： 选择合适的数据结构可以减少内存占用和提高性能。例如，使用 array 代替 list 存储数值类型，使用 set 代替 list 进行成员检查。

6. 总结：Python 内存管理的关键

Python 的垃圾回收机制是一个复杂而精妙的系统，它通过引用计数、标记-清除和分代回收的协同工作，实现了自动的内存管理。理解这些机制的原理，能够帮助我们编写更高效、更健壮的 Python 程序，避免内存泄漏和性能问题。了解并应用优化技巧，提升程序运行效率。

Python 垃圾回收机制：引用计数、标记清除与分代回收详解

1. 引用计数 (Reference Counting)

2. 标记-清除 (Mark and Sweep)

3. 分代回收 (Generational Garbage Collection)

4. 协同工作机制

5. 优化垃圾回收

6. 总结：Python 内存管理的关键

发表回复 取消回复

发表回复取消回复