Python `multiprocessing` 共享内存与进程同步：高性能通信

好的，各位观众，欢迎来到“Python 多进程共享内存与进程同步：高性能通信”专场！我是今天的讲师，一个在 Python 多进程的坑里摸爬滚打多年的老司机。今天，咱们就来聊聊如何在 Python 的多进程世界里，让进程们像好哥们一样共享内存，互通有无，并且和谐相处，避免打架。

开场白：多进程的诱惑与挑战

话说，单核 CPU 时代，咱们写代码那叫一个轻松愉快，一个进程搞定一切。但是，随着 CPU 核心数的增加，不用多进程，简直就是对硬件资源的犯罪！Python 的 multiprocessing 模块，就像一把钥匙，打开了多进程编程的大门。

但是，多进程就像一群熊孩子，如果不加以管教，就会乱成一团。每个进程都有自己的独立内存空间，就像一个独立的房间，彼此之间默认是老死不相往来的。这对于一些需要共享数据、协同工作的场景来说，简直就是噩梦。

所以，今天咱们要解决的核心问题就是：

如何让多个进程共享内存，实现高效的数据交换？
如何保证多个进程在访问共享内存时，不会发生冲突，导致数据混乱？

第一幕：共享内存的正确打开方式

Python 的 multiprocessing 模块为我们提供了几种共享内存的方式，最常用的就是 Value 和 Array。

Value：共享单个值

顾名思义，Value 就是用来共享单个值的。它可以是整数、浮点数、布尔值等基本数据类型。
```
from multiprocessing import Process, Value

def worker(shared_value):
    for i in range(100):
        shared_value.value += 1

if __name__ == '__main__':
    # 创建一个共享的整数，初始值为 0
    shared_value = Value('i', 0)  # 'i' 表示整数类型

    processes = []
    for _ in range(5):
        p = Process(target=worker, args=(shared_value,))
        processes.append(p)
        p.start()

    for p in processes:
        p.join()

    print(f"最终共享值: {shared_value.value}") # 期望输出：500
```
这段代码创建了一个共享的整数 shared_value，然后启动了 5 个进程，每个进程都会将 shared_value 的值增加 100。最终，shared_value 的值应该变成 500。

注意： Value 的第一个参数是类型代码，常用的有：

类型代码 Python 类型 C 类型

‘i’ int signed int

‘f’ float float

‘d’ float double

‘b’ bool signed char

‘c’ str char

‘s’ str char[]

类型代码	Python 类型	C 类型
‘i’	int	signed int
‘f’	float	float
‘d’	float	double
‘b’	bool	signed char
‘c’	str	char
‘s’	str	char[]

Array：共享数组

Array 允许我们创建共享的数组，可以存储多个相同类型的值。

from multiprocessing import Process, Array

def worker(shared_array):
    for i in range(len(shared_array)):
        shared_array[i] += 1

if __name__ == '__main__':
    # 创建一个共享的整数数组，长度为 5，初始值都为 0
    shared_array = Array('i', [0, 0, 0, 0, 0])

    processes = []
    for _ in range(5):
        p = Process(target=worker, args=(shared_array,))
        processes.append(p)
        p.start()

    for p in processes:
        p.join()

    print(f"最终共享数组: {list(shared_array)}") # 期望输出：[5, 5, 5, 5, 5]

这段代码创建了一个共享的整数数组 shared_array，长度为 5，初始值都为 0。然后启动了 5 个进程，每个进程都会将数组中的每个元素都增加 1。最终，数组中的每个元素都应该变成 5。

重要提示： Array 的第一个参数也是类型代码，和 Value 类似。

shared_memory (Python 3.8+)：更灵活的共享内存

Python 3.8 引入了 shared_memory 模块，提供了更灵活的共享内存管理方式。它可以创建任意大小的共享内存块，并且可以映射到多个进程的地址空间。

from multiprocessing import Process
from shared_memory import SharedMemory

def worker(name, size):
    # 连接到已存在的共享内存块
    existing_shm = SharedMemory(name=name)
    # 将共享内存块映射到本地数组
    data = bytearray(existing_shm.buf[:size])
    for i in range(size):
        data[i] += 1
    # 将修改后的数据写回共享内存
    existing_shm.buf[:size] = data
    existing_shm.close()  # 释放本地资源

if __name__ == '__main__':
    size = 10
    # 创建一个共享内存块
    shm = SharedMemory(create=True, size=size)
    # 初始化共享内存
    buffer = shm.buf
    for i in range(size):
        buffer[i] = 0

    processes = []
    for _ in range(5):
        p = Process(target=worker, args=(shm.name, size))
        processes.append(p)
        p.start()

    for p in processes:
        p.join()

    print(f"最终共享内存: {list(shm.buf)}")  # 期望输出：[5, 5, 5, 5, 5, 5, 5, 5, 5, 5]

    shm.close()
    shm.unlink() #删除共享内存块

这段代码创建了一个大小为 10 字节的共享内存块，然后启动了 5 个进程，每个进程都会将内存块中的每个字节都增加 1。最终，内存块中的每个字节都应该变成 5。

shared_memory 更加灵活，可以共享任意类型的数据，包括自定义的类对象。

注意： 使用 shared_memory 时，需要手动创建和销毁共享内存块，并且需要通过名称来连接到已存在的共享内存块。

第二幕：进程同步的艺术

共享内存解决了数据共享的问题，但是也引入了新的问题：多个进程同时访问共享内存，可能会导致数据竞争，出现不可预测的结果。为了避免这种情况，我们需要使用进程同步机制。

Lock：互斥锁

Lock 是最基本的进程同步机制，它可以保证在同一时刻，只有一个进程可以访问共享资源。

from multiprocessing import Process, Value, Lock

def worker(shared_value, lock):
    for i in range(100):
        with lock:  # 获取锁
            shared_value.value += 1  # 访问共享资源
        # 释放锁 (with 语句会自动释放锁)

if __name__ == '__main__':
    # 创建一个共享的整数，初始值为 0
    shared_value = Value('i', 0)
    # 创建一个锁
    lock = Lock()

    processes = []
    for _ in range(5):
        p = Process(target=worker, args=(shared_value, lock))
        processes.append(p)
        p.start()

    for p in processes:
        p.join()

    print(f"最终共享值: {shared_value.value}") # 期望输出：500

这段代码在访问 shared_value 之前，先获取锁 lock，访问完毕之后，再释放锁。这样就可以保证在同一时刻，只有一个进程可以修改 shared_value 的值，避免数据竞争。

with lock: 语句会自动获取和释放锁，更加简洁安全。

RLock：可重入锁

RLock (Reentrant Lock) 允许同一个进程多次获取同一个锁。这在一些复杂的场景下非常有用，比如递归函数。

from multiprocessing import Process, RLock

def recursive_function(lock, depth):
    with lock:
        if depth > 0:
            print(f"Depth: {depth}")
            recursive_function(lock, depth - 1)

if __name__ == '__main__':
    lock = RLock()
    p = Process(target=recursive_function, args=(lock, 3))
    p.start()
    p.join()

注意： 使用 RLock 时，获取锁的次数必须和释放锁的次数相等，否则会导致死锁。

Semaphore：信号量

Semaphore 允许指定数量的进程同时访问共享资源。它可以用来控制并发访问的数量。

from multiprocessing import Process, Semaphore

def worker(semaphore):
    with semaphore:
        print("Worker acquired semaphore")
        # 模拟一些耗时操作
        import time
        time.sleep(2)
        print("Worker released semaphore")

if __name__ == '__main__':
    # 创建一个信号量，允许 2 个进程同时访问
    semaphore = Semaphore(2)

    processes = []
    for _ in range(5):
        p = Process(target=worker, args=(semaphore,))
        processes.append(p)
        p.start()

    for p in processes:
        p.join()

这段代码创建了一个信号量 semaphore，允许 2 个进程同时访问。启动了 5 个进程，但是只有 2 个进程可以同时执行 with semaphore: 里面的代码。

Semaphore 可以用来限制并发访问的数量，防止资源耗尽。

Event：事件

Event 可以用来通知其他进程发生了某个事件。一个进程可以设置一个 Event，然后其他进程可以等待这个 Event 被设置。
```
from multiprocessing import Process, Event

def worker(event):
    print("Worker waiting for event")
    event.wait()  # 等待事件被设置
    print("Worker received event")

if __name__ == '__main__':
    # 创建一个事件
    event = Event()

    p = Process(target=worker, args=(event,))
    p.start()

    import time
    time.sleep(2)
    print("Setting event")
    event.set()  # 设置事件

    p.join()
```
这段代码创建了一个事件 event，然后启动了一个进程，该进程会等待 event 被设置。主进程在等待 2 秒后，设置了 event，然后子进程就会收到通知，继续执行。

Event 可以用来实现进程间的同步，例如，等待某个条件满足后再继续执行。

Condition：条件变量

Condition 是一种更高级的同步机制，它结合了锁和事件的功能。一个进程可以等待某个条件满足，然后其他进程可以通知它条件已经满足。

from multiprocessing import Process, Condition, Value
import time

def consumer(condition, shared_value):
    with condition:
        print("Consumer: Waiting for data...")
        condition.wait()  # 等待条件满足
        print(f"Consumer: Received data: {shared_value.value}")

def producer(condition, shared_value):
    with condition:
        print("Producer: Producing data...")
        time.sleep(2)  # 模拟生产数据
        shared_value.value = 100
        print("Producer: Notifying consumer...")
        condition.notify()  # 通知一个等待的进程

if __name__ == '__main__':
    # 创建一个条件变量
    condition = Condition()
    # 创建一个共享值
    shared_value = Value('i', 0)

    consumer_process = Process(target=consumer, args=(condition, shared_value))
    producer_process = Process(target=producer, args=(condition, shared_value))

    consumer_process.start()
    producer_process.start()

    consumer_process.join()
    producer_process.join()

这段代码模拟了一个生产者-消费者模型。消费者进程等待生产者进程生产数据，然后生产者进程生产数据后，通知消费者进程。

Condition 可以用来实现复杂的进程间同步，例如，生产者-消费者模型。

第三幕：共享数据结构的进阶玩法

除了 Value 和 Array 之外，我们还可以使用一些更高级的数据结构来共享数据。

multiprocessing.Queue：进程安全的队列

Queue 是一个进程安全的队列，可以用来在进程之间传递数据。

from multiprocessing import Process, Queue

def worker(queue):
    while True:
        item = queue.get()
        if item is None:  # None 表示队列结束
            break
        print(f"Worker received: {item}")

if __name__ == '__main__':
    # 创建一个队列
    queue = Queue()

    p = Process(target=worker, args=(queue,))
    p.start()

    for i in range(10):
        queue.put(i)

    queue.put(None)  # 放入 None，表示队列结束
    p.join()

这段代码创建了一个队列 queue，然后启动了一个进程，该进程会从队列中读取数据，直到遇到 None。主进程将 0 到 9 放入队列，然后放入 None，表示队列结束。

Queue 可以用来实现进程间的数据传递，例如，任务队列。

multiprocessing.Pool：进程池

Pool 可以用来管理一组进程，并且可以方便地将任务分配给这些进程执行。
```
from multiprocessing import Pool
import time

def square(x):
    time.sleep(1) # 模拟耗时操作
    return x * x

if __name__ == '__main__':
    # 创建一个进程池，包含 4 个进程
    with Pool(4) as pool:
        # 将 square 函数应用到列表中的每个元素
        results = pool.map(square, [1, 2, 3, 4, 5])
        print(f"结果: {results}") # 期望输出：[1, 4, 9, 16, 25]
```
这段代码创建了一个包含 4 个进程的进程池，然后使用 pool.map 函数将 square 函数应用到列表中的每个元素。pool.map 函数会自动将任务分配给进程池中的进程执行，并且会等待所有任务执行完毕，然后返回结果。

Pool 可以用来并行执行任务，提高程序的性能。

第四幕：常见问题与解决方案

死锁

死锁是指两个或多个进程相互等待对方释放资源，导致所有进程都无法继续执行的情况。

避免死锁的常见方法：
- 避免循环等待： 按照固定的顺序获取锁。
- 设置超时时间： 获取锁时设置超时时间，如果超时则放弃获取。
- 使用 RLock： 在需要多次获取锁的场景下，使用 RLock。
数据竞争

数据竞争是指多个进程同时访问和修改共享数据，导致数据不一致的情况。

避免数据竞争的常见方法：
- 使用锁： 在访问共享数据之前，获取锁，访问完毕之后，释放锁。
- 使用原子操作： 对于一些简单的操作，可以使用原子操作来保证数据的一致性。
内存泄漏

在使用 shared_memory 时，如果忘记释放共享内存块，可能会导致内存泄漏。

避免内存泄漏的方法：
- 手动释放共享内存块： 在不再使用共享内存块时，手动调用 shm.close() 和 shm.unlink() 释放资源。
- 使用上下文管理器： 使用 with 语句来自动释放共享内存块。

总结陈词：多进程编程的黄金法则

Python 多进程编程是一把双刃剑。用好了，可以大幅提升程序的性能；用不好，就会掉进各种坑里。

记住以下几点，可以帮助你更好地进行 Python 多进程编程：

明确需求： 确定是否真的需要多进程，以及需要共享哪些数据。
选择合适的共享内存方式： Value、Array、shared_memory，根据实际情况选择。
使用合适的进程同步机制： Lock、RLock、Semaphore、Event、Condition，保证数据的一致性。
注意死锁和数据竞争： 避免循环等待，使用原子操作。
及时释放资源： 特别是使用 shared_memory 时，要手动释放共享内存块。

好了，今天的讲座就到这里。希望大家能够掌握 Python 多进程共享内存与进程同步的技巧，写出高性能、高可靠性的 Python 程序！谢谢大家！

发表回复 取消回复

发表回复取消回复