`Python`的`并发`：`asyncio`、`threading`和`multiprocessing`的`比较`。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，我们开始。

Python 并发：asyncio、threading 和 multiprocessing 的比较

大家好，今天我们来深入探讨 Python 中实现并发的三种主要方式：asyncio、threading 和 multiprocessing。理解它们之间的差异，适用场景，以及优缺点，对于编写高性能、高效率的 Python 程序至关重要。

1. 并发 vs. 并行

在深入讨论具体实现之前，先明确并发（concurrency）和并行（parallelism）的区别。

并发：是指在一段时间内处理多个任务。任务可以在重叠的时间段内启动、运行和完成，但它们不必同时运行。并发通常通过时间片轮转或事件驱动来实现。
并行：是指在同一时刻处理多个任务。这需要多个处理核心或处理器来实现真正的同时执行。

Python 中的 threading 和 asyncio 通常实现并发，而 multiprocessing 可以实现并行。

2. threading：多线程

threading 模块允许我们在单个进程中创建多个线程。每个线程都执行一个单独的代码块。Python 的线程是操作系统级别的线程，由操作系统内核进行调度。

2.1 工作原理

threading 模块基于操作系统提供的线程 API。当我们创建一个新的线程时，操作系统会为该线程分配一定的资源，并将其加入到调度队列中。操作系统会根据一定的算法（如时间片轮转）来决定哪个线程可以运行。

2.2 代码示例

import threading
import time

def task(name):
    print(f"线程 {name}: 开始执行")
    time.sleep(2)  # 模拟耗时操作
    print(f"线程 {name}: 执行完毕")

if __name__ == "__main__":
    threads = []
    for i in range(3):
        t = threading.Thread(target=task, args=(i,))
        threads.append(t)
        t.start()

    for t in threads:
        t.join()  # 等待所有线程执行完毕

    print("所有线程执行完毕")

2.3 优点

易于使用：threading 模块的 API 相对简单，容易上手。
共享内存：所有线程共享同一个进程的内存空间，可以方便地进行数据共享。

2.4 缺点

GIL (Global Interpreter Lock)：Python 的解释器 CPython 中存在 GIL，它限制了在任何给定时刻只能有一个线程执行 Python 字节码。这意味着即使在多核 CPU 上，threading 也无法实现真正的并行，只能实现并发。
线程切换开销：线程之间的切换需要操作系统进行上下文切换，这会带来一定的开销。
竞争条件和死锁：由于线程共享内存，因此需要考虑竞争条件和死锁等问题，需要使用锁、信号量等同步机制来保护共享资源。

2.5 适用场景

IO 密集型任务：在 IO 密集型任务中，线程通常会花费大量时间等待 IO 操作完成。在这段时间内，线程可以释放 GIL，让其他线程执行。因此，threading 在 IO 密集型任务中仍然可以提高程序的效率。例如，网络请求、文件读写等。
与 C 扩展交互：某些 C 扩展可能会释放 GIL，允许其他线程并行执行。

2.6 示例：IO 密集型任务

import threading
import time
import requests

def download_image(url, filename):
    print(f"线程 {threading.current_thread().name}: 开始下载 {url}")
    response = requests.get(url, stream=True)
    with open(filename, "wb") as f:
        for chunk in response.iter_content(chunk_size=8192):
            f.write(chunk)
    print(f"线程 {threading.current_thread().name}: 下载完成 {filename}")

if __name__ == "__main__":
    image_urls = [
        "https://www.easygifanimator.net/images/samples/video-to-gif-sample.gif",
        "https://upload.wikimedia.org/wikipedia/commons/2/2c/Rotating_earth_%28large%29.gif",
        "https://i.imgur.com/LwiYg2p.gif"
    ]

    threads = []
    start_time = time.time()
    for i, url in enumerate(image_urls):
        t = threading.Thread(target=download_image, args=(url, f"image_{i}.gif"), name=f"Thread-{i}")
        threads.append(t)
        t.start()

    for t in threads:
        t.join()

    end_time = time.time()
    print(f"所有线程执行完毕，总耗时：{end_time - start_time:.2f} 秒")

3. multiprocessing：多进程

multiprocessing 模块允许我们创建多个进程。每个进程都有自己的内存空间和 Python 解释器。由于每个进程都是独立的，因此 multiprocessing 可以充分利用多核 CPU 的优势，实现真正的并行。

3.1 工作原理

multiprocessing 模块基于操作系统提供的进程 API。当我们创建一个新的进程时，操作系统会为该进程分配独立的内存空间和资源，并启动一个新的 Python 解释器。进程之间的通信需要使用 IPC (Inter-Process Communication) 机制，如管道、队列、共享内存等。

3.2 代码示例

import multiprocessing
import time

def task(name):
    print(f"进程 {name}: 开始执行")
    time.sleep(2)  # 模拟耗时操作
    print(f"进程 {name}: 执行完毕")

if __name__ == "__main__":
    processes = []
    for i in range(3):
        p = multiprocessing.Process(target=task, args=(i,))
        processes.append(p)
        p.start()

    for p in processes:
        p.join()  # 等待所有进程执行完毕

    print("所有进程执行完毕")

3.3 优点

并行执行：可以充分利用多核 CPU 的优势，实现真正的并行。
避免 GIL 限制：每个进程都有自己的 Python 解释器，因此不受 GIL 的限制。
隔离性：进程之间相互独立，一个进程的崩溃不会影响其他进程。

3.4 缺点

进程创建开销：创建进程的开销比创建线程的开销大。
内存占用：每个进程都有自己的内存空间，因此内存占用比多线程高。
进程间通信复杂：进程之间需要使用 IPC 机制进行通信，实现起来比线程间共享内存复杂。

3.5 适用场景

CPU 密集型任务：在 CPU 密集型任务中，程序需要进行大量的计算。由于 multiprocessing 可以实现真正的并行，因此可以显著提高程序的效率。例如，图像处理、科学计算等。
需要隔离性的任务：如果任务需要高度的隔离性，例如运行不信任的代码，可以使用 multiprocessing。

3.6 示例：CPU 密集型任务

import multiprocessing
import time

def calculate_sum(start, end):
    total = 0
    for i in range(start, end + 1):
        total += i
    return total

if __name__ == "__main__":
    num_processes = 4
    total_sum = 100000000
    chunk_size = total_sum // num_processes

    processes = []
    start_time = time.time()

    for i in range(num_processes):
        start = i * chunk_size + 1
        end = (i + 1) * chunk_size if i < num_processes - 1 else total_sum
        p = multiprocessing.Process(target=calculate_sum, args=(start, end))
        processes.append(p)
        p.start()

    for p in processes:
        p.join()

    end_time = time.time()
    print(f"所有进程执行完毕，总耗时：{end_time - start_time:.2f} 秒")

4. asyncio：异步 I/O

asyncio 是 Python 3.4 引入的异步 I/O 框架。它基于事件循环和协程（coroutines）来实现并发。asyncio 允许我们在单个线程中并发地执行多个 I/O 密集型任务，而无需创建多个线程或进程。

4.1 工作原理

asyncio 的核心是事件循环（event loop）。事件循环是一个单线程的循环，它不断地监听事件，并根据事件的类型来调用相应的协程。协程是一种特殊的函数，它可以暂停执行，并将控制权交还给事件循环。当 I/O 操作完成时，事件循环会唤醒相应的协程，让它继续执行。

4.2 代码示例

import asyncio
import time

async def task(name):
    print(f"协程 {name}: 开始执行")
    await asyncio.sleep(2)  # 模拟耗时操作
    print(f"协程 {name}: 执行完毕")

async def main():
    tasks = []
    for i in range(3):
        t = asyncio.create_task(task(i))
        tasks.append(t)

    await asyncio.gather(*tasks)  # 等待所有协程执行完毕

if __name__ == "__main__":
    asyncio.run(main())

4.3 优点

高并发：可以在单个线程中并发地执行大量的 I/O 密集型任务。
低开销：协程的切换开销比线程的切换开销小得多。
避免锁竞争：由于 asyncio 是单线程的，因此不需要使用锁来保护共享资源。

4.4 缺点

代码复杂：asyncio 的代码风格与传统的同步代码风格不同，需要学习新的 API 和概念。
不适用于 CPU 密集型任务：由于 asyncio 是单线程的，因此无法利用多核 CPU 的优势。
生态系统限制：许多第三方库可能不支持 asyncio，需要使用异步版本的库或进行适配。

4.5 适用场景

高并发 I/O 密集型任务：例如，网络服务器、爬虫、聊天应用等。

4.6 示例：高并发网络请求

import asyncio
import aiohttp
import time

async def fetch_url(session, url):
    print(f"协程 {asyncio.current_task().get_name()}: 开始请求 {url}")
    async with session.get(url) as response:
        return await response.text()

async def main():
    urls = [
        "https://www.example.com",
        "https://www.python.org",
        "https://www.google.com"
    ]

    async with aiohttp.ClientSession() as session:
        tasks = []
        for i, url in enumerate(urls):
            task = asyncio.create_task(fetch_url(session, url), name=f"Task-{i}")
            tasks.append(task)

        results = await asyncio.gather(*tasks)
        for i, result in enumerate(results):
            print(f"协程 Task-{i}: 获取到 {urls[i]} 的内容，长度为 {len(result)}")

if __name__ == "__main__":
    start_time = time.time()
    asyncio.run(main())
    end_time = time.time()
    print(f"所有协程执行完毕，总耗时：{end_time - start_time:.2f} 秒")

5. 总结比较

为了更清晰地了解这三种并发方式的差异，我们用表格来总结它们的特点：

特性	threading	multiprocessing	asyncio
并发模型	并发 (受 GIL 限制)	并行	并发
线程/进程	多线程	多进程	单线程 (基于事件循环)
内存空间	共享	独立	共享
GIL 限制	受 GIL 限制	不受 GIL 限制	不受 GIL 限制
切换开销	较高	较高	极低
编程复杂度	中等	中等	较高
适用场景	IO 密集型任务	CPU 密集型任务	高并发 IO 密集型任务
进程间通信	共享内存、锁、信号量等	管道、队列、共享内存等	通常不需要 (单线程)
资源占用	较低	较高	较低
是否利用多核 CPU	部分利用 (受 GIL 限制)	充分利用	无法直接利用

6. 如何选择？

选择哪种并发方式取决于具体的应用场景和需求。

IO 密集型，且对性能要求不高：threading 是一个不错的选择，因为它简单易用。
CPU 密集型：multiprocessing 是首选，因为它可以充分利用多核 CPU 的优势。
高并发 IO 密集型：asyncio 是最佳选择，它可以实现极高的并发性能。
需要隔离性：multiprocessing 提供了进程级别的隔离，更安全可靠。

此外，还可以将这三种方式结合起来使用。例如，可以使用 multiprocessing 来创建多个进程，每个进程中使用 asyncio 来处理高并发的 I/O 任务。

7. 额外考虑

调试难度：多线程和多进程程序的调试通常比单线程程序更困难，需要使用专门的调试工具和技巧。
错误处理：在多线程和多进程程序中，需要考虑如何处理线程或进程中的异常，避免程序崩溃。
资源管理：需要合理地管理线程和进程的资源，避免资源泄露。

8. 关于未来的趋势

随着硬件的不断发展和编程模型的不断演进，Python 的并发编程也在不断发展。

Numba 和 Cython：这些工具可以将 Python 代码编译成机器码，从而提高 CPU 密集型任务的性能，减少对 multiprocessing 的依赖。
更高级的异步框架：可能会出现更高级的异步框架，提供更简洁的 API 和更强大的功能。
Fiber 和 Actor 模型：这些并发模型在其他语言中已经得到了广泛的应用，未来可能会在 Python 中得到更多的关注。

9. 代码之外的考量

选择并发模型不仅要考虑技术因素，还要考虑团队的经验和项目的复杂度。如果团队对 asyncio 不熟悉，那么使用 threading 或 multiprocessing 可能更合适。如果项目非常复杂，那么可能需要使用更高级的并发模型，如 Actor 模型。

Python 提供了多种并发编程的方式，选择哪种方式取决于具体的应用场景和需求。理解它们之间的差异，可以帮助我们编写出更高效、更可靠的 Python 程序。

希望今天的讲解能够帮助大家更好地理解 Python 的并发编程。

10. 并发模型选择的总结

理解 asyncio、threading 和 multiprocessing 的差异至关重要。根据任务类型和性能需求选择合适的并发模型，才能编写出高效可靠的 Python 程序。并发编程是一个复杂的主题，需要不断学习和实践才能掌握。