Python中的CPU亲和性（CPU Affinity）设置：优化多进程/线程的缓存局部性

大家好，今天我们来深入探讨一个在高性能计算中至关重要的概念：CPU亲和性（CPU Affinity）。特别是在Python的多进程/线程编程环境下，正确地设置CPU亲和性可以显著提升程序的性能，尤其是在处理大量数据和需要频繁访问内存的场景下。我们将从CPU亲和性的基础概念入手，逐步分析其对缓存局部性的影响，并结合Python代码示例，详细讲解如何在多进程/线程环境中设置和利用CPU亲和性进行优化。

一、CPU亲和性：基础概念与原理

CPU亲和性，简单来说，就是将一个进程或线程绑定到一个或多个特定的CPU核心上执行。默认情况下，操作系统会负责调度进程/线程在所有可用的CPU核心上运行，以达到负载均衡的目的。然而，这种动态调度可能会导致进程/线程频繁地在不同的CPU核心之间迁移，从而破坏了缓存局部性，降低了程序的整体性能。

1.1 缓存局部性（Cache Locality）

缓存局部性是现代计算机体系结构中一个重要的概念，它指的是程序在访问内存时，往往会集中访问某些特定的内存区域。主要分为两种：

时间局部性（Temporal Locality）：如果一个数据被访问，那么在不久的将来它很可能再次被访问。
空间局部性（Spatial Locality）：如果一个数据被访问，那么它附近的数据也很可能在不久的将来被访问。

CPU缓存（Cache）就是利用缓存局部性原理来加速数据访问的。当CPU需要访问内存中的数据时，它首先会检查缓存中是否存在该数据。如果存在（称为Cache Hit），则直接从缓存中读取数据，速度非常快。如果不存在（称为Cache Miss），则需要从主内存中读取数据，并将该数据以及其附近的数据加载到缓存中，以便后续访问。

1.2 CPU亲和性与缓存局部性的关系

如果一个进程/线程频繁地在不同的CPU核心之间迁移，那么每次迁移都可能导致缓存失效（Cache Invalidation）。因为每个CPU核心都有自己的缓存，当进程/线程迁移到新的核心时，它需要重新加载数据到新的缓存中。这会导致大量的Cache Miss，从而降低程序的性能。

通过设置CPU亲和性，我们可以将一个进程/线程绑定到特定的CPU核心上，从而避免了频繁的迁移，保证了缓存中的数据能够被有效地利用，提高了缓存命中率，最终提升程序的性能。

二、Python中设置CPU亲和性的方法

Python本身并没有提供直接设置CPU亲和性的API。我们需要借助第三方库来实现。常用的库包括：

psutil: 跨平台的进程和系统资源监控库，可以用来获取和设置进程的CPU亲和性。
sched: Python标准库中的模块，但它的CPU亲和性相关的功能通常在Unix-like系统上可用，且功能相对简单。

我们重点介绍使用psutil库来设置CPU亲和性。

2.1 安装psutil

pip install psutil

2.2 使用psutil设置进程的CPU亲和性

以下代码示例演示了如何使用psutil设置当前进程和子进程的CPU亲和性。

import os
import psutil
import multiprocessing as mp
import time

def worker_function(cpu_id):
    """
    一个简单的工作函数，绑定到指定的CPU核心。
    """
    process = psutil.Process(os.getpid())
    process.cpu_affinity([cpu_id]) # 设置CPU亲和性
    print(f"Worker process (PID: {os.getpid()}) running on CPU {cpu_id}")
    time.sleep(5) # 模拟工作负载
    print(f"Worker process (PID: {os.getpid()}) finished on CPU {cpu_id}")

if __name__ == "__main__":
    # 获取当前进程
    parent_process = psutil.Process(os.getpid())

    # 获取CPU核心数量
    cpu_count = mp.cpu_count()
    print(f"Number of CPUs: {cpu_count}")

    # 设置父进程的CPU亲和性 (可选，取决于你的需求)
    # parent_process.cpu_affinity([0]) # 将父进程绑定到CPU 0

    # 创建多个子进程，并将它们分别绑定到不同的CPU核心
    processes = []
    for i in range(cpu_count):
        process = mp.Process(target=worker_function, args=(i,))
        processes.append(process)
        process.start()

    # 等待所有子进程完成
    for process in processes:
        process.join()

    print("All worker processes finished.")

代码解释:

import os, psutil, multiprocessing as mp, time: 导入必要的模块。os用于获取进程ID，psutil用于设置CPU亲和性，multiprocessing用于创建子进程，time用于模拟工作负载。
worker_function(cpu_id): 定义一个工作函数，它接受一个cpu_id参数，并将当前进程绑定到该CPU核心。process.cpu_affinity([cpu_id])是设置CPU亲和性的关键代码。
if __name__ == "__main__":: 主程序的入口。
parent_process = psutil.Process(os.getpid()): 获取当前（父）进程的psutil.Process对象。
cpu_count = mp.cpu_count(): 获取CPU核心的数量。
parent_process.cpu_affinity([0]): （可选）将父进程绑定到CPU 0。这取决于你的具体需求。如果父进程需要进行大量的计算，也可以考虑将其绑定到特定的CPU核心，以避免与其他子进程争用资源。
for i in range(cpu_count):: 循环创建多个子进程，并将它们分别绑定到不同的CPU核心。
process = mp.Process(target=worker_function, args=(i,)): 创建一个子进程，并将worker_function作为其目标函数，并将i（CPU ID）作为参数传递给该函数。
processes.append(process): 将子进程添加到进程列表中。
process.start(): 启动子进程。
for process in processes: process.join(): 等待所有子进程完成。

运行结果:

你将会看到类似以下的输出，表明每个子进程都成功地绑定到了指定的CPU核心上：

Number of CPUs: 8
Worker process (PID: 12345) running on CPU 0
Worker process (PID: 12346) running on CPU 1
Worker process (PID: 12347) running on CPU 2
Worker process (PID: 12348) running on CPU 3
Worker process (PID: 12349) running on CPU 4
Worker process (PID: 12350) running on CPU 5
Worker process (PID: 12351) running on CPU 6
Worker process (PID: 12352) running on CPU 7
Worker process (PID: 12345) finished on CPU 0
Worker process (PID: 12346) finished on CPU 1
Worker process (PID: 12347) finished on CPU 2
Worker process (PID: 12348) finished on CPU 3
Worker process (PID: 12349) finished on CPU 4
Worker process (PID: 12350) finished on CPU 5
Worker process (PID: 12351) finished on CPU 6
Worker process (PID: 12352) finished on CPU 7
All worker processes finished.

2.3 设置线程的CPU亲和性

虽然psutil主要用于进程级别的CPU亲和性设置，但我们仍然可以通过一些间接的方法来影响线程的CPU亲和性。一种常见的方法是为每个线程创建一个单独的进程，然后将每个进程绑定到不同的CPU核心。这实际上是将多线程问题转化为多进程问题来解决。

另一种方法是使用sched模块（在支持的系统上）与threading模块结合，手动控制线程的执行。

示例 (使用 sched 模块, 可能需要根据你的系统进行调整):

import threading
import os
import sched
import time

def set_affinity_and_run(cpu_id, function, *args):
    """
    设置线程的CPU亲和性并运行函数。
    """
    try:
        os.sched_setaffinity(0, {cpu_id})  # 设置当前线程的CPU亲和性
        print(f"Thread (Name: {threading.current_thread().name}) running on CPU {cpu_id}")
        function(*args)
        print(f"Thread (Name: {threading.current_thread().name}) finished on CPU {cpu_id}")

    except AttributeError:
        print("sched_setaffinity not available on this system. Thread will run without affinity.")
        function(*args)

def worker_function(data):
    """
    一个简单的工作函数。
    """
    print(f"Thread processing data: {data}")
    time.sleep(2)

if __name__ == "__main__":
    cpu_count = os.cpu_count()
    threads = []

    for i in range(cpu_count):
        thread = threading.Thread(target=set_affinity_and_run, args=(i, worker_function, f"Data {i}"), name=f"Thread-{i}")
        threads.append(thread)
        thread.start()

    for thread in threads:
        thread.join()

    print("All threads finished.")

注意: os.sched_setaffinity 函数可能只在某些Unix-like系统上可用。如果你的系统不支持，你需要寻找其他特定于平台的解决方案，或者使用多进程的方法来模拟线程的CPU亲和性。

三、CPU亲和性的适用场景与注意事项

3.1 适用场景

计算密集型应用： 对于需要进行大量计算的应用，例如科学计算、图像处理、机器学习等，设置CPU亲和性可以显著提高程序的性能。
内存密集型应用： 对于需要频繁访问内存的应用，例如数据库、缓存系统等，设置CPU亲和性可以提高缓存命中率，减少内存访问延迟。
实时系统： 对于需要保证响应时间的实时系统，设置CPU亲和性可以避免进程/线程被其他任务抢占，从而保证系统的实时性。
NUMA架构: 在NUMA（Non-Uniform Memory Access）架构的系统中，CPU亲和性可以用来将进程/线程绑定到离其所需数据最近的内存节点上，从而减少内存访问延迟。

3.2 注意事项

过度绑定： 不要将过多的进程/线程绑定到同一个CPU核心上，这会导致资源竞争，降低程序的性能。
负载均衡： 在设置CPU亲和性时，要考虑到负载均衡的问题。尽量将计算密集型的任务分配到不同的CPU核心上，以避免某些核心过载，而其他核心空闲。
系统干扰： 设置CPU亲和性可能会对系统的整体性能产生影响。例如，如果将所有的进程/线程都绑定到特定的CPU核心上，可能会导致其他核心空闲，从而降低系统的吞吐量。
平台兼容性： 不同的操作系统和硬件平台对CPU亲和性的支持程度可能不同。在编写跨平台程序时，需要考虑到平台兼容性的问题。
性能测试： 在设置CPU亲和性后，一定要进行性能测试，以验证其是否真的提高了程序的性能。可以使用基准测试工具来测量程序的运行时间、吞吐量等指标。
动态调整： 在某些情况下，CPU亲和性可能需要动态调整。例如，当系统的负载发生变化时，可能需要重新分配进程/线程到不同的CPU核心上。

四、使用CPU亲和性进行性能优化的案例

4.1 并行计算中的CPU亲和性

假设我们有一个需要进行大量计算的任务，例如计算一个大型矩阵的乘积。我们可以使用多进程来并行计算，并将每个进程绑定到不同的CPU核心上。

import os
import psutil
import multiprocessing as mp
import numpy as np
import time

def matrix_multiply(matrix1, matrix2, cpu_id):
    """
    计算矩阵乘积，并绑定到指定的CPU核心。
    """
    process = psutil.Process(os.getpid())
    process.cpu_affinity([cpu_id])
    print(f"Process (PID: {os.getpid()}) multiplying matrices on CPU {cpu_id}")
    result = np.dot(matrix1, matrix2)
    print(f"Process (PID: {os.getpid()}) finished multiplying matrices on CPU {cpu_id}")
    return result

if __name__ == "__main__":
    # 定义矩阵的大小
    matrix_size = 1000

    # 创建随机矩阵
    matrix1 = np.random.rand(matrix_size, matrix_size)
    matrix2 = np.random.rand(matrix_size, matrix_size)

    # 获取CPU核心数量
    cpu_count = mp.cpu_count()

    # 将矩阵分割成多个部分，每个进程处理一部分
    matrix1_split = np.array_split(matrix1, cpu_count, axis=0)

    # 创建多个子进程，并将它们分别绑定到不同的CPU核心
    processes = []
    results = []
    start_time = time.time()

    for i in range(cpu_count):
        process = mp.Process(target=matrix_multiply, args=(matrix1_split[i], matrix2, i))
        processes.append(process)
        process.start()

    # 等待所有子进程完成，并收集结果
    for process in processes:
        process.join()

    end_time = time.time()
    print(f"Total time taken: {end_time - start_time:.2f} seconds")

在这个例子中，我们将大型矩阵分割成多个部分，每个进程处理一部分，并将每个进程绑定到不同的CPU核心上。这样可以充分利用多核CPU的并行计算能力，提高计算效率。

4.2 多线程Web服务器中的CPU亲和性

在多线程Web服务器中，每个线程负责处理一个客户端请求。通过将每个线程绑定到不同的CPU核心上，可以避免线程之间的资源竞争，提高服务器的并发处理能力。 (如同前文所述，针对线程，通常采用多进程方式模拟其亲和性)

五、总结：合理利用CPU亲和性，提升程序性能

CPU亲和性是一种重要的性能优化技术，特别是在多进程/线程编程环境下。通过合理地设置CPU亲和性，我们可以提高缓存命中率，减少内存访问延迟，充分利用多核CPU的并行计算能力，最终提升程序的性能。在实际应用中，需要根据具体的场景和需求，进行性能测试和调优，以找到最佳的CPU亲和性设置方案。同时，也要考虑到负载均衡、系统干扰和平台兼容性等因素，以避免引入新的问题。

更多IT精英技术系列讲座，到智猿学院

Python中的CPU亲和性（CPU Affinity）设置：优化多进程/线程的缓存局部性

发表回复 取消回复

发表回复取消回复