Python高级技术之：`GIL`对`NumPy`等科学计算库的影响：如何利用`C`扩展绕过`GIL`。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位听众，晚上好！我是今晚的讲师，很高兴能和大家一起探讨Python中一个既让人爱又让人恨的话题：GIL（Global Interpreter Lock）以及它对NumPy等科学计算库的影响，以及如何通过C扩展来绕过这个“全局锁”。

先别急着喊"坑爹"，GIL的确是Python并发编程中的一个痛点，但理解它、掌握它，我们就能更好地利用Python的强大功能。

一、GIL是个啥玩意儿？为啥会有它？

想象一下，你家只有一个卫生间（单核CPU），一家人（多个线程）都想用，为了避免大家同时进去导致“资源争用”（数据混乱），你家制定了一个规则：谁拿到卫生间的钥匙（GIL），谁才能进去使用。用完之后，必须把钥匙交出来，让其他人有机会进去。

这就是GIL的大致工作原理。GIL是一个全局解释器锁，它保证在任何时刻，只有一个线程能够执行Python字节码。这意味着，即使你的机器有多个CPU核心，你的Python程序也只能利用一个核心来执行Python代码。

为什么Python要引入GIL呢？这要追溯到Python的早期设计。GIL最初是为了简化C扩展的编写，并解决Python内存管理中的线程安全问题。在没有GIL的情况下，多个线程同时修改Python对象，可能会导致数据损坏。

二、GIL对NumPy等科学计算库的影响

NumPy、SciPy、Pandas等科学计算库，在Python中扮演着至关重要的角色。但GIL的存在，限制了它们在多线程环境下的性能。

举个简单的例子，假设我们要对一个大型NumPy数组进行并行计算，使用多线程来加速。

import numpy as np
import threading
import time

def square(arr, result_arr, start_index, end_index):
    for i in range(start_index, end_index):
        result_arr[i] = arr[i] ** 2

def parallel_square(arr, num_threads):
    result_arr = np.zeros_like(arr)
    chunk_size = len(arr) // num_threads
    threads = []

    for i in range(num_threads):
        start_index = i * chunk_size
        end_index = (i + 1) * chunk_size if i < num_threads - 1 else len(arr)
        t = threading.Thread(target=square, args=(arr, result_arr, start_index, end_index))
        threads.append(t)
        t.start()

    for t in threads:
        t.join()

    return result_arr

if __name__ == '__main__':
    arr = np.arange(1000000)

    # 单线程计算
    start_time = time.time()
    result_single = arr ** 2
    end_time = time.time()
    single_time = end_time - start_time
    print(f"单线程计算时间：{single_time:.4f}秒")

    # 多线程计算
    num_threads = 4
    start_time = time.time()
    result_multi = parallel_square(arr, num_threads)
    end_time = time.time()
    multi_time = end_time - start_time
    print(f"多线程计算时间（{num_threads}线程）：{multi_time:.4f}秒")

    # 验证结果
    assert np.array_equal(result_single, result_multi)

在拥有多个CPU核心的机器上运行这段代码，你会发现，多线程的计算速度并没有显著提升，甚至可能比单线程还慢！这就是GIL在作祟。多个线程都在争夺GIL，导致CPU在线程切换上浪费了大量时间。

那么，是不是NumPy就完全无法利用多核CPU了呢？当然不是。

三、NumPy的“曲线救国”：释放GIL

NumPy的许多操作，例如向量化运算（加法、乘法等），都是在底层使用C语言实现的。这些C代码在执行时，可以主动释放GIL，让其他线程有机会执行Python代码。

这意味着，如果你的NumPy操作主要是在C代码中执行的，那么GIL的影响就会大大降低。这也是为什么NumPy在处理大型数组时，通常比纯Python代码更快的原因之一。

但是，对于一些涉及到大量Python代码的NumPy操作，GIL仍然会成为性能瓶颈。

四、C扩展：绕过GIL的终极武器

要彻底绕过GIL，我们需要使用C扩展。C扩展允许我们编写C代码，并在Python中调用它们。C代码可以完全独立于Python解释器运行，因此不受GIL的限制。

下面，我们通过一个简单的例子，演示如何使用C扩展来绕过GIL，实现多线程的并行计算。

1. 编写C代码（square.c）

#include <Python.h>
#include <stdio.h>
#include <pthread.h>

typedef struct {
    double *arr;
    double *result_arr;
    int start_index;
    int end_index;
} ThreadData;

void *square_thread(void *arg) {
    ThreadData *data = (ThreadData *)arg;
    for (int i = data->start_index; i < data->end_index; i++) {
        data->result_arr[i] = data->arr[i] * data->arr[i];
    }
    pthread_exit(NULL);
}

static PyObject *parallel_square(PyObject *self, PyObject *args) {
    PyObject *arr_obj, *result_arr_obj;
    int num_threads;

    if (!PyArg_ParseTuple(args, "OOi", &arr_obj, &result_arr_obj, &num_threads)) {
        return NULL;
    }

    Py_buffer arr_buf, result_arr_buf;
    if (PyObject_GetBuffer(arr_obj, &arr_buf, PyBUF_SIMPLE) != 0) {
        return NULL;
    }
    if (PyObject_GetBuffer(result_arr_obj, &result_arr_buf, PyBUF_SIMPLE) != 0) {
        PyBuffer_Release(&arr_buf);
        return NULL;
    }

    double *arr = (double *)arr_buf.buf;
    double *result_arr = (double *)result_arr_buf.buf;
    int arr_len = arr_buf.len / sizeof(double);

    pthread_t threads[num_threads];
    ThreadData thread_data[num_threads];
    int chunk_size = arr_len / num_threads;

    for (int i = 0; i < num_threads; i++) {
        thread_data[i].arr = arr;
        thread_data[i].result_arr = result_arr;
        thread_data[i].start_index = i * chunk_size;
        thread_data[i].end_index = (i + 1) * chunk_size;
        if (i == num_threads - 1) {
            thread_data[i].end_index = arr_len;
        }

        pthread_create(&threads[i], NULL, square_thread, (void *)&thread_data[i]);
    }

    for (int i = 0; i < num_threads; i++) {
        pthread_join(threads[i], NULL);
    }

    PyBuffer_Release(&arr_buf);
    PyBuffer_Release(&result_arr_buf);

    Py_RETURN_NONE;
}

static PyMethodDef SquareMethods[] = {
    {"parallel_square",  parallel_square, METH_VARARGS, "Parallel square using threads."},
    {NULL, NULL, 0, NULL}        /* Sentinel */
};

static struct PyModuleDef squaremodule = {
    PyModuleDef_HEAD_INIT,
    "square",   /* name of module */
    NULL,        /* module documentation, may be NULL */
    -1,          /* size of per-interpreter state of the module,
                 or -1 if the module keeps state in global variables. */
    SquareMethods
};

PyMODINIT_FUNC
PyInit_square(void)
{
    return PyModule_Create(&squaremodule);
}

这段C代码定义了一个名为parallel_square的函数，它接受两个NumPy数组和一个线程数作为参数。该函数使用POSIX线程（pthread）来并行计算数组的平方，并且在计算过程中不持有GIL。

2. 编写setup.py

from distutils.core import setup, Extension

module1 = Extension('square',
                    sources = ['square.c'])

setup (name = 'Square',
       version = '1.0',
       description = 'This is a demo package',
       ext_modules = [module1])

这个setup.py文件用于编译C扩展。

3. 编译C扩展

在命令行中运行以下命令：

python setup.py build_ext --inplace

这会在当前目录下生成一个名为square.so（或square.pyd，取决于你的操作系统）的文件，这就是编译好的C扩展。

4. 在Python中使用C扩展

import numpy as np
import square  # 导入编译好的C扩展
import time

def parallel_square_c(arr, num_threads):
    result_arr = np.zeros_like(arr)
    square.parallel_square(arr, result_arr, num_threads)
    return result_arr

if __name__ == '__main__':
    arr = np.arange(1000000, dtype=np.float64)  # 注意数据类型
    num_threads = 4

    # C扩展多线程计算
    start_time = time.time()
    result_c = parallel_square_c(arr, num_threads)
    end_time = time.time()
    c_time = end_time - start_time
    print(f"C扩展多线程计算时间（{num_threads}线程）：{c_time:.4f}秒")

    # 验证结果 (与之前的单线程结果比较)
    result_single = arr ** 2
    assert np.allclose(result_single, result_c)

运行这段代码，你会发现，使用C扩展的多线程计算速度明显快于纯Python的多线程计算。这是因为C代码在执行时，可以释放GIL，让多个线程真正地并行执行。

五、关于数据类型和内存管理

在使用C扩展时，需要特别注意数据类型和内存管理。

数据类型: 在C代码中，我们需要明确指定NumPy数组的数据类型，例如double、int等。确保Python和C代码使用相同的数据类型，否则会导致数据错误。在上面的例子中，将numpy数组类型定义为np.float64可以确保与C代码中的double类型匹配。
内存管理: C代码需要手动管理内存。我们需要确保在不再需要使用NumPy数组时，释放它们的内存。在上面的例子中，我们使用PyBuffer_Release来释放NumPy数组的缓冲区。

六、GIL的“替代方案”：多进程

除了C扩展，还有一种绕过GIL的常用方法：多进程。每个进程都有自己的Python解释器和内存空间，因此不受GIL的限制。

可以使用Python的multiprocessing模块来创建和管理多个进程。

import numpy as np
import multiprocessing
import time

def square(arr, result_arr, start_index, end_index):
    for i in range(start_index, end_index):
        result_arr[i] = arr[i] ** 2

def parallel_square_process(arr, num_processes):
    result_arr = np.zeros_like(arr)
    chunk_size = len(arr) // num_processes
    processes = []

    for i in range(num_processes):
        start_index = i * chunk_size
        end_index = (i + 1) * chunk_size if i < num_processes - 1 else len(arr)
        process = multiprocessing.Process(target=square, args=(arr, result_arr, start_index, end_index))
        processes.append(process)
        process.start()

    for process in processes:
        process.join()

    return result_arr

if __name__ == '__main__':
    arr = np.arange(1000000)

    # 多进程计算
    num_processes = 4
    start_time = time.time()
    result_process = parallel_square_process(arr, num_processes)
    end_time = time.time()
    process_time = end_time - start_time
    print(f"多进程计算时间（{num_processes}进程）：{process_time:.4f}秒")

    # 验证结果 (与之前的单线程结果比较)
    result_single = arr ** 2
    assert np.array_equal(result_single, result_process)

多进程的优点是可以充分利用多核CPU，但缺点是进程间的通信开销较大。需要根据具体的应用场景，选择合适的并发模型。

七、选择并发模型的“黄金法则”

并发模型	优点	缺点	适用场景
多线程	线程创建和切换开销小，共享内存方便，适用于I/O密集型任务。	受GIL限制，无法充分利用多核CPU；线程安全问题需要特别注意。	I/O密集型任务（例如网络请求、文件读写）；任务之间需要共享大量数据。
多进程	可以充分利用多核CPU，不受GIL限制。	进程创建和切换开销大；进程间通信开销大；内存占用多。	CPU密集型任务（例如科学计算、图像处理）；任务之间不需要共享大量数据。
C扩展	可以绕过GIL，充分利用多核CPU；可以访问底层硬件资源。	编写和调试C代码难度较大；需要手动管理内存；可移植性较差。	对性能要求极高的CPU密集型任务；需要访问底层硬件资源。
异步编程	可以利用单线程实现高并发，避免线程切换开销；代码结构清晰，易于维护。	异步编程模型较为复杂，需要学习新的编程范式；不适用于CPU密集型任务。	I/O密集型任务；需要处理大量并发连接（例如Web服务器）。

选择并发模型的“黄金法则”是：根据任务的特性，选择最合适的工具。

对于I/O密集型任务，可以使用多线程或异步编程。
对于CPU密集型任务，可以使用多进程或C扩展。
如果需要访问底层硬件资源，或者对性能要求极高，可以使用C扩展。

八、总结

GIL是Python并发编程中的一个重要概念。理解GIL，掌握绕过GIL的方法，可以帮助我们更好地利用Python的强大功能，提高程序的性能。

GIL是一个全局解释器锁，它保证在任何时刻，只有一个线程能够执行Python字节码。
GIL限制了NumPy等科学计算库在多线程环境下的性能。
NumPy的许多操作可以释放GIL，但对于一些涉及到大量Python代码的操作，GIL仍然会成为性能瓶颈。
C扩展可以完全绕过GIL，实现多线程的并行计算。
多进程也是一种绕过GIL的常用方法，但进程间的通信开销较大。
选择并发模型的“黄金法则”是：根据任务的特性，选择最合适的工具。

希望今天的讲座对大家有所帮助！感谢各位的聆听。下次有机会再见！

发表回复 取消回复

发表回复取消回复