NumPy与BLAS/LAPACK库的集成：OpenBLAS、MKL的链接与多线程并行计算 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

NumPy 与 BLAS/LAPACK 库的集成：OpenBLAS、MKL 的链接与多线程并行计算

大家好，今天我们来聊聊 NumPy 与 BLAS/LAPACK 库的集成，以及如何利用 OpenBLAS 和 MKL 实现多线程并行计算，提升 NumPy 的运算效率。

NumPy 作为 Python 中进行科学计算的核心库，其底层大量的线性代数运算依赖于 BLAS (Basic Linear Algebra Subprograms) 和 LAPACK (Linear Algebra Package) 库。这两个库提供了高效的数值计算例程，而 NumPy 通过特定的接口与它们进行链接，从而实现高性能的矩阵运算。

1. BLAS 和 LAPACK 简介

BLAS 是一组针对向量和矩阵运算的基础线性代数子程序规范。它定义了操作的接口，例如向量加法、点积、矩阵乘法等。 LAPACK 则建立在 BLAS 的基础上，提供了解线性方程组、特征值问题、奇异值分解等更高级的线性代数算法。

BLAS 和 LAPACK 并非单一的库，而是规范。有许多实现了这些规范的库，常见的包括：

OpenBLAS: 一个开源的 BLAS 库，旨在提供高性能的线性代数运算。
MKL (Intel Math Kernel Library): Intel 公司开发的商业数学库，针对 Intel 处理器进行了优化，提供高性能的 BLAS、LAPACK 以及其他数学函数。
ATLAS (Automatically Tuned Linear Algebra Software): 一个自动优化的 BLAS 库，可以根据不同的硬件平台进行调整。
cuBLAS: NVIDIA 提供的基于 CUDA 的 BLAS 库，用于在 GPU 上进行线性代数运算。

2. NumPy 与 BLAS/LAPACK 的链接

NumPy 在编译时会链接到一个 BLAS 和 LAPACK 库。默认情况下，如果没有指定，NumPy 可能会链接到系统自带的 BLAS/LAPACK 库，或者一个最小化的实现。为了获得最佳性能，我们通常希望 NumPy 链接到 OpenBLAS 或 MKL 等高性能的库。

2.1 查看 NumPy 当前链接的 BLAS/LAPACK 库

可以使用 numpy.show_config() 函数查看 NumPy 当前链接的 BLAS 和 LAPACK 库的信息。

import numpy as np

np.show_config()

该函数会输出 NumPy 的配置信息，包括编译器、链接器以及 BLAS 和 LAPACK 库的路径等。例如，输出可能包含如下信息：

blas_mkl_info:
    libraries = ['mkl_rt', 'pthread']
    library_dirs = ['/opt/intel/mkl/lib/intel64']
    define_macros = [('SCIPY_MKL_H', None), ('HAVE_CBLAS', None)]
    include_dirs = ['/opt/intel/mkl/include']
lapack_mkl_info:
    libraries = ['mkl_rt', 'pthread']
    library_dirs = ['/opt/intel/mkl/lib/intel64']
    define_macros = [('SCIPY_MKL_H', None), ('HAVE_CBLAS', None)]
    include_dirs = ['/opt/intel/mkl/include']

如果显示 blas_mkl_info 和 lapack_mkl_info，则表示 NumPy 链接到了 MKL 库。如果显示 blas_opt_info 和 lapack_opt_info，则表示 NumPy 链接到了其他优化的 BLAS/LAPACK 库 (如 OpenBLAS)。如果显示 blas_info 和 lapack_info，则表示 NumPy 链接到了系统提供的默认 BLAS/LAPACK 实现。

2.2 使用 pip 安装 NumPy 并指定 BLAS/LAPACK 库

在安装 NumPy 时，可以通过设置环境变量来指定要链接的 BLAS/LAPACK 库。例如，要使用 OpenBLAS，可以执行以下步骤：

安装 OpenBLAS: 可以使用包管理器 (如 apt-get, yum, brew) 安装 OpenBLAS。例如，在 Ubuntu 上可以执行 sudo apt-get install libopenblas-dev。
设置环境变量: 在安装 NumPy 之前，设置 BLAS 和 LAPACK 环境变量。
```
export BLAS=/path/to/openblas/libopenblas.so
export LAPACK=/path/to/openblas/libopenblas.so
```
其中 /path/to/openblas/libopenblas.so 需要替换为 OpenBLAS 库的实际路径。可以使用 find / -name libopenblas.so 命令来查找 OpenBLAS 库的路径。
安装 NumPy: 使用 pip 安装 NumPy。
```
pip install numpy
```

类似地，要使用 MKL，需要先安装 Intel MKL，然后设置环境变量：

export MKL_DIR=/path/to/mkl
export BLAS=$MKL_DIR/lib/intel64/libmkl_rt.so
export LAPACK=$MKL_DIR/lib/intel64/libmkl_rt.so
pip install numpy

2.3 使用 conda 安装 NumPy 并指定 BLAS/LAPACK 库

Conda 提供了一种更便捷的方式来安装 NumPy 并指定 BLAS/LAPACK 库。例如，要安装 NumPy 并使用 OpenBLAS，可以使用以下命令：

conda install numpy openblas

Conda 会自动处理 NumPy 与 OpenBLAS 的链接。

类似地，要安装 NumPy 并使用 MKL，可以使用以下命令：

conda install numpy mkl

Conda 会自动处理 NumPy 与 MKL 的链接。

2.4 验证链接是否成功

安装完成后，再次使用 numpy.show_config() 函数查看 NumPy 的配置信息，确认 BLAS 和 LAPACK 库已经链接到指定的库。

3. 多线程并行计算

BLAS 和 LAPACK 库通常支持多线程并行计算，可以利用多核 CPU 来加速运算。 NumPy 会自动利用链接的 BLAS/LAPACK 库的多线程功能。

3.1 控制线程数量

可以通过设置环境变量来控制 BLAS/LAPACK 库使用的线程数量。

OpenBLAS: 使用 OPENBLAS_NUM_THREADS 环境变量。
```
export OPENBLAS_NUM_THREADS=4
```
MKL: 使用 MKL_NUM_THREADS 环境变量。
```
export MKL_NUM_THREADS=4
```

也可以在 Python 代码中使用 os.environ 设置环境变量：

import os
os.environ["OPENBLAS_NUM_THREADS"] = "4" # 或者 "MKL_NUM_THREADS"

3.2 NumPy 中的多线程控制

NumPy 本身也提供了一些与多线程相关的函数。例如，numpy.fft 模块中的 FFT 函数可以使用多线程加速计算。但是，NumPy 本身的多线程控制通常不如 BLAS/LAPACK 库提供的多线程功能高效。

3.3 示例：矩阵乘法性能测试

下面的代码示例演示了如何使用 NumPy 进行矩阵乘法，并测试不同线程数量下的性能。

import numpy as np
import time
import os

def matrix_multiplication(n, num_threads):
    os.environ["OPENBLAS_NUM_THREADS"] = str(num_threads) # or "MKL_NUM_THREADS"
    A = np.random.rand(n, n)
    B = np.random.rand(n, n)
    start_time = time.time()
    C = np.dot(A, B)
    end_time = time.time()
    return end_time - start_time

if __name__ == "__main__":
    matrix_size = 2000
    num_threads_list = [1, 2, 4, 8, 16] # 根据 CPU 核心数调整

    results = {}
    for num_threads in num_threads_list:
        execution_time = matrix_multiplication(matrix_size, num_threads)
        results[num_threads] = execution_time
        print(f"Threads: {num_threads}, Time: {execution_time:.4f} seconds")

    print("nResults:")
    for num_threads, time in results.items():
        print(f"Threads: {num_threads}, Time: {time:.4f} seconds")

运行这段代码，可以看到随着线程数量的增加，矩阵乘法的执行时间通常会减少。但需要注意的是，线程数量并非越多越好。当线程数量超过 CPU 核心数时，性能提升可能不明显，甚至可能下降，因为线程切换会带来额外的开销。实际的最佳线程数量需要根据具体的硬件平台和问题规模进行测试。

3.4 使用 threadpoolctl 精细控制线程

threadpoolctl 库提供了一种更精细的方式来控制 NumPy 使用的线程池。它可以控制 NumPy、SciPy 和 scikit-learn 等库使用的线程数量，避免线程冲突。

from threadpoolctl import threadpool_limits
import numpy as np
import time

def matrix_multiplication(n):
    A = np.random.rand(n, n)
    B = np.random.rand(n, n)
    start_time = time.time()
    C = np.dot(A, B)
    end_time = time.time()
    return end_time - start_time

if __name__ == "__main__":
    matrix_size = 2000
    num_threads = 4  # 设置线程数量

    with threadpool_limits(limits=num_threads):
        execution_time = matrix_multiplication(matrix_size)
        print(f"Threads: {num_threads}, Time: {execution_time:.4f} seconds")

threadpool_limits 上下文管理器可以限制在 with 语句块中运行的代码使用的线程数量。这在需要控制多个库的线程使用情况时非常有用。

4. 不同 BLAS/LAPACK 库的性能比较

不同的 BLAS/LAPACK 库在不同的硬件平台上可能具有不同的性能表现。一般来说，MKL 针对 Intel 处理器进行了优化，在 Intel 平台上通常具有最佳性能。 OpenBLAS 是一个开源的替代方案，在许多平台上也具有良好的性能。 ATLAS 可以自动根据硬件平台进行优化，但可能需要较长的编译时间。

下面的表格总结了不同 BLAS/LAPACK 库的一些特点：

库	优点	缺点
MKL	针对 Intel 处理器优化，性能通常最佳，提供丰富的数学函数	商业软件，需要购买许可证，可能存在兼容性问题
OpenBLAS	开源免费，跨平台支持良好，性能优秀	在某些特定平台上可能不如 MKL
ATLAS	自动优化，可以根据硬件平台进行调整	编译时间较长，性能可能不如 MKL 或 OpenBLAS
cuBLAS	基于 CUDA，可以在 NVIDIA GPU 上进行高性能线性代数运算	需要 NVIDIA GPU 和 CUDA 环境
系统自带BLAS/LAPACK	默认安装，无需额外配置	性能通常较差

选择哪个 BLAS/LAPACK 库取决于具体的应用场景和硬件平台。通常建议在 Intel 平台上使用 MKL，在其他平台上可以使用 OpenBLAS。

5. 注意事项

环境变量冲突: 如果同时设置了多个 BLAS/LAPACK 相关的环境变量，可能会导致冲突。建议只设置必要的环境变量，并确保它们指向正确的库。
库版本兼容性: NumPy 需要与链接的 BLAS/LAPACK 库的版本兼容。如果版本不兼容，可能会导致运行时错误。
内存分配: 在使用多线程时，需要注意内存分配的问题。如果多个线程同时分配大量内存，可能会导致性能下降。
性能测试: 在选择 BLAS/LAPACK 库和调整线程数量时，建议进行性能测试，以找到最佳配置。
避免过度优化: 过度优化可能会导致代码难以维护和调试。在进行优化时，需要权衡性能和可维护性。

6. 总结 NumPy 线性代数加速的要点

NumPy 通过链接 BLAS 和 LAPACK 库来提供高性能的线性代数运算。选择合适的 BLAS/LAPACK 库，并合理设置线程数量，可以显著提升 NumPy 的运算效率。 threadpoolctl 库可以帮助我们更精细地控制线程池。

更多IT精英技术系列讲座，到智猿学院