当MySQL的Buffer Pool遇到NUMA架构：内存页面分配（Page Allocation）与内存访问（Memory Access）的性能优化 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

MySQL Buffer Pool与NUMA架构：内存页面分配与访问的性能优化

各位，今天我们来探讨一个MySQL性能优化的重要方面：当MySQL的Buffer Pool运行在NUMA（Non-Uniform Memory Access）架构上时，如何进行内存页面分配和内存访问的优化。NUMA架构的引入，一方面带来了更高的整体系统内存带宽，另一方面也引入了新的性能挑战。理解并解决这些挑战，能显著提升MySQL在高并发和大数据量场景下的性能。

什么是NUMA架构？

在传统的SMP（Symmetric Multi-Processing）系统中，所有CPU核心共享同一块物理内存，访问延迟基本相同。NUMA则是一种分布式共享内存架构，它将物理内存划分为多个节点（Node），每个节点包含一部分CPU核心和本地内存。CPU核心访问本地内存的速度远快于访问其他节点的内存，这就是所谓的“非一致性”内存访问。

特征	SMP	NUMA
内存访问延迟	一致，所有CPU访问内存延迟相同	非一致，本地内存访问快于远程内存访问
内存共享方式	所有CPU共享同一块物理内存	物理内存划分为多个节点，每个节点有本地内存
适用场景	CPU核心数量较少的服务器	CPU核心数量较多的服务器，需要更大的内存带宽

NUMA对MySQL的影响

当MySQL的Buffer Pool运行在NUMA架构上时，如果不进行合理的配置和优化，可能会遇到以下问题：

远程内存访问延迟： 线程被分配到某个NUMA节点上执行，但Buffer Pool的内存页面可能被分配到另一个NUMA节点上，导致线程需要跨节点访问内存，增加了访问延迟。
内存分配不均衡： 所有Buffer Pool的内存页面可能被分配到同一个NUMA节点上，导致该节点上的内存压力过大，而其他节点上的内存资源闲置。
线程调度不合理： 线程在不同的NUMA节点之间频繁迁移，导致缓存失效，降低性能。

优化策略一：NUMA感知的Buffer Pool配置

MySQL 5.5及更高版本提供了NUMA感知的Buffer Pool配置选项，通过innodb_numa_interleave参数，可以控制Buffer Pool的内存页面分配策略。

innodb_numa_interleave = OFF (默认): 内存页面分配由操作系统决定，MySQL不干预。这可能会导致内存页面被分配到同一个NUMA节点上。
innodb_numa_interleave = ON: MySQL尝试将Buffer Pool的内存页面均匀地分配到各个NUMA节点上。

如何配置innodb_numa_interleave:

在MySQL的配置文件（例如 my.cnf 或 my.ini）中添加或修改以下行：

[mysqld]
innodb_numa_interleave = ON

重启MySQL服务使配置生效。

验证配置是否生效:

SHOW GLOBAL VARIABLES LIKE 'innodb_numa_interleave';

代码示例 (C++)：模拟NUMA感知的内存分配

以下代码示例演示了如何在C++中使用numa库进行NUMA感知的内存分配。需要安装libnuma-dev包。

#include <iostream>
#include <numa.h>
#include <vector>

int main() {
    // 获取NUMA节点数量
    int num_nodes = numa_max_node() + 1;
    std::cout << "Number of NUMA nodes: " << num_nodes << std::endl;

    // 每个NUMA节点分配的内存大小（字节）
    size_t memory_per_node = 1024 * 1024; // 1MB

    // 用于存储分配的内存地址
    std::vector<void*> allocated_memory;

    // 遍历每个NUMA节点，分配内存
    for (int node = 0; node < num_nodes; ++node) {
        // 在指定的NUMA节点上分配内存
        void* mem = numa_alloc_onnode(memory_per_node, node);

        if (mem == NULL) {
            std::cerr << "Failed to allocate memory on NUMA node " << node << std::endl;
            return 1;
        }

        std::cout << "Allocated " << memory_per_node << " bytes on NUMA node " << node << " at address: " << mem << std::endl;
        allocated_memory.push_back(mem);
    }

    // 使用分配的内存 (这里只是简单的写入数据)
    for (void* mem : allocated_memory) {
        char* data = static_cast<char*>(mem);
        for (size_t i = 0; i < memory_per_node; ++i) {
            data[i] = 'A';
        }
    }

    std::cout << "Memory successfully allocated and used on each NUMA node." << std::endl;

    // 释放内存
    for (void* mem : allocated_memory) {
        numa_free(mem, memory_per_node);
    }

    std::cout << "Memory freed." << std::endl;

    return 0;
}

编译和运行:

g++ numa_example.cpp -o numa_example -lnuma
sudo ./numa_example

这个C++例子模拟了MySQL的innodb_numa_interleave = ON的行为，将内存页面尽可能均匀地分配到各个NUMA节点上。请注意，运行这个程序需要root权限，因为它涉及NUMA节点的直接管理。

优化策略二：线程亲和性（Thread Affinity）设置

线程亲和性是指将线程绑定到特定的CPU核心或NUMA节点上执行，从而减少线程在不同节点之间的迁移，提高缓存命中率。

如何设置线程亲和性:

可以使用taskset命令或者在MySQL的启动脚本中设置线程亲和性。

使用taskset命令:

taskset -c 0,1,2,3 mysqld_safe  --user=mysql &

这个命令将MySQL服务器绑定到CPU核心 0, 1, 2, 3 上。需要注意的是，具体的CPU核心编号需要根据服务器的实际情况进行调整。

在MySQL启动脚本中设置:

在MySQL的启动脚本（例如 /etc/init.d/mysql）中，添加以下代码：

NUMA_NODES="0,1"  # 指定要使用的NUMA节点
CPU_LIST=""
for node in ${NUMA_NODES//,/ } ; do
  CPU_LIST="$CPU_LIST,$((node * $(lscpu | grep "Core(s) per socket" | awk '{print $NF}') ))-$(( (node+1) * $(lscpu | grep "Core(s) per socket" | awk '{print $NF}') -1 ))"
done
CPU_LIST=${CPU_LIST#,}

taskset -c $CPU_LIST /usr/sbin/mysqld_safe --user=mysql &

这个脚本会根据指定的NUMA节点，自动计算出对应的CPU核心列表，并将MySQL服务器绑定到这些核心上。

代码示例 (C): 设置线程亲和性

以下C代码演示了如何使用pthread_setaffinity_np函数设置线程亲和性。

#define _GNU_SOURCE
#include <pthread.h>
#include <sched.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <errno.h>

#define handle_error_en(en, msg) 
       do { errno = en; perror(msg); exit(EXIT_FAILURE); } while (0)

int main(int argc, char *argv[])
{
   pthread_t thread;
   cpu_set_t cpuset;
   int s, j;

   if (argc < 2) {
       fprintf(stderr, "Usage: %s <cpu-list>n", argv[0]);
       exit(EXIT_FAILURE);
   }

   thread = pthread_self();

   CPU_ZERO(&cpuset);

   // 解析CPU列表，并添加到CPU集合中
   char *token = strtok(argv[1], ",");
   while (token != NULL) {
       int cpu = atoi(token);
       CPU_SET(cpu, &cpuset);
       token = strtok(NULL, ",");
   }

   // 设置线程亲和性
   s = pthread_setaffinity_np(thread, sizeof(cpu_set_t), &cpuset);
   if (s != 0)
       handle_error_en(s, "pthread_setaffinity_np");

   // 验证线程亲和性是否设置成功
   s = pthread_getaffinity_np(thread, sizeof(cpu_set_t), &cpuset);
   if (s != 0)
       handle_error_en(s, "pthread_getaffinity_np");

   printf("Set affinity to CPUs: ");
   for (j = 0; j < CPU_SETSIZE; j++)
       if (CPU_ISSET(j, &cpuset))
           printf("%d ", j);
   printf("n");

   // 模拟线程工作
   sleep(10);

   exit(EXIT_SUCCESS);
}

编译和运行:

gcc affinity_example.c -o affinity_example -pthread
./affinity_example 0,1,2

这个C例子演示了如何将当前线程绑定到CPU核心 0, 1, 2 上。需要注意的是，pthread_setaffinity_np是Linux特有的函数，在其他操作系统上可能不可用。

优化策略三：调整innodb_buffer_pool_instances

innodb_buffer_pool_instances参数用于将Buffer Pool划分为多个实例，每个实例可以独立地管理自己的内存页面。在NUMA架构下，增加Buffer Pool实例的数量，可以提高并发访问的性能，并减少不同实例之间的竞争。

如何配置innodb_buffer_pool_instances:

在MySQL的配置文件中添加或修改以下行：

[mysqld]
innodb_buffer_pool_instances = 8  # 建议设置为CPU核心数的倍数
innodb_buffer_pool_size = 16G # 确保buffer pool size 足够大

建议将innodb_buffer_pool_instances设置为CPU核心数的倍数，例如，如果服务器有16个CPU核心，可以将innodb_buffer_pool_instances设置为8或16。同时，需要确保innodb_buffer_pool_size足够大，以便每个Buffer Pool实例都有足够的内存可用。

注意事项:

增加innodb_buffer_pool_instances的数量，也会增加管理的开销，因此需要根据实际情况进行调整。

优化策略四：操作系统级别的NUMA配置

除了MySQL的配置选项外，操作系统级别的NUMA配置也会影响MySQL的性能。

BIOS设置： 确保BIOS中启用了NUMA功能。
numactl命令： 使用numactl命令可以手动控制进程在哪个NUMA节点上运行，以及内存页面分配策略。
内存管理策略： 调整操作系统的内存管理策略，例如使用interleave策略，可以使内存页面均匀地分布到各个NUMA节点上。

使用numactl命令:

numactl --cpunodebind=0 --membind=0 mysqld_safe --user=mysql &

这个命令将MySQL服务器绑定到NUMA节点0上，并将内存页面分配到NUMA节点0上。

性能监控与调优

在进行NUMA优化后，需要对MySQL的性能进行监控，并根据实际情况进行调优。

使用vmstat命令监控NUMA节点的内存使用情况。
使用perf工具分析MySQL的性能瓶颈。
监控MySQL的查询响应时间、吞吐量等指标。
根据监控结果，调整Buffer Pool配置、线程亲和性等参数。

监控指标示例:

指标	描述
`vmstat -m`	查看slab分配器的内存使用情况，可以帮助发现内存碎片问题。
`perf top`	实时显示CPU使用率最高的函数，可以帮助定位性能瓶颈。
`SHOW GLOBAL STATUS`	查看MySQL的全局状态变量，例如 `QPS` (Queries Per Second)、`Threads_connected`、`Innodb_buffer_pool_reads`、`Innodb_buffer_pool_read_requests` 等，可以帮助评估性能。
MySQL慢查询日志	记录执行时间超过阈值的SQL语句，可以帮助发现需要优化的查询。

真实场景案例分析

假设一个在线电商网站，数据库服务器采用NUMA架构，拥有两个NUMA节点，每个节点有8个CPU核心。在未进行NUMA优化之前，数据库服务器的CPU利用率较高，但查询响应时间较慢，尤其是在高峰时段。

优化步骤:

启用innodb_numa_interleave = ON: 将Buffer Pool的内存页面均匀地分配到各个NUMA节点上。
设置innodb_buffer_pool_instances = 16: 将Buffer Pool划分为16个实例，提高并发访问的性能。
使用taskset命令将MySQL服务器绑定到所有CPU核心上。

优化效果:

经过NUMA优化后，数据库服务器的CPU利用率降低，查询响应时间缩短，网站的整体性能得到显著提升。

其他需要考虑的因素

MySQL版本： 不同版本的MySQL对NUMA的支持程度不同，建议使用较新的MySQL版本。
操作系统： Linux内核版本也会影响NUMA的性能，建议使用较新的Linux内核版本。
硬件配置： NUMA架构的服务器需要合理的硬件配置，例如CPU核心数量、内存容量、网络带宽等。

结语：深入理解NUMA，提升数据库性能

NUMA架构下的MySQL性能优化是一个复杂而重要的课题。通过理解NUMA的原理，并结合实际场景进行合理的配置和优化，可以显著提升MySQL在高并发和大数据量场景下的性能。希望今天的分享能够帮助大家更好地理解和应用NUMA优化技术，打造更高效、更稳定的MySQL数据库系统。

思考点：选择合适的优化策略

需要根据实际的硬件配置、MySQL版本和业务场景，选择合适的NUMA优化策略。没有一成不变的解决方案，需要不断地测试和调整，才能达到最佳的性能。

实践出真知：动手实践，深入理解

建议大家在自己的测试环境中搭建NUMA架构的MySQL服务器，并尝试不同的优化策略，通过实际操作来深入理解NUMA优化技术的原理和效果。