探索Java的CPU亲和性（Affinity）：绑定线程到特定核以降低L3缓存失效 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Java CPU 亲和性：绑定线程到特定核心以降低L3缓存失效

大家好，今天我们来探讨一个比较底层但对高并发、高性能Java应用至关重要的主题：CPU亲和性。我们将深入了解什么是CPU亲和性，它如何影响Java应用的性能，以及如何在Java中实现线程与特定CPU核心的绑定，从而最大限度地减少L3缓存失效，最终提升程序的整体执行效率。

什么是CPU亲和性？

在多核处理器系统中，每个CPU核心都有自己的L1和L2缓存，所有核心共享一个L3缓存。当一个线程在一个核心上运行时，它会将频繁访问的数据加载到该核心的L1和L2缓存中。当该线程被操作系统调度到另一个核心上运行时，之前缓存的数据就不再有效，需要重新从主内存或者其他核心的缓存中加载，这就是缓存失效。L3缓存失效尤其昂贵，因为它涉及到跨核心的数据访问，严重影响性能。

CPU亲和性指的是将一个线程或进程绑定到特定的一个或多个CPU核心上运行。这意味着操作系统在调度该线程时，会尽可能地将其调度到指定的核心上，从而减少线程在不同核心之间迁移的频率，降低缓存失效的概率，提高数据访问的局部性，最终提升性能。

CPU亲和性为何重要？

对于CPU密集型的Java应用，特别是那些需要频繁访问共享数据的应用，CPU亲和性可以带来显著的性能提升。以下是一些关键原因：

降低缓存失效： 绑定线程到特定核心可以最大程度地利用该核心的缓存，减少缓存失效的次数，从而减少从主内存读取数据的延迟。
提高数据局部性： 线程在同一核心上运行时，可以保持数据在缓存中的局部性，避免频繁的数据迁移。
减少上下文切换： 虽然CPU亲和性本身不能直接减少上下文切换，但通过减少缓存失效，可以降低由于上下文切换带来的性能损失。
提升并行计算效率： 在并行计算场景中，将相关的线程绑定到相邻的核心上，可以减少线程间通信的延迟，提高并行计算的效率。

Java 如何利用 CPU 亲和性？

Java本身并没有直接提供设置CPU亲和性的API。实现CPU亲和性需要借助操作系统提供的底层API。幸运的是，有一些开源库提供了Java友好的接口来访问这些API。其中，JNA (Java Native Access) 是一个常用的选择。

以下是通过 JNA 设置 CPU 亲和性的步骤和示例代码：

添加 JNA 依赖：

首先，需要在项目的pom.xml文件中添加JNA的依赖：

<dependency>
    <groupId>net.java.dev.jna</groupId>
    <artifactId>jna</artifactId>
    <version>5.13.0</version> <!-- 使用最新版本 -->
</dependency>
<dependency>
    <groupId>net.java.dev.jna</groupId>
    <artifactId>jna-platform</artifactId>
    <version>5.13.0</version> <!-- 使用最新版本 -->
</dependency>

编写 JNA 接口：

接下来，需要定义一个JNA接口，该接口映射操作系统提供的用于设置CPU亲和性的函数。不同的操作系统有不同的API。我们以Linux系统为例，使用sched_setaffinity函数。

import com.sun.jna.LastErrorException;
import com.sun.jna.Native;
import com.sun.jna.NativeLong;
import com.sun.jna.Pointer;
import com.sun.jna.Structure;
import com.sun.jna.platform.linux.LibC;
import com.sun.jna.ptr.IntByReference;

import java.util.Arrays;
import java.util.List;

public interface CLibrary extends LibC {
    CLibrary INSTANCE = Native.load("c", CLibrary.class);

    int sched_setaffinity(int pid, int cpusetsize, Pointer cpuset) throws LastErrorException;

    int sched_getaffinity(int pid, int cpusetsize, Pointer cpuset) throws LastErrorException;

    public static class cpu_set_t extends Structure {
        public NativeLong[] __bits = new NativeLong[16]; // 根据CPU核心数调整大小

        @Override
        protected List<String> getFieldOrder() {
            return Arrays.asList("__bits");
        }

        public cpu_set_t() {
        }

        public cpu_set_t(long mask) {
            __bits[0] = new NativeLong(mask);
        }

        public static class ByReference extends cpu_set_t implements Structure.ByReference {
        }

        public static class ByValue extends cpu_set_t implements Structure.ByValue {
        }
    }

    int CPU_COUNT(cpu_set_t cpuset);

    void CPU_ZERO(cpu_set_t cpuset);

    void CPU_SET(int cpu, cpu_set_t cpuset);

    void CPU_CLR(int cpu, cpu_set_t cpuset);

    boolean CPU_ISSET(int cpu, cpu_set_t cpuset);

}

注意：

cpu_set_t 结构体用于表示CPU核心的集合。__bits 数组的大小需要根据CPU核心的数量进行调整。在大多数现代系统中，16个 NativeLong 的数组足够容纳大量的核心。
sched_setaffinity 函数用于设置线程的CPU亲和性。第一个参数是线程ID，第二个参数是cpuset的大小，第三个参数是指向cpu_set_t结构的指针。
sched_getaffinity 函数用于获取线程的CPU亲和性。
CPU_COUNT, CPU_ZERO, CPU_SET, CPU_CLR, CPU_ISSET 是宏定义，用于操作 cpu_set_t 结构体。

设置 CPU 亲和性：

以下代码演示了如何使用JNA设置当前线程的CPU亲和性：

public class Affinity {

    public static void setAffinity(int cpu) {
        CLibrary clibrary = CLibrary.INSTANCE;
        CLibrary.cpu_set_t cpuset = new CLibrary.cpu_set_t();
        clibrary.CPU_ZERO(cpuset);
        clibrary.CPU_SET(cpu, cpuset);

        int rc = clibrary.sched_setaffinity(0,  Native.SIZE_T_SIZE, cpuset.getPointer()); //0 represents current thread
        if (rc != 0) {
            throw new RuntimeException("sched_setaffinity failed: " + Native.getLastError());
        }
        System.out.println("Thread affinity set to CPU " + cpu);
    }

    public static void printCurrentAffinity() {
        CLibrary clibrary = CLibrary.INSTANCE;
        CLibrary.cpu_set_t cpuset = new CLibrary.cpu_set_t();
        int size = Native.SIZE_T_SIZE;
        int rc = clibrary.sched_getaffinity(0, size, cpuset.getPointer()); //0 represents current thread
         if (rc != 0) {
            throw new RuntimeException("sched_getaffinity failed: " + Native.getLastError());
        }

        System.out.print("Current thread affinity: ");
        for (int i = 0; i < 64; i++) { // Assuming a maximum of 64 cores
            if (clibrary.CPU_ISSET(i, cpuset)) {
                System.out.print(i + " ");
            }
        }
        System.out.println();
    }

    public static void main(String[] args) {
        printCurrentAffinity();
        setAffinity(2); // Set affinity to CPU core 2
        printCurrentAffinity();
    }
}

代码解释：

setAffinity(int cpu) 方法将当前线程绑定到指定的CPU核心。
CPU_ZERO(cpuset) 将 cpuset 初始化为空集合，即不绑定到任何核心。
CPU_SET(cpu, cpuset) 将指定的CPU核心添加到 cpuset 中。
sched_setaffinity(0, ...) 使用 sched_setaffinity 函数将当前线程（PID为0）绑定到 cpuset 中指定的CPU核心。
printCurrentAffinity 方法获取并打印当前线程的CPU亲和性。

运行程序：

编译并运行上述代码。确保以具有足够权限的用户身份运行，因为设置CPU亲和性可能需要root权限。

操作系统差异：

不同的操作系统提供的API和结构体略有不同。以下是一些常见操作系统的差异：

Linux： 使用 sched_setaffinity 和 sched_getaffinity 函数以及 cpu_set_t 结构体（如上例所示）。
Windows： 使用 SetThreadAffinityMask 和 GetProcessAffinityMask 函数。需要定义相应的JNA接口和结构体。
macOS： macOS也基于POSIX标准，可以使用pthread_setaffinity_np和pthread_getaffinity_np函数，但需要使用pthread_t而不是进程ID。

注意事项和最佳实践：

核心数量： 在设置CPU亲和性之前，需要了解系统的CPU核心数量，避免绑定到不存在的核心。可以通过 /proc/cpuinfo 文件（Linux）或者系统工具（Windows、macOS）获取核心数量。
NUMA架构： 在NUMA（Non-Uniform Memory Access）架构的系统中，不同的CPU核心访问内存的延迟不同。应该尽量将线程绑定到与它们需要访问的数据距离最近的CPU核心上。
避免过度绑定： 不要将过多的线程绑定到同一个核心上，这会导致线程间的竞争，反而降低性能。
动态调整： 在某些情况下，CPU亲和性可能不是最优的。应该根据应用的实际运行情况，动态调整线程的CPU亲和性。
测试和监控： 在应用CPU亲和性策略后，务必进行充分的测试和监控，确保性能得到提升，并且没有引入新的问题。
权限问题： 设置CPU亲和性通常需要较高的权限。确保你的程序以具有足够权限的用户身份运行。
垃圾回收器： 一些垃圾回收器（如CMS）也会创建多个线程，这些线程也可能受到CPU亲和性的影响。需要根据垃圾回收器的类型和配置，合理地设置垃圾回收线程的CPU亲和性。
并发框架： 如果使用并发框架（如ForkJoinPool），需要确保框架中的线程也受到CPU亲和性的影响。可以自定义线程工厂，在创建线程时设置CPU亲和性。

示例：并行计算中的CPU亲和性

假设我们有一个并行计算任务，需要将一个大的数组分成多个小块，并由多个线程并行处理。以下代码演示了如何使用CPU亲和性来提高并行计算的效率：

import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.Callable;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.Future;

public class ParallelComputation {

    private static final int NUM_THREADS = Runtime.getRuntime().availableProcessors();
    private static final int ARRAY_SIZE = 10000000;
    private static final int CHUNK_SIZE = ARRAY_SIZE / NUM_THREADS;

    public static void main(String[] args) throws Exception {
        int[] array = new int[ARRAY_SIZE];
        for (int i = 0; i < ARRAY_SIZE; i++) {
            array[i] = i;
        }

        ExecutorService executor = Executors.newFixedThreadPool(NUM_THREADS);
        List<Future<Long>> futures = new ArrayList<>();

        for (int i = 0; i < NUM_THREADS; i++) {
            final int start = i * CHUNK_SIZE;
            final int end = (i == NUM_THREADS - 1) ? ARRAY_SIZE : (i + 1) * CHUNK_SIZE;
            final int cpu = i % NUM_THREADS; // Assign threads to cores in a round-robin fashion

            Callable<Long> task = () -> {
                Affinity.setAffinity(cpu); // Set CPU affinity for the thread
                long sum = 0;
                for (int j = start; j < end; j++) {
                    sum += array[j];
                }
                return sum;
            };

            futures.add(executor.submit(task));
        }

        executor.shutdown();

        long totalSum = 0;
        for (Future<Long> future : futures) {
            totalSum += future.get();
        }

        System.out.println("Total sum: " + totalSum);
    }
}

代码解释：

代码首先创建一个固定大小的线程池，线程数量等于CPU核心的数量。
然后，将数组分成多个小块，每个线程处理一个小块。
在每个线程的任务中，首先使用 Affinity.setAffinity(cpu) 设置CPU亲和性，将线程绑定到特定的CPU核心。
最后，计算每个小块的和，并将所有小块的和加起来，得到最终结果。

性能测试：

可以通过性能测试来验证CPU亲和性带来的性能提升。可以分别运行启用和禁用CPU亲和性的程序，并比较它们的执行时间。可以使用各种性能分析工具（如JProfiler、VisualVM）来监控程序的CPU使用率、缓存失效率等指标。

总结：

CPU亲和性是一种有效的优化技术，可以显著提高CPU密集型Java应用的性能，特别是在高并发、并行计算场景中。通过将线程绑定到特定的CPU核心，可以降低缓存失效，提高数据局部性，减少线程间通信的延迟。虽然Java本身没有直接提供设置CPU亲和性的API，但可以使用JNA等开源库来访问操作系统提供的底层API。在使用CPU亲和性时，需要注意核心数量、NUMA架构、避免过度绑定等问题，并进行充分的测试和监控。

CPU亲和性的意义

通过绑定线程到特定的CPU核心，能够有效降低缓存失效，提升数据局部性，从而优化CPU密集型Java应用的性能，尤其在高并发场景下。掌握CPU亲和性，能显著提升系统资源的利用效率。

Java CPU 亲和性：绑定线程到特定核心以降低L3缓存失效

发表回复 取消回复

发表回复取消回复