什么是 ‘Futex’ (Fast Userspace Mutex)？解析 C++ 同步原语如何在高并发下减少系统调用开销 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Futex (Fast Userspace Mutex)：C++ 同步原语在高并发下减少系统调用开销的基石

在现代多核处理器架构下，并发编程已成为软件开发不可或缺的一部分。为了确保多个线程安全地访问共享资源，同步机制扮演着核心角色。然而，传统的同步机制往往伴随着高昂的性能开销，尤其是在高并发场景下。系统调用是操作系统为用户程序提供的与内核交互的接口，每次系统调用都需要从用户态切换到内核态，这个过程涉及上下文切换、权限检查和TLB刷新等一系列操作，其开销远高于用户态的指令执行。本文将深入探讨 Linux 内核提供的一种高效同步原语——Futex (Fast Userspace Mutex)，以及它如何作为 C++ std::mutex、std::condition_variable 等同步机制的底层实现，在高并发场景下显著减少系统调用开销，从而提升程序的整体性能。

1. 并发编程中的同步挑战与传统方案的局限性

在多线程环境中，如果多个线程同时读写同一个共享数据，可能会导致数据不一致或程序崩溃。因此，我们需要同步机制来确保同一时间只有一个线程访问临界区（critical section）。

1.1 临界区与互斥

临界区是代码中访问共享资源的部分。为了保护临界区，最常见的机制是互斥锁（Mutex）。一个线程在进入临界区前必须获取锁，离开时释放锁。如果锁已被其他线程持有，尝试获取锁的线程将被阻塞，直到锁被释放。

1.2 传统的同步方案及其开销

1.2.1 用户态自旋锁 (Spinlock)

自旋锁是一种在用户态实现的简单互斥机制。当一个线程尝试获取已被持有的锁时，它不会立即进入睡眠状态，而是会在一个循环中反复检查锁的状态，直到锁被释放。

工作原理：
自旋锁通常基于原子操作（如Compare-And-Swap, CAS）实现。锁的状态通常是一个整数变量：0表示解锁，1表示加锁。

#include <atomic>
#include <thread>
#include <vector>
#include <iostream>

class Spinlock {
public:
    void lock() {
        // 尝试将锁从0（解锁）设置为1（加锁）
        // 如果成功，表示获取到锁
        // 如果失败，表示锁已被持有，继续自旋
        while (flag.test_and_set(std::memory_order_acquire)) {
            // Optional: 可以使用 std::this_thread::yield() 
            // 提示调度器当前线程可以被替换，减少忙等待的CPU占用
            // 但在高并发低延迟场景下，可能会增加上下文切换开销
            // std::this_thread::yield(); 
        }
    }

    void unlock() {
        // 释放锁，将标志设置为false（解锁）
        flag.clear(std::memory_order_release);
    }

private:
    std::atomic_flag flag = ATOMIC_FLAG_INIT; // 初始化为false（解锁）
};

// 示例：使用自旋锁保护共享计数器
Spinlock spin_lock;
long long shared_counter = 0;

void increment_spin(int iterations) {
    for (int i = 0; i < iterations; ++i) {
        spin_lock.lock();
        shared_counter++;
        spin_lock.unlock();
    }
}

/*
int main() {
    const int num_threads = 4;
    const int iterations_per_thread = 1000000;
    std::vector<std::thread> threads;

    std::cout << "Using Spinlock..." << std::endl;
    auto start_time = std::chrono::high_resolution_clock::now();

    for (int i = 0; i < num_threads; ++i) {
        threads.emplace_back(increment_spin, iterations_per_thread);
    }

    for (auto& t : threads) {
        t.join();
    }

    auto end_time = std::chrono::high_resolution_clock::now();
    std::chrono::duration<double> diff = end_time - start_time;

    std::cout << "Final counter value: " << shared_counter << std::endl;
    std::cout << "Spinlock execution time: " << diff.count() << " seconds" << std::endl;

    return 0;
}
*/

优点：

无系统调用开销： 完全在用户态执行，无需陷入内核，避免了昂贵的上下文切换。
低延迟： 对于临界区非常短且竞争不激烈的场景，自旋锁的性能极高，因为没有线程切换的开销。

缺点：

CPU浪费： 如果锁被长时间持有，自旋的线程会持续占用 CPU 资源进行忙等待，浪费 CPU 周期。
不公平性： 无法保证线程获取锁的顺序，可能导致某些线程“饿死”。
优先级反转： 如果一个低优先级线程持有了锁，而一个高优先级线程在自旋等待这个锁，那么高优先级线程会因为低优先级线程无法调度而无法执行，从而导致优先级反转问题。
缓存竞争： 多个线程频繁地对同一个锁变量进行原子操作，会导致缓存行在不同 CPU 核心之间频繁失效和同步，增加内存总线流量和延迟。

由于这些缺点，自旋锁通常只适用于临界区极短且竞争极低的特定场景，或者在操作系统内核中作为底层同步原语使用。

1.2.2 内核态互斥锁 (Kernel Mutex)

内核态互斥锁，如 POSIX 线程库中的 pthread_mutex，是操作系统提供的一种更通用的互斥机制。当线程尝试获取一个已被持有的锁时，操作系统会将该线程置于睡眠状态，并将其从调度队列中移除，直到锁被释放。

工作原理：
pthread_mutex_lock() 函数通常会尝试在用户态通过原子操作获取锁。如果获取失败，它会执行一个系统调用（例如 Linux 上的 futex(2)，但这里我们先假设是更传统的纯内核态实现），请求内核将当前线程阻塞。内核会将线程状态设置为 TASK_UNINTERRUPTIBLE 或 TASK_INTERRUPTIBLE，并将其加入到等待队列中。当锁被释放时，pthread_mutex_unlock() 会执行另一个系统调用，请求内核唤醒等待队列中的一个或多个线程。

优点：

无CPU浪费： 线程在等待锁时会进入睡眠状态，释放 CPU 资源给其他线程。
公平性： 操作系统调度器可以确保等待的线程最终会被唤醒，并有机会获取锁。
避免优先级反转： 现代操作系统的内核互斥锁通常会包含优先级继承或优先级天花板等机制来处理优先级反转问题。

缺点：

系统调用开销： 无论竞争是否发生，每次加锁和解锁都可能涉及系统调用（尤其是在早期或简单实现中），导致用户态和内核态之间的上下文切换，这带来了显著的性能开销。
上下文切换开销： 线程阻塞和唤醒需要进行昂贵的上下文切换，这包括保存和恢复 CPU 寄存器、更新进程控制块、刷新TLB等。

总结传统方案的局限性：

特性	自旋锁 (用户态)	内核互斥锁 (传统纯内核态)
CPU 效率	低 (忙等待)	高 (线程睡眠)
延迟	低 (无切换)	高 (上下文切换)
系统调用	无	频繁
公平性	无	有
适用场景	临界区极短，竞争极低	临界区较长，竞争中等或高

很明显，这两种极端方案都有其局限性。我们需要一种机制，既能享受用户态原子操作的低延迟，又能避免忙等待的CPU浪费和系统调用开销。这就是 Futex 诞生的背景。

2. 混合式同步：用户态与内核态的协同

为了结合自旋锁的低延迟和内核互斥锁的低 CPU 消耗，现代操作系统（特别是 Linux）引入了一种混合式同步机制。其核心思想是：在没有竞争时，尽量在用户态完成操作，避免系统调用；只有当发生实际竞争时，才通过系统调用请求内核介入，将线程置于睡眠状态。

这种机制通常被称为“两阶段锁”或“混合锁”。第一个阶段在用户空间尝试获取锁，如果成功，则避免了系统调用。如果失败（即锁已被占用），则进入第二个阶段，通过系统调用请求内核将线程阻塞。当锁被释放时，持有锁的线程会通知内核唤醒等待的线程。

Futex 就是 Linux 实现这种混合式同步机制的基石。

3. Futex (Fast Userspace Mutex) 深度解析

3.1 什么是 Futex？

Futex 并非一个完整的互斥锁，而是一个由 Linux 内核提供的高性能、低开销的同步原语。它允许用户态线程在无需进入内核态的情况下进行同步，只有当同步操作实际发生竞争时，才需要向内核发出请求。

Futex 的核心思想是：它将一个用户空间的内存地址（一个 int 类型的变量）作为同步点。 线程可以对这个 int 变量进行原子操作。当线程需要等待时，它会告诉内核在某个 int 变量上等待；当线程需要唤醒其他线程时，它会告诉内核唤醒在某个 int 变量上等待的线程。

3.2 Futex 的工作原理：核心机制

Futex 的强大之处在于其“快速路径”和“慢速路径”分离的设计。

快速路径 (Fast Path)： 当没有竞争发生时，所有操作都在用户态通过原子指令（如 std::atomic 提供的 compare_exchange_weak 或 fetch_add）完成，无需系统调用。这使得无竞争的加锁/解锁操作速度极快。
慢速路径 (Slow Path)： 当发生竞争时，即用户态原子操作无法成功完成时，线程才通过 futex(2) 系统调用进入内核态。内核会负责将线程阻塞或唤醒。

futex(2) 系统调用是 Futex 的核心接口。它的原型大致如下：

#include <linux/futex.h> // for futex constants like FUTEX_WAIT, FUTEX_WAKE
#include <sys/syscall.h> // for SYS_futex
#include <unistd.h>      // for syscall

/**
 * int syscall(SYS_futex, int *uaddr, int futex_op, int val,
 *             const struct timespec *timeout, int *uaddr2, int val3);
 *
 * @param uaddr: 用户空间的一个整型变量地址，作为同步点。
 * @param futex_op: Futex 操作类型，如 FUTEX_WAIT, FUTEX_WAKE 等。
 * @param val: 依赖于 futex_op 的一个值。
 * @param timeout: 对于 FUTEX_WAIT，指定等待的超时时间。NULL 表示无限等待。
 * @param uaddr2: 依赖于 futex_op 的另一个用户空间地址（用于 FUTEX_CMP_REQUEUE）。
 * @param val3: 依赖于 futex_op 的另一个值（用于 FUTEX_CMP_REQUEUE）。
 *
 * 返回值：通常为 0 表示成功，-1 表示失败并设置 errno。
 */
long futex_syscall(int *uaddr, int futex_op, int val,
                   const struct timespec *timeout, int *uaddr2, int val3) {
    return syscall(SYS_futex, uaddr, futex_op, val, timeout, uaddr2, val3);
}

最常用的 futex_op 有两个：

FUTEX_WAIT：
- 目的： 让当前线程阻塞，等待某个 uaddr 上的事件。
- 行为： 内核检查 *uaddr 的当前值是否等于 val。
  - 如果 *uaddr == val，表示条件成立，线程进入睡眠状态，等待被唤醒。
  - 如果 *uaddr != val，表示条件不成立（即在线程检查 uaddr 后但在调用 FUTEX_WAIT 之前，uaddr 的值被其他线程改变了），FUTEX_WAIT 会立即返回，不阻塞线程。这解决了“丢失唤醒”的问题。
- 参数： uaddr 是等待的地址，val 是期望的值。
FUTEX_WAKE：
- 目的： 唤醒在 uaddr 上等待的线程。
- 行为： 内核从 uaddr 的等待队列中唤醒最多 val 个线程。
- 参数： uaddr 是要唤醒的地址，val 是要唤醒的线程数量（例如，1 表示唤醒一个，INT_MAX 表示唤醒所有）。

3.3 构建一个基于 Futex 的互斥锁（概念性 C++ 实现）

让我们尝试构建一个简化的、基于 Futex 的互斥锁 MyFutexMutex。这个锁的状态将由一个 int 变量表示，我们将其命名为 m_state：

0: 未加锁 (unlocked)
1: 已加锁，无等待者 (locked, no waiters)
2: 已加锁，有等待者 (locked, with waiters)

#include <atomic>
#include <thread>
#include <vector>
#include <iostream>
#include <chrono>

// Linux specific headers for futex
#include <linux/futex.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <errno.h> // For checking errno

// Helper function to call futex system call
static inline int futex(int* uaddr, int futex_op, int val,
                        const struct timespec* timeout, int* uaddr2, int val3) {
    return syscall(SYS_futex, uaddr, futex_op, val, timeout, uaddr2, val3);
}

class MyFutexMutex {
public:
    MyFutexMutex() : m_state(0) {} // Initialize to unlocked (0)

    void lock() {
        int expected = 0; // Expect unlocked (0) or locked-no-waiters (1)

        // Phase 1: Try to acquire the lock using CAS in user-space (fast path)
        // Try to transition from 0 (unlocked) to 1 (locked, no waiters)
        if (m_state.compare_exchange_strong(expected, 1, std::memory_order_acquire)) {
            // Successfully acquired lock in user-space, no contention.
            return;
        }

        // Phase 2: Contention detected or lock was already in state 1 (locked, no waiters)
        // Now try to transition from 1 (locked, no waiters) to 2 (locked, with waiters)
        // Or if it was 0 (unexpected), it means another thread just unlocked it, retry.
        // Or if it was 2 (locked, with waiters), it means someone else is waiting too.

        // Loop until lock is acquired
        while (true) {
            // If the lock is 0 (unlocked), try to acquire it
            if (m_state.compare_exchange_strong(expected = 0, 1, std::memory_order_acquire)) {
                return; // Acquired lock
            }
            // If the lock is 1 (locked, no waiters), try to change it to 2 (locked, with waiters)
            // This signals to the unlocker that there are threads waiting.
            if (expected == 1) { // Only if current state is 1
                m_state.compare_exchange_strong(expected, 2, std::memory_order_release);
            }

            // At this point, the lock is either 1 (locked, no waiters) or 2 (locked, with waiters)
            // And we failed to acquire it. So, we need to wait.
            // We wait on the *address* of m_state, expecting its value to be 2.
            // If it's not 2 (e.g., it became 0 because someone unlocked), futex_wait will return immediately.
            futex(reinterpret_cast<int*>(&m_state), FUTEX_WAIT, 2, nullptr, nullptr, 0);

            // After being woken up (or not sleeping because m_state != 2), retry acquiring the lock.
            // Loop continues to re-evaluate m_state and try to acquire.
        }
    }

    void unlock() {
        int expected = 1; // Expect locked, no waiters

        // Phase 1: Try to unlock from 1 (locked, no waiters) to 0 (unlocked)
        // If successful, no waiters, no kernel involvement (fast path)
        if (m_state.compare_exchange_strong(expected, 0, std::memory_order_release)) {
            return;
        }

        // Phase 2: Lock was 2 (locked, with waiters).
        // Atomically set to 0 (unlocked) and wake up a waiting thread (slow path)
        // We set to 0 first to ensure the futex_waiters are released from the lock.
        // It's crucial to set to 0 before waking to prevent race conditions where 
        // a newly arriving thread might try to lock state 2 and immediately wait.
        if (expected == 2) { // Only if current state is 2
            m_state.store(0, std::memory_order_release); // Release the lock
            // Wake up one thread that was waiting on this futex.
            futex(reinterpret_cast<int*>(&m_state), FUTEX_WAKE, 1, nullptr, nullptr, 0);
        }
        // If expected was not 1 or 2, something is wrong (e.g., trying to unlock an unlocked mutex)
        // In a real implementation, this might be an assert or undefined behavior.
    }

private:
    std::atomic<int> m_state; // 0: unlocked, 1: locked no waiters, 2: locked with waiters
};

// 示例：使用 MyFutexMutex 保护共享计数器
MyFutexMutex futex_lock;
long long shared_counter_futex = 0;

void increment_futex(int iterations) {
    for (int i = 0; i < iterations; ++i) {
        futex_lock.lock();
        shared_counter_futex++;
        futex_lock.unlock();
    }
}

int main() {
    const int num_threads = 8;
    const int iterations_per_thread = 5000000; // Increased iterations for more contention
    std::vector<std::thread> threads;

    // --- Spinlock Benchmark (for comparison) ---
    shared_counter = 0; // Reset for spinlock
    Spinlock spin_lock_local; // Local spinlock instance
    std::cout << "Benchmarking Spinlock..." << std::endl;
    auto start_time_spin = std::chrono::high_resolution_clock::now();
    for (int i = 0; i < num_threads; ++i) {
        threads.emplace_back([&]() { // Lambda to capture spin_lock_local
            for (int j = 0; j < iterations_per_thread; ++j) {
                spin_lock_local.lock();
                shared_counter++;
                spin_lock_local.unlock();
            }
        });
    }
    for (auto& t : threads) {
        t.join();
    }
    auto end_time_spin = std::chrono::high_resolution_clock::now();
    std::chrono::duration<double> diff_spin = end_time_spin - start_time_spin;
    std::cout << "Spinlock final counter: " << shared_counter << std::endl;
    std::cout << "Spinlock execution time: " << diff_spin.count() << " seconds" << std::endl;
    threads.clear(); // Clear threads for next benchmark

    std::cout << "nBenchmarking MyFutexMutex..." << std::endl;
    auto start_time_futex = std::chrono::high_resolution_clock::now();

    for (int i = 0; i < num_threads; ++i) {
        threads.emplace_back(increment_futex, iterations_per_thread);
    }

    for (auto& t : threads) {
        t.join();
    }

    auto end_time_futex = std::chrono::high_resolution_clock::now();
    std::chrono::duration<double> diff_futex = end_time_futex - start_time_futex;

    std::cout << "MyFutexMutex final counter: " << shared_counter_futex << std::endl;
    std::cout << "MyFutexMutex execution time: " << diff_futex.count() << " seconds" << std::endl;

    return 0;
}

代码解析：

MyFutexMutex::lock()：
- 快速路径： m_state.compare_exchange_strong(expected = 0, 1, std::memory_order_acquire)。尝试将 m_state 从 0（解锁）原子地设置为 1（加锁，无等待者）。如果成功，说明没有竞争，直接返回，没有系统调用。
- 慢速路径： 如果快速路径失败，说明锁已被持有。
  - 进入 while(true) 循环。
  - 再次尝试获取锁（expected = 0, 1）。如果在第一次 CAS 失败后到进入循环之间，锁被释放了，那么这个 CAS 可能会成功。
  - 如果锁仍然被持有（expected 是 1 或 2）：
    - 如果 expected == 1（锁已被持有，但无等待者），我们尝试将 m_state 从 1 原子地设置为 2（加锁，有等待者）。这会告诉释放锁的线程需要唤醒等待者。
    - 然后调用 futex(reinterpret_cast<int*>(&m_state), FUTEX_WAIT, 2, ...)。这里我们让线程在 m_state 地址上等待，但只在 m_state 的值为 2 时才真正进入睡眠。这非常重要：如果 m_state 在我们检查它和调用 FUTEX_WAIT 之间变成了 0（被其他线程释放了），FUTEX_WAIT 会立即返回，避免了不必要的睡眠。
  - 被唤醒后（或未睡眠），循环继续，再次尝试获取锁。
MyFutexMutex::unlock()：
- 快速路径： m_state.compare_exchange_strong(expected = 1, 0, std::memory_order_release)。尝试将 m_state 从 1（加锁，无等待者）原子地设置为 0（解锁）。如果成功，说明没有等待者，直接返回，没有系统调用。
- 慢速路径： 如果快速路径失败，说明 m_state 的值是 2（加锁，有等待者）。
  - 将 m_state 设置为 0（解锁）。
  - 调用 futex(reinterpret_cast<int*>(&m_state), FUTEX_WAKE, 1, ...)，唤醒一个等待在 m_state 上的线程。

内存序 (Memory Order)：

std::memory_order_acquire：在获取锁时使用，确保在锁获取成功之后的所有内存访问都发生在获取锁之前。
std::memory_order_release：在释放锁时使用，确保在锁释放之前的所有内存访问都发生在释放锁之前。
std::memory_order_relaxed：在 m_state.store(0, std::memory_order_release) 之前，我们已经通过 CAS 确认了 m_state 的值，这里使用 release 是为了确保对 m_state 的修改在唤醒操作之前对其他线程可见。

3.4 Futex 的优势

极高的无竞争性能： 在无竞争情况下，Futex 互斥锁的操作完全在用户态完成，仅涉及几次原子指令，开销极低，与自旋锁媲美。
高效的竞争处理： 在有竞争情况下，Futex 通过 FUTEX_WAIT 和 FUTEX_WAKE 系统调用，将线程高效地阻塞和唤醒，避免了自旋锁的忙等待，释放了 CPU 资源。
低系统调用开销： 只有当实际发生竞争时才需要系统调用，大大减少了系统调用的频率，从而降低了上下文切换带来的性能损失。
通用性： Futex 不仅仅可以用于构建互斥锁，还可以作为底层原语构建信号量、条件变量等更复杂的同步机制。
减少缓存争用： 相较于自旋锁，Futex 减少了对共享锁变量的频繁写入，从而降低了缓存行失效和同步的开销。

4. C++ 同步原语如何基于 Futex 实现

在 Linux 系统上，C++ 标准库中的 std::mutex、std::condition_variable 等同步原语底层通常都利用了 Futex 机制。它们不是简单的直接调用 futex(2)，而是通过 POSIX 线程库（pthread）提供的接口，而 pthread 在 Linux 上又依赖于 Futex。

4.1 `std::mutex` 的实现

std::mutex 在 Linux 上通常是对 pthread_mutex_t 的封装。pthread_mutex_t 的实现正是基于 Futex 的混合式策略。

一个典型的 pthread_mutex_t 结构体可能包含一个 int 类型的字段，例如 __lock 或 _M_value，这个字段就是 Futex 操作的 uaddr。

pthread_mutex_lock() 的大致流程：

用户态尝试： 使用原子操作（如 lock addl $1,(%eax) 或 cmpxchg）尝试将锁状态从“解锁”变为“加锁”。
- 如果成功，锁获取完成，返回。这是快速路径，无系统调用。
用户态失败，进入内核路径准备： 如果锁已被持有，线程会尝试将锁状态标记为“有等待者”，并可能执行一些自旋，以应对极短的竞争。
系统调用阻塞： 如果自旋后仍然无法获取锁，线程会调用 futex(uaddr, FUTEX_WAIT, expected_val, ...)。其中 uaddr 是锁的内部状态变量，expected_val 是期望的锁状态（例如，“已加锁，有等待者”）。如果 uaddr 的值不等于 expected_val（意味着锁已被释放），futex_wait 会立即返回，线程继续尝试获取锁。否则，线程进入睡眠。

pthread_mutex_unlock() 的大致流程：

用户态尝试： 使用原子操作（如 subl $1,(%eax)）将锁状态从“加锁”变为“解锁”。
- 如果成功，并且锁状态变为“无等待者”，锁释放完成，返回。这是快速路径，无系统调用。
系统调用唤醒： 如果锁状态在解锁前被标记为“有等待者”，则说明有线程在等待这个锁。此时，线程会调用 futex(uaddr, FUTEX_WAKE, 1, ...)，唤醒一个等待的线程。

表格对比：

操作	`std::mutex` (基于 Futex)	`Spinlock` (纯用户态)	传统 `Kernel Mutex` (纯内核态)
无竞争	用户态原子操作，极低开销，无系统调用。	用户态原子操作，极低开销，无系统调用。	每次操作都可能涉及系统调用，开销较高。
有竞争	用户态原子操作失败后，系统调用 `FUTEX_WAIT` 阻塞线程。	忙等待，持续占用 CPU。	系统调用阻塞线程，开销高但释放 CPU。
CPU 利用	仅在竞争时阻塞，高效利用 CPU。	竞争时忙等待，浪费 CPU。	竞争时阻塞，高效利用 CPU。
延迟	无竞争时极低，有竞争时有上下文切换延迟。	极低，但有 CPU 浪费。	高（每次操作都可能涉及上下文切换）。
适用性	广泛适用于各种竞争程度的场景。	极短临界区，低竞争。	适用于竞争中高，但性能要求不极致的场景。

4.2 `std::condition_variable` 的实现

std::condition_variable 允许线程等待某个条件为真，或者被其他线程通知。其底层实现也大量依赖 Futex。

std::condition_variable::wait() 的大致流程：

线程在调用 wait() 时，会先原子地解锁关联的 std::mutex，然后进入等待状态。
在 Linux 上，这通常意味着线程会调用 futex(uaddr, FUTEX_WAIT, expected_val, ...)。这里的 uaddr 通常是 std::condition_variable 内部维护的一个整型变量，用于表示等待队列的某个状态。expected_val 是一个版本号或计数器，确保在解锁互斥锁和进入等待之间，没有丢失唤醒。
线程进入睡眠。

std::condition_variable::notify_one() / notify_all() 的大致流程：

调用 notify_one() 或 notify_all() 的线程在持有互斥锁的情况下（或者在互斥锁被释放后），会更新 std::condition_variable 内部的 uaddr（例如，增加版本号）。
然后，它会调用 futex(uaddr, FUTEX_WAKE, count, ...)，其中 count 为 1 (for notify_one()) 或 INT_MAX (for notify_all())，以唤醒等待在 uaddr 上的线程。
被唤醒的线程会重新尝试获取互斥锁，并在获取成功后检查等待条件是否满足。

4.3 `std::shared_mutex` (读写锁) 的实现

std::shared_mutex 允许多个读线程同时访问共享资源，但只允许一个写线程访问。其实现比普通互斥锁更复杂，但同样可以基于 Futex。它通常需要一个更复杂的 int 状态变量来编码读者数量、写者状态和等待者的存在。

例如，一个 int 可以这样编码：

最低位表示写锁状态（0: 无写锁，1: 有写锁）
高位表示读者数量
某个特定的负值可能表示有写者在等待

当一个线程需要获取读锁或写锁时，它首先在用户态尝试原子修改这个 int 状态。如果无法修改（因为冲突），它就会根据是读锁还是写锁，调用 FUTEX_WAIT 在不同的地址或以不同的 val 阻塞。释放锁时，则根据情况调用 FUTEX_WAKE 唤醒读者或写者。

5. 性能考量与高级 Futex 用法

5.1 延迟与吞吐量

延迟 (Latency)： Futex 在无竞争情况下的延迟极低，因为它避免了系统调用。在高竞争情况下，虽然有上下文切换的延迟，但由于其高效的阻塞/唤醒机制，通常仍优于纯内核锁。
吞吐量 (Throughput)： Futex 显著提高了高并发场景下的吞吐量，因为它减少了系统调用开销，使得 CPU 可以将更多时间用于执行实际的业务逻辑，而不是在用户态和内核态之间频繁切换。

5.2 竞争水平的影响

Futex 的性能优势在不同竞争水平下表现不同：

低竞争： 几乎所有操作都在用户态完成，性能接近无锁编程，远超传统内核锁。
中等竞争： 偶尔会进入内核路径，但由于 futex(2) 本身是轻量级的系统调用，并且只有在必要时才发生上下文切换，性能依然优异。
高竞争： 大部分操作会进入内核路径，但仍优于频繁自旋的自旋锁，因为它不会浪费 CPU 周期。与纯内核锁相比，其优势在于当竞争降低时，可以快速回到用户态执行，而纯内核锁可能仍然需要系统调用。

5.3 缓存一致性与伪共享

尽管 Futex 避免了自旋锁的忙等待，但其底层的 std::atomic 操作仍然需要访问和修改共享内存位置。在高并发下，如果多个 CPU 核心频繁地读写同一个缓存行（即使不是同一个变量，只要它们在同一个缓存行），会导致缓存行在不同核心之间频繁失效和同步，这就是缓存一致性协议 (MESI) 的开销。

伪共享 (False Sharing) 是一个相关问题。如果两个不相关的原子变量恰好位于同一个缓存行中，即使它们被不同的线程独立访问，也会因为缓存行同步而导致性能下降。在设计 Futex 锁或任何并发数据结构时，需要考虑对齐和填充，以避免伪共享。

// 避免伪共享的示例（概念）
struct alignas(64) PaddedAtomicInt { // 确保 m_state 位于独立的缓存行
    std::atomic<int> m_state;
    // 可以添加填充字节，确保整个结构体大小是缓存行倍数
    char padding[64 - sizeof(std::atomic<int>)];
};

// MyFutexMutex 可以使用 PaddedAtomicInt
// PaddedAtomicInt m_state;

5.4 内存屏障与原子操作

在 Futex 的实现中，std::atomic 的内存序（memory_order）至关重要。它们确保了对共享变量的读写操作在不同线程之间具有正确的可见性，防止编译器和 CPU 的重排序优化破坏同步逻辑。

std::memory_order_acquire：确保在获取锁之后的所有内存操作都在锁获取完成之后执行。
std::memory_order_release：确保在释放锁之前的所有内存操作都在锁释放之前完成。
std::memory_order_acq_rel：兼具 acquire 和 release 的语义，用于同时读写共享变量的原子操作。
std::memory_order_seq_cst：最强的内存序，提供全局的顺序一致性，但开销也最大。

正确使用内存序是构建无 bug 的并发程序，尤其是 Futex 这样的底层同步原语的关键。

5.5 高级 Futex 操作

Linux 内核提供了比 FUTEX_WAIT 和 FUTEX_WAKE 更复杂的 Futex 操作，以支持更高级的同步原语：

FUTEX_CMP_REQUEUE：
- 目的： 将等待在一个 Futex 上的线程转移到另一个 Futex 上等待。
- 用途： 主要用于实现 pthread_cond_wait()。当一个线程在条件变量上等待时，它需要先释放互斥锁，然后等待条件变量。FUTEX_CMP_REQUEUE 可以在一个原子操作中完成：释放旧的 Futex（互斥锁）并让线程等待在新的 Futex（条件变量）上。这可以避免丢失唤醒和竞争条件。
FUTEX_LOCK_PI / FUTEX_UNLOCK_PI：
- 目的： 提供优先级继承 (Priority Inheritance) 的 Futex 版本。
- 用途： 解决优先级反转问题。如果一个高优先级线程等待一个低优先级线程持有的锁，FUTEX_LOCK_PI 会暂时提升低优先级线程的优先级，直到它释放锁。
FUTEX_PRIVATE_FLAG：
- 目的： 指示 Futex 仅在当前进程内部使用。
- 用途： 优化性能。如果 Futex 不需要在进程间共享（即它只用于线程间同步），使用 FUTEX_PRIVATE_FLAG 可以让内核避免一些不必要的全局操作，从而进一步减少开销。std::mutex 默认通常会使用私有 Futex。
FUTEX_ROBUST：
- 目的： 增强 Futex 的鲁棒性，处理锁持有者意外死亡的情况。
- 用途： 如果一个线程在持有 Futex 锁的情况下意外终止，FUTEX_ROBUST 允许内核自动“清理”这个锁，使其恢复可用状态，并通知等待者锁已被持有者遗弃。这对于防止死锁至关重要。

6. C++ 同步原语在高并发下的性能优化基石

Futex 是 Linux 内核为 C++（以及其他语言）并发编程提供的高效同步原语的核心。它通过巧妙地结合用户态原子操作的低延迟和内核态阻塞机制的低 CPU 消耗，实现了在不同竞争程度下都表现出色的混合式同步策略。std::mutex、std::condition_variable 等 C++ 标准库的同步机制，正是在 Futex 这一坚实基础之上构建，在高并发场景下显著减少了系统调用开销，从而成为现代高性能多线程应用不可或缺的组成部分。理解 Futex 的工作原理，不仅有助于我们更好地使用 C++ 同步原语，还能帮助我们设计和实现更高效的并发数据结构。