C++20 原子等待通知：利用 std::atomic::wait/notify 原语在 C++ 多线程同步中构建高性能的自旋阻塞器 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位编程专家和并发爱好者，大家好！

今天，我们将深入探讨 C++20 中一个激动人心的新特性：std::atomic::wait 和 std::atomic::notify 原语。长期以来，C++ 多线程同步主要依赖于互斥量（std::mutex）、条件变量（std::condition_variable）等高级抽象。它们强大且易用，但在某些对延迟极度敏感或需要极致性能的场景下，其潜在的上下文切换开销和系统调用成本可能成为瓶颈。

C++20 引入的 std::atomic::wait/notify 机制，为我们打开了一扇通往用户空间高效等待与通知的大门。它允许线程在满足特定条件时在原子变量上休眠，并在条件满足时被精确唤醒，且多数情况下无需涉及重量级的操作系统调度。本次讲座，我将带领大家理解 wait/notify 的工作原理、优势与挑战，并亲手构建一个高性能的自旋阻塞器（Spin-Blocker），它能结合自旋锁的低延迟与条件变量的省电特性，为您的并发程序注入新的活力。

一、多线程同步的基石：传统方法的审视与局限

在探索 wait/notify 之前，我们有必要快速回顾一下 C++ 中常用的同步机制及其特点，以便更好地理解 wait/notify 存在的价值。

1.1 互斥量（`std::mutex`）

互斥量是保护共享资源、确保临界区原子性最基本且最常用的工具。

工作原理： 当一个线程尝试加锁时，如果锁未被占用，它将成功获取锁并进入临界区；如果锁已被占用，该线程将被阻塞，直到持有锁的线程释放锁。
优点： 简单易用，操作系统级别支持，能够有效避免数据竞争。
缺点：
- 上下文切换开销： 当线程被阻塞时，操作系统会将其从调度队列中移除，并切换到另一个可运行的线程。这个过程涉及用户态到内核态的切换，以及寄存器保存、恢复等操作，开销相对较大。
- 死锁风险： 不当的锁顺序可能导致死锁。
- 优先级反转： 高优先级线程可能被低优先级线程持有的锁阻塞。

示例代码：

#include <iostream>
#include <vector>
#include <thread>
#include <mutex>

std::mutex mtx;
int shared_data = 0;

void increment_data() {
    for (int i = 0; i < 100000; ++i) {
        mtx.lock(); // 加锁
        shared_data++;
        mtx.unlock(); // 解锁
    }
}

int main() {
    std::vector<std::thread> threads;
    for (int i = 0; i < 4; ++i) {
        threads.emplace_back(increment_data);
    }

    for (auto& t : threads) {
        t.join();
    }

    std::cout << "Final shared_data: " << shared_data << std::endl; // 预期 400000
    return 0;
}

1.2 条件变量（`std::condition_variable`）

条件变量通常与互斥量配合使用，允许线程等待某个特定条件成立。

工作原理： 线程在一个条件变量上等待时，它会释放关联的互斥量，进入休眠状态。当另一个线程满足条件时，它可以通知条件变量，唤醒一个或多个等待的线程。被唤醒的线程会尝试重新获取互斥量，然后检查条件。
优点： 比纯粹的忙等待更高效，能够释放CPU资源。
缺点：
- 需要配合互斥量： 总是需要与 std::mutex（或 std::unique_lock<std::mutex>）一起使用，增加了复杂性。
- 虚假唤醒： 线程可能在没有被显式通知的情况下被唤醒（例如，操作系统调度或其他信号），因此需要在一个循环中检查条件。
- 上下文切换开销： 同样涉及线程的阻塞和唤醒，可能产生系统调用开销。

示例代码：

#include <iostream>
#include <vector>
#include <thread>
#include <mutex>
#include <condition_variable>

std::mutex mtx_cv;
std::condition_variable cv;
bool data_ready = false;
std::vector<int> data_buffer;

void producer() {
    std::this_thread::sleep_for(std::chrono::seconds(1)); // 模拟生产时间
    std::unique_lock<std::mutex> lock(mtx_cv);
    data_buffer.push_back(100);
    data_ready = true;
    std::cout << "Producer: Data produced." << std::endl;
    cv.notify_one(); // 通知一个等待线程
}

void consumer() {
    std::unique_lock<std::mutex> lock(mtx_cv);
    cv.wait(lock, [] { return data_ready; }); // 等待条件成立
    std::cout << "Consumer: Data consumed: " << data_buffer[0] << std::endl;
}

int main() {
    std::thread p(producer);
    std::thread c(consumer);

    p.join();
    c.join();
    return 0;
}

1.3 自旋锁（Spinlock）

自旋锁是一种特殊的锁，它在尝试获取锁失败时不会立即阻塞，而是持续忙等待（自旋），直到锁变为可用。

工作原理： 线程在一个循环中反复检查锁的状态。如果锁被占用，它就继续“自旋”，消耗CPU周期，直到锁被释放。
优点：
- 低延迟： 避免了上下文切换的开销，在临界区非常短且竞争不激烈的情况下，性能优于互斥量。
- 无系统调用： 纯用户态操作。
缺点：
- 浪费CPU周期： 如果临界区较长或竞争激烈，自旋时间过长会白白消耗CPU资源。
- 不公平： 可能导致饥饿问题。
- 不适用于单核系统： 在单核系统中，自旋锁可能导致死锁，因为持有锁的线程无法运行来释放锁。

示例代码：

#include <iostream>
#include <vector>
#include <thread>
#include <atomic> // 使用std::atomic实现自旋锁

class SpinLock {
public:
    void lock() {
        while (flag.test_and_set(std::memory_order_acquire)) {
            // 自旋，可以适当加入一些CPU友好的指令，如_mm_pause
            // 或std::this_thread::yield()
        }
    }

    void unlock() {
        flag.clear(std::memory_order_release);
    }

private:
    std::atomic_flag flag = ATOMIC_FLAG_INIT; // 初始为false (未设置)
};

SpinLock spin_mtx;
int spin_shared_data = 0;

void increment_spin_data() {
    for (int i = 0; i < 100000; ++i) {
        spin_mtx.lock();
        spin_shared_data++;
        spin_mtx.unlock();
    }
}

int main() {
    std::vector<std::thread> threads;
    for (int i = 0; i < 4; ++i) {
        threads.emplace_back(increment_spin_data);
    }

    for (auto& t : threads) {
        t.join();
    }

    std::cout << "Final spin_shared_data: " << spin_shared_data << std::endl; // 预期 400000
    return 0;
}

1.4 原子操作（`std::atomic`）

std::atomic 提供了无锁的原子性操作，是构建更高级并发原语的基础。

工作原理： 保证对变量的读、写或读-改-写操作是原子的，不会被其他线程中断。
优点： 无锁，高性能，是实现无锁数据结构和算法的基石。
缺点： 仅限于对单个变量的原子操作，无法直接实现复杂的等待/通知机制。

从上述回顾中不难看出，传统的互斥量和条件变量在通用性上表现出色，但都面临着上下文切换的开销。自旋锁虽然避免了上下文切换，却可能浪费CPU。我们需要一种机制，既能像自旋锁一样在竞争不激烈时保持低延迟，又能像条件变量一样在竞争激烈时释放CPU，避免忙等待。这就是 std::atomic::wait/notify 登场的舞台。

二、C++20 `std::atomic::wait/notify` 登场

std::atomic::wait 和 std::atomic::notify 是 C++20 新增的原子操作，它们提供了一种高效的、基于地址的等待和通知机制。其核心思想是允许线程在一个原子变量上休眠，直到该变量的值发生变化并被另一个线程通知。

2.1 背景与动机

在 C++11/14/17 中，如果我们想在用户空间实现一个高效的等待/通知机制，通常需要依赖于操作系统提供的 futex (Fast Userspace muTEX) 原语，但这在 C++ 标准库中没有直接的跨平台抽象。std::atomic::wait/notify 正是填补了这一空白，它为我们提供了一个标准化的、跨平台的接口，以实现基于 futex 风格的同步。

其主要动机在于：

减少系统调用： 多数情况下，wait/notify 可以在用户空间完成状态检查和线程挂起/唤醒，避免昂贵的内核态切换。
更细粒度的控制： 允许开发者构建更底层的、性能优化的同步原语。
混合策略同步： 方便实现自旋-阻塞（Spin-Block）策略。

2.2 工作原理

std::atomic 类型的对象现在拥有了 wait、notify_one 和 notify_all 成员函数。

atomic_var.wait(old_value, memory_order = std::memory_order_seq_cst)
- 这个函数会原子地检查 atomic_var 的当前值是否等于 old_value。
- 如果相等，线程将进入休眠状态，等待被 notify 唤醒。
- 如果不相等，函数立即返回，不会休眠。
- memory_order 参数影响的是对 atomic_var 的读取操作的内存序，但通常在此处不重要，因为 wait 的核心是条件检查和休眠。默认的 std::memory_order_seq_cst 足够安全。
- 关键点： wait 操作是带有条件的。它只有在原子变量的值与 old_value 相等时才会休眠。这极大地减少了虚假唤醒的复杂性，因为被唤醒后，如果值已经改变，线程可以直接继续执行，而无需重新检查条件。
atomic_var.notify_one()
- 唤醒一个（如果存在的话）正在 atomic_var 上等待的线程。
- 此操作不提供任何内存序保证。它仅仅是一个唤醒信号。
atomic_var.notify_all()
- 唤醒所有（如果存在的话）正在 atomic_var 上等待的线程。
- 此操作同样不提供任何内存序保证。

wait 的循环使用模式：
尽管 wait(old_value) 减少了虚假唤醒的问题，但为了健壮性，通常仍建议在循环中调用 wait，以防万一：

// 假设 state 是一个 std::atomic<int>
int expected_value = state.load(); // 或某种初始状态
while (state.load() == expected_value) {
    state.wait(expected_value);
    // 在这里，expected_value 可能会在 wait 期间被改变，然后又改回了 expected_value。
    // 这就是为什么需要循环检查。
    // 更常见的做法是，在 wait 之后，重新加载 state 的值，然后重新计算 expected_value
    // 或者，如果 state 的改变意味着条件满足，那么循环就直接退出。
}

实际上，wait(old_value) 的设计就是为了避免在值已经改变的情况下进入休眠。所以，在大多数场景下，像下面这样使用是更常见且正确的：

// 假设 atomic_var 状态为 S1 时需要等待
// 当 atomic_var 状态变为 S2 时，可以继续
int current_state = atomic_var.load(std::memory_order_relaxed);
while (current_state == S1) { // 检查是否仍在等待状态
    atomic_var.wait(current_state); // 如果值仍是 current_state，则休眠
    current_state = atomic_var.load(std::memory_order_relaxed); // 被唤醒后，重新加载值
}
// 此时 atomic_var 的值已经不是 S1 了，条件满足，继续执行

2.3 优势

用户空间优化： 在许多现代操作系统上，std::atomic::wait/notify 可以利用底层的 futex-like 机制，在用户空间完成线程的挂起和唤醒，避免了昂贵的系统调用开销，尤其是在没有实际线程需要休眠或唤醒的情况下。
低延迟： 相较于 std::condition_variable，它通常更轻量级，因为它不需要与之关联的 std::mutex，从而减少了锁竞争和上下文切换的潜在开销。
精确唤醒： wait(old_value) 机制使得线程只在期望的值尚未改变时才进入休眠，这简化了等待逻辑，并减少了不必要的唤醒。

2.4 潜在挑战与注意事项

虚假唤醒： 尽管 wait(old_value) 机制有所缓解，但操作系统仍然可能出于各种原因（如信号、中断）唤醒线程。因此，最佳实践仍然是在一个循环中调用 wait 并检查条件，确保条件确实满足才退出循环。
ABA 问题： 如果原子变量从 A 变为 B 再变回 A，wait(A) 可能会被“欺骗”而不会休眠。然而，对于大多数锁或状态标志而言，我们通常关心的是最终状态，而不是中间过程。在构建锁时，这通常不是一个致命问题。
CPU 浪费： 如果 wait 之前的检查循环（或自旋部分）执行时间过长，仍然可能导致CPU浪费。合理设计自旋策略至关重要。
平台差异： 尽管是标准库特性，但底层实现可能因操作系统和硬件而异。在某些极端情况下，wait/notify 可能会退化为系统调用，其性能优势可能不如预期。

三、构建高性能自旋阻塞器（Spin-Blocker）

现在，让我们利用 std::atomic::wait/notify 来构建一个高性能的自旋阻塞器。这个阻塞器结合了自旋锁的低延迟和条件变量的省电特性，在竞争不激烈时通过自旋快速获取锁，而在竞争激烈时则主动休眠释放CPU。

3.1 基本思想

一个自旋阻塞器通常采用两阶段策略：

自旋阶段（Spin Phase）： 线程首先尝试自旋一小段时间。如果在这段时间内成功获取到锁，那么就避免了上下文切换，实现了低延迟。这个阶段通常使用 std::atomic 的 compare_exchange_weak 操作。为了避免纯粹的忙等待导致CPU过热和性能下降，可以在自旋循环中插入 _mm_pause (x86/x64) 或 std::this_thread::yield()。
阻塞阶段（Block Phase）： 如果经过一段时间的自旋后仍未能获取锁，线程会意识到竞争可能比较激烈或者临界区较长，此时它会放弃自旋，转而利用 std::atomic::wait 进入休眠状态，等待被持有锁的线程唤醒。这释放了CPU资源，避免了无谓的忙等待。

3.2 `SpinBlockMutex` 的设计

我们将实现一个名为 SpinBlockMutex 的类，它将使用一个 std::atomic<uint32_t> 来表示锁的状态。

锁状态定义：

0: 锁未被占用（unlocked）。
1: 锁已被占用，且没有线程在等待（locked, no waiters）。
2 或更大：锁已被占用，且有线程在等待（locked, with waiters）。我们可以用 atomic_var 的值来表示等待线程的数量，但更简单的做法是 1 表示有锁，>1 表示有锁且有等待者。这里我们简化为 1 和 2。

lock() 方法的逻辑：

快速路径（Fast Path）： 尝试使用 compare_exchange_weak 将状态从 0 变为 1。如果成功，表示无竞争获取锁，直接返回。
自旋路径（Spin Path）： 如果快速路径失败，表示锁已被占用。进入自旋循环，尝试再次将状态从 0 变为 1。
- 在自旋循环中，可以检查当前状态：
  - 如果状态是 0 (unlocked)，尝试 CAS 从 0 到 1。成功则获取锁，退出。
  - 如果状态是 1 (locked, no waiters)，表示锁被占用。继续自旋，并可以短暂暂停 (_mm_pause 或 std::this_thread::yield())。
  - 如果自旋达到一定次数，或者发现状态已经是 2 (locked, with waiters)，则转入阻塞路径。
阻塞路径（Block Path）：
- 在进入阻塞之前，我们需要原子地增加锁的状态，表示有等待者。例如，从 1 变为 2。这需要一个 fetch_add 或 compare_exchange_weak 操作。
- 调用 atomic_var.wait(expected_value)，其中 expected_value 是当前线程决定等待时，atomic_var 的值（即锁被占用且有等待者的状态）。
- 被唤醒后，重新尝试获取锁（通常是跳回到自旋路径的开始，或者直接尝试 CAS 从 0 到 1）。

unlock() 方法的逻辑：

尝试将锁的状态从 1（locked, no waiters）原子地变为 0（unlocked）。如果成功，且没有等待者，直接返回。
如果尝试失败（说明锁状态是 2 或更高，即有等待者），或者成功后发现有等待者，则将锁状态减去 1 (例如从 2 变为 1)，并调用 atomic_var.notify_one() 或 notify_all() 唤醒一个或所有等待线程。

3.3 详细代码实现

我们将使用 std::atomic<uint32_t> 来存储锁的状态。

#include <atomic>
#include <thread>
#include <chrono>
#include <iostream>
#include <vector>

// 平台相关的自旋优化指令
#ifdef _MSC_VER
#include <intrin.h> // For _mm_pause on MSVC
#define PAUSE_INSTRUCTION _mm_pause()
#elif defined(__GNUC__) || defined(__clang__)
#define PAUSE_INSTRUCTION __builtin_ia32_pause() // For _mm_pause on GCC/Clang
#else
#define PAUSE_INSTRUCTION ((void)0) // No-op for other compilers
#endif

class SpinBlockMutex {
public:
    enum State : uint32_t {
        Unlocked = 0,
        LockedNoWaiters = 1,
        LockedWithWaiters = 2 // Lock is held, and there are threads waiting
    };

    SpinBlockMutex() : state_(Unlocked) {}

    void lock() {
        uint32_t expected = Unlocked;
        // 1. 快速路径：尝试无竞争获取锁
        // 如果当前是 Unlocked (0)，尝试 CAS 变为 LockedNoWaiters (1)
        if (state_.compare_exchange_weak(expected, LockedNoWaiters,
                                        std::memory_order_acquire,
                                        std::memory_order_relaxed)) {
            return; // 成功获取锁，无竞争
        }

        // 2. 自旋路径：锁已被占用，进入自旋等待
        // 尝试 CAS 失败，或者锁已经是 LockedNoWaiters 或 LockedWithWaiters
        int spin_count = 0;
        static constexpr int MAX_SPIN_COUNT = 1000; // 自旋阈值

        while (true) {
            // 如果锁是 Unlocked，再次尝试 CAS 获取锁
            expected = Unlocked;
            if (state_.compare_exchange_weak(expected, LockedNoWaiters,
                                            std::memory_order_acquire,
                                            std::memory_order_relaxed)) {
                return; // 自旋期间成功获取锁
            }

            // 锁仍被占用
            if (spin_count < MAX_SPIN_COUNT) {
                // 如果当前锁状态是 LockedNoWaiters，则保持该状态
                // 如果是 LockedWithWaiters，则表示已经有等待者，不需要再次增加
                // 这里我们仅在锁被持有时自旋，不关心是否有其他等待者
                // 确保 state_ 不是 Unlocked
                PAUSE_INSTRUCTION; // CPU 友好的自旋暂停指令
                spin_count++;
            } else {
                // 3. 阻塞路径：自旋达到阈值，转为阻塞
                // 尝试将状态从 LockedNoWaiters 变为 LockedWithWaiters
                // 如果当前是 Unlocked，则表示在自旋期间锁被释放了，应该重新尝试获取锁
                // 如果当前是 LockedNoWaiters，则尝试变为 LockedWithWaiters
                // 如果当前已经是 LockedWithWaiters，则保持不变
                uint32_t old_state = state_.load(std::memory_order_relaxed);
                while (old_state != Unlocked) { // 只有在锁被持有时才尝试变为 LockedWithWaiters
                    if (old_state == LockedNoWaiters) {
                        if (state_.compare_exchange_weak(old_state, LockedWithWaiters,
                                                        std::memory_order_acquire,
                                                        std::memory_order_relaxed)) {
                            // 成功将状态变为 LockedWithWaiters，现在可以等待了
                            break;
                        }
                    } else if (old_state == LockedWithWaiters) {
                        // 锁已经被持有且有其他等待者，直接等待即可
                        break;
                    }
                    // 如果 CAS 失败，或者 state_ 变了，重新加载并循环
                    old_state = state_.load(std::memory_order_relaxed);
                }

                // 如果 old_state 变为 Unlocked，说明锁被释放了，跳出内层循环重新尝试获取锁
                if (old_state == Unlocked) {
                    spin_count = 0; // 重置自旋计数器，重新开始自旋
                    continue;
                }

                // 在这里，state_ 肯定是 LockedWithWaiters (或 LockedNoWaiters 变为 LockedWithWaiters)
                // 且 old_state 记录了我们期望的值（LockedWithWaiters）
                // 线程进入休眠，等待被唤醒
                state_.wait(old_state, std::memory_order_relaxed); // 等待 old_state 值不变
                spin_count = 0; // 被唤醒后，重置自旋计数器，重新开始自旋
            }
        }
    }

    void unlock() {
        // 尝试将锁状态从 LockedNoWaiters 变为 Unlocked
        uint32_t expected = LockedNoWaiters;
        if (state_.compare_exchange_weak(expected, Unlocked,
                                        std::memory_order_release,
                                        std::memory_order_relaxed)) {
            return; // 锁被释放，且没有等待者，直接返回
        }

        // 锁状态不是 LockedNoWaiters，说明是 LockedWithWaiters (有等待者)
        // 或者在 CAS 期间有等待者将状态从 LockedNoWaiters 变成了 LockedWithWaiters
        // 此时，需要将状态减去 1 (或从 LockedWithWaiters 变为 Unlocked) 并通知一个等待线程

        // 先将状态从 LockedWithWaiters 变为 Unlocked
        // 需要确保是在 LockedWithWaiters 状态下尝试，否则可能不安全
        // 更好的做法是先 load，再 CAS
        uint32_t old_state_val = state_.exchange(Unlocked, std::memory_order_release);
        // 如果 old_state_val 是 LockedWithWaiters，说明有线程在等待，需要通知
        if (old_state_val == LockedWithWaiters) {
            state_.notify_one(); // 唤醒一个等待线程
        }
        // 注意：这里 exchange 确保了锁被释放为 Unlocked。
        // old_state_val == LockedNoWaiters 意味着没有等待者，不用通知。
        // old_state_val == LockedWithWaiters 意味着有等待者，需要通知。
    }

private:
    std::atomic<uint32_t> state_;
};

// --- 使用 SpinBlockMutex 进行测试 ---

SpinBlockMutex my_mutex;
long long global_counter = 0;
static constexpr int NUM_THREADS = 8;
static constexpr int ITERATIONS_PER_THREAD = 1000000;

void worker_thread() {
    for (int i = 0; i < ITERATIONS_PER_THREAD; ++i) {
        my_mutex.lock();
        global_counter++;
        my_mutex.unlock();
    }
}

int main() {
    std::cout << "Testing SpinBlockMutex with " << NUM_THREADS << " threads, "
              << ITERATIONS_PER_THREAD << " iterations per thread." << std::endl;

    auto start_time = std::chrono::high_resolution_clock::now();

    std::vector<std::thread> threads;
    for (int i = 0; i < NUM_THREADS; ++i) {
        threads.emplace_back(worker_thread);
    }

    for (auto& t : threads) {
        t.join();
    }

    auto end_time = std::chrono::high_resolution_clock::now();
    std::chrono::duration<double, std::milli> duration = end_time - start_time;

    std::cout << "Final counter value: " << global_counter << std::endl;
    std::cout << "Expected counter value: " << (long long)NUM_THREADS * ITERATIONS_PER_THREAD << std::endl;
    std::cout << "Time taken: " << duration.count() << " ms" << std::endl;

    return 0;
}

代码解释：

State 枚举： 定义了锁的三种状态，清晰明了。
PAUSE_INSTRUCTION： 这是平台相关的宏，用于在自旋时给CPU一个提示，告诉它当前线程正在忙等待，可以优化功耗和缓存。
lock() 方法：
- 首先尝试一次无竞争的 compare_exchange_weak。这是最快的路径，如果成功，直接返回。
- 如果失败，进入 while(true) 循环进行自旋。
- 在自旋循环中，它会再次尝试获取锁。
- spin_count 用于限制自旋次数。当 spin_count 达到 MAX_SPIN_COUNT 时，表示竞争可能比较激烈，需要转为阻塞。
- 在转为阻塞前，lock 方法会尝试将 state_ 从 LockedNoWaiters 提升到 LockedWithWaiters。如果锁已经处于 LockedWithWaiters，则无需再次修改。如果 state_ 变为 Unlocked，说明有其他线程释放了锁，可以重新尝试自旋获取。
- state_.wait(old_state, ...)：如果成功进入阻塞阶段，线程会在此处休眠。old_state 是线程决定休眠时，锁的状态（LockedWithWaiters）。只有当 state_ 的值仍然是 old_state 时，线程才会休眠。
unlock() 方法：
- 首先尝试将 state_ 从 LockedNoWaiters 变为 Unlocked。这是最快且最常见的情况（没有其他线程在等待）。
- 如果失败，说明 state_ 可能是 LockedWithWaiters。此时，我们使用 state_.exchange(Unlocked, ...) 原子地将锁释放，并获取释放前的状态。
- 如果释放前的状态是 LockedWithWaiters，则表示有线程在等待，需要调用 state_.notify_one() 唤醒一个等待线程。

3.4 内存序（Memory Order）的正确性

在上述 SpinBlockMutex 的实现中，内存序的选择至关重要：

lock() 中的 std::memory_order_acquire：
- 当一个线程成功获取锁时（无论是通过快速路径还是自旋路径），它必须使用 std::memory_order_acquire。这确保了在获取锁之后，所有在之前释放锁的线程（unlock() 操作）所做的内存写入操作都对当前线程可见。
unlock() 中的 std::memory_order_release：
- 当一个线程释放锁时，它必须使用 std::memory_order_release。这确保了在释放锁之前，当前线程在临界区内进行的所有内存写入操作都对后续获取该锁的线程可见。
std::atomic::wait 和 notify 的内存序：
- wait 和 notify 操作本身不直接提供内存同步语义。它们的主要作用是线程的挂起和唤醒。
- 同步语义是通过 wait 前后的原子变量的读写操作（例如 compare_exchange_weak 或 exchange）提供的。
- 在 lock() 中，当线程被 wait 唤醒后，它会重新尝试获取锁，这个重新获取锁的操作（例如 compare_exchange_weak）会带上 acquire 语义，从而建立正确的内存同步。
- notify_one()/notify_all() 只是一个信号，它不提供内存序。同步的建立发生在被唤醒的线程成功获取锁的那一刻。

表格：内存序与同步效果

操作类型	内存序语义	效果
`state_.compare_exchange_weak` (获取锁)	`std::memory_order_acquire`	确保当前线程能看到所有之前释放锁的线程所做的内存写入。
`state_.exchange` 或 `CAS` (释放锁)	`std::memory_order_release`	确保当前线程在释放锁前所做的所有内存写入，对后续获取锁的线程可见。
`state_.load` (检查状态)	`std::memory_order_relaxed` 或 `std::acquire`	`relaxed` 足够用于检查条件，但如果需要与 `release` 建立同步，则需 `acquire`。在 `wait` 前后一般用 `relaxed`。
`state_.wait`	无直接内存序语义	条件检查和线程挂起。同步由其前后的原子操作提供。
`state_.notify_one/all`	无直接内存序语义	唤醒一个或所有等待线程。

四、性能对比与应用场景

现在我们有了一个 SpinBlockMutex，那么它在性能上与传统的 std::mutex 或 std::condition_variable 有何不同？以及它适用于哪些场景？

4.1 性能比较概览

特性/原语	`std::mutex`	`std::condition_variable` (与 `std::mutex`)	`SpinLock` (纯自旋)	`SpinBlockMutex` (自旋阻塞器)
基本机制	操作系统提供的互斥量，内核态阻塞	配合互斥量，基于条件休眠，内核态阻塞	用户态忙等待（自旋）	用户态自旋 + 用户态 `wait/notify` 阻塞
上下文切换开销	高（当有竞争时）	高（当有线程等待时）	无	低（无竞争时无，高竞争时有，但可能优于 `std::mutex`）
CPU 资源消耗	低（阻塞时释放CPU）	低（等待时释放CPU）	高（长时间自旋会浪费CPU）	低（自旋达到阈值后释放CPU）
延迟	高（涉及系统调用和调度）	高（涉及系统调用和调度）	低（无竞争时极低）	低（无竞争时极低），中高竞争时适中
易用性	简单	中等，需要正确处理虚假唤醒和互斥量	中等，需要注意自旋策略和饥饿问题	中等，需要理解 `wait/notify` 机制和自旋阻塞逻辑
适用场景	通用同步，临界区长度不确定或较长，竞争不确定	等待特定条件，生产者-消费者模型，事件通知	临界区极短，竞争不激烈，对延迟要求极高	临界区短，对延迟敏感，竞争可能从不激烈到激烈（平衡型）
标准库支持	C++11 及更高	C++11 及更高	通常自定义实现，或使用 `std::atomic_flag`	C++20 及更高 (使用 `std::atomic::wait/notify`)

4.2 适用场景

SpinBlockMutex 这种自旋阻塞器在以下场景中表现出色：

高频、低延迟的共享数据访问： 例如，在游戏引擎、金融交易系统、实时数据处理等场景中，对共享数据（如计数器、短队列、状态标志）的访问非常频繁，且要求尽可能低的延迟。SpinBlockMutex 可以在大多数情况下避免上下文切换，提供接近自旋锁的性能。
实现自定义的同步原语： wait/notify 是构建更高级、更复杂的无锁或低锁同步原语（如信号量、屏障、读写锁的某些变体）的强大基础。
短时临界区： 当临界区内的操作非常短，以至于上下文切换的开销远大于自旋的开销时，自旋阻塞器是理想选择。
线程数与核心数相近： 在线程数不多于CPU核心数的场景下，自旋的负面影响相对较小，因为忙等待的线程仍然可以利用空闲的核心。

4.3 不适用场景

临界区很长： 如果临界区内的操作耗时较长，即使在低竞争环境下，自旋也会导致长时间占用CPU，白白浪费资源。
竞争非常激烈且持续： 在极端高竞争的情况下，所有线程都可能达到自旋阈值并转为阻塞，此时 SpinBlockMutex 的性能可能与 std::mutex 相差无几，甚至因为额外的逻辑判断而略逊一筹。
单核系统或超额订阅（Oversubscription）： 在单核系统上或当活跃线程数远超CPU核心数时，自旋锁会导致严重的性能问题，因为自旋线程会阻止持有锁的线程运行。SpinBlockMutex 的阻塞阶段可以缓解这个问题，但自旋阶段仍是瓶颈。
资源受限的嵌入式系统： 在这些系统中，CPU周期和电池续航是宝贵的资源，长时间自旋会导致不必要的功耗和热量。

五、实践建议与最佳实践

权衡与选择： 在大多数通用场景下，std::mutex 和 std::condition_variable 仍然是首选，因为它们易于使用且足够高效。只有在明确有性能瓶颈、且通过基准测试确认传统锁是瓶颈时，才考虑使用 SpinBlockMutex 或其他基于 wait/notify 的自定义同步原语。
合理设置自旋阈值： MAX_SPIN_COUNT 的值需要根据具体应用场景和硬件环境进行调整。过小可能导致过早阻塞，增加上下文切换；过大可能导致CPU浪费。通过基准测试找到最佳平衡点。
使用 PAUSE_INSTRUCTION： 在自旋循环中使用 _mm_pause (x86/x64) 是一个好习惯。它提示CPU当前线程正在忙等待，可以优化功耗，并避免不必要的缓存行失效风暴。
注意虚假唤醒： 尽管 wait(old_value) 减少了虚假唤醒的复杂性，但在 wait 之后，始终重新检查条件仍然是最佳实践，以确保逻辑的健壮性。
避免死锁和活锁： 无论使用何种锁，死锁和活锁的风险都存在。遵循“按序加锁”、“避免持有锁时调用外部函数”等通用原则。
基准测试： 始终通过严谨的基准测试来评估不同同步机制在您的具体应用中的性能表现。不要凭空猜测。
理解底层： 深入理解 std::atomic 的内存序语义，以及 wait/notify 的底层实现（通常是 futex），对于正确和高效地使用这些原语至关重要。

六、展望与未来发展

C++20 的 std::atomic::wait/notify 是 C++ 标准库在并发领域迈出的重要一步，它为开发者提供了更底层的控制能力，使得在用户空间构建高性能同步原语成为可能。随着硬件架构的不断演进，对并发和并行编程的需求也日益增长。未来，我们可以期待 C++ 标准库在以下方面继续发展：

更丰富的并发原语： 可能会有更多基于 wait/notify 或其他底层机制构建的高级同步原语被纳入标准库。
协程与并发的融合： C++20 引入的协程（Coroutines）与并发机制的结合，将为异步编程带来新的范式，进一步提高程序的响应性和吞吐量。
硬件辅助的并发优化： 随着硬件对并发操作的支持越来越强大，标准库可能会提供更直接的接口来利用这些硬件特性。

std::atomic::wait/notify 作为 C++20 的一项强大补充，赋予了开发者在多线程同步中构建高性能、低延迟机制的细粒度控制能力。通过理解其工作原理并结合自旋阻塞的策略，我们能够根据具体的应用需求，在性能和资源利用之间找到最佳平衡点，为我们的并发程序注入新的活力。

一、多线程同步的基石：传统方法的审视与局限

1.1 互斥量（std::mutex）

1.2 条件变量（std::condition_variable）

1.3 自旋锁（Spinlock）

1.4 原子操作（std::atomic）

二、C++20 std::atomic::wait/notify 登场

2.1 背景与动机

2.2 工作原理

2.3 优势

2.4 潜在挑战与注意事项

三、构建高性能自旋阻塞器（Spin-Blocker）

3.1 基本思想

3.2 SpinBlockMutex 的设计

3.3 详细代码实现

3.4 内存序（Memory Order）的正确性

四、性能对比与应用场景

4.1 性能比较概览

4.2 适用场景

4.3 不适用场景

五、实践建议与最佳实践

六、展望与未来发展

发表回复 取消回复

1.1 互斥量（`std::mutex`）

1.2 条件变量（`std::condition_variable`）

1.4 原子操作（`std::atomic`）

二、C++20 `std::atomic::wait/notify` 登场

3.2 `SpinBlockMutex` 的设计

发表回复取消回复