C++ `futex` (Fast Userspace Mutex)：底层原子操作实现用户态锁 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

哈喽，各位好！今天咱们来聊聊C++里一个稍微有点“硬核”的东西——futex，也就是Fast Userspace Mutex（快速用户空间互斥锁）。这玩意儿听起来高大上，但实际上就是一种底层原子操作，可以让我们在用户态实现锁，避免频繁进入内核态，从而提高性能。

一、Mutex：锁住你的宝贝！

首先，咱们得明白Mutex是干啥的。简单来说，Mutex就像一把锁，保护着你的共享资源（比如一块内存、一个文件等等）。当多个线程都要访问这个资源时，只有拿到锁的线程才能访问，其他线程就得乖乖等着，直到锁被释放。这样就能避免多个线程同时修改资源，导致数据混乱。

没有锁的世界简直就是灾难现场，想象一下：

#include <iostream>
#include <thread>
#include <vector>

int counter = 0;

void increment() {
    for (int i = 0; i < 100000; ++i) {
        counter++;
    }
}

int main() {
    std::vector<std::thread> threads;
    for (int i = 0; i < 10; ++i) {
        threads.emplace_back(increment);
    }

    for (auto& thread : threads) {
        thread.join();
    }

    std::cout << "Counter: " << counter << std::endl; // 期望是1000000，但往往不是
    return 0;
}

这段代码创建了10个线程，每个线程都对counter变量进行10万次自增操作。理论上，最终counter的值应该是100万。但运行一下你会发现，结果往往小于100万，而且每次运行的结果还不一样！这就是因为多个线程同时修改counter，导致数据竞争，有些自增操作被覆盖了。

二、Futex：用户态锁的秘密武器

为了解决上面的问题，我们可以使用Mutex。C++标准库提供了std::mutex，它底层通常使用操作系统提供的Mutex机制，比如Linux的pthread_mutex_t，Windows的CRITICAL_SECTION。这些Mutex的实现通常涉及到系统调用，也就是进入内核态。

但是，系统调用是很耗时的！每次加锁、解锁都要进入内核，效率就降低了。这时候，futex就派上用场了。

futex（Fast Userspace Mutex）是一种在用户空间实现同步原语的机制。它的核心思想是：

快速路径： 在没有竞争的情况下，加锁和解锁操作完全在用户空间完成，不需要进入内核。
慢速路径： 当发生竞争时，才通过系统调用进入内核，让内核来负责线程的阻塞和唤醒。

这样，在大多数情况下，我们都可以避免进入内核，提高性能。

三、Futex的工作原理

futex的工作原理可以用下面这张表格来概括：

状态	描述
UNLOCKED	锁是空闲的，没有任何线程持有它。
LOCKED_UNCONTESTED	锁被一个线程持有，没有其他线程正在等待获取锁。这是 `futex` 的理想状态，加锁和解锁操作都在用户空间完成。
LOCKED_CONTESTED	锁被一个线程持有，并且至少有一个其他线程正在等待获取锁。在这种状态下，`futex` 会使用系统调用来阻塞等待线程，并在锁释放时唤醒它们。

简单来说，futex就是通过一个整数变量来表示锁的状态。加锁时，先尝试原子地将这个整数从0变成1。如果成功，就说明拿到了锁，直接返回；如果失败，就说明锁已经被其他线程持有，需要进入内核等待。解锁时，原子地将整数从1变成0，然后通知内核唤醒等待的线程。

四、Futex的API

Linux提供了futex()系统调用，它的原型是这样的：

#include <linux/futex.h>
#include <sys/syscall.h>
#include <unistd.h>

int futex(int *uaddr, int futex_op, int val, const struct timespec *timeout, int *uaddr2, int val3);

参数解释：

uaddr: 指向一个整数变量的指针，这个变量用来表示锁的状态。
futex_op: 指定要执行的操作，比如FUTEX_WAIT（等待）、FUTEX_WAKE（唤醒）等等。
val: 操作所需的值，比如FUTEX_WAIT需要指定等待的期望值。
timeout: 等待的超时时间。
uaddr2, val3: 一些操作可能需要用到，一般情况下可以忽略。

虽然futex()系统调用很强大，但是直接使用它还是比较麻烦的。所以，我们可以基于futex()来实现一个简单的用户态Mutex。

五、基于Futex实现一个简单的Mutex

下面是一个简单的基于futex实现的Mutex的例子：

#include <iostream>
#include <atomic>
#include <thread>
#include <vector>
#include <linux/futex.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <cerrno> // for errno

class FutexMutex {
public:
    FutexMutex() : state(0) {}

    void lock() {
        int expected = 0;
        if (state.compare_exchange_strong(expected, 1, std::memory_order_acquire)) {
            // 成功获取锁，直接返回
            return;
        }

        // 获取锁失败，进入等待
        while (true) {
            // 再次检查状态，避免虚假唤醒
            expected = 1;
            if (state.compare_exchange_strong(expected, 1, std::memory_order_acquire)) {
                return; // 成功获取锁
            }

            // 等待Futex
            int result = syscall(SYS_futex, &state, FUTEX_WAIT, 1, nullptr, nullptr, 0);
            if (result == -1 && errno != EAGAIN) {
                // 处理错误，比如超时
                std::cerr << "Futex wait error: " << errno << std::endl;
                // 可以选择重试或者抛出异常
            }
        }
    }

    void unlock() {
        if (state.exchange(0, std::memory_order_release) != 0) {
            // 唤醒等待的线程
            syscall(SYS_futex, &state, FUTEX_WAKE, 1, nullptr, nullptr, 0);
        }
    }

private:
    std::atomic<int> state; // 0: unlocked, 1: locked
};

int main() {
    FutexMutex mutex;
    int counter = 0;

    auto increment = [&](int thread_id) {
        for (int i = 0; i < 100000; ++i) {
            mutex.lock();
            counter++;
            mutex.unlock();
        }
        std::cout << "Thread " << thread_id << " finished." << std::endl;
    };

    std::vector<std::thread> threads;
    for (int i = 0; i < 10; ++i) {
        threads.emplace_back(increment, i);
    }

    for (auto& thread : threads) {
        thread.join();
    }

    std::cout << "Counter: " << counter << std::endl; // 期望是1000000
    return 0;
}

代码解释：

FutexMutex类: 封装了基于futex的Mutex。
state成员变量: 一个std::atomic<int>类型的变量，用来表示锁的状态。0表示 unlocked，1表示 locked。
lock()方法:
- 首先，尝试使用compare_exchange_strong原子地将state从0变成1。如果成功，说明拿到了锁，直接返回。
- 如果compare_exchange_strong失败，说明锁已经被其他线程持有，需要进入等待。
- 进入一个循环，不断尝试获取锁。每次循环先再次检查state，避免虚假唤醒。如果仍然获取锁失败，就调用syscall(SYS_futex, &state, FUTEX_WAIT, 1, nullptr, nullptr, 0)进入内核等待。FUTEX_WAIT操作会阻塞当前线程，直到其他线程调用FUTEX_WAKE唤醒它。
- 注意，FUTEX_WAIT可能会因为信号中断等原因返回错误。我们需要检查errno，如果不是EAGAIN，就说明发生了真正的错误，需要处理。
unlock()方法:
- 使用state.exchange(0, std::memory_order_release)原子地将state设置回0。
- 如果exchange返回的值不是0，说明之前锁是被持有的，需要唤醒等待的线程。调用syscall(SYS_futex, &state, FUTEX_WAKE, 1, nullptr, nullptr, 0)唤醒一个等待的线程。

运行上面的代码，你会发现counter的值总是100万，而且效率也比使用std::mutex更高（当然，这取决于具体的使用场景和系统环境）。

六、Futex的注意事项

虚假唤醒 (Spurious Wakeups): futex可能会发生虚假唤醒，也就是线程在没有被明确唤醒的情况下，从FUTEX_WAIT返回。因此，在等待futex之后，一定要再次检查锁的状态，确保真的拿到了锁。
优先级反转 (Priority Inversion): 如果一个高优先级的线程在等待一个被低优先级线程持有的锁，可能会发生优先级反转。futex本身并没有解决优先级反转的机制，需要结合其他的同步原语或者调度策略来解决。
死锁 (Deadlock): 使用futex不当也可能导致死锁。例如，一个线程多次尝试获取同一个锁，而没有释放，就会导致死锁。
错误处理: futex系统调用可能会返回错误，需要仔细检查errno，并进行适当的处理。

七、Futex与std::mutex

那么，我们应该在什么时候使用futex，什么时候使用std::mutex呢？

特性	Futex	std::mutex
级别	底层，需要直接调用系统调用。	高层，C++标准库提供的Mutex实现。
易用性	复杂，需要手动处理原子操作、等待、唤醒等细节。	简单，直接使用`lock()`和`unlock()`方法即可。
性能	在没有竞争的情况下，性能更高，因为加锁和解锁操作完全在用户空间完成。	在有竞争的情况下，性能可能不如`futex`，因为每次加锁和解锁都可能涉及到系统调用。
可移植性	依赖于操作系统，不同的操作系统可能有不同的`futex`实现。	具有更好的可移植性，因为C++标准库在不同的平台上都有统一的实现。
适用场景	对性能要求非常高，并且能够控制竞争的情况。例如，在某些高性能服务器或者游戏引擎中，可以使用`futex`来优化锁的性能。	大多数情况下，`std::mutex`是更好的选择。它简单易用，并且具有良好的可移植性。只有在性能成为瓶颈，并且经过仔细的分析和测试之后，才考虑使用`futex`。

总的来说，futex是一个强大的工具，但同时也需要谨慎使用。在大多数情况下，std::mutex已经足够满足需求，并且更加安全和易用。只有在对性能有极致要求，并且能够深入理解futex的原理和注意事项的情况下，才应该考虑使用它。

八、总结

今天我们一起探索了futex这个用户态锁的秘密武器。它通过原子操作和系统调用，实现了在用户空间高效地进行线程同步。虽然futex使用起来比较复杂，但它在某些对性能要求极高的场景下，可以发挥巨大的作用。希望今天的分享能让你对futex有一个更深入的了解。下次遇到需要优化锁性能的情况，不妨考虑一下它！

当然，futex的世界还有很多可以探索的地方，比如FUTEX_CMP_REQUEUE、FUTEX_PRIVATE_FLAG等等。感兴趣的朋友可以继续深入研究。

感谢大家的聆听！希望今天的内容对你有所帮助！

发表回复 取消回复

发表回复取消回复