解析 ‘I/O Wait’ 的本质：为什么磁盘忙碌会导致 CPU 使用率虚高？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位编程领域的同仁，

欢迎来到今天的技术讲座。今天我们将深入探讨一个在系统性能分析中经常被误解，却又至关重要的概念：I/O Wait。许多人在观察系统资源时，会看到CPU使用率中有一个名为“wa”或“I/O Wait”的指标，有时这个值甚至能高达90%以上。直观上，这似乎意味着CPU正在忙碌地执行与I/O相关的任务。然而，这种理解是片面的，甚至可以说是错误的。今天，我将带大家解析I/O Wait的本质，理解为什么磁盘的忙碌会导致CPU使用率“虚高”，以及如何正确地诊断和优化这类性能问题。

引言：CPU利用率的迷思

在日常的系统监控中，我们经常使用top、htop或vmstat等工具来查看CPU利用率。这些工具通常会显示几个关键指标：

us (user): 用户空间进程的CPU使用时间。
sy (system): 内核空间进程的CPU使用时间，包括系统调用、内核任务等。
ni (nice): 被nice过的用户空间进程的CPU使用时间。
id (idle): CPU空闲时间。
wa (I/O Wait): CPU等待I/O完成的时间。
hi (hardware interrupt): 硬中断处理时间。
si (software interrupt): 软中断处理时间。
st (steal): 虚拟化环境中，被其他虚拟机“偷走”的CPU时间。

其中，wa这个指标尤其容易引起困惑。当它很高时，许多人会认为“CPU在忙着处理I/O”，甚至将其解读为CPU不够用。然而，这与事实恰恰相反。高wa通常意味着CPU在等待，它本可以做更多工作，但因为某个或多个进程正在等待磁盘、网络或其他I/O操作完成，导致CPU无事可做。这种“等待”并非CPU的“忙碌”，而是其“被迫空闲”。理解这一点，是正确诊断系统性能瓶颈的关键第一步。

计算机体系结构基础：CPU、进程与内核

为了深入理解I/O Wait，我们首先需要回顾一些计算机体系结构和操作系统的基础知识。

CPU的工作原理

中央处理器（CPU）是计算机的大脑，负责执行指令和处理数据。现代CPU通常包含多个核心（cores），每个核心可以独立执行指令。一些CPU还支持超线程（Hyper-threading），使得单个物理核心能够同时处理两个线程，从操作系统的角度看，就像有两个逻辑核心一样。CPU在任意时刻只能执行一条指令序列，因此它需要高效地在不同任务之间切换。

进程与线程

进程（Process）：是程序的一次执行实例，拥有独立的地址空间、文件句柄等资源。一个进程至少包含一个线程。
线程（Thread）：是CPU调度的基本单位，共享进程的地址空间和大部分资源，但拥有独立的程序计数器、栈和寄存器。

操作系统通过调度器（Scheduler）来决定哪个线程在哪个CPU核心上运行。当一个线程被调度到CPU上运行时，它就处于运行（Running）状态。当它被中断或自愿放弃CPU时，它可能进入可运行（Runnable）状态（等待被调度），或者阻塞（Blocked/Waiting）状态（等待某个事件的发生，比如I/O完成）。

内核模式与用户模式

操作系统为了保护自身和系统资源，将CPU的执行模式分为两种：

用户模式（User Mode）：应用程序在此模式下运行。它们无法直接访问硬件设备或操作系统的核心数据结构，只能通过系统调用（System Call）来请求内核服务。
内核模式（Kernel Mode）：操作系统内核在此模式下运行。它拥有最高权限，可以访问所有硬件设备和内存。

当应用程序需要执行I/O操作（例如读写文件、发送网络数据）时，它会发起一个系统调用。这将导致CPU从用户模式切换到内核模式，由内核负责执行实际的I/O操作。

CPU状态的细分

在操作系统的视角里，一个CPU核心在某个时间点可以处于以下几种宏观状态：

用户态（User Mode）：CPU正在执行用户程序的代码。
系统态（Kernel Mode）：CPU正在执行操作系统内核的代码，例如处理系统调用、中断等。
空闲态（Idle）：CPU无事可做，处于等待状态。

而wa (I/O Wait) 实际上是空闲态的一种特殊分类，它表示CPU处于空闲状态，但这种空闲是由于某个进程或线程正在等待I/O操作完成。

深入理解I/O操作

I/O是Input/Output的缩写，泛指计算机与外部世界进行数据交换的操作。这包括磁盘I/O、网络I/O、键盘鼠标I/O等。在讨论I/O Wait时，我们通常主要关注磁盘I/O，因为它往往是性能瓶颈的常见来源。

磁盘I/O的特点

与CPU和内存相比，磁盘I/O的速度要慢得多，尤其是传统的机械硬盘（HDD）。即使是固态硬盘（SSD），其访问延迟也远高于CPU访问内存的延迟。

机械硬盘（HDD）：依赖于物理磁头和盘片的旋转，寻道时间（seek time）和旋转延迟（rotational latency）是其主要瓶颈。一次随机I/O操作可能需要几毫秒到几十毫秒。
固态硬盘（SSD）：基于NAND闪存，没有机械部件，因此寻道时间几乎为零，读写速度和IOPS（每秒I/O操作数）远高于HDD，但仍远慢于CPU执行指令的速度。

同步I/O与异步I/O

理解I/O Wait，同步I/O和异步I/O是两个核心概念：

同步I/O (Synchronous I/O)：当一个进程发起同步I/O请求时，它会阻塞（Block），直到I/O操作完成并返回结果。在此期间，该进程无法执行任何其他任务。大多数传统的I/O系统调用（如read()、write()）默认都是同步的。
异步I/O (Asynchronous I/O)：当一个进程发起异步I/O请求时，它会立即返回，进程可以继续执行其他任务。I/O操作在后台进行，当I/O完成时，系统会通过回调、信号或事件通知机制通知进程。这种方式可以有效提高程序的并发性。

在Linux中，典型的同步磁盘I/O系统调用包括：

open(): 打开文件
read(): 从文件读取数据
write(): 向文件写入数据
lseek(): 移动文件指针
fsync(): 强制将文件数据和元数据同步到磁盘

当一个进程调用read()或write()等同步I/O操作时，它会从用户模式切换到内核模式。内核接收到请求后，会将其转换为对磁盘控制器发出的命令。由于磁盘操作的耗时，内核会将发起I/O的进程标记为“等待I/O”状态，然后将CPU调度给其他可运行的进程。

I/O Wait的本质：CPU的“被迫空闲”

现在，我们终于可以深入探讨I/O Wait的本质了。

当一个进程发起一个同步I/O请求时，例如从磁盘读取一个文件，它会陷入内核，请求内核执行read()系统调用。内核将这个请求发送给磁盘控制器。由于磁盘操作需要时间（可能是几毫秒到几十毫秒），内核不能让CPU一直等待。相反，内核会：

将当前发起I/O请求的进程（或线程）的状态从“运行”或“可运行”改变为“阻塞（Blocked）”或“等待I/O（Waiting for I/O）”状态。
将这个阻塞的进程从CPU的运行队列中移除。
调度器会寻找下一个可运行的进程或线程来执行。

如果系统中还有其他可运行的进程，CPU就会切换到执行这些进程的代码。在这种情况下，尽管有进程在等待I/O，但CPU并没有闲置。

关键点在于：如果系统中没有其他可运行的进程，或者所有可运行的进程都因为某种原因（例如也发起了I/O请求）而进入了阻塞状态，那么CPU将无事可做，它就会进入空闲状态。

%wa这个指标，正是用来衡量这种“由于进程等待I/O而导致的CPU空闲时间占总CPU时间的百分比”。

所以，I/O Wait高，并不是说CPU在“忙着”处理I/O。恰恰相反，它是在“闲着”，因为它所负责的那些任务（进程）都因为等待I/O而无法继续执行。CPU在等待磁盘控制器发出中断信号，通知I/O操作已经完成。一旦中断发生，内核会将对应的等待I/O的进程重新标记为“可运行”状态，并将其放入调度队列，等待CPU再次调度。

总结一下：

高%wa意味着磁盘或其它I/O设备是瓶颈。
CPU本身是空闲的，但这种空闲是“被迫”的，因为它没有可执行的任务。
CPU并没有“花时间”在I/O操作上。 实际的I/O操作是由DMA（Direct Memory Access）控制器在没有CPU介入的情况下完成的，CPU只负责发起请求和处理完成中断。内核在处理I/O请求本身会消耗一些CPU时间，这部分时间会算在%sy（系统时间）中，而不是%wa。

为什么说它是“虚高”？

当%wa很高时，例如90%，而%us和%sy都很低（比如各5%），top或htop可能会显示总CPU利用率（us + sy + wa）高达100%。这给人一种CPU非常繁忙的错觉。然而，如果我们将wa视为一种特殊的idle，那么真实的CPU利用率（即CPU真正执行用户代码或内核代码的时间）可能只有10%左右。剩下的90%是CPU在等待，它有能力做更多工作，但却没有被利用起来。

`vmstat`和`top`中的`wa`

在vmstat的输出中：

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 0  1      0 123456  78910 1123456    0    0   100  1000  123  456 10  5 80  5  0

这里：

r: 可运行队列的长度（等待CPU的进程数）。
b: 处于阻塞状态的进程数（等待I/O等）。
bi: 每秒从块设备读取的块数（blocks in）。
bo: 每秒写入到块设备的块数（blocks out）。
wa: CPU等待I/O的时间百分比。

当b队列中有大量进程，并且wa很高时，清晰地表明系统正在遭受I/O瓶颈。

代码演示：观察I/O Wait

为了更好地理解I/O Wait，我们通过一些代码示例来模拟并观察它。

示例一：C语言同步文件读取

我们将编写一个C程序，它会尝试从一个非常大的文件中顺序读取数据。如果文件不在操作系统的页缓存中，或者我们故意让它跨越缓存限制，就会产生大量的磁盘I/O。

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <string.h>

#define FILE_SIZE (1024 * 1024 * 1024) // 1GB file
#define BLOCK_SIZE (4 * 1024)         // 4KB block size

void create_large_file(const char *filename) {
    printf("Creating large file: %s (%d MB). This might take a while...n", filename, FILE_SIZE / (1024 * 1024));
    int fd = open(filename, O_WRONLY | O_CREAT | O_TRUNC, 0644);
    if (fd == -1) {
        perror("open for write");
        exit(EXIT_FAILURE);
    }

    char *buffer = (char *)malloc(BLOCK_SIZE);
    if (buffer == NULL) {
        perror("malloc");
        close(fd);
        exit(EXIT_FAILURE);
    }
    memset(buffer, 'A', BLOCK_SIZE); // Fill buffer with 'A'

    for (long long i = 0; i < FILE_SIZE / BLOCK_SIZE; ++i) {
        if (write(fd, buffer, BLOCK_SIZE) == -1) {
            perror("write");
            free(buffer);
            close(fd);
            exit(EXIT_FAILURE);
        }
    }

    free(buffer);
    close(fd);
    printf("File created successfully.n");
}

int main(int argc, char *argv[]) {
    const char *filename = "large_test_file.bin";

    if (argc > 1 && strcmp(argv[1], "create") == 0) {
        create_large_file(filename);
        return 0;
    }

    // Ensure the file exists before attempting to read
    struct stat st;
    if (stat(filename, &st) == -1) {
        fprintf(stderr, "Error: File '%s' does not exist. Please run with 'create' argument first.n", filename);
        fprintf(stderr, "Usage: %s createn", argv[0]);
        fprintf(stderr, "       %sn", argv[0]);
        return EXIT_FAILURE;
    }

    printf("Starting synchronous read from %s...n", filename);

    int fd = open(filename, O_RDONLY);
    if (fd == -1) {
        perror("open for read");
        exit(EXIT_FAILURE);
    }

    char *buffer = (char *)malloc(BLOCK_SIZE);
    if (buffer == NULL) {
        perror("malloc");
        close(fd);
        exit(EXIT_FAILURE);
    }

    ssize_t bytes_read;
    long long total_bytes_read = 0;
    while ((bytes_read = read(fd, buffer, BLOCK_SIZE)) > 0) {
        total_bytes_read += bytes_read;
        // Optionally, print progress or do something with data
        // For simplicity, we just read and discard
    }

    if (bytes_read == -1) {
        perror("read");
    }

    printf("Finished reading %lld bytes from %s.n", total_bytes_read, filename);

    free(buffer);
    close(fd);
    return 0;
}

编译和运行：

编译： gcc -o io_wait_demo io_wait_demo.c
创建大文件： sudo ./io_wait_demo create (可能需要root权限来确保文件真的落在磁盘上，并且避免系统过度缓存)
- 注意： 为了更明显地观察I/O Wait，可能需要确保文件大小大于系统可用内存，或者在读取前清理缓存（sudo sh -c "echo 3 > /proc/sys/vm/drop_caches"）。
运行程序并观察： sudo ./io_wait_demo
- 同时打开另一个终端，运行 top 或 vmstat 1 观察CPU指标。

在运行./io_wait_demo时，特别是当文件未被缓存时，你会观察到：

top中，io_wait_demo进程的CPU使用率（%CPU）可能不会很高，甚至很低。
但系统的%wa指标会显著升高，有时甚至达到很高比例。
vmstat中，bi（块输入）会很高，同时wa也会很高，而us和sy可能保持在较低水平。b（阻塞进程）队列的长度可能会增加。

这清晰地演示了，当一个进程在等待同步I/O完成时，它自己不消耗CPU，但却导致CPU的wa时间增加。

示例二：Python模拟I/O密集型任务

Python由于其GIL（全局解释器锁）特性，使得纯CPU密集型任务在一个Python进程中难以真正并行利用多核。但对于I/O密集型任务，即使是同步I/O，也可以通过多线程或多进程来提高并发。这里我们模拟一个简单的I/O密集型场景。

import os
import time
import random
import threading
import multiprocessing
from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor

FILE_SIZE_MB = 200
BLOCK_SIZE_KB = 4
TEMP_FILE_PATH = "temp_io_test_file.bin"

def create_temp_file(filename, size_mb):
    print(f"Creating temporary file: {filename} ({size_mb} MB)...")
    with open(filename, 'wb') as f:
        # Write random bytes to ensure entropy and prevent easy compression/caching
        f.seek((size_mb * 1024 * 1024) - 1)
        f.write(b'')
    print(f"File {filename} created.")

def cleanup_temp_file(filename):
    if os.path.exists(filename):
        os.remove(filename)
        print(f"Cleaned up {filename}.")

def read_file_block_sync(filename, block_size, offset):
    """Synchronously reads a block from the file."""
    with open(filename, 'rb') as f:
        f.seek(offset)
        _ = f.read(block_size)
    # Simulate some minimal processing after read
    time.sleep(0.0001)

def io_intensive_task(filename, num_reads, block_size):
    """Performs multiple synchronous reads from a file."""
    file_size = os.path.getsize(filename)
    for _ in range(num_reads):
        # Read a random block to simulate random access I/O
        offset = random.randint(0, file_size - block_size)
        read_file_block_sync(filename, block_size, offset)
    # print(f"Thread/Process {os.getpid()} finished {num_reads} reads.")

def run_with_threads(num_threads, num_reads_per_thread):
    print(f"nRunning {num_threads} threads for I/O intensive task...")
    start_time = time.time()
    with ThreadPoolExecutor(max_workers=num_threads) as executor:
        futures = [executor.submit(io_intensive_task, TEMP_FILE_PATH, num_reads_per_thread, BLOCK_SIZE_KB * 1024) for _ in range(num_threads)]
        for future in futures:
            future.result() # Wait for all threads to complete
    end_time = time.time()
    print(f"Threads finished in {end_time - start_time:.2f} seconds.")

def run_with_processes(num_processes, num_reads_per_process):
    print(f"nRunning {num_processes} processes for I/O intensive task...")
    start_time = time.time()
    with ProcessPoolExecutor(max_workers=num_processes) as executor:
        futures = [executor.submit(io_intensive_task, TEMP_FILE_PATH, num_reads_per_process, BLOCK_SIZE_KB * 1024) for _ in range(num_processes)]
        for future in futures:
            future.result() # Wait for all processes to complete
    end_time = time.time()
    print(f"Processes finished in {end_time - start_time:.2f} seconds.")

if __name__ == "__main__":
    create_temp_file(TEMP_FILE_PATH, FILE_SIZE_MB)

    num_ops_total = 1000 # Total I/O operations

    # Test with a single thread
    print("n--- Single Thread Test ---")
    run_with_threads(1, num_ops_total)

    # Test with multiple threads (I/O bound)
    print("n--- Multi-Thread Test (I/O bound) ---")
    # More threads than cores to saturate I/O
    run_with_threads(os.cpu_count() * 2, num_ops_total // (os.cpu_count() * 2) if num_ops_total // (os.cpu_count() * 2) > 0 else 1)

    # Test with multiple processes (I/O bound)
    print("n--- Multi-Process Test (I/O bound) ---")
    # More processes than cores to saturate I/O
    run_with_processes(os.cpu_count() * 2, num_ops_total // (os.cpu_count() * 2) if num_ops_total // (os.cpu_count() * 2) > 0 else 1)

    cleanup_temp_file(TEMP_FILE_PATH)

运行和观察：

运行程序： python io_wait_python_demo.py
同时打开另一个终端，运行 top 或 vmstat 1 观察CPU指标。

当Python程序执行时，特别是当多个线程/进程同时进行文件读取时，你会看到：

Python进程本身的%CPU可能不会很高，尤其是在多线程测试中，因为GIL的存在。
但系统的%wa会升高。
bi和bo（块输入/输出）在vmstat中会显示磁盘活动。

这个例子进一步强调，即使是并发的I/O操作，如果它们都是同步阻塞的，最终也会导致CPU的wa升高，因为CPU在等待这些并发的I/O操作完成。

Linux性能工具与I/O Wait

理解了I/O Wait的本质，我们就可以更准确地使用Linux性能工具进行诊断。

1. `top` / `htop`

top和htop是查看系统概况的常用工具。它们在CPU行会显示us, sy, id, wa等百分比。

%wa高而%us, %sy低： 典型I/O瓶颈，CPU在等待。
%us高： CPU密集型应用，CPU是瓶颈。
%sy高： 内核开销大，可能由于大量系统调用、中断或驱动问题。

2. `vmstat`

vmstat提供了更详细的系统活动报告，特别是其I/O和CPU部分。

r：等待运行的进程数。
b：处于不间断睡眠状态的进程数（通常是等待I/O）。
bi / bo：块设备输入/输出。
wa：CPU等待I/O的时间百分比。

当b队列长度持续较高，并且wa百分比也高时，这几乎可以确定是I/O瓶颈。

3. `iostat`

iostat专注于I/O统计，可以提供每个设备的详细I/O性能指标。

iostat -xz 1

输出示例：

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           10.00    0.00    5.00   80.00    0.00    5.00

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  %util
sda               0.00     0.00  100.00    0.00  400.00     0.00     4.00     8.00   80.00   80.00    0.00  100.00

关键指标：

%iowait：与top中的%wa相同。
r/s, w/s：每秒读/写请求数。
rkB/s, wkB/s：每秒读/写数据量（KB）。
await：每个I/O请求的平均等待时间（包括排队和实际服务时间）。高await值通常表示I/O子系统响应慢。
%util：设备利用率。如果接近100%，表示设备已饱和。

当iostat显示某个磁盘的%util接近100%且await很高时，结合top或vmstat的高wa，就能准确地定位到是哪个磁盘设备成为了瓶颈。

4. `pidstat -d`

pidstat可以按进程级别提供详细的CPU、内存和I/O统计。

pidstat -d 1

输出示例：

Linux 5.15.0-78-generic (my-server)     08/10/2023  _x86_64_    (8 CPU)

07:44:42 PM       PID   kB_rd/s   kB_wr/s kB_ccwr/s  IODelay  Command
07:44:43 PM     12345    400.00      0.00      0.00      100  io_wait_demo

kB_rd/s, kB_wr/s：进程每秒读/写数据量。
IODelay：进程等待I/O完成的百分比。这个值直接对应了进程级别的I/O Wait。

pidstat -d能够帮助我们找出具体是哪个进程导致了高I/O Wait。

影响与启示

高I/O Wait对系统性能和用户体验有着显著的负面影响：

性能瓶颈的误判： 如果不理解I/O Wait的本质，可能会错误地认为CPU不足，从而盲目增加CPU资源，而实际瓶颈在于I/O，导致投入无效。
应用响应迟缓： I/O密集型应用程序会因为等待磁盘数据而变得非常慢，用户体验极差。
系统吞吐量下降： 整个系统的I/O子系统被饱和，导致所有依赖磁盘I/O的任务都变慢，整体工作完成效率降低。
资源浪费： CPU在大部分时间处于空闲等待状态，而没有被充分利用。

因此，当发现系统出现高I/O Wait时，我们应该立即将注意力转向I/O子系统，而不是CPU。

缓解I/O Wait的策略

缓解I/O Wait的核心思想是减少对慢速I/O设备的等待时间，或者提升I/O设备的响应速度。

1. 优化应用程序的I/O行为

这是最直接和最有效的手段。

使用异步I/O（Asynchronous I/O）：
- 优点：进程发起I/O后立即返回，可以继续执行其他任务，当I/O完成时通过回调、信号或事件通知。这使得CPU在等待I/O的同时能够处理其他计算任务，提高了CPU利用率和应用并发性。
- 实现：
  - Linux AIO (Native libaio): io_submit(), io_getevents()等。
  - epoll / kqueue / IOCP (网络I/O常用，但也可用于文件I/O事件通知，例如io_uring提供更通用和高效的异步I/O)。
  - 编程语言提供的异步库（如Python的asyncio，Node.js的事件循环）。
- 注意：异步I/O增加了编程模型的复杂性。
缓存（Caching）：
- 操作系统页缓存（Page Cache）：Linux会尽可能地将文件数据缓存在内存中。重复读取的文件通常会直接从内存中获取，避免了磁盘I/O。
- 应用程序级缓存：在应用层面实现数据缓存，如使用Redis、Memcached或进程内缓存，减少对磁盘或数据库的访问。
批量处理（Batching）：
- 将多个小的I/O请求合并成一个大的I/O请求。例如，多次小写入合并成一次大写入，减少磁盘寻道和旋转延迟。
读写分离/延迟写入（Write-behind/Lazy Write）：
- 将写入操作放入队列，由专门的后台线程或定时任务批量写入磁盘，减少同步写入的阻塞。
优化数据访问模式：
- 尽量使用顺序I/O而非随机I/O，因为顺序I/O在HDD上性能远高于随机I/O，在SSD上也有优势。
- 合理设计数据结构和文件布局，使得相关数据在物理上尽可能接近，减少寻道。

2. 优化磁盘子系统

如果应用已经优化到极致，但I/O Wait依然高企，那么可能是硬件或配置层面的问题。

升级硬件：
- 固态硬盘（SSD）：相较于机械硬盘，SSD的随机读写性能和IOPS有质的飞跃，是解决I/O瓶颈最有效的硬件升级之一。
- NVMe SSD：比SATA SSD更快，通过PCIe总线直接连接CPU，延迟更低。
- 更多/更快的磁盘控制器：减少控制器本身的瓶颈。
RAID配置：
- RAID 0 (Striping)：将数据分散到多个磁盘上，并行读写，提高吞吐量（但没有冗余）。
- RAID 10 (Striping + Mirroring)：提供高吞吐量和冗余。
- 选择合适的RAID级别，根据性能和冗余需求进行平衡。
网络存储优化（SAN/NAS）：
- 如果是通过网络访问存储（如NFS、iSCSI），检查网络带宽、延迟、存储服务器本身的性能。

3. 操作系统层面的优化

I/O调度器（I/O Scheduler）：
- Linux提供了多种I/O调度器：noop, deadline, CFQ, BFQ。
- noop：最简单的调度器，将所有I/O请求放入一个FIFO队列。适合SSD和虚拟化环境（由宿主机处理调度）。
- deadline：尝试保证请求在一定时间内被服务，减少读写饿死。适合数据库等有延迟要求的应用。
- CFQ (Completely Fair Queuing)：为每个进程维护一个独立的队列，并尝试公平地分配I/O带宽。在多用户/多应用场景下可能表现较好，但可能引入较高延迟。
- BFQ (Budget Fair Queuing)：更高级的CFQ，能够更好地保证交互式应用的I/O延迟，但可能增加CPU开销。
- 选择：对于SSD，通常推荐noop或deadline。对于HDD，deadline或CFQ可能更合适。可以通过cat /sys/block/sdX/queue/scheduler查看当前调度器，通过echo deadline > /sys/block/sdX/queue/scheduler设置。
调整内核参数：
- vm.dirty_ratio, vm.dirty_background_ratio：控制脏页写入磁盘的时机和数量。调整这些参数可以影响系统的写I/O行为。
- vm.swappiness：控制系统将多少内存数据交换到磁盘。如果系统频繁发生交换（swap），这会产生大量磁盘I/O，导致I/O Wait。适当降低swappiness可以减少交换。
- readahead：预读大小，可以提高顺序读的性能。
文件系统选择和优化：
- 不同的文件系统（ext4, XFS, Btrfs等）在不同负载下性能特点不同。
- 文件系统挂载选项（如noatime减少inode访问时间更新，提高写入性能）。

4. 应用程序并发度管理

如果I/O系统已经饱和，过多的并发I/O请求反而会加剧I/O竞争和队列深度，导致每个请求的等待时间更长。
适当限制并发I/O线程/进程的数量，让I/O调度器能够更有效地处理请求。例如，使用有限大小的线程池或连接池来控制并发I/O。

结语

I/O Wait并非CPU在“忙碌”处理I/O，而是CPU因等待I/O操作完成而“被迫空闲”的时间。它是一个明确的信号，指示系统的瓶颈在于I/O子系统，而非CPU本身。通过深入理解I/O Wait的本质，结合top、vmstat、iostat和pidstat等工具的综合分析，我们可以准确地诊断问题。随后，通过在应用程序层面优化I/O行为、升级或优化磁盘硬件、以及调整操作系统I/O参数，能够有效地缓解I/O瓶颈，提升系统整体性能和响应速度。在进行性能优化时，务必避免对CPU利用率的片面理解，而是要进行全面的系统资源分析，才能找到真正的症结所在。