MySQL高阶讲座之：`InnoDB`的`Page Cleaner Thread`：其工作机制与缓冲池的脏页管理。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众老爷，大家好！我是今天的主讲人，给大家聊聊MySQL里InnoDB存储引擎的“清洁工”——Page Cleaner Thread，看看它如何管理缓冲池里的脏页，以及工作机制。

第一部分：啥是Page Cleaner Thread？为啥需要它？

想象一下，你是一家餐厅的老板，后厨就是InnoDB的缓冲池（Buffer Pool），厨师（用户线程）不断地做菜（修改数据），用过的盘子（修改过的页，也就是脏页）堆积如山。如果你不及时清理，后厨就会变得乱七八糟，影响厨师的工作效率，甚至导致餐厅无法正常营业。

Page Cleaner Thread就是后厨的清洁工，它的主要任务是：

将脏页从缓冲池刷新到磁盘。 脏页是指缓冲池中被修改过但尚未同步到磁盘的页。
保持缓冲池的“干净”。 避免缓冲池被脏页占满，影响新数据的读写。
优化I/O性能。 通过合并相邻的脏页，减少磁盘I/O次数。

如果没有Page Cleaner Thread，脏页会堆积在缓冲池中，导致以下问题：

查询性能下降： 当缓冲池被脏页占满时，新的数据无法加载到缓冲池中，导致查询需要从磁盘读取，速度变慢。
事务提交延迟： 事务提交时，需要将修改过的数据刷到磁盘，如果脏页太多，会导致事务提交延迟。
宕机数据丢失风险： 如果数据库宕机，缓冲池中的脏页尚未同步到磁盘，会导致数据丢失。

第二部分：Page Cleaner Thread的工作模式

Page Cleaner Thread不是一个单独的线程，而是一组线程，具体数量由innodb_page_cleaners参数控制。从MySQL 5.7开始，默认值为4，可以根据CPU核心数进行调整。

Page Cleaner Thread的工作模式主要分为两种：

Lazy Cleaning（懒惰清理）： 当缓冲池的脏页比例超过一定阈值时，Page Cleaner Thread才会启动，将脏页刷新到磁盘。这种模式下，Page Cleaner Thread的工作频率较低，对系统性能的影响较小。
Force Cleaning（强制清理）： 当用户线程需要读取的页不在缓冲池中，并且缓冲池没有空闲页时，Page Cleaner Thread会被强制启动，将脏页刷新到磁盘，腾出空间给新的页。这种模式下，Page Cleaner Thread的工作频率较高，对系统性能的影响较大。

这两种模式的切换由InnoDB内部的算法控制，主要考虑以下因素：

缓冲池的脏页比例： 脏页比例越高，Page Cleaner Thread的工作频率越高。
redo log的使用率： redo log用于记录事务的操作，如果redo log的使用率过高，说明脏页的生成速度很快，Page Cleaner Thread需要加快清理速度。
系统负载： 系统负载越高，Page Cleaner Thread的工作频率越低，避免对系统性能造成过大的影响。

第三部分：影响Page Cleaner Thread的参数

以下是一些重要的参数，会影响Page Cleaner Thread的行为：

参数名	描述	默认值
`innodb_page_cleaners`	指定Page Cleaner Thread的数量。建议根据CPU核心数进行调整。	4
`innodb_max_dirty_pages_pct`	指定缓冲池中脏页比例的上限。当脏页比例超过该值时，Page Cleaner Thread会启动，将脏页刷新到磁盘。	90
`innodb_max_dirty_pages_pct_lwm`	指定缓冲池中脏页比例的下限。当脏页比例低于该值时，Page Cleaner Thread会停止工作。	10
`innodb_io_capacity`	指定磁盘的I/O能力。Page Cleaner Thread会根据该值调整刷新脏页的速度。	200
`innodb_flush_neighbors`	指定是否刷新相邻的脏页。如果设置为1，Page Cleaner Thread会尝试将相邻的脏页一起刷新到磁盘，可以减少磁盘I/O次数。	1
`innodb_adaptive_flushing`	指定是否启用自适应刷新。如果启用，InnoDB会根据系统负载和redo log的使用率，动态调整刷新脏页的速度。	ON
`innodb_lru_scan_depth`	LRU(最近最少使用)列表中，Page Cleaner Thread要扫描的页的数量。数值越大，越容易找到脏页。	1024

可以通过以下命令查看这些参数的值：

SHOW GLOBAL VARIABLES LIKE 'innodb_%';

也可以通过以下命令修改这些参数的值：

SET GLOBAL innodb_max_dirty_pages_pct = 80;

注意：修改全局参数需要重启MySQL服务才能生效。

第四部分：Page Cleaner Thread的源码分析（简化版）

Page Cleaner Thread的代码比较复杂，这里只给出一些关键部分的简化版，帮助大家理解其工作原理。

1. Page Cleaner Thread的主循环：

void PageCleanerThread::run() {
  while (running_) {
    // 1. 检查是否需要启动刷新
    if (need_to_flush()) {
      // 2. 选择要刷新的页
      std::vector<buf_page_t*> pages_to_flush = choose_pages_to_flush();

      // 3. 刷新页到磁盘
      flush_pages(pages_to_flush);
    }

    // 4. 休眠一段时间
    std::this_thread::sleep_for(std::chrono::milliseconds(100));
  }
}

2. 判断是否需要启动刷新：

bool PageCleanerThread::need_to_flush() {
  // 1. 获取缓冲池的脏页比例
  double dirty_page_ratio = get_dirty_page_ratio();

  // 2. 判断是否超过上限
  if (dirty_page_ratio > innodb_max_dirty_pages_pct) {
    return true;
  }

  // 3. 判断redo log的使用率是否过高
  if (redo_log_is_full()) {
    return true;
  }

  // 4. 判断是否有用户线程需要强制刷新
  if (force_flush_needed()) {
    return true;
  }

  return false;
}

3. 选择要刷新的页：

std::vector<buf_page_t*> PageCleanerThread::choose_pages_to_flush() {
  std::vector<buf_page_t*> pages_to_flush;

  // 1. 扫描LRU列表，找到脏页
  for (int i = 0; i < innodb_lru_scan_depth; ++i) {
    buf_page_t* page = get_page_from_lru();
    if (page->is_dirty()) {
      pages_to_flush.push_back(page);
    }
  }

  // 2. 排序脏页，优先刷新修改时间较早的页
  std::sort(pages_to_flush.begin(), pages_to_flush.end(), compare_page_age);

  return pages_to_flush;
}

4. 刷新页到磁盘：

void PageCleanerThread::flush_pages(const std::vector<buf_page_t*>& pages_to_flush) {
  // 1. 合并相邻的脏页
  std::vector<std::vector<buf_page_t*>> groups = group_adjacent_pages(pages_to_flush);

  // 2. 依次刷新每个组的脏页
  for (const auto& group : groups) {
    flush_group(group);
  }
}

第五部分：Page Cleaner Thread的监控与优化

监控Page Cleaner Thread的运行状态，可以帮助我们了解数据库的性能瓶颈，并进行相应的优化。

以下是一些常用的监控指标：

Innodb_pages_written： 累计写入磁盘的页的数量。
Innodb_pages_flushed： 累计刷新的页的数量。
Innodb_buffer_pool_pages_dirty： 缓冲池中的脏页数量。
Innodb_buffer_pool_pages_total： 缓冲池中的总页数。
Innodb_buffer_pool_pages_flushed： 后台线程刷新的页数量。
Innodb_buffer_pool_pages_LRU_flushed： LRU列表刷新的页数量。

可以通过以下命令查看这些指标的值：

SHOW GLOBAL STATUS LIKE 'Innodb_%';

根据监控指标，可以采取以下优化措施：

增加innodb_page_cleaners的值： 如果CPU利用率不高，可以适当增加Page Cleaner Thread的数量，提高刷新脏页的速度。
调整innodb_max_dirty_pages_pct和innodb_max_dirty_pages_pct_lwm的值： 根据实际情况，调整脏页比例的上限和下限，避免频繁的刷新操作。
调整innodb_io_capacity的值： 根据磁盘的I/O能力，调整该值，使Page Cleaner Thread能够充分利用磁盘资源。
启用innodb_adaptive_flushing： 让InnoDB根据系统负载和redo log的使用率，动态调整刷新脏页的速度。
优化SQL语句： 减少不必要的写操作，降低脏页的生成速度。
使用更快的磁盘： 使用SSD等更快的磁盘，可以提高刷新脏页的速度。

第六部分：常见问题与解答

Q：为什么我的数据库总是很慢？是不是Page Cleaner Thread出了问题？

A：数据库慢的原因有很多，Page Cleaner Thread只是其中一个可能的原因。你可以先通过监控指标，查看缓冲池的脏页比例是否过高，redo log的使用率是否过高，以及Page Cleaner Thread的刷新速度是否足够快。如果这些指标都正常，那么问题可能出在SQL语句的优化、索引的使用、硬件资源等方面。

Q：innodb_flush_log_at_trx_commit参数和Page Cleaner Thread有什么关系？

A：innodb_flush_log_at_trx_commit参数控制redo log的刷新策略。如果设置为1，表示每次事务提交时，都需要将redo log刷新到磁盘，可以保证数据的可靠性，但会降低事务的提交速度。如果设置为0或2，表示redo log的刷新操作由后台线程负责，可以提高事务的提交速度，但会增加数据丢失的风险。

innodb_flush_log_at_trx_commit参数和Page Cleaner Thread是相互影响的。如果innodb_flush_log_at_trx_commit设置为1，redo log的生成速度会减慢，Page Cleaner Thread的压力也会减轻。如果innodb_flush_log_at_trx_commit设置为0或2，redo log的生成速度会加快，Page Cleaner Thread的压力也会增大。

Q：我的服务器配置很高，为什么数据库性能还是很差？

A：服务器配置高并不一定意味着数据库性能就好。还需要考虑以下因素：

磁盘I/O能力： 磁盘I/O是数据库性能的瓶颈之一。即使CPU和内存都很强大，如果磁盘I/O能力不足，数据库性能也会受到限制。
SQL语句的优化： 糟糕的SQL语句会导致大量的磁盘I/O，降低数据库性能。
索引的使用： 合理的索引可以提高查询速度，减少磁盘I/O。
数据库参数的配置： 不合理的数据库参数配置会导致资源浪费，降低数据库性能。

第七部分：总结

Page Cleaner Thread是InnoDB存储引擎中一个重要的后台线程，负责将脏页从缓冲池刷新到磁盘，保持缓冲池的“干净”，优化I/O性能。理解Page Cleaner Thread的工作机制，可以帮助我们更好地监控和优化数据库的性能。

好了，今天的讲座就到这里，谢谢大家！有什么问题欢迎提问！

发表回复 取消回复

发表回复取消回复