ES集群出现Yellow状态引发查询变慢的底层原因与修复方案 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

ES集群Yellow状态引发查询变慢的底层原因与修复方案

大家好，今天我们来深入探讨Elasticsearch集群状态变为Yellow时，查询性能下降的底层原因以及相应的修复方案。Elasticsearch集群的状态分为Green、Yellow和Red三种。Green表示所有主分片和副本分片都已分配且正常运行；Yellow表示所有主分片都已分配，但至少有一个或多个副本分片未分配；Red表示至少有一个主分片未分配。

Yellow状态虽然不如Red状态那样严重，但它仍然意味着数据冗余备份不足，当主分片出现故障时，数据可能会丢失，并且查询性能也会受到影响。

Yellow状态的根本原因

Yellow状态的根本原因是未分配的分片。理解这一点至关重要，因为所有后续的分析和修复策略都围绕着如何有效地分配这些未分配的分片。未分配的分片通常是由以下几个原因造成的：

节点故障： 集群中的一个或多个节点突然宕机，导致节点上的分片变为未分配状态。
磁盘空间不足： 节点上的磁盘空间不足，导致无法分配新的分片或移动现有的分片。Elasticsearch默认会阻止分片分配到磁盘利用率超过85%的节点。
资源限制： 节点上的CPU或内存资源不足，导致无法分配新的分片或移动现有的分片。
集群配置错误： 集群的配置不合理，例如cluster.routing.allocation.disk.watermark.low、cluster.routing.allocation.disk.watermark.high设置过低，或者cluster.routing.allocation.exclude规则错误，导致分片无法正常分配。
分片分配延迟： 在节点重启或索引创建后，分片的分配需要一定的时间。如果集群规模较大，或者分片数量较多，分配过程可能会比较缓慢。
人为干预: 管理员手动使用cluster.routing.allocation.exclude等设置，暂时阻止了分片的分配。

Yellow状态下查询变慢的底层原理

当Elasticsearch集群处于Yellow状态时，查询性能下降的根本原因在于缺少副本分片导致的查询效率降低和容错能力下降。具体来说，体现在以下几个方面：

单节点查询压力增大： 正常情况下，Elasticsearch会将查询请求分发到主分片和副本分片上，以实现负载均衡。当副本分片未分配时，所有的查询请求都只能由主分片来处理，导致主分片的负载压力增大，响应时间变长。
降低容错能力： 副本分片的主要作用是提供数据冗余备份，当主分片出现故障时，副本分片可以顶替主分片继续提供服务。当副本分片未分配时，如果主分片出现故障，可能会导致数据丢失或查询中断。
影响查询优化策略： Elasticsearch的查询优化器会根据分片的数量和位置来选择最佳的查询路径。当副本分片未分配时，查询优化器可能会选择次优的查询路径，导致查询性能下降。例如，preference参数，可以设置查询优先在本地节点进行，提高查询速度。在没有副本的情况下，这个优化就失效了。
冷热数据分离失效： 如果集群采用了冷热数据分离策略，将热数据存储在高性能节点上，冷数据存储在低成本节点上。当副本分片未分配时，热数据的副本可能无法分配到高性能节点上，导致热数据的查询性能下降。
分片恢复期间性能下降： 如果是因为节点故障导致分片未分配，Elasticsearch会自动尝试恢复未分配的分片。在分片恢复期间，集群的I/O和CPU资源会被大量占用，导致查询性能下降。

定位Yellow状态的工具和方法

定位Yellow状态的根本原因是排查未分配的分片，并找出导致未分配的原因。以下是一些常用的工具和方法：

Cluster Health API： 使用_cluster/health API可以查看集群的整体健康状态，包括集群状态、节点数量、分片数量等信息。

curl -X GET "localhost:9200/_cluster/health?pretty"

返回结果示例：

{
  "cluster_name" : "my-application",
  "status" : "yellow",
  "timed_out" : false,
  "number_of_nodes" : 3,
  "number_of_data_nodes" : 3,
  "active_primary_shards" : 15,
  "active_shards" : 15,
  "relocating_shards" : 0,
  "initializing_shards" : 0,
  "unassigned_shards" : 5,
  "delayed_unassigned_shards" : 0,
  "number_of_pending_tasks" : 0,
  "number_of_in_flight_fetch" : 0,
  "task_max_waiting_in_queue_millis" : 0,
  "active_shards_percent_as_number" : 75.0
}

关注status字段，如果为yellow，则表示集群处于Yellow状态。unassigned_shards字段表示未分配的分片数量。

Cat Shards API： 使用_cat/shards API可以查看每个分片的详细信息，包括分片状态、所在节点、大小等信息。

curl -X GET "localhost:9200/_cat/shards?v"

返回结果示例：

index               shard prirep state   docs  store ip        node
my_index            0     p      STARTED 1000  1mb   192.168.1.1 node1
my_index            0     r      UNASSIGNED                           
my_index            1     p      STARTED 1200  1.2mb 192.168.1.2 node2
my_index            1     r      UNASSIGNED                           
my_index            2     p      STARTED 1500  1.5mb 192.168.1.3 node3
my_index            2     r      UNASSIGNED

关注state字段，如果为UNASSIGNED，则表示该分片未分配。通过index字段可以确定未分配分片属于哪个索引。

Cluster Allocation Explain API： 使用_cluster/allocation/explain API可以查看为什么分片未被分配，以及可以采取的措施。
```
curl -X GET "localhost:9200/_cluster/allocation/explain?pretty" -H 'Content-Type: application/json' -d'
{
  "index": "my_index",
  "shard": 0,
  "primary": false
}
'
```
返回结果会详细解释分片未分配的原因，例如磁盘空间不足、节点过滤规则等。
Elasticsearch Head、Kibana等可视化工具： 这些工具提供了图形化的界面，可以更直观地查看集群状态、分片信息和节点信息。Kibana的Dev Tools Console是进行API调用的好工具。
Elasticsearch 日志： Elasticsearch的日志记录了集群的各种事件，包括分片分配失败、节点故障等信息。通过分析日志，可以找到导致Yellow状态的根本原因。通常位于config/elasticsearch.yml中配置的path.logs目录下。

修复Yellow状态的方案

在定位到Yellow状态的根本原因后，就可以采取相应的修复方案。以下是一些常见的修复方案：

节点故障恢复： 如果是因为节点故障导致分片未分配，首先需要恢复故障节点。如果节点无法恢复，可以考虑将节点上的数据迁移到其他节点上。
- 临时方案： 如果节点短期内无法恢复，可以考虑增加新的节点，让ES自动将未分配的分片分配到新节点上。
- 永久方案： 如果节点彻底损坏，需要更换新的硬件设备，并重新加入集群。
磁盘空间清理： 如果是因为磁盘空间不足导致分片未分配，需要清理节点上的磁盘空间。可以删除不必要的文件、清理日志文件、或者将数据迁移到其他节点上。
- 删除不必要的索引： 删除不再使用的旧索引，释放磁盘空间。
- 调整索引的副本数量： 减少副本数量可以降低磁盘空间占用，但会降低数据的冗余备份。
- 使用Shrink API： 将索引缩小到更少的主分片数量，减少磁盘空间占用。
以下代码示例展示如何使用Shrink API：
```
# 1. 创建一个新的索引，指定更少的主分片数量
PUT /my_source_index/_settings
{
  "settings": {
    "index.number_of_replicas": 0,
    "index.routing.allocation.require._name": null,
    "index.blocks.write": true
  }
}

# 2. 执行shrink操作
POST my_source_index/_shrink/my_target_index
{
  "settings": {
    "index.number_of_shards": 1,
    "index.number_of_replicas": 1,
    "index.routing.allocation.require._name": null,
    "index.blocks.write": null
  }
}

# 3. 验证新的索引
GET my_target_index/_settings
```
资源限制调整： 如果是因为CPU或内存资源不足导致分片未分配，需要调整节点的资源配置。可以增加节点的CPU和内存，或者减少节点上的分片数量。
- 增加节点资源： 增加节点的CPU、内存等资源，提高节点的处理能力。
- 调整JVM堆大小： 调整Elasticsearch的JVM堆大小，避免内存溢出。
- 优化查询语句： 优化查询语句，减少CPU和内存的消耗。
集群配置优化： 如果是因为集群配置错误导致分片未分配，需要检查集群的配置，并进行相应的调整。
- 调整磁盘水位线： 调整cluster.routing.allocation.disk.watermark.low和cluster.routing.allocation.disk.watermark.high参数，避免磁盘空间不足导致分片无法分配。
- 检查节点过滤规则： 检查cluster.routing.allocation.exclude、cluster.routing.allocation.include等参数，确保分片可以正常分配到合适的节点上。
- 调整分片分配策略： 调整cluster.routing.allocation.awareness.attributes参数，实现分片在不同节点上的均衡分配。
以下代码示例展示如何调整磁盘水位线：
```
PUT _cluster/settings
{
  "transient": {
    "cluster.routing.allocation.disk.watermark.low": "80%",
    "cluster.routing.allocation.disk.watermark.high": "90%",
    "cluster.routing.allocation.disk.watermark.flood_stage": "95%"
  }
}
```
手动触发分片分配： 在某些情况下，Elasticsearch可能无法自动分配分片。可以使用_cluster/reroute API手动触发分片分配。
```
POST /_cluster/reroute?retry_failed=true
{
  "commands": [
    {
      "allocate_replica": {
        "index": "my_index",
        "shard": 0,
        "node": "node1"
      }
    }
  ]
}
```
这个API允许你强制分配一个未分配的副本分片到指定的节点。
重启集群： 在某些情况下，重启整个集群可以解决一些无法解释的分片分配问题。但是，重启集群会中断服务，需要谨慎操作。
- 滚动重启： 采用滚动重启的方式，逐个重启节点，避免服务中断。
- 备份数据： 在重启集群之前，务必备份数据，以防万一。

预防措施

为了避免Elasticsearch集群出现Yellow状态，可以采取以下预防措施：

监控集群状态： 实时监控集群的健康状态，及时发现并解决问题。可以使用Elasticsearch Head、Kibana等工具进行监控，也可以使用Prometheus、Grafana等监控系统。
合理规划集群容量： 在规划集群容量时，要考虑到未来的数据增长，预留足够的磁盘空间和资源。
定期维护集群： 定期维护集群，包括清理磁盘空间、优化索引、升级Elasticsearch版本等。
配置告警： 配置告警系统，当集群状态变为Yellow或Red时，及时通知管理员。
学习Elasticsearch最佳实践： 学习Elasticsearch的最佳实践，避免配置错误和操作失误。

数据备份策略: 制定完善的数据备份策略，定期备份数据，以防止数据丢失。可以使用Snapshot API进行数据备份。

以下代码示例展示如何使用Snapshot API进行数据备份：

# 1. 注册一个snapshot repository
PUT _snapshot/my_backup_repo
{
  "type": "fs",
  "settings": {
    "location": "/path/to/backup/location",
    "compress": true
  }
}

# 2. 创建一个snapshot
PUT _snapshot/my_backup_repo/snapshot_1
{
  "indices": "my_index",
  "ignore_unavailable": true,
  "include_global_state": false
}

# 3. 恢复snapshot
POST _snapshot/my_backup_repo/snapshot_1/_restore
{
  "indices": "my_index",
  "rename_pattern": "index_(.+)",
  "rename_replacement": "restored_index_$1"
}

常见问题排查

磁盘空间不足，但是显示还有空间？
- 预留空间： Elasticsearch 默认会预留一部分磁盘空间，即使系统层面显示还有空间，但 Elasticsearch 可能已经认为磁盘空间不足。检查cluster.routing.allocation.disk.watermark.low和cluster.routing.allocation.disk.watermark.high的设置。
- 文件系统碎片： 大量的文件碎片也会导致磁盘空间利用率下降。可以尝试进行磁盘碎片整理。
手动分配分片失败？
- 节点选择错误： 确保选择的节点有足够的资源来分配分片。
- 分配规则冲突： 检查是否存在相互冲突的分配规则，例如cluster.routing.allocation.exclude和cluster.routing.allocation.include。
- 权限问题： 确保执行分配操作的用户具有足够的权限。
集群重启后仍然是Yellow状态？
- 配置持久化： 检查配置是否正确持久化到elasticsearch.yml文件中。
- 网络问题： 检查节点之间的网络连接是否正常。
- 数据损坏： 尝试使用_cluster/reroute?retry_failed=true API重新分配分片。如果仍然失败，可能需要检查数据是否损坏。
升级Elasticsearch版本后出现Yellow状态？
- 插件兼容性: 检查所有已安装的插件是否与新版本兼容。不兼容的插件可能会导致分片分配失败。
- 索引兼容性: 某些旧版本的索引可能需要升级才能与新版本兼容。可以使用_reindex API重新索引数据。
- 配置迁移: 检查配置文件是否需要根据新版本的要求进行调整。

诊断思路总结

快速确认: 首先使用Cluster Health API确认集群的整体健康状态以及未分配分片的数量。
详细排查: 使用Cat Shards API查看具体哪些分片未分配，以及它们所属的索引。
原因分析: 使用Cluster Allocation Explain API详细了解分片未分配的原因，例如磁盘空间、节点过滤规则等。
日志分析: 检查Elasticsearch的日志文件，查找与分片分配相关的错误信息。
方案实施: 根据排查结果，采取相应的修复方案，例如清理磁盘空间、恢复故障节点、调整集群配置等。
验证结果: 修复完成后，再次使用Cluster Health API确认集群状态是否恢复到Green。

一些实践建议

容量规划先行: 在集群搭建初期，进行充分的容量规划，预留足够的磁盘空间和资源。
监控告警到位: 建立完善的监控告警系统，及时发现并解决问题。
定期维护不可少: 定期进行集群维护，包括清理磁盘空间、优化索引、升级Elasticsearch版本等。
自动化运维提效: 尽量采用自动化运维工具，例如Ansible、Chef等，提高运维效率。
多副本是保障: 始终保持足够的副本数量，以确保数据的冗余备份和查询性能。
故障演练常态化: 定期进行故障演练，以提高应对突发情况的能力。

希望这次的分享能够帮助大家更好地理解和解决Elasticsearch集群Yellow状态的问题，提升集群的稳定性和查询性能。