Elasticsearch堆外内存泄漏导致节点频繁重启的深度排查指南 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Elasticsearch 堆外内存泄漏深度排查指南

大家好，今天我们来深入探讨一个 Elasticsearch 集群中常见的棘手问题：堆外内存泄漏导致的节点频繁重启。这个问题可能表现为节点不断 OOM (Out Of Memory) 并重启，导致集群不稳定，影响搜索和写入性能。

1. 理解 Elasticsearch 的内存结构

在深入排查之前，我们需要对 Elasticsearch 的内存使用有一个清晰的认识。 Elasticsearch 主要使用两种内存：

堆内存 (Heap Memory): 由 JVM 管理，用于存储 Lucene 的索引数据、查询缓存、以及 Elasticsearch 本身的对象。可以通过 -Xms 和 -Xmx 参数配置。
堆外内存 (Off-Heap Memory): 不由 JVM 管理，用于存储 Lucene 的段信息、网络缓冲区、以及其他一些数据结构。堆外内存的使用受操作系统限制，而不是 JVM。

内存类型	管理者	主要用途	配置参数
堆内存	JVM	Lucene 索引数据、查询缓存、Elasticsearch 对象	`-Xms`、`-Xmx`
堆外内存	操作系统	Lucene 段信息、网络缓冲区	操作系统限制（通常很大）

堆外内存泄漏意味着 Elasticsearch 进程占用的物理内存持续增长，最终超过系统的可用内存，导致 OOM 并被操作系统杀死。

2. 诊断：识别堆外内存泄漏

识别堆外内存泄漏需要监控 Elasticsearch 进程的内存使用情况。以下是一些常用的方法：

操作系统监控工具： top、htop、vmstat 等工具可以实时查看进程的内存占用情况 (RES)。观察 RES 列是否持续增长，即使在 JVM 堆内存使用率不高的情况下。
```
top -p <elasticsearch_pid>
```
Elasticsearch 节点统计 API： 使用 _nodes/stats API 获取节点的详细统计信息，包括 JVM 内存使用情况、缓存大小等。
```
curl -XGET 'http://localhost:9200/_nodes/_local/stats?pretty'
```
重点关注 indices.segments.memory_in_bytes 和 breaker 部分。 indices.segments.memory_in_bytes 显示了段占用的内存大小，如果持续增长，可能表明存在问题。breaker 部分显示了各个 Circuit Breaker 的状态，如果某个 Breaker 频繁触发，可能表明内存使用压力过大。
JVM 工具： 虽然堆外内存不由 JVM 直接管理，但可以使用 JVM 工具来间接观察。例如，jcmd 可以用来打印 JVM 的原生内存跟踪 (Native Memory Tracking, NMT)。
```
jcmd <elasticsearch_pid> VM.native_memory summary
```
NMT 可以显示 JVM 内部的内存使用情况，包括 Direct Memory (堆外内存)。但需要注意的是，NMT 只能追踪 JVM 内部分配的堆外内存，无法追踪 Lucene 直接分配的堆外内存。启用 NMT 需要在 JVM 启动参数中添加：
```
-XX:NativeMemoryTracking=summary
```
Grafana 监控面板： 使用 Grafana 配合 Elasticsearch Exporter 或 Prometheus 可以创建监控面板，实时监控 Elasticsearch 的各项指标，包括内存使用情况、CPU 使用率、GC 情况等。

3. 常见原因分析与排查

确定存在堆外内存泄漏后，我们需要分析可能的原因。以下是一些常见的导致 Elasticsearch 堆外内存泄漏的原因：

段 (Segment) 增长过快： Lucene 将数据存储在不可变的段中。当索引数据更新时，会创建新的段。如果段合并速度跟不上数据写入速度，会导致段的数量和大小不断增长，占用大量的堆外内存。
- 排查方法：
  - 检查索引的刷新间隔 (refresh interval) 是否设置过低。频繁的刷新会导致产生大量的段。适当提高刷新间隔可以减少段的数量。
  - 检查是否有大量的更新操作 (update by query)。更新操作会导致创建新的段，而旧的段需要等待合并。尽量避免大量的更新操作，或者使用 bulk API 批量更新。
  - 监控段的大小和数量。使用 _cat/segments API 可以查看各个索引的段信息。
```
curl -XGET 'http://localhost:9200/_cat/segments?v'
```
    如果发现某个索引的段数量异常高，或者段的大小持续增长，需要进一步分析。
Fielddata 占用过多内存： Fielddata 用于支持聚合和排序操作。 Elasticsearch 默认不加载 Fielddata，只有在需要时才会加载。如果查询需要访问大量文本类型的字段，会导致 Fielddata 占用大量的堆外内存。
- 排查方法：
  - 检查查询语句是否使用了 text 类型的字段进行聚合或排序。如果是，考虑使用 keyword 类型代替，或者启用 doc_values。
  - 使用 Fielddata Circuit Breaker 限制 Fielddata 的使用。 Circuit Breaker 会在 Fielddata 占用过多内存时阻止查询执行，防止 OOM。可以通过 indices.breaker.fielddata.limit 参数配置 Fielddata Circuit Breaker 的限制。
  - 监控 Fielddata 的使用情况。使用 _nodes/stats API 可以查看 Fielddata 的内存占用情况。
```
curl -XGET 'http://localhost:9200/_nodes/_local/stats?filter_path=nodes.*.indices.fielddata'
```
未释放的 Direct Byte Buffer: Elasticsearch 使用 Direct Byte Buffer (DBB) 进行网络通信和文件读写。如果 DBB 没有被及时释放，会导致堆外内存泄漏。
- 排查方法：
  - 检查是否有大量的未关闭的连接。未关闭的连接会导致 DBB 无法释放。
  - 检查是否有大量的文件读写操作。文件读写操作也会使用 DBB。
  - 使用 JVM 工具检测 DBB 的使用情况。可以使用 jcmd 的 GC.heap_dump 命令生成堆转储文件，然后使用 MAT (Memory Analyzer Tool) 分析 DBB 的使用情况。
BulkQueue 容量不足: Elasticsearch 的 BulkProcessor 使用 BulkQueue 来缓存批量请求。如果 BulkQueue 的容量不足，会导致请求被丢弃，或者导致内存泄漏。
- 排查方法：
  - 检查 BulkQueue 的容量是否足够。可以通过 bulk_queue_size 参数配置 BulkQueue 的容量。
  - 监控 BulkQueue 的状态。可以使用 Elasticsearch 的监控 API 查看 BulkQueue 的状态。
第三方插件问题： 某些第三方插件可能存在内存泄漏问题。
- 排查方法：
  - 禁用所有第三方插件，然后逐个启用，观察是否出现内存泄漏。
  - 查看插件的文档和 Issue Tracker，了解是否存在已知的问题。

4. 解决方案

针对不同的原因，可以采取以下解决方案：

优化索引配置：
- 调整刷新间隔 (refresh interval)。
- 优化索引映射 (mapping)，避免使用 text 类型字段进行聚合和排序。
- 使用 doc_values 代替 Fielddata。
- 使用 force merge 减少段的数量。注意：force merge 操作会消耗大量的资源，应该在低峰期进行。
```
curl -XPOST 'http://localhost:9200/your_index/_forcemerge?max_num_segments=1'
```
优化查询语句：
- 避免使用 text 类型字段进行聚合和排序。
- 使用缓存 (query cache, request cache) 减少查询的内存消耗。
调整 JVM 配置：
- 适当增加堆内存大小 (Xmx)。但需要注意的是，堆内存过大可能会导致 GC 时间过长，影响性能。
- 启用 G1 垃圾回收器。 G1 垃圾回收器可以更好地管理大堆内存。
```
-XX:+UseG1GC
```
优化 BulkProcessor 配置：
- 调整 BulkQueue 的容量 (bulk_queue_size)。
- 调整并发请求的数量 (concurrent_requests)。
- 调整刷新间隔 (flush_interval)。
升级 Elasticsearch 版本： 新版本通常会修复一些已知的问题，并进行性能优化。
监控和告警： 建立完善的监控和告警机制，及时发现和处理内存泄漏问题。

5. 代码示例：使用 BulkProcessor 批量写入数据

以下是一个使用 BulkProcessor 批量写入数据的示例代码：

import org.elasticsearch.action.bulk.BulkProcessor;
import org.elasticsearch.action.bulk.BulkRequest;
import org.elasticsearch.action.bulk.BulkResponse;
import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.common.unit.ByteSizeUnit;
import org.elasticsearch.common.unit.ByteSizeValue;
import org.elasticsearch.common.unit.TimeValue;

import java.io.IOException;
import java.util.HashMap;
import java.util.Map;
import java.util.concurrent.TimeUnit;
import java.util.function.BiConsumer;

public class BulkIndexer {

    private final RestHighLevelClient client;
    private BulkProcessor bulkProcessor;

    public BulkIndexer(RestHighLevelClient client) {
        this.client = client;
        this.bulkProcessor = createBulkProcessor();
    }

    private BulkProcessor createBulkProcessor() {
        BulkProcessor.Listener listener = new BulkProcessor.Listener() {
            @Override
            public void beforeBulk(long executionId, BulkRequest request) {
                System.out.println("Executing bulk [" + executionId + "] with " + request.numberOfActions() + " requests");
            }

            @Override
            public void afterBulk(long executionId, BulkRequest request, BulkResponse response) {
                if (response.hasFailures()) {
                    System.err.println("Bulk [" + executionId + "] executed with failures");
                } else {
                    System.out.println("Bulk [" + executionId + "] completed in " + response.getTook().getMillis() + "ms");
                }
            }

            @Override
            public void afterBulk(long executionId, BulkRequest request, Throwable failure) {
                System.err.println("Failed to execute bulk [" + executionId + "]");
                failure.printStackTrace();
            }
        };

        BiConsumer<BulkRequest, org.elasticsearch.action.ActionListener<BulkResponse>> bulkConsumer =
                (request, bulkListener) -> client.bulkAsync(request, RequestOptions.DEFAULT, bulkListener);

        return BulkProcessor.builder(bulkConsumer, listener)
                .setBulkActions(1000) // Number of actions to perform before the bulk request is executed.
                .setBulkSize(new ByteSizeValue(5, ByteSizeUnit.MB)) // The size of the bulk request in bytes.
                .setFlushInterval(TimeValue.timeValueSeconds(5)) // The interval after which the bulk request will be executed whatever the number of actions is.
                .setConcurrentRequests(1) // The number of concurrent requests allowed to be executed. Set to 0 for only allowing the execution of a single request.
                .build();
    }

    public void index(String index, String id, Map<String, Object> data) throws IOException {
        IndexRequest request = new IndexRequest(index).id(id).source(data);
        bulkProcessor.add(request);
    }

    public void close() throws IOException, InterruptedException {
        bulkProcessor.awaitClose(30, TimeUnit.SECONDS);
        client.close();
    }

    public static void main(String[] args) throws IOException, InterruptedException {
        // Replace with your Elasticsearch client initialization
        RestHighLevelClient client = new RestHighLevelClient(
                // ... your client configuration
        );

        BulkIndexer indexer = new BulkIndexer(client);

        // Example usage:
        for (int i = 0; i < 10000; i++) {
            Map<String, Object> data = new HashMap<>();
            data.put("field1", "value" + i);
            data.put("field2", i);
            indexer.index("my_index", String.valueOf(i), data);
        }

        indexer.close();
    }
}

代码解释：

BulkProcessor 用于批量处理索引请求。
BulkProcessor.Listener 用于监听批量请求的执行状态。
bulkConsumer 是一个 BiConsumer，用于将 BulkRequest 异步发送到 Elasticsearch。
setBulkActions 设置批量请求的最大操作数量。
setBulkSize 设置批量请求的最大大小。
setFlushInterval 设置批量请求的刷新间隔。
setConcurrentRequests 设置并发请求的数量。

6. 案例分析：实际排查过程

假设我们遇到一个 Elasticsearch 集群，节点频繁重启。通过监控发现，节点的 RES 内存持续增长，即使 JVM 堆内存使用率不高。经过分析，我们怀疑是堆外内存泄漏。

确认问题： 使用 top 命令确认 RES 内存持续增长。
查看节点统计： 使用 _nodes/stats API 查看 indices.segments.memory_in_bytes 和 breaker 部分。发现 indices.segments.memory_in_bytes 持续增长，且 Fielddata Circuit Breaker 频繁触发。
分析原因： 经过分析查询语句，发现使用了 text 类型的字段进行聚合操作。
解决方案： 修改索引映射，将 text 类型的字段改为 keyword 类型。重新索引数据。
验证： 重新部署集群，并持续监控内存使用情况。发现 RES 内存不再持续增长，问题解决。

7. 预防：最佳实践

为了避免堆外内存泄漏，建议遵循以下最佳实践：

合理配置 Elasticsearch： 根据实际需求配置堆内存大小、刷新间隔、BulkProcessor 参数等。
优化索引映射： 避免使用 text 类型字段进行聚合和排序。
优化查询语句： 避免复杂的查询，使用缓存。
监控和告警： 建立完善的监控和告警机制。
定期维护： 定期进行索引优化、段合并等维护操作。
升级到最新版本： 保持 Elasticsearch 版本最新。

段合并速度要跟上数据写入速度

段合并是控制段数量和大小的关键。如果数据写入速度超过了段合并的速度，就会导致段的数量和大小不断增长，占用大量的堆外内存。可以通过调整 index.merge.scheduler.max_thread_count 来增加合并线程数，加速段的合并。

Fielddata 的使用和 Doc Values 的选择

在Elasticsearch中，Fielddata用于支持对文本字段的聚合和排序操作。然而，加载Fielddata到内存中可能会消耗大量的堆外内存。Doc Values 是一种在索引时预先计算并存储在磁盘上的数据结构，可以用来替代Fielddata，减少内存消耗。

JVM 的选择和优化

选择合适的 JVM 版本和配置对于 Elasticsearch 的性能至关重要。G1 垃圾回收器通常是 Elasticsearch 的首选垃圾回收器，因为它能够更好地管理大堆内存，并减少垃圾回收的停顿时间。

希望今天的讲解能够帮助大家更好地理解和解决 Elasticsearch 堆外内存泄漏问题。谢谢大家。

Elasticsearch 堆外内存泄漏深度排查指南

发表回复 取消回复

发表回复取消回复