JAVA Kafka 生产端吞吐低？批处理、linger.ms 与压缩算法配置技巧 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

提升 Java Kafka 生产端吞吐：批处理、linger.ms 与压缩算法配置技巧

各位朋友，大家好！今天我们来深入探讨一个Kafka生产端性能优化中非常关键的问题：如何解决Java Kafka生产端吞吐量低的问题。很多时候，我们搭建了一个Kafka集群，集群本身的性能没有问题，但是生产端写入速度却达不到预期，这往往是配置不当造成的。本次讲座，我们将重点围绕批处理、linger.ms 和压缩算法这三个方面，结合代码示例，为大家详细讲解如何配置优化，以显著提升Kafka生产端的吞吐量。

理解Kafka生产端工作机制

在深入配置之前，我们需要先理解Kafka生产端的工作机制。Producer不是每发送一条消息就立即发送到Kafka Broker，而是会将消息先缓存在内存中。这个缓冲过程是实现高性能的关键。Producer会根据以下策略将缓存的消息批量发送到Broker：

批处理 (Batching): 将多条消息合并成一个大的请求发送。这减少了网络往返次数，显著提高了吞吐量。
linger.ms: Producer等待更多消息加入批次的时间。即使批次未满，只要等待时间超过linger.ms，Producer也会发送当前批次。
batch.size: 批次的最大大小（字节）。当批次达到这个大小时，即使linger.ms未到，Producer也会发送批次。

理解了这些机制，我们就能更好地进行配置优化。

批处理：核心优化手段

批处理是提升Kafka生产端吞吐量最核心的手段。通过将多个小消息打包成一个大的消息批量发送，可以显著减少网络开销和Broker的处理负载。

1. batch.size 参数

batch.size 参数控制每个批次的最大大小，单位是字节。默认值通常是 16384 (16KB)。适当增大 batch.size 可以提升吞吐量，但也会增加内存占用，并可能导致延迟增加（如果消息量不足以快速填满批次）。

代码示例:

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;

public class BatchProducer {

    public static void main(String[] args) throws InterruptedException {

        String topicName = "my-topic";

        Properties props = new Properties();
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");

        // 增大 batch.size
        props.put(ProducerConfig.BATCH_SIZE_CONFIG, 32768); // 32KB

        KafkaProducer<String, String> producer = new KafkaProducer<>(props);

        try {
            for (int i = 0; i < 1000; i++) {
                ProducerRecord<String, String> record = new ProducerRecord<>(topicName, "key-" + i, "message-" + i);
                producer.send(record);
                //Thread.sleep(1); // 模拟发送速度
            }
        } finally {
            producer.close();
        }
    }
}

最佳实践:

逐步增加: 从默认值开始，逐步增加 batch.size，并监控吞吐量和延迟。
消息大小: batch.size 的最佳值取决于消息的大小。如果消息很小，可以设置更大的 batch.size。
内存考虑: 确保 Producer 进程有足够的内存来容纳更大的批次。

2. linger.ms 参数

linger.ms 参数指定 Producer 在发送批次之前等待更多消息到达的最长时间。默认值通常是 0ms，这意味着 Producer 会尽可能快地发送消息。适当增加 linger.ms 可以让 Producer 有更多机会将消息添加到批次中，从而提高吞吐量。

代码示例:

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;

public class LingerProducer {

    public static void main(String[] args) throws InterruptedException {

        String topicName = "my-topic";

        Properties props = new Properties();
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");

        // 增加 linger.ms
        props.put(ProducerConfig.LINGER_MS_CONFIG, 5); // 5ms

        KafkaProducer<String, String> producer = new KafkaProducer<>(props);

        try {
            for (int i = 0; i < 1000; i++) {
                ProducerRecord<String, String> record = new ProducerRecord<>(topicName, "key-" + i, "message-" + i);
                producer.send(record);
                //Thread.sleep(1); // 模拟发送速度
            }
        } finally {
            producer.close();
        }
    }
}

最佳实践:

平衡延迟: linger.ms 的增加会增加延迟。需要根据实际应用场景，在吞吐量和延迟之间进行权衡。
小消息场景: 对于消息量不大或者消息体积很小的场景，增加 linger.ms 的效果会更明显。
结合 batch.size: linger.ms 和 batch.size 配合使用，可以更有效地控制批处理。

3. compression.type 参数

compression.type 参数指定 Producer 使用的压缩算法。压缩可以减少消息的大小，从而提高吞吐量并减少网络带宽占用。 Kafka 支持多种压缩算法，包括：

none (默认): 不压缩
gzip
snappy
lz4
zstd

代码示例:

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;

public class CompressionProducer {

    public static void main(String[] args) throws InterruptedException {

        String topicName = "my-topic";

        Properties props = new Properties();
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");

        // 启用压缩
        props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "gzip"); // 使用 gzip 压缩

        KafkaProducer<String, String> producer = new KafkaProducer<>(props);

        try {
            for (int i = 0; i < 1000; i++) {
                ProducerRecord<String, String> record = new ProducerRecord<>(topicName, "key-" + i, "message-" + i);
                producer.send(record);
                //Thread.sleep(1); // 模拟发送速度
            }
        } finally {
            producer.close();
        }
    }
}

不同压缩算法的比较：

| 压缩算法 | 压缩率 | CPU 消耗 | 解压速度 | 适用场景
| Snappy | 较高 | 中等 | 很快 | 通用场景，速度和压缩率都比较好。 . |
| Gzip | 高 | 高 | 慢 | 适用于对压缩率要求较高，但对速度要求不高的场景。

提升 Java Kafka 生产端吞吐：批处理、linger.ms 与压缩算法配置技巧

理解Kafka生产端工作机制

批处理：核心优化手段

发表回复 取消回复

发表回复取消回复