Kafka Connect/Streams的容错机制：恰好一次语义与状态存储设计 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Kafka Connect/Streams 的容错机制：恰好一次语义与状态存储设计

各位观众，大家好！今天我们深入探讨 Kafka Connect 和 Kafka Streams 的容错机制，特别是它们如何实现恰好一次 (Exactly-Once) 语义，以及状态存储的设计考量。这对于构建可靠、准确的数据管道至关重要。

容错性的重要性

在分布式系统中，容错性是至关重要的。Kafka Connect 和 Kafka Streams 作为数据集成和流处理框架，自然需要强大的容错机制来应对各种故障，包括：

进程崩溃: Connector/Stream 应用实例意外终止。
网络中断: Connector/Stream 应用与 Kafka 集群之间的连接中断。
Kafka Broker 故障: Kafka 集群中的 Broker 发生故障。
数据损坏: 数据在传输或处理过程中发生损坏。

如果缺乏有效的容错机制，系统可能会出现数据丢失、数据重复或数据不一致等问题，严重影响业务的正确性和可靠性。

恰好一次语义 (Exactly-Once Semantics)

恰好一次语义保证每条消息都被处理且仅被处理一次，即使在发生故障的情况下。这避免了数据丢失和数据重复的问题，是构建可靠流处理应用的关键。 Kafka Connect 和 Kafka Streams 都提供了实现恰好一次语义的机制，但实现方式略有不同。

Kafka Connect 的容错机制

Kafka Connect 主要依靠以下机制实现容错：

Offsets Management (偏移量管理): Connectors 会跟踪它们从源系统读取的记录的偏移量，以及它们写入 Kafka 的记录的偏移量。这些偏移量存储在 Kafka 的内部主题中 (config.storage.topic, offset.storage.topic, status.storage.topic)。当 Connector 重新启动时，它会从这些主题中恢复偏移量，并从上次停止的地方继续处理。
Task 分配和重新分配: Connectors 被分解为多个 Task，这些 Task 可以并行运行。如果一个 Task 失败，Kafka Connect 会自动将该 Task 重新分配给另一个 Connector 实例。
死信队列 (Dead Letter Queue, DLQ): 如果 Connector 在处理记录时遇到错误，它可以将该记录发送到 DLQ。这允许你检查和修复错误记录，并在之后重新处理它们。

Offsets 的重要性:

Offsets 是实现恰好一次语义的关键。Connector 通过记录已经成功处理的偏移量，能够在故障恢复后避免重复处理数据。

代码示例 (Source Connector 的偏移量管理):

以下是一个简化的 Source Connector 示例，说明了偏移量管理的概念：

public class MySourceTask extends SourceTask {

  private Long currentOffset = 0L;
  private final String OFFSET_KEY = "offset";

  @Override
  public void start(Map<String, String> props) {
    // 从 Kafka Connect 存储中恢复偏移量
    Map<String, Object> offset = context.offsetStorageReader().offset(Collections.singletonMap("partition", 0));
    if (offset != null) {
      currentOffset = (Long) offset.get(OFFSET_KEY);
    } else {
      currentOffset = 0L; // 从头开始
    }
  }

  @Override
  public List<SourceRecord> poll() throws InterruptedException {
    List<SourceRecord> records = new ArrayList<>();
    // 从源系统读取数据
    List<MyData> data = readDataFromSource(currentOffset);

    for (MyData d : data) {
      SourceRecord record = new SourceRecord(
          Collections.singletonMap("partition", 0),
          Collections.singletonMap(OFFSET_KEY, currentOffset),
          "my-topic",
          Schema.STRING_SCHEMA,
          d.getKey(),
          Schema.STRING_SCHEMA,
          d.getValue()
      );
      records.add(record);
      currentOffset++;
    }

    // 将当前偏移量存储到 Kafka Connect 存储中
    context.offsetStorageWriter().offset(Collections.singletonMap("partition", 0), Collections.singletonMap(OFFSET_KEY, currentOffset));
    context.offsetStorageWriter().flush();

    return records;
  }

  private List<MyData> readDataFromSource(Long offset) {
    // 模拟从源系统读取数据，从 offset 开始
    // ...
  }
}

class MyData {
  private String key;
  private String value;

  public MyData(String key, String value) {
    this.key = key;
    this.value = value;
  }

  public String getKey() {
    return key;
  }

  public String getValue() {
    return value;
  }
}

解释:

start() 方法从 Kafka Connect 的 offsetStorageReader 中读取上次的偏移量。
poll() 方法从源系统读取数据，并创建 SourceRecord。每个 SourceRecord 包含数据的键、值和偏移量。
在处理完数据后，poll() 方法使用 offsetStorageWriter 将当前的偏移量存储到 Kafka Connect 的存储中。 flush() 方法确保偏移量被立即写入。

Offsets 的存储：

配置项	描述
`offset.storage.topic`	存储 Connector 和 Task 的偏移量的 Kafka Topic。这是最重要的配置项，确保偏移量持久化。
`offset.storage.replication.factor`	偏移量 Topic 的复制因子。建议设置为大于 1 的值，以确保高可用性。
`offset.flush.interval.ms`	Connector 刷新偏移量到 Kafka Topic 的频率（毫秒）。较小的值可以减少数据重复的风险，但会增加 Kafka 的负载。
`offset.flush.timeout.ms`	Connector 在刷新偏移量时等待 Kafka 确认的最大时间（毫秒）。

重要提示:

offset.storage.topic 必须存在并且具有足够的 Partition。
确保 offset.storage.replication.factor 足够高，以避免因 Kafka Broker 故障导致偏移量丢失。
根据实际情况调整 offset.flush.interval.ms 和 offset.flush.timeout.ms，以平衡数据重复的风险和 Kafka 的负载。

Kafka Streams 的容错机制

Kafka Streams 提供了更高级别的容错机制，它基于以下关键概念：

状态存储 (State Store): Kafka Streams 允许你创建状态存储来持久化流处理过程中的中间结果。这些状态存储可以是内存中的、磁盘上的或基于 RocksDB 的。
变更日志 (Changelog): Kafka Streams 会将状态存储的变更记录到 Kafka 的内部主题中，称为变更日志。这允许在发生故障时恢复状态。
任务分配和重新分配: Kafka Streams 应用被分解为多个 Task，每个 Task 负责处理一部分数据。如果一个 Task 失败，Kafka Streams 会自动将该 Task 重新分配给另一个应用实例。
事务 (Transactions): Kafka Streams 2.5 及以上版本支持事务，可以保证 Exactly-Once 的读写语义。

状态存储的重要性:

状态存储允许 Kafka Streams 应用记住过去的状态，并基于这些状态进行决策。例如，你可以使用状态存储来计算窗口聚合、会话聚合或连接流。

代码示例 (使用状态存储计算窗口聚合):

final StreamsBuilder builder = new StreamsBuilder();

KStream<String, String> stream = builder.stream("input-topic");

KTable<Windowed<String>, Long> windowedCounts = stream
    .groupByKey()
    .windowedBy(TimeWindows.of(Duration.ofSeconds(5)))
    .count(Materialized.<String, Long, WindowStore<Bytes, byte[]>>as("windowed-counts-store"));

windowedCounts.toStream((key, value) -> key.key() + "@" + key.window().start())
    .to("output-topic");

KafkaStreams streams = new KafkaStreams(builder.build(), props);
streams.start();

解释:

stream.groupByKey() 将输入流按键分组。
windowedBy(TimeWindows.of(Duration.ofSeconds(5))) 创建一个 5 秒的滚动窗口。
count(Materialized.<String, Long, WindowStore<Bytes, byte[]>>as("windowed-counts-store")) 计算每个窗口中每个键的计数，并将结果存储在名为 "windowed-counts-store" 的状态存储中。
windowedCounts.toStream(...) 将 KTable 转换为 KStream，并将结果写入 "output-topic"。

状态存储的配置:

配置项	描述
`state.dir`	本地状态存储的目录。如果使用 RocksDB 状态存储，则 RocksDB 的数据文件将存储在此目录中。
`rocksdb.config.setter`	用于配置 RocksDB 的自定义类。你可以使用此配置项来调整 RocksDB 的性能和资源使用情况。
`cache.max.bytes.buffering`	用于缓冲记录的最大内存量。较大的值可以提高性能，但会增加内存使用量。
`commit.interval.ms`	状态存储的变更日志被刷新的频率（毫秒）。较小的值可以减少数据丢失的风险，但会增加 Kafka 的负载。
`replication.factor` (内部主题的配置，包括状态存储的变更日志)	变更日志 Topic 的复制因子。建议设置为大于 1 的值，以确保高可用性。

重要提示:

state.dir 必须是一个可写的目录。
根据实际情况调整 cache.max.bytes.buffering 和 commit.interval.ms，以平衡性能和数据丢失的风险。
对于生产环境，建议使用 RocksDB 作为状态存储，因为它具有更高的性能和可扩展性。
确保变更日志 Topic 的 replication.factor 足够高，以避免因 Kafka Broker 故障导致状态丢失。
在 Kafka Streams 2.5 及以上版本中使用事务，可以保证 Exactly-Once 的读写语义，配置 processing.guarantee 为 exactly_once_v2。

事务的支持 (Kafka Streams 2.5+):

Kafka Streams 2.5 及以上版本引入了对事务的支持，极大地简化了实现 Exactly-Once 语义的过程。通过启用事务，Kafka Streams 可以确保以下两点：

幂等写入: 即使在发生故障后重试写入操作，Kafka Streams 也只会将数据写入 Kafka 一次。
原子性: Kafka Streams 确保所有状态存储的更新和 Kafka 写入操作要么全部成功，要么全部失败。

配置事务：

需要在 Kafka Streams 的配置中设置 processing.guarantee 属性为 exactly_once_v2：

Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "my-streams-app");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
props.put(StreamsConfig.PROCESSING_GUARANTEE_CONFIG, StreamsConfig.EXACTLY_ONCE_V2);

使用事务的优势：

简化开发: 开发者无需手动管理偏移量和处理重复数据，Kafka Streams 会自动处理这些问题。
提高可靠性: 事务提供了更强的容错保证，确保数据在发生故障时不会丢失或重复。
降低复杂性: 事务消除了对幂等操作和重复数据删除的需求，从而降低了应用的复杂性。

容错机制的比较

特性	Kafka Connect	Kafka Streams
核心概念	Offsets, Task 分配, 死信队列	状态存储, 变更日志, Task 分配, 事务 (2.5+)
编程模型	声明式, 基于配置	命令式, 基于代码
适用场景	数据集成, 数据迁移	流处理, 实时分析
容错粒度	Connector/Task	Task
Exactly-Once	需要仔细配置和实现，依赖于 Connector 本身的实现	通过状态存储和变更日志自动支持，2.5+版本通过事务提供更强的保证
复杂性	相对简单	相对复杂，需要理解状态存储和变更日志的概念

总结：选择合适的容错策略

Kafka Connect 和 Kafka Streams 都提供了强大的容错机制，但它们适用于不同的场景。 Kafka Connect 适用于数据集成和数据迁移，它通过偏移量管理和 Task 分配来保证数据的可靠性。 Kafka Streams 适用于流处理和实时分析，它通过状态存储、变更日志和事务来保证数据的准确性和一致性。选择哪种框架取决于你的具体需求和场景。理解它们的容错机制，并根据实际情况进行配置，才能构建可靠、准确的数据管道。务必关注offsets管理，状态存储和变更日志的持久性。