Spring Cloud Stream消息乱序消费的重排与幂等方案 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Spring Cloud Stream 消息乱序消费的重排与幂等方案

大家好，今天我们来聊聊在使用 Spring Cloud Stream 构建消息驱动的微服务架构时，经常会遇到的一个挑战：消息乱序消费，以及如何通过重排和幂等性来解决这个问题。

乱序消费的根源

在理想情况下，消息按照发送的顺序被消费者接收和处理。但在分布式系统中，由于多种因素，消息的顺序可能会被打乱：

网络延迟: 不同消息的网络传输时间可能存在差异，导致先发送的消息后到达。
消息中间件分区: 消息中间件（如 Kafka, RabbitMQ）为了提高吞吐量，通常会将 Topic 分区，不同的分区可能由不同的消费者实例消费，导致消息在不同消费者之间的处理顺序不一致。
消费者并发处理: 消费者为了提高处理能力，可能会采用多线程或异步方式并行处理消息，导致消息的处理顺序与接收顺序不一致。
重试机制: 当消费者处理消息失败时，消息中间件会进行重试，这可能导致重试的消息先于后续消息被处理。

这些因素共同作用，使得消息乱序成为分布式系统中一个普遍存在的问题。

乱序消费的危害

消息乱序消费可能会导致各种问题，具体取决于业务场景：

数据一致性问题: 如果消息的顺序对数据的最终状态有影响，乱序消费可能会导致数据不一致。例如，账户余额更新的场景，先扣款后存款的消息乱序可能导致余额错误。
业务逻辑错误: 某些业务逻辑依赖于消息的顺序，乱序消费可能导致逻辑错误。例如，订单状态变更的场景，先发货后付款的消息乱序可能导致流程异常。
重复消费问题: 为了保证消息至少被消费一次，消息中间件通常会采用重试机制。如果消费者在处理消息后，未能及时确认，消息可能会被重复消费，导致数据冗余或业务逻辑重复执行。

重排方案：保证顺序

重排的目标是尽可能地恢复消息的原始顺序，确保消费者按照正确的顺序处理消息。

1. 基于时间戳的重排

如果消息本身包含时间戳信息，可以利用时间戳对消息进行排序。

原理: 生产者在发送消息时，为每条消息添加一个时间戳。消费者接收到消息后，将消息存储在一个缓冲区中，按照时间戳进行排序，然后按顺序处理。
优点: 实现简单，适用于消息本身包含时间戳的场景。
缺点: 依赖于系统时钟的准确性，如果系统时钟不同步，可能会导致排序错误。同时，缓冲区的大小需要合理设置，避免内存溢出。

import org.springframework.stereotype.Component;

import java.util.ArrayList;
import java.util.Comparator;
import java.util.List;
import java.util.concurrent.BlockingQueue;
import java.util.concurrent.LinkedBlockingQueue;

@Component
public class TimestampReorderProcessor {

    private final BlockingQueue<MessageWithTimestamp> buffer = new LinkedBlockingQueue<>();
    private final int bufferSize = 1000; // 可以配置
    private final List<MessageWithTimestamp> sortedList = new ArrayList<>();

    public void process(MessageWithTimestamp message) throws InterruptedException {
        if (buffer.size() >= bufferSize) {
            // 缓冲区已满，等待
            Thread.sleep(10); // 简单处理，实际情况可能需要更复杂的策略
        }
        buffer.put(message);
        reorder();
    }

    private void reorder() {
        synchronized (this) { // 保证线程安全
            buffer.drainTo(sortedList);
            sortedList.sort(Comparator.comparingLong(MessageWithTimestamp::getTimestamp));

            // 处理排序后的消息
            for (MessageWithTimestamp msg : sortedList) {
                // 这里是消息处理逻辑，例如调用业务服务
                System.out.println("Processed message with timestamp: " + msg.getTimestamp() + ", content: " + msg.getContent());
            }
            sortedList.clear(); // 清空已处理的消息
        }
    }

    public static class MessageWithTimestamp {
        private final long timestamp;
        private final String content;

        public MessageWithTimestamp(long timestamp, String content) {
            this.timestamp = timestamp;
            this.content = content;
        }

        public long getTimestamp() {
            return timestamp;
        }

        public String getContent() {
            return content;
        }
    }
}

@SpringBootApplication
public class ReorderApplication {

    public static void main(String[] args) {
        SpringApplication.run(ReorderApplication.class, args);
    }

    @Bean
    public Consumer<MessageWithTimestamp> timestampConsumer(TimestampReorderProcessor reorderProcessor) {
        return message -> {
            try {
                reorderProcessor.process(message);
            } catch (InterruptedException e) {
                Thread.currentThread().interrupt(); // Restore interrupted state
                System.err.println("Error processing message: " + e.getMessage());
            }
        };
    }

    @Bean
    public Supplier<Flux<MessageWithTimestamp>> timestampProducer() {
        return () -> Flux.interval(Duration.ofSeconds(1))
                .map(i -> {
                    long timestamp = System.currentTimeMillis();
                    String content = "Message " + i;
                    // 故意制造乱序
                    if (i % 3 == 0) {
                        timestamp -= 2000; // 制造延迟
                    }
                    return new MessageWithTimestamp(timestamp, content);
                });
    }

    @Autowired
    TimestampReorderProcessor reorderProcessor;

    @PostConstruct
    public void test() {
        //模拟发送消息
        //  发送消息逻辑
    }

    static class MessageWithTimestamp {
        private final long timestamp;
        private final String content;

        public MessageWithTimestamp(long timestamp, String content) {
            this.timestamp = timestamp;
            this.content = content;
        }

        public long getTimestamp() {
            return timestamp;
        }

        public String getContent() {
            return content;
        }
    }
}

2. 基于序列号的重排

如果消息具有严格的顺序关系，可以为每条消息分配一个唯一的序列号。

原理: 生产者在发送消息时，为每条消息添加一个递增的序列号。消费者接收到消息后，将消息存储在一个缓冲区中，按照序列号进行排序，然后按顺序处理。如果发现序列号不连续，可以等待缺失的消息到达，或者采取其他处理策略（例如，记录错误日志，发送告警）。
优点: 能够保证消息的严格顺序，适用于对顺序要求非常高的场景。
缺点: 需要维护序列号的生成和管理，增加了一定的复杂度。如果消息丢失，可能会导致后续消息无法处理。

import org.springframework.stereotype.Component;

import java.util.ArrayList;
import java.util.Comparator;
import java.util.List;
import java.util.concurrent.BlockingQueue;
import java.util.concurrent.LinkedBlockingQueue;

@Component
public class SequenceReorderProcessor {

    private final BlockingQueue<MessageWithSequence> buffer = new LinkedBlockingQueue<>();
    private final int bufferSize = 1000; // 可配置
    private final List<MessageWithSequence> sortedList = new ArrayList<>();
    private long expectedSequence = 1; // 期望的下一个序列号

    public void process(MessageWithSequence message) throws InterruptedException {
        if (buffer.size() >= bufferSize) {
            // 缓冲区已满，等待
            Thread.sleep(10); // 简单处理，实际情况可能需要更复杂的策略
        }
        buffer.put(message);
        reorder();
    }

    private void reorder() {
        synchronized (this) { // 保证线程安全
            buffer.drainTo(sortedList);
            sortedList.sort(Comparator.comparingLong(MessageWithSequence::getSequence));

            List<MessageWithSequence> processedMessages = new ArrayList<>();
            for (MessageWithSequence msg : sortedList) {
                if (msg.getSequence() == expectedSequence) {
                    // 处理消息
                    System.out.println("Processed message with sequence: " + msg.getSequence() + ", content: " + msg.getContent());
                    processedMessages.add(msg);
                    expectedSequence++;
                } else if (msg.getSequence() < expectedSequence) {
                    // 消息已处理，忽略
                    System.out.println("Ignoring duplicate message with sequence: " + msg.getSequence());
                } else {
                    // 消息缺失，等待后续消息到达
                    System.out.println("Missing message with sequence: " + expectedSequence + ", current message sequence: " + msg.getSequence());
                    break; // 停止处理，等待后续消息
                }
            }

            sortedList.removeAll(processedMessages); // 移除已处理的消息
            buffer.clear(); // 清空队列，重新从 sortedList 中获取未处理消息
            buffer.addAll(sortedList); // 将未处理的消息放回队列
            sortedList.clear(); // 清空已处理的消息
        }
    }

    public static class MessageWithSequence {
        private final long sequence;
        private final String content;

        public MessageWithSequence(long sequence, String content) {
            this.sequence = sequence;
            this.content = content;
        }

        public long getSequence() {
            return sequence;
        }

        public String getContent() {
            return content;
        }
    }
}

@SpringBootApplication
public class ReorderApplication {

    public static void main(String[] args) {
        SpringApplication.run(ReorderApplication.class, args);
    }

    @Bean
    public Consumer<MessageWithSequence> sequenceConsumer(SequenceReorderProcessor reorderProcessor) {
        return message -> {
            try {
                reorderProcessor.process(message);
            } catch (InterruptedException e) {
                Thread.currentThread().interrupt(); // Restore interrupted state
                System.err.println("Error processing message: " + e.getMessage());
            }
        };
    }

    @Bean
    public Supplier<Flux<MessageWithSequence>> sequenceProducer() {
        AtomicLong sequenceNumber = new AtomicLong(1); // 使用 AtomicLong 保证线程安全
        return () -> Flux.interval(Duration.ofSeconds(1))
                .map(i -> {
                    long sequence = sequenceNumber.getAndIncrement();
                    String content = "Message " + i;
                    // 故意制造乱序和缺失
                    if (i % 3 == 0) {
                        sequence += 2; // 故意跳过序列号
                        sequenceNumber.getAndAdd(2);
                    }
                    return new MessageWithSequence(sequence, content);
                });
    }

    @Autowired
    SequenceReorderProcessor reorderProcessor;

    @PostConstruct
    public void test() {
        //模拟发送消息
        //  发送消息逻辑
    }

    static class MessageWithSequence {
        private final long sequence;
        private final String content;

        public MessageWithSequence(long sequence, String content) {
            this.sequence = sequence;
            this.content = content;
        }

        public long getSequence() {
            return sequence;
        }

        public String getContent() {
            return content;
        }
    }
}

3. 基于 Keyed Partitioning 的重排

如果消息的顺序只对特定的 Key 有意义，可以使用 Keyed Partitioning 来保证相同 Key 的消息被发送到同一个分区，从而保证顺序。

原理: 生产者在发送消息时，根据消息的 Key 计算分区号，将相同 Key 的消息发送到同一个分区。消费者订阅特定的分区，从而保证接收到的消息是按照 Key 排序的。
优点: 实现简单，能够保证相同 Key 的消息的顺序。
缺点: 只能保证相同 Key 的消息的顺序，对于不同 Key 的消息，仍然可能存在乱序。

在 Spring Cloud Stream 中，可以通过以下方式配置 Keyed Partitioning：

spring:
  cloud:
    stream:
      bindings:
        input:
          destination: my-topic
          group: my-group
          consumer:
            partitioned: true # 启用分区消费
      kafka:
        binder:
          producer-properties:
            key.serializer: org.apache.kafka.common.serialization.StringSerializer # Key 的序列化器
          partitionKeyExtractorName: myPartitionKeyExtractor # 自定义分区键提取器

import org.springframework.cloud.stream.binder.PartitionKeyExtractorStrategy;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.messaging.Message;

@Configuration
public class PartitionConfig {

    @Bean
    public PartitionKeyExtractorStrategy myPartitionKeyExtractor() {
        return message -> {
            // 从消息头或消息体中提取 Key
            return message.getHeaders().get("myKey"); // 示例：从消息头中提取 Key
        };
    }
}

重排方案的共同问题

所有重排方案都需要维护一个缓冲区来存储消息，这会增加内存消耗。缓冲区的大小需要合理设置，避免内存溢出。此外，重排方案会引入一定的延迟，因为需要等待消息到达才能进行排序。

方案	优点	缺点	适用场景
时间戳重排	实现简单	依赖于系统时钟的准确性，缓冲区大小需要合理设置	消息本身包含时间戳，对顺序要求不高的场景
序列号重排	能够保证消息的严格顺序	需要维护序列号的生成和管理，消息丢失可能导致后续消息无法处理	对顺序要求非常高的场景
Keyed Partitioning	实现简单，能够保证相同 Key 的消息的顺序	只能保证相同 Key 的消息的顺序，对于不同 Key 的消息，仍然可能存在乱序	消息的顺序只对特定的 Key 有意义，需要将相同 Key 的消息发送到同一个分区的场景

幂等方案：消除重复

幂等性是指对一个操作执行多次，与执行一次的效果相同。通过保证消息处理的幂等性，可以消除重复消费带来的影响。

1. 数据库唯一约束

在将消息处理结果写入数据库时，可以利用数据库的唯一约束来保证数据的唯一性。

原理: 为数据库表添加唯一索引，当重复的消息尝试插入相同的数据时，数据库会抛出异常，从而阻止重复数据的写入。
优点: 实现简单，能够保证数据的唯一性。
缺点: 需要修改数据库表结构，可能会影响数据库的性能。

@Service
public class MyService {

    @Autowired
    private MyRepository myRepository;

    @Transactional
    public void processMessage(MyMessage message) {
        try {
            MyEntity entity = new MyEntity();
            entity.setId(message.getId()); // 假设 id 是唯一标识
            entity.setData(message.getData());
            myRepository.save(entity);
        } catch (DataIntegrityViolationException e) {
            // 唯一约束冲突，忽略重复消息
            System.out.println("Duplicate message: " + message.getId());
        }
    }
}

2. 乐观锁

使用乐观锁来控制对共享资源的并发访问。

原理: 为数据库表添加一个版本号字段，每次更新数据时，版本号加一。在更新数据时，先检查版本号是否与读取时的版本号一致，如果一致，则更新数据，否则，表示数据已被其他线程修改，放弃更新。
优点: 能够避免并发更新导致的数据不一致。
缺点: 需要修改数据库表结构，可能会增加更新冲突的概率。

@Entity
@Table(name = "my_table")
public class MyEntity {

    @Id
    private String id;

    private String data;

    @Version
    private Long version;

    // getters and setters
}

@Service
public class MyService {

    @Autowired
    private MyRepository myRepository;

    @Transactional
    public void processMessage(MyMessage message) {
        MyEntity entity = myRepository.findById(message.getId()).orElse(null);
        if (entity == null) {
            entity = new MyEntity();
            entity.setId(message.getId());
            entity.setData(message.getData());
            myRepository.save(entity);
        } else {
            entity.setData(message.getData());
            try {
                myRepository.save(entity);
            } catch (OptimisticLockingFailureException e) {
                // 乐观锁冲突，忽略重复消息
                System.out.println("Optimistic lock failure for message: " + message.getId());
            }
        }
    }
}

3. Token 机制

为每条消息生成一个唯一的 Token，消费者在处理消息前，先检查 Token 是否已被处理，如果已被处理，则忽略该消息。

原理: 生产者在发送消息时，为每条消息生成一个唯一的 Token，例如 UUID。消费者接收到消息后，先检查 Token 是否已存在于缓存或数据库中，如果不存在，则处理消息，并将 Token 存储起来，否则，忽略该消息。
优点: 能够保证消息的幂等性，适用于各种场景。
缺点: 需要维护 Token 的存储和检查，增加了一定的复杂度。

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.data.redis.core.StringRedisTemplate;
import org.springframework.stereotype.Service;

import java.util.UUID;
import java.util.concurrent.TimeUnit;

@Service
public class TokenService {

    @Autowired
    private StringRedisTemplate redisTemplate;

    private static final String TOKEN_PREFIX = "message_token:";
    private static final long TOKEN_EXPIRATION = 60 * 60 * 24; // 24 小时

    public String generateToken() {
        return UUID.randomUUID().toString();
    }

    public boolean isTokenProcessed(String token) {
        String key = TOKEN_PREFIX + token;
        Boolean hasKey = redisTemplate.hasKey(key);
        return hasKey != null && hasKey;
    }

    public boolean markTokenAsProcessed(String token) {
        String key = TOKEN_PREFIX + token;
        return Boolean.TRUE.equals(redisTemplate.opsForValue().setIfAbsent(key, "processed", TOKEN_EXPIRATION, TimeUnit.SECONDS));
    }

    public void processMessage(MyMessage message) {
        String token = message.getToken();
        if (isTokenProcessed(token)) {
            System.out.println("Message with token " + token + " already processed.");
            return;
        }

        // 处理消息
        System.out.println("Processing message with token " + token);

        // 模拟处理逻辑
        try {
            Thread.sleep(100);
        } catch (InterruptedException e) {
            e.printStackTrace();
            Thread.currentThread().interrupt();
        }

        // 标记 Token 已处理
        if (markTokenAsProcessed(token)) {
            System.out.println("Message with token " + token + " processed successfully.");
        } else {
            System.out.println("Failed to mark message with token " + token + " as processed.");
        }
    }
}

// 消息类
public class MyMessage {

    private String id;
    private String data;
    private String token;

    // Getters and setters
}

方案	优点	缺点	适用场景
唯一约束	实现简单，保证数据唯一性	需要修改数据库表结构，可能影响数据库性能	数据需要写入数据库，且存在唯一标识的场景
乐观锁	避免并发更新导致的数据不一致	需要修改数据库表结构，可能增加更新冲突的概率	需要控制对共享资源的并发访问的场景
Token 机制	保证消息的幂等性，适用于各种场景	需要维护 Token 的存储和检查，增加一定的复杂度	适用于各种场景，特别是无法修改数据库表结构的场景

总结

消息乱序消费和重复消费是分布式系统中常见的问题。重排方案可以尽可能地恢复消息的原始顺序，幂等方案可以消除重复消费带来的影响。在实际应用中，可以根据具体的业务场景选择合适的方案，或者将两者结合起来使用，以保证数据的正确性和一致性。
对于顺序要求高的场景，选择合适的重排方案；对于需要保证数据一致性的场景，选择合适的幂等方案。
在设计消息驱动的系统时，应该充分考虑消息乱序和重复消费的可能性，并采取相应的措施来解决这些问题。