实时数仓构建：Flink CDC 与 Doris/ClickHouse 实践 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位老铁，大家好！我是你们的老朋友，人送外号“代码界段子手”的程序猿小张。今天，咱们不聊风花雪月，也不谈人生理想，就来聊聊这实时数仓构建的那些事儿。主题嘛，就是“Flink CDC 与 Doris/ClickHouse 实践”。

说起数据仓库，那可是企业数字化转型的基石啊！没有它，你就像在黑夜里开车，啥也看不见，决策全靠猜，那不得撞得头破血流？😂 而实时数仓，更是数据仓库中的战斗机，能让你第一时间掌握数据脉搏，做出最敏锐的反应。

那么，问题来了，如何才能高效地构建一个实时数仓呢？别急，今天我就给大家分享一套“三板斧”： Flink CDC 抓数据，Doris/ClickHouse 扛查询，再加点调优小技巧，保证你玩转实时数仓！

第一板斧：Flink CDC – 数据抓取的“神兵利器”

想象一下，你的业务数据像一条奔腾不息的河流，源源不断地产生。传统的数据抽取方式，就像拿着个勺子，一点一点地舀，速度慢不说，还容易丢三落四。等你好不容易舀了一勺，河水都流到下游去了，这数据还有啥实时性可言？

这时候，Flink CDC 就闪亮登场了！它就像一个“水泵”，能够实时地从你的数据库中抽取数据变更，而且是“零延迟、不丢失”，简直就是数据抓取的“神兵利器”！😎

什么是 CDC？

CDC，全称 Change Data Capture，意思是“变更数据捕获”。简单来说，它就是一种能够实时捕获数据库变更的技术。它能让你像监控摄像头一样，时刻关注数据库的动向，一旦有数据更新、插入、删除，它都能第一时间捕捉到，并把这些变更信息传递给下游系统。

为什么选择 Flink CDC？

市面上 CDC 的方案有很多，但 Flink CDC 绝对是其中的佼佼者。它有以下几个优点：

实时性强： 基于 Flink 的流处理能力，能够实现亚秒级的延迟，保证数据的实时性。
支持多种数据库： 支持 MySQL、PostgreSQL、Oracle、SQL Server 等主流数据库，覆盖面广。
易于使用： Flink CDC 提供了丰富的 Connector，使用起来非常方便，几行代码就能搞定。
容错性好： Flink 的 Checkpoint 机制保证了数据的可靠性，即使发生故障，也能自动恢复。
可扩展性强： Flink 的分布式架构使其能够轻松应对大规模数据流的处理需求。

Flink CDC 的工作原理

Flink CDC 的工作原理其实并不复杂，主要分为以下几个步骤：

连接数据库： Flink CDC Connector 连接到源数据库，获取数据库的连接信息。
读取 Binlog/WAL： 根据数据库的不同，Flink CDC 会读取对应的 Binlog（MySQL）或者 WAL（PostgreSQL）日志。这些日志记录了数据库的所有变更操作。
解析日志： Flink CDC 解析 Binlog/WAL 日志，提取出变更的数据，例如插入、更新、删除等操作。
转换为 Flink DataStream： 将提取出的变更数据转换为 Flink 的 DataStream，以便进行后续的处理。
发送到下游： 将 DataStream 发送到下游系统，例如 Doris、ClickHouse 等数据仓库。

一个简单的 Flink CDC 示例（以 MySQL 为例）

// 创建 Flink 环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 配置 MySQL 连接信息
MySqlSource<String> mySqlSource = MySqlSource.<String>builder()
    .hostname("your_mysql_host")
    .port(3306)
    .databaseList("your_database") // monitor all tables under inventory database
    .tableList("your_database.your_table") // monitor products table
    .username("your_username")
    .password("your_password")
    .deserializer(new JsonDebeziumDeserializationSchema()) // converts SourceRecord to JSON String
    .build();

// 创建 DataStream
DataStream<String> stream = env.fromSource(mySqlSource, WatermarkStrategy.noWatermarks(), "MySQL CDC Source");

// 打印数据
stream.print();

// 启动 Flink 作业
env.execute("Flink CDC Job");

这段代码是不是很简单？只需要配置好 MySQL 的连接信息，就可以实时地从 MySQL 中抽取数据了。是不是感觉像拥有了一个“数据挖掘机”？⛏️

第二板斧：Doris/ClickHouse – 数据查询的“倚天屠龙”

数据抓取到了，接下来就要把它存储起来，并且能够快速地查询。这时候，Doris 和 ClickHouse 就派上用场了！它们就像数据仓库界的“倚天剑”和“屠龙刀”，各有千秋，都能让你在数据查询的世界里所向披靡！⚔️

Doris：稳定均衡的“倚天剑”

Doris，原名 Palo，是百度开源的一款高性能、实时 MPP (Massively Parallel Processing) 分析型数据库。它以其卓越的查询性能、高度的稳定性和易用性，赢得了众多企业的青睐。

Doris 的特点：

高性能查询： Doris 采用了多种优化技术，例如列式存储、向量化执行、MPP 并行计算等，能够实现快速的查询响应。
实时性强： Doris 支持实时数据导入，能够满足实时分析的需求。
易于使用： Doris 提供了简单易用的 SQL 接口，用户可以使用熟悉的 SQL 语法进行数据查询。
高可用性： Doris 采用了多副本机制，保证了数据的可靠性和高可用性。
丰富的特性： Doris 提供了丰富的特性，例如物化视图、预聚合、数据分桶等，能够满足各种复杂的分析需求。

ClickHouse：极致性能的“屠龙刀”

ClickHouse 是 Yandex 开源的一款高性能、列式存储的 OLAP 数据库。它以其极致的查询性能和强大的数据处理能力，成为了大数据分析领域的明星产品。

ClickHouse 的特点：

极致性能： ClickHouse 采用了极致的优化技术，例如列式存储、向量化执行、SIMD 指令集等，能够实现极快的查询速度。
强大的数据处理能力： ClickHouse 支持各种复杂的数据处理操作，例如聚合、过滤、排序、窗口函数等。
可扩展性强： ClickHouse 的分布式架构使其能够轻松应对大规模数据量的处理需求。
丰富的函数库： ClickHouse 提供了丰富的函数库，用户可以使用这些函数进行各种数据分析。

Doris vs ClickHouse：如何选择？

Doris 和 ClickHouse 都是优秀的 OLAP 数据库，但它们各有侧重，适用于不同的场景。

特性	Doris	ClickHouse
侧重点	稳定均衡，更偏向于报表分析和 Ad-hoc 查询	极致性能，更偏向于数据分析和实时查询
易用性	简单易用，SQL 语法兼容性好	学习曲线稍陡峭，需要学习 ClickHouse 特有的语法
社区	国内社区活跃，文档完善	国外社区活跃，文档丰富
适用场景	对查询性能要求不高，但对稳定性和易用性要求高的场景，例如报表分析、Ad-hoc 查询等	对查询性能要求极高，但对稳定性和易用性要求不高的场景，例如实时监控、用户行为分析等
数据更新	支持实时数据更新（包括 Update 和 Delete 操作）	不支持直接的 Update 和 Delete 操作，需要通过 MergeTree 引擎的机制来实现
数据模型	支持多种数据模型，例如 Aggregate、Duplicate、Unique 等	主要支持 MergeTree 系列引擎，需要根据业务场景选择合适的 MergeTree 引擎
总结	如果你需要一个稳定、易用、能够支持实时数据更新的 OLAP 数据库，那么 Doris 是一个不错的选择。	如果你需要一个查询性能极致、能够处理海量数据的 OLAP 数据库，并且愿意投入一定的学习成本，那么 ClickHouse 是一个不错的选择。

总而言之，选择 Doris 还是 ClickHouse，要根据你的实际业务场景和需求来决定。就像选择武器一样，适合自己的才是最好的！💪

一个简单的 Flink CDC + Doris/ClickHouse 示例

假设我们有一个 MySQL 数据库，里面有一张 orders 表，记录了用户的订单信息。我们希望能够实时地将 orders 表的数据同步到 Doris/ClickHouse 中，并进行实时分析。

使用 Flink CDC 从 MySQL 中抽取数据

这部分代码前面已经讲过了，这里就不再赘述了。

将数据写入 Doris/ClickHouse

// 配置 Doris 连接信息
String dorisSink = "jdbc:mysql://your_doris_host:9030/your_database?" +
    "useUnicode=true&characterEncoding=UTF-8";

// 创建 Doris Sink
JdbcSink<String> dorisSinkFunction = JdbcSink.sink(
    "INSERT INTO your_doris_table (order_id, user_id, order_time, amount) VALUES (?, ?, ?, ?)",
    (PreparedStatement ps, String value) -> {
        JSONObject jsonObject = JSON.parseObject(value);
        JSONObject after = jsonObject.getJSONObject("after");
        ps.setString(1, after.getString("order_id"));
        ps.setString(2, after.getString("user_id"));
        ps.setString(3, after.getString("order_time"));
        ps.setDouble(4, after.getDouble("amount"));
    },
    new JdbcConnectionOptions.JdbcConnectionOptionsBuilder()
        .withUrl(dorisSink)
        .withDriverName("com.mysql.cj.jdbc.Driver")
        .withUsername("your_username")
        .withPassword("your_password")
        .build()
);

// 将 DataStream 写入 Doris
stream.addSink(dorisSinkFunction);

// 对于 ClickHouse，可以使用 ClickHouse JDBC Driver，类似地创建 JdbcSink
// ...

这段代码将从 Flink CDC 中获取的数据，通过 JDBC Sink 写入到 Doris 中。对于 ClickHouse，可以使用类似的 JDBC Sink，只需要替换 ClickHouse 的 JDBC Driver 和连接信息即可。

第三板斧：调优小技巧 – 让你的数仓“飞起来”

数据抓取和存储都搞定了，接下来就要对你的实时数仓进行调优，让它“飞起来”！🚀

Flink CDC 调优技巧：

合理设置并行度： Flink 的并行度决定了任务的并发度，合理的并行度能够充分利用集群资源，提高数据处理速度。
使用 Checkpoint 机制： Checkpoint 机制能够保证数据的可靠性，即使发生故障，也能自动恢复。
监控 Flink 作业： 通过 Flink 的 Web UI 或者 Metrics 系统，可以监控 Flink 作业的运行状态，及时发现和解决问题。
使用 Filter 算子： 在 Flink CDC 的 Source 端可以使用 Filter 算子，过滤掉不需要的数据，减少下游的处理压力。
合理配置 Binlog/WAL 的参数： 根据实际业务场景，合理配置 Binlog/WAL 的参数，例如 Binlog 的过期时间、WAL 的大小等。

Doris/ClickHouse 调优技巧：

选择合适的数据模型/引擎： Doris 支持多种数据模型，ClickHouse 支持多种 MergeTree 引擎，选择合适的数据模型/引擎能够提高查询性能。
合理设计表结构： 合理设计表结构，例如选择合适的数据类型、设置合适的索引等，能够提高查询性能。
使用物化视图/预聚合： 对于频繁查询的聚合结果，可以使用物化视图或者预聚合，提前计算好结果，提高查询速度。
优化 SQL 查询： 优化 SQL 查询，例如避免全表扫描、使用索引、减少数据传输等，能够提高查询性能。
调整 Doris/ClickHouse 的参数： 根据实际业务场景，调整 Doris/ClickHouse 的参数，例如内存大小、线程数等，能够提高性能。
监控 Doris/ClickHouse 集群： 通过 Doris/ClickHouse 的监控系统，可以监控集群的运行状态，及时发现和解决问题。

一些常用的调优策略：

批量写入： 将多条数据攒成一批，一次性写入 Doris/ClickHouse，能够减少网络开销，提高写入性能。
异步写入： 使用异步写入，能够避免写入操作阻塞 Flink 作业，提高吞吐量。
压缩数据： 使用压缩算法，例如 GZIP、LZ4 等，能够减少数据存储空间，提高查询性能。
数据分片/分区： 将数据按照一定的规则进行分片/分区，能够提高查询并行度，加速查询速度。

总结

今天，我们一起学习了如何使用 Flink CDC 从数据库中抽取数据，并将其写入到 Doris/ClickHouse 中，构建一个实时数仓。我们还分享了一些调优小技巧，帮助你让你的数仓“飞起来”。

希望今天的分享能够帮助你更好地理解和应用实时数仓技术。记住，技术是死的，人是活的，要根据你的实际业务场景和需求，灵活运用这些技术，才能真正发挥它们的作用。

最后，祝大家在数据分析的道路上越走越远，早日实现“数据自由”！🎉

如果大家还有什么问题，欢迎在评论区留言，我会尽力解答。咱们下期再见！👋

第一板斧：Flink CDC – 数据抓取的“神兵利器”

第二板斧：Doris/ClickHouse – 数据查询的“倚天屠龙”

第三板斧：调优小技巧 – 让你的数仓“飞起来”

总结

发表回复 取消回复

发表回复取消回复