flink - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年5月31日

构建实时用户行为分析系统：Kafka + Flink + Redis + ClickHouse

实时用户行为分析：Kafka, Flink, Redis, ClickHouse，这哥几个凑一起，能整出啥花活儿？ 🚀 大家好啊！我是你们的老朋友，一位在代码世界里摸爬滚打多年的老司机。今天咱们不聊诗和远方，就聊聊眼前苟且：如何搭建一套实时用户行为分析系统。别怕，听名字挺唬人，其实就是把用户干了啥、在哪儿干的、啥时候干的这些事儿，实时地收集起来，然后分析分析，看看他们喜欢啥、讨厌啥，最终帮助咱们的产品变得更好，让用户更开心，让老板的钱包更鼓。💰 今天的主角就是这四位：Kafka、Flink、Redis、ClickHouse。他们就像一支配合默契的乐队，Kafka负责收集“音符”，Flink负责谱写“乐章”，Redis负责记忆“旋律”，ClickHouse负责演奏“史诗”。一、乐队成员介绍：角色分工，各司其职在开始演奏之前，咱们先来认识一下这四位“音乐家”： Kafka：消息队列界的扛把子 – 数据收割机 Kafka，江湖人称“卡夫卡”，它可不是写《变形记》那位，而是消息队列界的扛把子。它就像一个超级高速公路，负责源源不断地接收来自四面八方的用户行为数据。想象一下，用户点击了按钮、浏 …

继续阅读“构建实时用户行为分析系统：Kafka + Flink + Redis + ClickHouse”

2025年5月31日

大数据传输与集成：Sqoop, DataX, Flink CDC 的应用

大数据传输与集成：当数据也开始“搬家” 各位技术大咖、数据爱好者，以及所有被数据折磨得痛并快乐着的程序员们，大家好！我是你们的老朋友，一个在代码的海洋里扑腾多年，偶尔上岸跟大家唠唠嗑的“码农老司机”。今天，咱们不聊高深的算法，不谈复杂的架构，就来聊聊大数据领域里，一个既重要又容易被忽视的环节：数据传输与集成。想象一下，你手里攥着一堆金灿灿的硬币，想要把它们安全又高效地转移到另一个宝箱里。你会怎么做？直接抱着硬币狂奔？那太累了！用小推车？效率太低！最好的办法是找一个可靠的运输公司，帮你把这些硬币装箱、运输、卸货，一气呵成。数据传输与集成就扮演着类似的角色。它负责把分散在各个角落的数据，像硬币一样，安全、高效地搬运到目标存储系统中，供后续的数据分析、挖掘、应用使用。如果数据传输出了问题，就像运输公司把你的硬币弄丢了，那可就损失大了！今天，我们就重点介绍三个在数据传输与集成领域里“身手不凡”的工具：Sqoop、DataX 和 Flink CDC。它们各有千秋，擅长的领域也不同，就像武侠小说里的高手，各有各的绝招。让我们一起看看它们是如何在数据“搬家”的过程中大显神通的。一、Sqoop …

继续阅读“大数据传输与集成：Sqoop, DataX, Flink CDC 的应用”

2025年5月31日

实时数仓构建：Flink CDC 与 Doris/ClickHouse 实践

好的，各位老铁，大家好！我是你们的老朋友，人送外号“代码界段子手”的程序猿小张。今天，咱们不聊风花雪月，也不谈人生理想，就来聊聊这实时数仓构建的那些事儿。主题嘛，就是“Flink CDC 与 Doris/ClickHouse 实践”。说起数据仓库，那可是企业数字化转型的基石啊！没有它，你就像在黑夜里开车，啥也看不见，决策全靠猜，那不得撞得头破血流？😂 而实时数仓，更是数据仓库中的战斗机，能让你第一时间掌握数据脉搏，做出最敏锐的反应。那么，问题来了，如何才能高效地构建一个实时数仓呢？别急，今天我就给大家分享一套“三板斧”： Flink CDC 抓数据，Doris/ClickHouse 扛查询，再加点调优小技巧，保证你玩转实时数仓！第一板斧：Flink CDC – 数据抓取的“神兵利器” 想象一下，你的业务数据像一条奔腾不息的河流，源源不断地产生。传统的数据抽取方式，就像拿着个勺子，一点一点地舀，速度慢不说，还容易丢三落四。等你好不容易舀了一勺，河水都流到下游去了，这数据还有啥实时性可言？这时候，Flink CDC 就闪亮登场了！它就像一个“水泵”，能够实时地从你的数据库中抽取数据 …

继续阅读“实时数仓构建：Flink CDC 与 Doris/ClickHouse 实践”

2025年5月31日

流批一体化架构：Apache Flink 的统一处理模型

流批一体化架构：Apache Flink 的统一处理模型 (讲座模式) 各位听众，各位开发者，大家好！我是今天的演讲者，一个在数据世界里摸爬滚打多年的老码农。今天，咱们不聊那些高大上的理论，就用最接地气的方式，来聊聊当下炙手可热的“流批一体化”架构，以及它背后的功臣——Apache Flink。想象一下，你是一家电商平台的运营人员，每天要面对海量的数据：用户的点击行为、订单信息、支付记录……这些数据就像汹涌的河流，源源不断地涌来。过去，我们常常把这些数据分成两类：流数据 (Streaming Data): 就像实时直播，需要立刻处理，比如监控异常交易、推荐个性化商品等。批数据 (Batch Data): 就像历史存档，可以稍后处理，比如生成月度报表、进行用户画像分析等。这就好比你开了一家餐厅，既要满足顾客的即时需求（比如炒菜），又要进行库存盘点（比如统计进货量）。传统的做法是，你需要两套厨房班子，一套负责炒菜，一套负责盘点。这不仅增加了成本，还可能导致数据不一致，比如你炒菜用掉了食材，但盘点还没更新，就可能出现误差。流批分离的痛点，就像两套厨房班子的互相掣肘，效率低下，资源浪 …

继续阅读“流批一体化架构：Apache Flink 的统一处理模型”

2025年5月31日

实时大数据处理：Apache Flink 与 Storm 的原理与实践

好的，各位技术控、代码狂，以及所有对大数据洪流充满好奇的小伙伴们，大家好！我是你们的老朋友，一个在代码堆里摸爬滚打多年的老码农。今天，咱们就来聊聊实时大数据处理领域的两位“当红炸子鸡”—— Apache Flink 和 Apache Storm。准备好了吗？系好安全带，这趟“大数据实时处理”的过山车，就要发车啦！🚀 一、引言：大数据时代的“快”与“准” 在这个信息爆炸的时代，数据就像滔滔江水，奔腾不息。而实时大数据处理，就像在大江大河里捞金子，不仅要捞得快，还要捞得准！想想看，如果咱们的电商平台不能实时分析用户行为，推荐个性化商品，那岂不是眼睁睁看着用户流失？如果金融机构不能实时监测交易数据，及时发现欺诈行为，那损失可就大了！所以，实时大数据处理的重要性，不言而喻。而Flink和Storm，就是这“捞金”利器的两把宝刀！二、主角登场：Apache Flink 和 Apache Storm 先来认识一下我们的两位主角： Apache Flink：这位“后起之秀”，出身名门，师从德国柏林工业大学，以其强大的流处理能力、灵活的窗口机制和优秀的容错性，迅速在实时大数据处理领域占据一席之 …

继续阅读“实时大数据处理：Apache Flink 与 Storm 的原理与实践”