apache - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月11日

Apache Druid Java查询客户端连接池在虚拟线程下遇到连接泄漏但连接池未满？DruidPooledConnection与VirtualThreadLocal持有

Apache Druid Java 查询客户端虚拟线程下的连接泄漏分析与解决大家好，今天我们来探讨一个在 Apache Druid Java 查询客户端中使用连接池时，特别是在结合虚拟线程的情况下，可能遇到的一个棘手问题：连接泄漏。更具体地说，我们会分析一种情况，即连接池没有达到最大容量，但仍然发生了连接泄漏，并且涉及到 DruidPooledConnection 和 VirtualThreadLocal 的关系。一、问题背景：Druid Client、连接池与虚拟线程首先，我们简单回顾一下涉及到的几个关键组件： Apache Druid: 一个高性能的列式存储、实时分析数据库。 Druid Java Client: 用于从 Java 应用程序查询 Druid 的客户端库。通常，它会使用连接池来管理与 Druid 集群的连接，以提高性能和资源利用率。 Druid连接池: Druid Java Client 内部使用的连接池，负责管理到 Druid 集群的数据节点连接。它维护着一个连接池，允许应用程序重复使用现有的连接，而不是每次查询都建立新的连接。虚拟线程 (Virtual T …

继续阅读“Apache Druid Java查询客户端连接池在虚拟线程下遇到连接泄漏但连接池未满？DruidPooledConnection与VirtualThreadLocal持有”

2025年11月11日

Apache Pulsar Java客户端在虚拟线程下消息确认超时导致重复消费？Consumer.acknowledgeAsync与VirtualThreadTimeoutScheduler

Apache Pulsar Java客户端在虚拟线程下消息确认超时导致重复消费的深度解析各位同学，大家好！今天我们来深入探讨一个在Apache Pulsar Java客户端开发中，特别是在拥抱虚拟线程技术时，可能会遇到的一个棘手问题：消息确认超时导致重复消费。我们将深入了解问题的本质，分析可能的原因，并提供切实可行的解决方案。问题背景：虚拟线程与消息确认的潜在冲突在传统的Java线程模型中，每个线程都对应一个操作系统线程，线程切换的开销相对较高。虚拟线程（Virtual Threads），也称为纤程或用户态线程，是由JVM管理的轻量级线程，可以显著降低线程切换的开销，提高并发性能。然而，虚拟线程的引入也带来了一些新的挑战，其中之一就是与消息队列客户端（如Apache Pulsar）的消息确认机制之间的潜在冲突。 Apache Pulsar 客户端使用Consumer.acknowledgeAsync方法进行异步消息确认，这是一个非阻塞操作，它将消息的确认请求提交给Pulsar Broker，然后立即返回。在传统线程模型下，即使确认请求因为网络延迟或其他原因未能及时到达Broker …

继续阅读“Apache Pulsar Java客户端在虚拟线程下消息确认超时导致重复消费？Consumer.acknowledgeAsync与VirtualThreadTimeoutScheduler”

2025年11月6日

JAVA AI 文档解析失败？使用 Apache POI + OCR 混合提取方案

JAVA AI 文档解析失败？使用 Apache POI + OCR 混合提取方案大家好，今天我们来聊聊一个实际开发中非常常见，但又颇具挑战性的问题：如何可靠地从各种格式的文档中提取信息，特别是当传统的解析方法失效时，如何利用 Apache POI 和 OCR 技术构建一个混合提取方案。在信息爆炸的时代，文档是我们获取信息的主要来源。然而，并非所有文档都易于处理。很多文档，尤其是那些经过扫描、拍照或者由特殊软件生成的文档，往往难以直接用程序进行解析。传统的文档解析库，如 Apache POI，在处理这些文档时常常会遇到困难，导致解析失败。文档解析的困境：不仅仅是文本文档解析的挑战在于文档格式的多样性和复杂性。我们通常会遇到以下几种情况：纯文本文档：这是最简单的情况，可以直接读取文本内容。结构化文档（如 Word、Excel）：这些文档具有明确的结构，可以使用 Apache POI 等库进行解析。 PDF 文档： PDF 文档可能包含文本、图像和矢量图形，解析难度较高。有些 PDF 文档是文本型的，可以直接提取文本；有些则是图像型的，需要进行 OCR 处理。图像型文档 …

继续阅读“JAVA AI 文档解析失败？使用 Apache POI + OCR 混合提取方案”

2025年10月27日

Java与Apache Flink/Spark Stream：构建实时数据处理与流式计算管道

好的，下面是一篇关于Java与Apache Flink/Spark Stream：构建实时数据处理与流式计算管道的技术文章，以讲座模式呈现。 Java与Apache Flink/Spark Stream：构建实时数据处理与流式计算管道大家好，今天我们来聊聊如何使用Java结合Apache Flink和Spark Streaming构建实时数据处理与流式计算管道。实时数据处理在当今互联网应用中扮演着越来越重要的角色，无论是金融交易、物联网设备数据分析，还是用户行为监控，都需要高效、稳定的流式计算平台。 1. 实时数据处理的需求与挑战在深入技术细节之前，我们先了解一下实时数据处理的需求与挑战：低延迟: 需要在数据产生后尽快处理，并输出结果。高吞吐量: 能够处理大量并发数据流。容错性: 系统能够从故障中恢复，保证数据不丢失。 Exactly-Once语义: 保证每条数据被处理且仅被处理一次，避免重复或丢失。复杂事件处理: 支持窗口操作、状态管理、关联分析等复杂逻辑。可扩展性: 能够根据数据量增长进行水平扩展。 2. Apache Flink与Spark Streaming概述 …

继续阅读“Java与Apache Flink/Spark Stream：构建实时数据处理与流式计算管道”

2025年9月25日

Python与数据湖：如何使用Apache Iceberg和Delta Lake构建数据湖。

Python与数据湖：使用Apache Iceberg和Delta Lake构建数据湖大家好，今天我们要深入探讨如何使用Python以及两个领先的开源数据湖表格式：Apache Iceberg和Delta Lake来构建数据湖。数据湖的概念已经存在多年，但随着数据量的爆炸性增长和对更灵活的数据处理需求，它变得越来越重要。我们将从数据湖的概念开始，然后深入了解Iceberg和Delta Lake，最后通过Python代码示例演示它们的使用。什么是数据湖？数据湖是一个集中式的存储库，可以以原始格式存储结构化、半结构化和非结构化数据。与数据仓库不同，数据湖不对数据进行预定义模式的强制执行，允许用户在需要时根据具体分析需求定义模式。这提供了更大的灵活性，可以支持各种数据分析用例，包括探索性数据分析、机器学习和实时分析。数据湖的关键特性：原始数据存储: 以原始格式存储数据，避免预先转换和清理。模式读取 (Schema-on-Read): 在查询时定义模式，而不是在写入时强制执行。可伸缩性: 可以处理大量数据，并且可以轻松扩展以满足不断增长的数据需求。成本效益: 使用低成本的存储解 …

继续阅读“Python与数据湖：如何使用Apache Iceberg和Delta Lake构建数据湖。”

2025年9月25日

Python的实时数据流：利用Apache Kafka和Confluent Python客户端实现实时数据处理。

好的，我们开始。 Python实时数据流：利用Apache Kafka和Confluent Python客户端实现实时数据处理大家好，今天我们来聊聊如何使用Python、Apache Kafka和Confluent Python客户端构建实时数据处理管道。在大数据时代，实时数据处理变得越来越重要。Kafka作为一种高吞吐量、低延迟的消息队列系统，已经成为实时数据处理领域的基石。而Confluent Python客户端则为Python开发者提供了方便易用的Kafka接口。 1. 实时数据处理的重要性在诸多应用场景中，实时数据处理显得至关重要，例如：金融风控：实时监控交易数据，及时发现并阻止欺诈行为。物联网 (IoT)：收集和分析传感器数据，实现智能家居、智能制造等应用。电商推荐：实时分析用户行为，提供个性化推荐。日志分析：实时分析系统日志，及时发现并解决问题。 2. Apache Kafka简介 Apache Kafka是一个分布式、高吞吐量、可扩展的消息队列系统。它具有以下特点：发布-订阅模式：生产者（Producers）将消息发布到 Kafka 集群，消费者（ …

继续阅读“Python的实时数据流：利用Apache Kafka和Confluent Python客户端实现实时数据处理。”

2025年9月25日

Python的`Apache Airflow`：如何使用`Airflow`构建和调度复杂的数据管道。

使用 Apache Airflow 构建和调度复杂数据管道大家好！今天我们来深入探讨如何使用 Apache Airflow 构建和调度复杂的数据管道。Airflow 是一种以编程方式创作、调度和监控工作流的平台。它允许你将数据管道定义为有向无环图 (DAG)，其中每个节点代表一个任务，边代表任务之间的依赖关系。 Airflow 的核心概念在深入编码之前，我们先快速回顾 Airflow 的一些核心概念： DAG (Directed Acyclic Graph)：工作流的蓝图。它定义了任务之间的依赖关系和执行顺序。 Task： DAG 中的一个独立的可执行单元。它可以是任何你想要自动执行的操作，例如运行 Python 脚本、执行 SQL 查询、调用 API 等。 Operator：一个预定义的任务模板，它封装了特定类型的操作。Airflow 提供了大量的内置操作符，例如 PythonOperator、BashOperator、PostgresOperator 等。 Task Instance: DAG中的Task的特定运行。当DAG运行的时候，每个Task都会被实例化成Task …

继续阅读“Python的`Apache Airflow`：如何使用`Airflow`构建和调度复杂的数据管道。”

2025年9月25日

Python的`Apache Arrow`：如何使用`Arrow`进行高效的跨语言数据交换。

Apache Arrow：跨语言数据交换的利器大家好！今天我们来深入探讨Apache Arrow，特别是它在高效跨语言数据交换中的应用。在数据科学和大数据领域，我们经常需要在不同的编程语言之间传递数据，例如Python、Java、C++等。传统的序列化方法，如Pickle、JSON、Avro等，往往存在性能瓶颈，尤其是在处理大型数据集时。Apache Arrow应运而生，旨在解决这个问题。 1. 传统数据交换的痛点在深入了解Arrow的优势之前，我们先回顾一下传统数据交换方法的不足之处：序列化/反序列化开销：传统方法通常需要将数据从一种格式序列化为另一种格式，并在接收端进行反序列化。这个过程会消耗大量的CPU资源和时间，特别是对于复杂的数据结构。内存拷贝：序列化/反序列化过程中，数据需要在不同的内存空间之间进行拷贝，进一步增加了开销。语言特定的数据表示：不同的编程语言使用不同的数据表示方式。例如，Python的NumPy数组和Java的数组在内存中的布局不同。这导致了跨语言数据交换的复杂性。数据类型转换：数据在不同语言之间传递时，可能需要进行数据类型转换，例如将Py …

继续阅读“Python的`Apache Arrow`：如何使用`Arrow`进行高效的跨语言数据交换。”

2025年9月20日

如何使用`Apache Arrow`进行`跨语言`的`数据`交换，以`提高`效率。

Apache Arrow：跨语言数据交换的效率加速器大家好！今天我们来深入探讨 Apache Arrow，一个旨在优化跨语言数据交换和内存分析的强大工具。在数据科学和工程领域，我们经常需要在不同的编程语言之间传递和处理数据，例如从 Python 读取数据并在 C++ 中进行高性能计算。传统的数据交换方式，如序列化和反序列化，往往会带来显著的性能开销。Apache Arrow 通过提供一种标准化的内存数据表示，以及零拷贝的数据访问方式，极大地提高了数据交换的效率。 1. 数据交换的痛点在深入了解 Apache Arrow 之前，我们先来回顾一下传统数据交换方式的不足之处。序列化/反序列化开销：不同的编程语言通常使用不同的数据结构来表示相同的数据。例如，Python 的 list 和 C++ 的 std::vector 在内存布局上是不同的。因此，当我们需要在 Python 和 C++ 之间传递数据时，需要将 Python 的 list 序列化成一种通用的格式（如 JSON 或 Protocol Buffers），然后在 C++ 中将其反序列化为 std::vector。这个过程会 …

继续阅读“如何使用`Apache Arrow`进行`跨语言`的`数据`交换，以`提高`效率。”

2025年8月17日

MySQL高级讲座篇之：探讨MySQL和`Apache Kafka`的`CDC`（变更数据捕获）实践：从`binlog`到消息流。

咳咳，各位观众老爷们，大家好！我是今天的讲师，江湖人称“代码搬运工”，今天咱们就来聊聊MySQL和Apache Kafka的“爱情故事”，哦不，是CDC（变更数据捕获）实践。开场白：数据江湖的那些事儿话说在数据江湖里，MySQL就像一位兢兢业业的老掌柜，每天忙着记录着店铺的流水账。而Kafka呢，则像一位消息灵通的江湖百晓生，能把这些流水账快速传播给各个需要的人。那么问题来了，老掌柜的流水账怎么才能实时同步给百晓生呢？这就是CDC要解决的问题。简单来说，CDC就像一个“情报员”，潜伏在MySQL身边，时刻监听着数据的变化，一旦发生变化，立马通知Kafka。第一回合：什么是CDC？为何需要它？ CDC，全称Change Data Capture，即变更数据捕获。顾名思义，它就是用来捕获数据库数据变更的技术。为什么要用CDC呢？原因很简单，传统的同步方式太慢了！假设你需要把MySQL的数据同步到Elasticsearch做搜索，或者同步到Hadoop做数据分析，如果采用定期全量同步的方式，数据延迟会非常高，实时性差。而CDC可以做到近乎实时的同步，大大提升了数据处理的效率。 …

继续阅读“MySQL高级讲座篇之：探讨MySQL和`Apache Kafka`的`CDC`（变更数据捕获）实践：从`binlog`到消息流。”