抽取 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月20日

如何构建可扩展特征抽取流水线供 RAG 使用

构建可扩展特征抽取流水线供 RAG 使用大家好，今天我们要探讨如何构建可扩展的特征抽取流水线，并将其应用于检索增强生成（RAG）系统。RAG 系统的核心在于高效且准确地检索相关文档，而特征抽取是提升检索效果的关键步骤。一个设计良好的流水线不仅能提高检索质量，还能适应不断变化的数据和需求。 1. 理解 RAG 与特征抽取首先，我们简单回顾一下 RAG 的基本流程：查询 (Query): 用户输入自然语言查询。检索 (Retrieval): 系统根据查询，从知识库中检索相关文档。生成 (Generation): 利用检索到的文档和原始查询，生成最终答案。特征抽取在检索阶段起着至关重要的作用。它将文档和查询转换为可比较的数值表示（即向量），使得我们可以利用向量相似度算法（例如余弦相似度）来衡量它们之间的相关性。常用的特征抽取方法包括：词袋模型 (Bag-of-Words): 简单统计文档中词语的出现频率。 TF-IDF (Term Frequency-Inverse Document Frequency): 考虑词语在文档中的频率以及在整个语料库中的稀有程度。词嵌入 (Wo …

继续阅读“如何构建可扩展特征抽取流水线供 RAG 使用”

2025年11月19日

AI 智能表格抽取模型在复杂布局处理中的增强技术

AI 智能表格抽取模型在复杂布局处理中的增强技术大家好！今天我们来探讨一个非常热门且极具挑战性的领域：AI智能表格抽取模型在处理复杂布局时的增强技术。表格抽取是信息抽取领域的一个重要分支，它旨在从文档图像、PDF文档等非结构化数据中自动识别并提取表格数据，将其转化为结构化数据，例如CSV、Excel等格式，从而方便后续的数据分析和应用。然而，现实世界中的表格种类繁多，布局复杂，给表格抽取带来了巨大的挑战。例如，合并单元格、跨页表格、嵌套表格、旋转表格、不规则分隔线等等，都会干扰模型的识别和提取精度。因此，我们需要不断研究和发展新的技术，以应对这些挑战。今天的内容主要分为以下几个部分：复杂布局表格抽取的挑战与难点：深入分析复杂布局表格给模型带来的挑战，明确问题的本质。基于深度学习的表格抽取模型架构：介绍当前主流的深度学习表格抽取模型架构，例如基于Transformer的模型，以及它们是如何工作的。布局分析与理解的增强技术：重点介绍如何利用图像处理、自然语言处理等技术，增强模型对表格布局的理解能力，包括单元格检测、结构识别等。针对复杂布局的优化策略：详细讲解针对特定复杂布局的 …

继续阅读“AI 智能表格抽取模型在复杂布局处理中的增强技术”

2025年7月3日

信息抽取与事件检测：从非结构化文本中提炼知识

信息抽取与事件检测：在文字的迷宫里寻宝想象一下，你是一位考古学家，面前堆积如山的不是泥土和瓦片，而是浩如烟海的新闻报道、学术论文、社交媒体帖子，甚至还有你爷爷奶奶辈的日记。你的任务不是挖掘古老的文物，而是从这些文字的“废墟”中，提取出有价值的信息，拼凑出完整的历史事件，理解人类活动的规律。这就是信息抽取（Information Extraction, IE）和事件检测（Event Detection, ED）所做的事情。它们就像两把锋利的铲子和一把精密的刷子，帮助我们从非结构化的文本数据中，提炼出结构化的知识，让机器也能像人一样理解文字背后的含义。一、信息抽取：把散落的珍珠串成项链信息抽取，顾名思义，就是从文本中提取出特定的信息。这些信息可以是一个人的名字、一个地点、一个时间，或者是一种关系。就像我们阅读新闻时，会下意识地记住“谁在什么时候做了什么”，信息抽取的目标就是让机器也具备这种能力。举个例子，假设我们有一段新闻报道： “苹果公司CEO蒂姆·库克今天在加州库比蒂诺发布了新款iPhone 15。” 信息抽取系统可以从中提取出以下信息：组织机构：苹果公司人物：蒂姆 …

继续阅读“信息抽取与事件检测：从非结构化文本中提炼知识”

2025年6月6日

`SPOP count` 与 `SRANDMEMBER count`：集合随机元素抽取与不重复抽取

好嘞！系好安全带，咱们要开始一场关于 Redis 集合中随机元素的奇妙探险啦！今天的主角是两位身怀绝技的“抽奖达人”：SPOP count 和 SRANDMEMBER count。他们都负责从 Redis 集合里抽出幸运儿，但抽奖方式却大相径庭。准备好了吗？Let’s go! 🚀 开场白：集合中的“桃花源” 想象一下，你面前有一个神秘的“桃花源”（也就是 Redis 的集合）。里面住着各式各样的“居民”（集合元素），他们都渴望被选中，去参加“惊喜之旅”。而 SPOP count 和 SRANDMEMBER count，就是负责挑选这些幸运居民的“选拔官”。第一位选手：SPOP count – “霸道总裁式”抽奖 SPOP count 就像一位雷厉风行的“霸道总裁”，他的抽奖方式简单粗暴：功能：从集合中随机移除指定数量 (count) 的元素，并返回这些被移除的元素。特点：破坏性抽奖！一旦被 SPOP 选中，你就永远离开了“桃花源”，再也回不来了。使用场景：适用于那些“用完即焚”的场景，比如一次性的抽奖活动，或者需要从任务队列中移除已完成任务的场景。用人话说 …

继续阅读“`SPOP count` 与 `SRANDMEMBER count`：集合随机元素抽取与不重复抽取”