智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座 -

2025年11月22日

去重对“记忆”的影响：过度去重是否会损害模型对罕见知识的检索能力

去重对“记忆”的影响：过度去重是否会损害模型对罕见知识的检索能力各位同学，大家好。今天我们来探讨一个在自然语言处理（NLP）领域中非常重要且容易被忽视的问题：去重对模型“记忆”的影响，尤其是过度去重是否会损害模型对罕见知识的检索能力。在训练大型语言模型（LLM）时，数据去重是一个常见的预处理步骤。其目的在于消除训练数据中的冗余信息，提高训练效率，并降低模型过拟合的风险。然而，过度去重可能会导致模型遗忘一些罕见但重要的知识，从而影响其在特定任务上的表现。接下来，我们将深入分析去重的原理、去重带来的益处与潜在风险，并通过实验佐证我们的观点。 1. 去重的基本原理和常用方法去重的核心思想是识别并移除数据集中重复或高度相似的样本。这里的“重复”和“相似”的定义可以有多种，对应不同的去重方法。精确去重 (Exact Deduplication): 这是最简单的一种方法，直接比较数据集中每个样本的字符串是否完全一致。在文本数据中，这意味着两个文本段落必须完全相同才会被认为是重复的。 def exact_deduplication(data): “”” 精确去重函数. Args: data: …

继续阅读“去重对“记忆”的影响：过度去重是否会损害模型对罕见知识的检索能力”

2025年11月22日

数据课程设计：从简单语法到复杂推理的样本排序对预训练Loss的影响

数据课程设计：从简单语法到复杂推理的样本排序对预训练Loss的影响大家好！今天我们来探讨一个非常有意思且实用的课题：数据课程设计中，如何通过调整预训练数据的样本排序，并根据样本的复杂度进行分级，来优化预训练语言模型的Loss曲线和最终性能。在自然语言处理领域，预训练语言模型已经成为主流范式。我们通常会使用海量文本数据来训练这些模型，使其学习到丰富的语言知识。然而，预训练数据的质量和组织方式对模型的学习效率和泛化能力有着至关重要的影响。一个常见的问题是，如果预训练数据过于简单，模型可能无法充分学习到复杂的语言结构和推理能力；而如果数据过于复杂，模型可能难以收敛。因此，我们需要精心设计预训练数据的课程，即如何组织、排序和选择训练样本，以便模型能够逐步学习从简单到复杂的语言知识。今天，我们将重点关注样本排序对预训练Loss的影响，并探讨如何根据样本的复杂度进行排序，以获得更好的训练效果。 1. 问题背景与动机传统的预训练方法通常采用随机打乱的样本顺序。虽然这种方法简单易行，但它忽略了样本之间的内在关系和难度差异。这可能导致模型在训练初期难以学习到有效的知识，或者在训练后期陷入局部最优 …

继续阅读“数据课程设计：从简单语法到复杂推理的样本排序对预训练Loss的影响”

2025年11月22日

指令回译（Instruction Backtranslation）：利用模型为未标注文本生成指令以扩充SFT数据

指令回译：利用模型为未标注文本生成指令以扩充SFT数据大家好，今天我们要讨论一个非常实用且有效的技术，即指令回译（Instruction Backtranslation）。它是一种利用模型为未标注文本生成指令，从而扩充监督微调（SFT）数据的方法。在提升语言模型（LLM）性能方面，数据始终是核心驱动力。指令微调（Instruction Tuning）已被证明是提升LLM遵循指令能力的关键技术，而大规模、高质量的指令数据则是指令微调成功的基石。然而，构建这样的数据集成本高昂，需要大量的人工标注工作。指令回译技术提供了一种经济高效的解决方案，它能够利用现有的未标注文本数据，通过模型自动生成相应的指令，从而扩充SFT数据集，降低数据标注成本。指令回译的原理与流程指令回译的核心思想是：利用一个预训练的语言模型，将未标注的文本数据“翻译”成指令-输出对。具体流程如下：选择未标注文本数据：首先，我们需要选择一批与目标任务相关的未标注文本数据。这些数据可以是来自网页、书籍、论文、代码仓库等多种来源。数据的质量会直接影响回译指令的质量，因此需要进行一定的清洗和筛选。设计指令模板：为 …

继续阅读“指令回译（Instruction Backtranslation）：利用模型为未标注文本生成指令以扩充SFT数据”

2025年11月22日

多语言对齐数据构建：利用Bitext Mining在未对齐语料中挖掘平行句对

多语言对齐数据构建：利用 Bitext Mining 在未对齐语料中挖掘平行句对大家好！今天我将为大家讲解如何利用 Bitext Mining 技术，在未对齐的语料库中挖掘平行句对，构建多语言对齐数据。多语言对齐数据在机器翻译、跨语言信息检索、多语言自然语言处理等领域都扮演着至关重要的角色。然而，高质量的人工标注平行语料库成本高昂且耗时。Bitext Mining 技术则提供了一种自动化的解决方案，能够在海量未对齐的语料中发现潜在的平行句对，大大降低了数据获取的成本。一、Bitext Mining 的基本原理 Bitext Mining 的核心思想是利用句子间的相似度来判断它们是否是彼此的翻译。通常，我们首先会对源语言和目标语言的语料进行预处理，例如分词、词干提取等。然后，将句子表示成向量，例如使用词袋模型、TF-IDF、Word Embedding 等。最后，计算句子向量之间的相似度，并设定阈值，将相似度高于阈值的句对判定为平行句对。二、Bitext Mining 的流程 Bitext Mining 的流程大致可以分为以下几个步骤：语料预处理: 包括文本清洗（去除HTML标签 …

继续阅读“多语言对齐数据构建：利用Bitext Mining在未对齐语料中挖掘平行句对”

2025年11月22日

代码数据的依赖图排序：按照拓扑顺序排列文件以提升模型对项目结构的理解

代码数据依赖图排序：按照拓扑顺序排列文件以提升模型对项目结构的理解大家好，今天我们来探讨一个在软件工程和机器学习领域都至关重要的话题：代码数据依赖图的拓扑排序，以及如何利用它来提升模型对项目结构的理解。在大型软件项目中，代码文件之间往往存在复杂的依赖关系。一个文件可能会引用另一个文件中的类、函数、变量或者常量。理解这些依赖关系对于代码维护、重构、错误诊断以及构建能够理解代码结构的模型至关重要。而代码数据依赖图正是描述这些依赖关系的一种有效方式。什么是代码数据依赖图？代码数据依赖图（Code Data Dependency Graph，CDDG）是一个有向图，其中：节点（Nodes）：代表代码文件。边（Edges）：代表文件之间的依赖关系。如果文件A引用了文件B中的内容，那么就存在一条从A指向B的边。举个简单的例子，假设我们有三个文件：a.py, b.py, 和 c.py。 a.py 导入了 b.py 和 c.py。 b.py 没有导入其他文件。 c.py 导入了 b.py。那么，对应的代码数据依赖图如下所示：节点：a.py, b.py, c.py 边： a.py …

继续阅读“代码数据的依赖图排序：按照拓扑顺序排列文件以提升模型对项目结构的理解”

2025年11月22日

从PDF提取公式与表格：结合Nougat视觉模型与OCR的混合解析流水线

从PDF提取公式与表格：结合Nougat视觉模型与OCR的混合解析流水线大家好，今天我们要探讨一个在信息提取领域非常重要且具有挑战性的课题：如何从PDF文档中准确、高效地提取公式和表格。PDF作为一种通用的文档格式，广泛应用于学术论文、技术报告、财务报表等领域，其中包含大量结构化的数据和复杂的数学表达式。然而，直接从PDF中提取这些信息并非易事，传统的OCR技术在处理复杂布局、低质量扫描件以及公式识别方面存在诸多局限。为了解决这些问题，我们将介绍一种结合Nougat视觉模型与OCR的混合解析流水线，利用深度学习的强大能力，显著提升公式和表格的提取精度。一、问题分析与技术选型首先，我们需要明确PDF文档中公式和表格提取所面临的挑战：布局复杂性： PDF文档的布局千变万化，表格可能跨页、合并单元格，公式可能嵌入在文本中或独立成行。扫描质量：扫描的PDF文档可能存在倾斜、模糊、噪声等问题，影响OCR的识别精度。公式识别难度：数学公式包含大量的特殊符号、上下标、分式等，传统的OCR引擎难以准确识别。表格结构识别：准确识别表格的行、列、单元格，以及单元格之间的关系，是提取表 …

继续阅读“从PDF提取公式与表格：结合Nougat视觉模型与OCR的混合解析流水线”

2025年11月22日

MinHash与SimHash对比：在大规模网页去重中误报率与计算效率的权衡

好的，以下是一篇关于MinHash与SimHash对比的文章，旨在探讨在大规模网页去重中误报率与计算效率的权衡： MinHash与SimHash：大规模网页去重中的权衡大家好，今天我们来聊聊大规模网页去重的问题，以及两种常用的算法：MinHash和SimHash。在大数据时代，互联网上的信息爆炸式增长，很多内容存在重复或相似。如何高效地识别和过滤这些重复内容，对于搜索引擎、新闻聚合、社交媒体等应用至关重要。 1. 网页去重的重要性与挑战网页去重，顾名思义，就是识别和去除互联网上重复或近似重复的网页。这不仅能节省存储空间和带宽，还能提升搜索质量，避免用户看到大量相同的结果。然而，大规模网页去重面临着巨大的挑战：数据量巨大：互联网上的网页数量以数十亿计，甚至更多。内容多样性：网页内容可以是文本、图片、视频等多种形式。相似度定义：如何准确定义两个网页的“相似”程度？计算效率：如何在海量数据中快速找到相似网页？传统的字符串匹配算法显然无法胜任这项任务。我们需要更高效、更适合大规模数据的算法。 2. MinHash算法详解 MinHash是一种用于估计集合相似度的算法，尤 …

继续阅读“MinHash与SimHash对比：在大规模网页去重中误报率与计算效率的权衡”

2025年11月22日

特征擦除（Feature Ablation）：移除特定组件以量化其对长距离依赖的贡献度

特征擦除（Feature Ablation）在长距离依赖建模中的应用大家好！今天我们来深入探讨特征擦除 (Feature Ablation) 这一技术，以及它在量化长距离依赖贡献中的重要作用。在深度学习，尤其是自然语言处理 (NLP) 和计算机视觉 (CV) 等领域，模型处理长距离依赖的能力至关重要。理解哪些特征或组件对模型捕捉这些依赖关系起着关键作用，能够帮助我们更好地理解模型行为，优化模型结构，并最终提升模型性能。 1. 什么是特征擦除？特征擦除 (Feature Ablation) 是一种模型分析技术，其核心思想是通过系统性地移除模型的特定组件或特征，然后观察模型性能的变化。如果移除某个组件后，模型性能显著下降，则表明该组件对模型的整体性能，特别是对特定任务至关重要。更具体地说，我们可以擦除：输入特征: 例如，在NLP中，我们可以擦除单词嵌入的特定维度；在CV中，我们可以擦除图像的特定区域。模型组件: 例如，在Transformer模型中，我们可以擦除特定的注意力头或层。中间表示: 例如，我们可以将特定层的激活值设置为零。通过对比擦除前后模型性能的差异，我们可以量化 …

继续阅读“特征擦除（Feature Ablation）：移除特定组件以量化其对长距离依赖的贡献度”

2025年11月22日

因果抽象（Causal Abstraction）：验证大模型内部推理过程是否符合因果图结构

因果抽象：验证大模型内部推理过程是否符合因果图结构大家好，今天我们来探讨一个非常前沿且重要的研究方向：因果抽象，以及如何利用它来验证大型语言模型（LLMs）内部的推理过程是否符合预期的因果结构。随着LLMs在各个领域的广泛应用，理解其内部运作机制变得至关重要，尤其是在涉及决策、规划和风险评估等关键任务时。如果LLM的推理过程是不可解释的，或者与我们期望的因果逻辑不符，那么我们可能会面临难以预测的风险。 1. 什么是因果抽象？首先，我们来明确一下什么是因果抽象。简单来说，因果抽象是一种将复杂系统中的因果关系简化为更易于理解和处理的形式的方法。它允许我们在不同的抽象层次上描述同一个系统，并关注不同层次上的因果依赖关系。想象一下，你要理解为什么你的汽车无法启动。从最底层的物理层面来说，你需要了解电子的流动、化学反应等等。但这显然过于复杂，不利于诊断问题。更抽象的层面是检查电池是否有电、起动机是否工作、燃油泵是否供油等。再往上，你可以直接找修车师傅，只需要告诉他车无法启动，他会帮你完成所有的诊断过程。在这个例子中，我们从具体的物理过程抽象到了更高层次的组件和功能，再抽象到了完全依赖专业 …

继续阅读“因果抽象（Causal Abstraction）：验证大模型内部推理过程是否符合因果图结构”

2025年11月22日

线性探针（Linear Probe）：在冻结模型上训练简单分类器以检测各层表征的线性可分性

线性探针：揭示深度学习模型内部表征的线性可分性大家好！今天我们来深入探讨一个在深度学习领域非常重要的概念：线性探针（Linear Probe）。线性探针是一种用于分析神经网络内部表征的方法，它通过在冻结的神经网络层上训练一个简单的线性分类器，来评估该层表征的线性可分性。理解线性探针的原理和应用，对于诊断模型性能、理解模型学习到的特征以及进行迁移学习都非常有帮助。什么是线性可分性？在深入线性探针之前，我们需要明确什么是线性可分性。简单来说，如果我们可以通过一个线性决策边界（例如，二维空间中的直线，三维空间中的平面，更高维度空间中的超平面）将不同类别的数据点完美地分开，那么我们就说这些数据是线性可分的。举个例子，考虑一个二分类问题，数据点分布在二维平面上。如果所有类别A的点都位于直线的一侧，而所有类别B的点都位于直线的另一侧，那么这些点就是线性可分的。反之，如果类别A和类别B的点交织在一起，无法找到一条直线将它们完全分开，那么这些点就不是线性可分的。线性探针的工作原理线性探针的核心思想是：如果一个神经网络层学习到的表征是线性可分的，那么我们应该能够通过一个简单的线性分类器，仅基 …

继续阅读“线性探针（Linear Probe）：在冻结模型上训练简单分类器以检测各层表征的线性可分性”