人工智能 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

数据课程（Curriculum）的逆序实验：先学复杂语料再学简单语料对模型鲁棒性的影响

逆序 Curriculum Learning 对模型鲁棒性的影响：一种深度学习视角大家好，今天我们要探讨一个有趣且颇具挑战的话题：逆序 Curriculum Learning (Reverse Curriculum Learning, RCL) 对深度学习模型鲁棒性的影响。我们知道，传统的 Curriculum Learning (CL) 强调从简单到复杂的样本学习，模拟人类的学习过程。然而，RCL 反其道而行之，先让模型接触复杂或噪声数据，再逐渐过渡到简单数据。这种策略在某些场景下，例如对抗训练和领域泛化，展现出意想不到的优势。本次讲座将从以下几个方面展开： Curriculum Learning 的基本概念和动机逆序 Curriculum Learning 的定义和优势实验设计：RCL 对比 CL 和传统训练实验结果分析：鲁棒性指标和泛化能力评估代码实现：使用 PyTorch 构建 RCL 训练流程未来方向：RCL 的改进和应用前景 1. Curriculum Learning 的基本概念和动机 Curriculum Learning (CL) 是一种训练策略，它模拟 …

继续阅读“数据课程（Curriculum）的逆序实验：先学复杂语料再学简单语料对模型鲁棒性的影响”

2025年11月23日

多模态数据的交错（Interleaved）格式：如何在预训练流中混合文本、图像与视频Token

多模态数据交错：文本、图像与视频 Token 的预训练融合大家好，今天我们来探讨一个在多模态机器学习领域非常重要的课题：如何在预训练流程中有效地混合文本、图像和视频 Token，也就是多模态数据的交错 (Interleaved) 格式。这对于构建能够理解和生成多种模态数据的强大模型至关重要。 1. 多模态交错的意义与挑战过去，很多多模态模型采取的是“独立编码，后期融合”的策略。例如，分别用 CNN 处理图像，用 RNN 处理文本，然后将它们的表示向量拼接或者相加，再输入到一个统一的解码器中。这种方法简单直接，但在很大程度上限制了模型学习模态间细粒度交互的能力。而多模态交错的核心思想，是将不同模态的数据 Token 化后，直接混合在一起输入到模型中，让模型能够在训练过程中直接观察到不同模态之间的关系。这就像让一个孩子同时学习绘画、写作和观看视频，而不是先学绘画再学写作。这样做的好处显而易见：更强的模态间关联性学习: 模型可以直接学习到图像中的物体与文本描述之间的对应关系，视频中的动作与字幕之间的关联等等。更灵活的生成能力: 模型可以根据给定的文本生成对应的图像，或者根据给定的 …

继续阅读“多模态数据的交错（Interleaved）格式：如何在预训练流中混合文本、图像与视频Token”

2025年11月23日

代码数据的FIM（Fill-In-the-Middle）增强：提升模型对代码中间插入与补全的能力

好的，我们开始今天的讲座，主题是代码数据的FIM（Fill-In-the-Middle）增强，以及如何利用它来提升模型对代码中间插入与补全的能力。引言：代码智能与生成模型的崛起近年来，代码智能领域取得了显著的进展，这得益于深度学习特别是Transformer架构的突破。大型语言模型（LLMs），如GPT系列、Codex、StarCoder等，在代码生成、补全、翻译等方面展现出了惊人的能力。这些模型的核心在于它们能够学习代码的语法、语义，以及蕴含其中的编程逻辑。然而，仅仅依靠传统的文本训练方式，模型在处理代码特定任务时仍然存在一些局限性。 FIM：一种针对代码的特殊数据增强方法 FIM，即Fill-In-the-Middle，是一种专门为代码数据设计的数据增强方法。它的核心思想是将一段代码分割成三个部分：前缀（Prefix）、中间部分（Middle）、后缀（Suffix），然后将中间部分随机隐藏，让模型学习根据上下文预测缺失的代码片段。这种方法模拟了代码补全的真实场景，有助于模型更好地理解代码的依赖关系和上下文信息。 FIM的核心原理与步骤 FIM的实现主要包括以下几个步骤：代码分 …

继续阅读“代码数据的FIM（Fill-In-the-Middle）增强：提升模型对代码中间插入与补全的能力”

2025年11月23日

PII（个人隐私信息）的正则与模型混合清洗：在保留命名实体的同时抹去敏感数据

PII（个人隐私信息）的正则与模型混合清洗：在保留命名实体的同时抹去敏感数据大家好，今天我们来探讨一个在数据处理领域非常重要的课题：PII（个人隐私信息）的正则与模型混合清洗。在海量数据驱动的时代，保护用户隐私变得至关重要。我们需要在利用数据价值的同时，确保敏感信息不会被泄露。本次讲座将深入讲解如何利用正则表达式和机器学习模型，结合各自的优势，在保留命名实体的同时，有效地抹去敏感数据。 PII 数据识别的挑战 PII 数据的识别与清洗并非易事，主要面临以下几个挑战：多样性: PII 数据类型繁多，包括姓名、地址、电话号码、身份证号码、银行卡号、邮箱地址等等。上下文依赖: 某些字符串本身可能不是 PII，但在特定语境下可能成为 PII。例如，“张三”可能只是一个普通的名字，但在“张三的银行账号是…”的语境下，就需要特别注意。数据质量: 原始数据可能存在拼写错误、格式不一致等问题，增加了识别的难度。合规性要求: 不同国家和地区对 PII 的定义和保护要求不同，需要根据具体情况进行处理。性能考量: 在处理大规模数据时，PII 识别和清洗的效率至关重要。正则表达式：精确匹配的利器 …

继续阅读“PII（个人隐私信息）的正则与模型混合清洗：在保留命名实体的同时抹去敏感数据”

2025年11月23日

文档去重中的模糊匹配：利用MinHash与LSH在PB级数据中识别近似重复段落

PB级数据文档去重：MinHash与LSH的近似重复段落识别各位好，今天我们来探讨一个在海量数据处理中非常重要且常见的课题：文档去重，更具体地说，如何在PB级别的数据中，利用MinHash和LSH (Locality Sensitive Hashing) 算法识别近似重复的段落。这在搜索引擎、新闻聚合、学术论文查重等领域都有着广泛的应用。 1. 问题定义与挑战文档去重，顾名思义，就是从大量的文档集合中找出内容重复或相似的文档。传统的精确匹配方法，例如直接比较字符串，在处理海量数据时效率低下，并且无法识别语义相似但文本不同的文档（例如，同一内容的 paraphrasing 版本）。近似重复段落识别，是文档去重的一个更细粒度的版本。我们需要从海量文档中找出内容相似的段落，即使这些段落在字符层面上并不完全相同。这面临以下几个挑战：数据规模巨大: PB级别的数据意味着巨大的计算和存储压力。语义相似性: 简单的字符串匹配无法捕捉语义相似性，需要更复杂的算法。效率要求高: 在大规模数据上，算法的效率至关重要，直接影响到系统的可用性。段落划分: 如何有效地将文档划分成有意义的段落，也是 …

继续阅读“文档去重中的模糊匹配：利用MinHash与LSH在PB级数据中识别近似重复段落”

2025年11月23日

Tokenizer的Merge Rules优化：如何平衡词表大小与压缩率以提升特定语言的编码效率

Tokenizer的Merge Rules优化：平衡词表大小与压缩率以提升特定语言的编码效率大家好！今天我们来探讨一个在自然语言处理领域至关重要的话题：Tokenizer的Merge Rules优化，特别是如何在平衡词表大小与压缩率之间找到最佳方案，以提升特定语言的编码效率。Tokenizer是NLP流水线的第一步，它将原始文本分解成一个个token，这些token随后会被转换成数字ID，作为模型输入。一个好的Tokenizer能够显著提升模型的性能和效率，而Merge Rules则是决定Tokenizer性能的关键因素之一。 1. Tokenization 的基本概念与挑战在深入讨论Merge Rules优化之前，我们先回顾一下Tokenization的基本概念和面临的挑战。Tokenization是将文本分割成更小单元（tokens）的过程。这些tokens可以是单词、子词（subwords）或者字符。常见的Tokenization方法包括： Word-based Tokenization: 基于单词的Tokenization，简单直接，但容易产生巨大的词表，尤其是在形态丰富的 …

继续阅读“Tokenizer的Merge Rules优化：如何平衡词表大小与压缩率以提升特定语言的编码效率”

2025年11月23日

Sliding Window Attention的实现陷阱：在因果掩码中处理窗口边界与KV Cache的技巧

Sliding Window Attention的实现陷阱：在因果掩码中处理窗口边界与KV Cache的技巧大家好，今天我们来深入探讨Sliding Window Attention（滑动窗口注意力）的实现细节，特别是如何在因果掩码（Causal Mask）中处理窗口边界以及如何有效地利用KV Cache。Sliding Window Attention是一种降低长序列计算复杂度的有效方法，它限制了每个token只能attend到其周围固定窗口大小的token。然而，在实际应用中，它会带来一些实现上的挑战，特别是涉及到因果关系和效率优化时。 1. Sliding Window Attention 的基本原理传统的Self-Attention计算复杂度是O(n^2)，其中n是序列长度。对于长序列，这会变得非常昂贵。Sliding Window Attention通过限制每个token只能attend到其周围窗口内的token，将复杂度降低到O(n*w)，其中w是窗口大小。例如，假设我们有一个长度为10的序列，窗口大小为3。那么，序列中的每个token只能attend到它前后各一个t …

继续阅读“Sliding Window Attention的实现陷阱：在因果掩码中处理窗口边界与KV Cache的技巧”

2025年11月23日

Untied Embeddings：输入Embedding与输出Head权重解耦在多语言模型中的必要性

Untied Embeddings：输入Embedding与输出Head权重解耦在多语言模型中的必要性大家好！今天我们来深入探讨多语言模型中一个至关重要的设计选择：Untied Embeddings，即输入Embedding与输出Head权重解耦。在单语言模型中，通常我们会共享这两部分参数，但在多语言场景下，这种共享策略会带来诸多问题，解耦则成为提升模型性能的关键。 1. 语言模型的参数共享与Untied Embeddings 首先，我们需要理解语言模型的结构以及参数共享的概念。一个标准的Transformer语言模型（如GPT）主要由以下几部分组成：输入Embedding层 (Input Embedding Layer): 将输入的token（词或子词）转换为连续向量表示，也就是将离散的token ID映射到高维空间中的向量。 Transformer Encoder/Decoder层: 这是模型的核心，负责对输入向量进行多层自注意力计算，提取上下文信息。输出Head (Output Head/Classification Head): 将Transformer层的输出向量映射到 …

继续阅读“Untied Embeddings：输入Embedding与输出Head权重解耦在多语言模型中的必要性”

2025年11月23日

Query-Key Normalization：对Q和K向量进行LayerNorm以稳定Attention分数的分布

好的，下面我将以讲座的形式，详细讲解 Query-Key Normalization (Q-K Normalization) 这种稳定 Attention 分数分布的技术。讲座：Query-Key Normalization (Q-K Normalization) 的原理与实践大家好，今天我们来讨论一下 Query-Key Normalization，这是一种用于稳定 Transformer 模型中 Attention 分数分布的技术。Attention 机制是 Transformer 模型的核心，它的稳定性和训练效果直接影响着模型的性能。 1. Attention 机制的回顾首先，我们快速回顾一下标准的 Scaled Dot-Product Attention 机制。给定 Query (Q), Key (K), 和 Value (V) 三个矩阵，Attention 的计算公式如下： Attention(Q, K, V) = softmax(Q Kᵀ / √dₖ) V 其中： Q ∈ ℝ^(N × dₖ) 是 Query 矩阵，N 是 Query 的数量，dₖ 是 Query 和 …

继续阅读“Query-Key Normalization：对Q和K向量进行LayerNorm以稳定Attention分数的分布”

2025年11月23日

Logit Soft-Capping技术：在Gemma-2中限制Logit值幅度以稳定训练与提升推理效果

Logit Soft-Capping技术：在Gemma-2中限制Logit值幅度以稳定训练与提升推理效果大家好，今天我将为大家深入讲解一项在Gemma-2模型中采用的关键技术——Logit Soft-Capping。这项技术旨在通过限制模型输出的Logit值的幅度，从而稳定训练过程并提升推理效果。我们将从Logit的概念入手，逐步深入到Soft-Capping的具体实现、原理分析以及实际代码示例。 1. Logit值：语言模型输出的基石在深入探讨Logit Soft-Capping之前，我们首先需要理解什么是Logit值。在语言模型中，Logit值是模型在softmax层之前的原始输出，它们代表了模型对每个词汇成为下一个词的置信度。更具体地说，对于一个词汇表大小为V的语言模型，给定一个上下文，模型会输出一个长度为V的向量，向量中的每个元素就是一个Logit值，对应于词汇表中每个词汇的Logit值。 Logit值可以是正数、负数或零。它们经过Softmax函数的处理，最终转换为概率分布，表示模型预测每个词汇的概率。Softmax函数的公式如下： P(w_i) = exp(logit_ …

继续阅读“Logit Soft-Capping技术：在Gemma-2中限制Logit值幅度以稳定训练与提升推理效果”