归一化 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月27日

Python实现深度学习模型中的归一化层：Batch Norm、Layer Norm的C++实现细节

Python实现深度学习模型中的归一化层：Batch Norm、Layer Norm的C++实现细节大家好，今天我们来探讨一个深度学习模型中至关重要的组成部分：归一化层。我们将重点关注两种常见的归一化方法：Batch Normalization (BatchNorm) 和 Layer Normalization (LayerNorm)，并深入研究如何在 C++ 中实现它们，以及如何与 Python 中的实现保持一致。归一化层的主要作用是加速训练，提高模型的稳定性和泛化能力。它们通过对输入数据进行规范化，使其具有更适合训练的分布。一、Batch Normalization (BatchNorm) BatchNorm 是一种在每个小批量数据上进行归一化的技术。它通过减去小批量数据的均值并除以其标准差来实现。更具体地说，BatchNorm 的步骤如下：计算小批量均值 (μ_B): μ_B = (1/m) * Σ(x_i) ，其中 m 是小批量大小，x_i 是小批量中的第 i 个样本。计算小批量方差 (σ^2_B): σ^2_B = (1/m) * Σ( (x_i – μ …

继续阅读“Python实现深度学习模型中的归一化层：Batch Norm、Layer Norm的C++实现细节”

2025年11月27日

Python实现生成对抗网络（GAN）的训练稳定性：谱归一化（Spectral Normalization）的应用

生成对抗网络训练的稳定性：谱归一化（Spectral Normalization）的应用各位同学，大家好！今天我们来探讨一个在生成对抗网络（GANs）训练中至关重要的问题：稳定性。GANs 以其生成逼真数据的能力而闻名，但其训练过程却以不稳定著称。这种不稳定性通常表现为模式崩塌（mode collapse）、梯度消失或爆炸等问题，导致生成器无法产生多样化且高质量的样本。为了解决这些问题，研究人员提出了各种各样的技术。其中，谱归一化（Spectral Normalization, SN）是一种简单而有效的正则化方法，旨在约束生成器和判别器中权重矩阵的谱范数，从而提高训练的稳定性。今天，我们将深入探讨谱归一化的原理、实现和应用。 GANs 训练不稳定的根源在深入了解谱归一化之前，我们先来回顾一下 GANs 训练不稳定性的主要原因。GANs 由生成器 (G) 和判别器 (D) 组成，它们在一个对抗博弈中相互竞争。生成器的目标是生成尽可能逼真的数据，以欺骗判别器；而判别器的目标是区分真实数据和生成数据。这个博弈过程可以用以下损失函数来描述： min_G max_D V(D, G) = E …

继续阅读“Python实现生成对抗网络（GAN）的训练稳定性：谱归一化（Spectral Normalization）的应用”

2025年11月27日

Python实现优化器的自适应梯度归一化（Adaptive Gradient Normalization）算法

自适应梯度归一化（Adaptive Gradient Normalization, AdaGradNorm）算法详解与Python实现各位同学，大家好！今天我们来深入探讨一种优化算法——自适应梯度归一化（Adaptive Gradient Normalization，简称AdaGradNorm）。在深度学习模型的训练过程中，优化器扮演着至关重要的角色，它决定了模型参数如何更新以达到最佳的性能。AdaGradNorm 是一种相对较新的优化算法，旨在解决传统优化器（如Adam）在某些情况下表现不佳的问题，尤其是在梯度方差较大或模型训练不稳定时。 1. 优化算法的必要性与挑战深度学习模型通常包含大量的参数，训练过程就是在高维空间中寻找损失函数的最小值。优化算法就像一个导航员，引导我们朝着这个最小值前进。理想情况下，我们希望优化器能够快速、稳定地找到全局最优解。然而，实际情况往往更为复杂，面临诸多挑战：非凸性：深度学习模型的损失函数通常是非凸的，这意味着存在许多局部最小值，优化器可能会陷入其中。梯度消失/爆炸：在深度网络中，梯度在反向传播的过程中可能会逐渐消失或爆炸，导致训练停滞或 …

继续阅读“Python实现优化器的自适应梯度归一化（Adaptive Gradient Normalization）算法”

2025年11月23日

RMSNorm（均方根归一化）的数值稳定性：在FP16训练中防止梯度溢出的关键特性

RMSNorm：FP16训练中梯度溢出的守护者大家好，今天我们要深入探讨RMSNorm（均方根归一化）在FP16（半精度浮点数）训练中扮演的关键角色，以及它如何帮助我们规避梯度溢出这个常见而棘手的问题。我们将从背景知识入手，逐步剖析RMSNorm的原理、优势，并通过代码示例演示如何在实际应用中使用它。背景知识：FP16训练与梯度溢出深度学习模型越来越大，训练所需的计算资源也随之水涨船高。为了降低显存占用、加速训练过程，FP16训练应运而生。FP16使用16位浮点数表示数据，相比于常用的FP32（单精度浮点数），它所需的存储空间减半，计算速度理论上可以提高一倍。然而，FP16也带来了新的挑战：精度损失: FP16的表示范围和精度远小于FP32。这可能导致梯度在反向传播过程中变得过小（下溢）或过大（溢出）。梯度溢出: 梯度溢出是指梯度值超过FP16所能表示的最大值，从而变成无穷大（Inf）或非数值（NaN）。这会导致训练崩溃，模型无法收敛。梯度溢出是FP16训练中最常见也是最令人头疼的问题之一。它通常发生在以下情况下：网络层数过深: 深层网络在反向传播过程中，梯度会逐层累积 …

继续阅读“RMSNorm（均方根归一化）的数值稳定性：在FP16训练中防止梯度溢出的关键特性”

2025年11月23日

混合检索（Hybrid Search）的加权策略：BM25稀疏向量与Embedding稠密向量的归一化融合

混合检索的加权策略：BM25稀疏向量与Embedding稠密向量的归一化融合大家好，今天我们来深入探讨混合检索中的一个关键环节：加权策略，特别是针对BM25稀疏向量和Embedding稠密向量的归一化融合。混合检索旨在结合不同检索方法的优势，提升整体检索效果。而加权策略，则是将这些不同方法产生的排序结果有效融合的关键。混合检索概述在信息检索领域，我们通常会遇到两种主要的检索方法：基于关键词的检索（Keyword-based Retrieval）: 这种方法依赖于用户查询中的关键词与文档中词项的匹配程度。经典的算法包括BM25（Best Matching 25）。基于语义的检索（Semantic-based Retrieval）: 这种方法利用预训练语言模型（如BERT, Sentence-BERT等）将查询和文档编码成稠密向量，然后通过向量相似度（如余弦相似度）来衡量语义相关性。这两种方法各有优缺点：特性 BM25 (稀疏向量) Embedding (稠密向量) 优点速度快，可解释性强，对精确匹配敏感能捕捉语义相关性，对同义词、近义词有较好的处理能力缺点无法处理语 …

继续阅读“混合检索（Hybrid Search）的加权策略：BM25稀疏向量与Embedding稠密向量的归一化融合”

2025年11月23日

SimPO（Simple Preference Optimization）：无需参考模型的长度归一化偏好优化算法解析

SimPO：无需参考模型的长度归一化偏好优化算法解析大家好！今天我们来深入探讨一种新颖的偏好优化算法——SimPO（Simple Preference Optimization）。偏好优化，顾名思义，就是让模型输出的结果更符合人类的偏好，从而提升模型的实用性和用户体验。传统的偏好优化方法，例如直接偏好优化（Direct Preference Optimization, DPO），通常依赖于参考模型，并受到生成文本长度差异的影响。SimPO 算法巧妙地解决了这些问题，它无需参考模型，并引入了长度归一化机制，使得训练过程更加稳定高效。偏好优化背景及现有方法局限性在大型语言模型（LLM）的训练过程中，传统的预训练目标（例如Next Token Prediction）虽然能让模型掌握丰富的语言知识，但并不能保证模型输出的结果符合人类的期望，例如安全性、可控性、连贯性等。偏好优化正是为了弥补这一缺陷而诞生的。偏好优化流程一般如下：数据收集：收集人类对不同模型输出结果的偏好数据，例如对同一个prompt，模型A的输出比模型B的输出更好。奖励模型训练：基于偏好数据训练一个奖励模型（R …

继续阅读“SimPO（Simple Preference Optimization）：无需参考模型的长度归一化偏好优化算法解析”

2025年11月6日

JAVA 构建自定义 Embedding 服务？文本清洗、切词与归一化技巧

JAVA 构建自定义 Embedding 服务：文本清洗、切词与归一化技巧大家好，今天我们来探讨如何使用 JAVA 构建一个自定义的 Embedding 服务。Embedding 技术在自然语言处理（NLP）领域应用广泛，它可以将文本数据转换为向量表示，从而方便进行语义相似度计算、文本分类、聚类等任务。本次讲座将重点关注文本清洗、切词与归一化等预处理步骤，以及如何将这些步骤整合到一个可部署的 JAVA 服务中。一、Embedding 技术简介在深入代码之前，我们先简单了解一下 Embedding。Embedding 是一种将离散变量（如词语、句子、甚至整个文档）映射到连续向量空间的技术。这些向量能够捕捉到原始数据的语义信息，相似的词语或句子在向量空间中距离更近。常见的 Embedding 方法包括： Word2Vec (Skip-gram, CBOW): 基于神经网络，通过预测上下文或目标词语来学习词向量。 GloVe (Global Vectors for Word Representation): 基于共现矩阵，利用全局词语共现信息来学习词向量。 FastText: 是 W …

继续阅读“JAVA 构建自定义 Embedding 服务？文本清洗、切词与归一化技巧”