蒸馏 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

Rerank模型蒸馏：将Cross-Encoder的能力蒸馏至Bi-Encoder以降低重排序延迟

Rerank模型蒸馏：将Cross-Encoder的能力蒸馏至Bi-Encoder以降低重排序延迟各位同学，大家好！今天我们要讨论一个在信息检索和自然语言处理领域非常重要的技术：Rerank模型蒸馏，以及如何利用它来将Cross-Encoder的强大能力迁移到Bi-Encoder，从而显著降低重排序过程中的延迟。 1. 引言：检索系统的瓶颈与Rerank的必要性现代信息检索系统，例如搜索引擎和推荐系统，通常遵循一个两阶段的架构：召回（Retrieval）和重排序（Reranking）。召回阶段：负责从海量的文档库中快速筛选出与用户查询相关的候选文档集合。为了追求速度，召回阶段通常采用一些轻量级的模型，例如基于关键词匹配的BM25算法或者基于向量相似度的Bi-Encoder模型。重排序阶段：负责对召回阶段返回的候选文档进行更精确的排序，以便将最相关的文档排在前面。这个阶段通常采用更复杂的模型，例如Cross-Encoder，它可以更深入地理解查询和文档之间的关系。虽然Cross-Encoder在精度上表现出色，但它的计算复杂度也更高。对于每个候选文档，Cross-Encod …

继续阅读“Rerank模型蒸馏：将Cross-Encoder的能力蒸馏至Bi-Encoder以降低重排序延迟”

2025年11月22日

模型蒸馏（Distillation）进阶：不仅蒸馏Logits还蒸馏中间层Attention Map的技巧

模型蒸馏进阶：Logits与Attention Map的双重蒸馏大家好，今天我们要深入探讨模型蒸馏技术，并介绍一种更高级的蒸馏方法：不仅蒸馏Logits，还蒸馏中间层Attention Map。这种方法能够更有效地将大型教师模型的知识迁移到小型学生模型中，从而提高学生模型的性能。 1. 模型蒸馏概述模型蒸馏，又称知识蒸馏(Knowledge Distillation)，是一种模型压缩技术，其核心思想是将一个复杂、庞大的教师模型(Teacher Model)的知识迁移到一个简单、轻量级的学生模型(Student Model)中。这样做的目的是让学生模型在保持较低的计算成本的同时，尽可能地接近教师模型的性能。传统的模型蒸馏主要关注于蒸馏教师模型的Logits。Logits指的是模型softmax层之前的输出，包含了模型对各个类别的置信度信息。通过让学生模型的Logits尽可能地接近教师模型的Logits，可以使学生模型学习到教师模型的决策边界和类别之间的关系。 2. Logits蒸馏的原理与实现 Logits蒸馏的核心是最小化学生模型和教师模型Logits之间的差异。通常使用软目标( …

继续阅读“模型蒸馏（Distillation）进阶：不仅蒸馏Logits还蒸馏中间层Attention Map的技巧”

2025年11月21日

利用Embedding蒸馏技术降低RAG召回延迟并提升在线推理稳定性方案

Embedding 蒸馏：提升 RAG 召回效率与在线推理稳定性大家好！今天我们来深入探讨如何利用 Embedding 蒸馏技术来优化检索增强生成 (Retrieval-Augmented Generation, RAG) 系统的性能，重点关注降低召回延迟和提升在线推理的稳定性。RAG 系统在许多领域都展现出强大的能力，但其性能瓶颈往往在于检索阶段的效率。 Embedding 蒸馏作为一种有效的模型压缩技术，能够显著提升检索速度，同时保持甚至增强模型的知识表达能力，从而改善 RAG 系统的整体表现。 RAG 系统及其性能瓶颈 RAG 系统结合了信息检索和文本生成两个关键模块。首先，它根据用户查询从海量知识库中检索相关文档，然后利用检索到的文档作为上下文，指导生成模型生成最终的答案或文本。一个典型的 RAG 系统流程如下：索引构建 (Indexing): 将知识库中的文档转换为向量表示 (embeddings)，并构建索引结构 (例如，FAISS, Annoy) 以加速检索。检索 (Retrieval): 接收用户查询，将其编码为向量，并在索引中查找最相关的文档。生成 (Gene …

继续阅读“利用Embedding蒸馏技术降低RAG召回延迟并提升在线推理稳定性方案”

2025年11月20日

如何通过模型蒸馏工程化压缩大模型以降低推理成本并保持核心能力不下降

大模型蒸馏工程化实践：降低推理成本与保持核心能力各位朋友，大家好！今天我们来聊聊大模型蒸馏的工程化实践，核心目标是在保证模型核心能力不大幅下降的前提下，有效降低推理成本。这是一个极具挑战但也充满价值的课题。一、为什么要进行模型蒸馏？大模型，尤其是Transformer架构的模型，通常参数量巨大，这导致了高昂的推理成本，包括：计算资源消耗：需要强大的GPU/TPU资源。延迟：推理时间长，影响用户体验。能耗：运行成本高昂，对环境造成压力。模型蒸馏是一种知识迁移技术，可以将大型、复杂的“教师模型”的知识转移到小型、简单的“学生模型”中。这样，我们就能得到一个参数量更少、推理速度更快、成本更低的学生模型，同时尽可能地保留教师模型的核心能力。二、模型蒸馏的核心原理模型蒸馏的核心思想是让学生模型学习教师模型的输出分布，而不仅仅是学习ground truth标签。这种方式可以让学生模型学习到教师模型更丰富的知识，包括类之间的相似性、概率分布的平滑性等。具体来说，蒸馏损失函数通常由两部分组成： Soft Target Loss (知识蒸馏损失): 学生模型的输出概率分布与 …

继续阅读“如何通过模型蒸馏工程化压缩大模型以降低推理成本并保持核心能力不下降”

2025年11月19日

Embedding质量降低如何通过动态重训与特征蒸馏改善

Embedding 质量降低：动态重训与特征蒸馏的救赎各位同学，大家好。今天我们来探讨一个在机器学习和深度学习领域非常关键的问题：Embedding 质量降低。Embedding 作为将高维数据转化为低维向量表示的核心技术，广泛应用于推荐系统、自然语言处理、图像识别等多个领域。然而，随着时间的推移、数据分布的改变以及模型更新换代，原本表现良好的 Embedding 往往会逐渐失去其有效性，导致下游任务的性能下降。今天，我们将深入研究导致 Embedding 质量降低的原因，并重点介绍两种应对策略：动态重训和特征蒸馏。我们会详细分析这两种方法的原理、优势和劣势，并通过代码示例演示如何在实践中应用这些技术来提升 Embedding 的质量。一、Embedding 质量降低的原因分析在深入探讨解决方案之前，我们首先需要理解 Embedding 质量降低的根本原因。以下是一些常见的影响因素：数据漂移 (Data Drift)：现实世界的数据分布并非一成不变，随着时间的推移，输入数据的统计特性会发生改变。例如，在电商推荐系统中，用户的兴趣偏好会随着季节、流行趋势等因素而变化。这种数据 …

继续阅读“Embedding质量降低如何通过动态重训与特征蒸馏改善”