人工智能 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月22日

MoE-ification：将稠密模型（Dense）转化为稀疏混合专家模型（MoE）的剪枝技术

MoE-ification：稠密模型转化为稀疏混合专家模型的剪枝技术大家好，今天我们来深入探讨一个在模型压缩和加速领域非常热门的技术—— MoE-ification，也就是将稠密模型转化为稀疏混合专家模型（Mixture of Experts，MoE）。我们将重点关注如何通过剪枝技术来实现这一转化，并提供实际的代码示例。 1. 混合专家模型（MoE）概述在传统的深度学习模型中，所有的输入样本都会通过相同的网络结构。然而，对于复杂的问题，不同的样本可能需要不同的处理方式。混合专家模型（MoE）正是为了解决这个问题而提出的。 MoE 的核心思想是将一个大型模型分解成多个“专家”子网络，每个专家负责处理特定类型的输入。一个“门控网络”（Gating Network）会根据输入决定激活哪些专家，并将输入路由到这些被选中的专家。 MoE 的关键组成部分：专家（Experts）：多个独立的神经网络子模型，可以是任何类型的网络结构，例如 MLP、CNN、Transformer 层等。门控网络（Gating Network）：一个神经网络，根据输入计算每个专家的权重，决定激活哪些专家。通常 …

继续阅读“MoE-ification：将稠密模型（Dense）转化为稀疏混合专家模型（MoE）的剪枝技术”

2025年11月22日

Frankenmerging：将不同模型的层进行拼接以通过“缝合怪”方式提升性能

Frankenmerging：模型层拼接的炼金术各位同学，大家好！今天我们来探讨一个有趣且充满潜力的模型优化方法——Frankenmerging。这个词听起来有点怪异，灵感来源于弗兰肯斯坦，指的是将多个模型的部分结构（通常是层）拼接在一起，创造出一个新的、混合的模型，期望能够融合各个模型的优点，从而提升整体性能。这种方法的核心思想在于：不同的模型可能在不同的特征提取或任务处理方面表现出色，如果能够巧妙地将这些优势部分结合起来，就能得到一个比单个模型更强大的“缝合怪”。 Frankenmerging 的基本原理 Frankenmerging 的基本流程可以概括为以下几个步骤：选择源模型：确定要用于拼接的多个预训练模型。这些模型可以是针对不同任务训练的，也可以是相同任务但在不同数据集或架构下训练的。确定拼接层：选择要从源模型中提取并拼接的层。这通常需要对模型的结构和功能有一定的了解，以便选择合适的层进行拼接。拼接层：将选定的层按照某种方式连接在一起，形成新的模型结构。这可能涉及到调整层的输入输出维度，以及添加额外的连接层或激活函数。微调：对拼接后的模型进行微调，使其适应 …

继续阅读“Frankenmerging：将不同模型的层进行拼接以通过“缝合怪”方式提升性能”

2025年11月22日

模型合并技术（Model Merging）：Spherical Linear Interpolation (SLERP) 的数学原理

模型合并技术 (Model Merging)：Spherical Linear Interpolation (SLERP) 的数学原理大家好！今天我们来深入探讨模型合并技术中的一种关键方法：球面线性插值 (Spherical Linear Interpolation)，简称 SLERP。模型合并，顾名思义，就是将多个模型的优点结合起来，创造出一个性能更优异的新模型。SLERP 作为一种插值技术，在模型合并中扮演着重要的角色，尤其是在神经网络权重融合方面。 1. 模型合并概述在深度学习领域，我们经常需要训练多个模型。这些模型可能具有不同的架构、在不同的数据集上训练，或者使用不同的训练策略。模型合并提供了一种有效的方式，可以将这些模型的知识整合到一个单一的模型中，从而提升性能、泛化能力，或者减少模型大小。常见的模型合并策略包括：平均权重 (Weight Averaging): 将多个模型的权重简单地平均。线性插值 (Linear Interpolation): 将多个模型的权重进行线性组合。球面线性插值 (SLERP): 将多个模型的权重在球面上进行插值。 Task Arith …

继续阅读“模型合并技术（Model Merging）：Spherical Linear Interpolation (SLERP) 的数学原理”

2025年11月22日

基于沙箱的代码执行安全：在LLM生成代码并执行场景下的容器隔离方案

LLM 生成代码执行安全：沙箱容器隔离方案大家好，今天我们来探讨一个日益重要的领域：在大型语言模型（LLM）生成代码并执行场景下的安全问题，以及如何利用沙箱容器隔离来解决这些问题。随着 LLM 的能力不断提升，它们不仅可以生成文本，还可以生成可执行的代码。这为自动化、快速原型设计和教育等领域带来了巨大的潜力。然而，这也引入了新的安全风险。LLM 生成的代码可能包含恶意代码、漏洞或意外的副作用，如果直接在生产环境中执行，可能会造成严重损害。因此，我们需要一种安全机制来隔离 LLM 生成的代码，限制其对系统资源的访问，并防止其造成任何潜在的破坏。沙箱容器隔离技术正是在这种背景下应运而生。为什么需要沙箱容器隔离？ LLM 生成的代码可能存在以下安全风险：恶意代码注入： LLM 可能会被诱导生成包含恶意代码的代码，例如病毒、木马或后门程序。资源滥用： LLM 生成的代码可能会无意或恶意地消耗大量系统资源，例如 CPU、内存或磁盘空间，导致系统崩溃或性能下降。权限提升： LLM 生成的代码可能会利用系统漏洞来提升权限，从而访问敏感数据或执行未经授权的操作。数据泄露： LLM 生成 …

继续阅读“基于沙箱的代码执行安全：在LLM生成代码并执行场景下的容器隔离方案”

2025年11月22日

Safety Alignment的拒答率（Refusal Rate）：平衡安全性与有用性（Helpfulness）的边界

Safety Alignment 的拒答率：平衡安全性与有用性的边界各位朋友，大家好。今天我们来探讨一个在大型语言模型（LLM）领域至关重要且极具挑战性的问题：Safety Alignment 的拒答率，以及如何平衡安全性与有用性之间的微妙关系。随着 LLM 性能的飞速提升，它们在各个领域的应用也日益广泛。然而，与此同时，我们也必须正视 LLM 可能带来的安全风险，例如生成有害信息、传播虚假信息、甚至被用于恶意目的。Safety Alignment 的目标就是确保 LLM 在提供强大功能的同时，也能遵守道德规范、尊重社会价值观，并最大程度地降低潜在风险。拒答率，作为 Safety Alignment 的一个重要指标，指的是 LLM 拒绝回答用户请求的比例。一个合理的拒答率能够在一定程度上保护用户和模型本身，但过高的拒答率则会严重损害 LLM 的可用性和实用性。因此，如何在安全性与有用性之间找到最佳平衡点，是当前 LLM 研究人员面临的关键挑战。一、理解 Safety Alignment 与拒答率 Safety Alignment 的核心在于训练 LLM 识别并避免生成有害或不适 …

继续阅读“Safety Alignment的拒答率（Refusal Rate）：平衡安全性与有用性（Helpfulness）的边界”

2025年11月22日

模型幻觉（Hallucination）的分类：事实性冲突与逻辑不一致的内在机理差异

模型幻觉的分类：事实性冲突与逻辑不一致的内在机理差异大家好，今天我们来深入探讨大语言模型（LLM）中的一个重要问题：模型幻觉。更具体地说，我们将分析模型幻觉的两种主要类型——事实性冲突和逻辑不一致，并剖析它们内在机理上的差异。理解这些差异对于改进模型性能，提高其可靠性和可信度至关重要。 1. 什么是模型幻觉？模型幻觉是指LLM生成的内容与现实世界的事实或逻辑规则相悖的现象。这些“幻觉”并非模型有意捏造，而是由于其训练数据、模型架构或生成机制的局限性所致。模型幻觉会严重影响LLM在知识密集型任务中的应用，并可能导致误导或错误信息的传播。 2. 模型幻觉的两种主要类型：事实性冲突与逻辑不一致我们将模型幻觉分为以下两类：事实性冲突 (Factual Hallucination): 生成的内容与已知的事实相矛盾。例如，模型声称“苹果公司成立于1985年”，这与实际的1976年不符。逻辑不一致 (Logical Inconsistency): 生成的内容内部存在逻辑上的矛盾或推理错误。例如，模型声称“鸟会飞，企鹅是鸟，所以企鹅不会飞”，这与逻辑推理规则相悖。虽然这两类幻觉都降低了模型 …

继续阅读“模型幻觉（Hallucination）的分类：事实性冲突与逻辑不一致的内在机理差异”

2025年11月22日

数据污染（Data Contamination）检测：通过N-gram重叠与困惑度分析识别Benchmark泄露

数据污染（Data Contamination）检测：通过N-gram重叠与困惑度分析识别Benchmark泄露大家好！今天我们来聊一聊一个在机器学习，特别是大型语言模型（LLM）领域非常重要的问题：数据污染（Data Contamination），以及如何利用N-gram重叠和困惑度分析来检测Benchmark泄露。 1. 什么是数据污染？数据污染指的是训练数据中包含了测试数据的信息，或者说训练数据和测试数据存在某种程度上的重叠。这种重叠会导致模型在测试集上表现出人为的高准确率，但实际上模型的泛化能力并没有得到真正的提升。更糟糕的是，模型可能只是记住了测试集的数据，而不是学会了解决问题的通用方法。数据污染的来源有很多种：无意泄露：训练数据和测试数据来自同一个来源，但没有进行严格的去重处理。例如，爬取网页数据时，训练集和测试集都包含了同一个网页的内容。恶意泄露：有意将测试数据加入到训练数据中，以提高模型在特定Benchmark上的得分，从而误导评估结果。数据增强不当：使用了会引入测试集信息的增强方法。例如，在翻译任务中，训练集包含“英文 -> 中文”的翻译，而测 …

继续阅读“数据污染（Data Contamination）检测：通过N-gram重叠与困惑度分析识别Benchmark泄露”

2025年11月22日

大模型遗忘（Machine Unlearning）：如何在不重新训练的情况下消除特定知识或有害行为

大模型遗忘 (Machine Unlearning): 在不重新训练的情况下消除特定知识或有害行为各位同学，大家好。今天我们来聊聊一个在大模型时代越来越重要的话题：大模型遗忘，也称为Machine Unlearning。随着大型语言模型（LLMs）在各行各业的广泛应用，如何有效地管理和控制模型学习到的知识变得至关重要。特别是当模型包含不准确、过时、敏感或有害的信息时，我们需要一种方法来消除这些不需要的知识，而无需从头开始重新训练整个模型。这就是Machine Unlearning要解决的问题。为什么需要Machine Unlearning? 传统的机器学习模型，一旦训练完成，其行为就被固定下来。如果需要修正模型中的错误或消除不必要的信息，最直接的方法就是重新收集数据并重新训练模型。然而，对于动辄拥有数千亿甚至万亿参数的大模型来说，重新训练的成本是极其高昂的，无论是时间成本还是计算资源成本。以下是一些Machine Unlearning的重要应用场景：数据隐私: 在用户要求删除其个人数据后，需要从模型中消除与该用户相关的信息，以满足数据隐私法规的要求，例如GDPR（通用数据保护条 …

继续阅读“大模型遗忘（Machine Unlearning）：如何在不重新训练的情况下消除特定知识或有害行为”

2025年11月22日

LLM-as-a-Judge的偏差分析：位置偏差（Position Bias）与自我偏好（Self-Preference）

LLM-as-a-Judge的偏差分析：位置偏差（Position Bias）与自我偏好（Self-Preference）各位同学，大家好。今天我们来探讨一个非常有趣，且在当前AI领域日益重要的主题：如何使用大型语言模型（LLM）作为裁判（LLM-as-a-Judge），以及在这个过程中可能出现的偏差，特别是位置偏差（Position Bias）和自我偏好（Self-Preference）。 1. LLM-as-a-Judge：背景与必要性在大型语言模型蓬勃发展的今天，我们不仅关注它们生成文本的能力，也开始探索它们在评估、排序、筛选等任务中的潜力。尤其是在模型训练、评估和选择阶段，人工评估的成本非常高昂，效率也相对较低。因此，利用LLM来自动化这些过程变得极具吸引力。 LLM-as-a-Judge的核心思想是：利用LLM自身强大的语言理解和生成能力，对其他LLM或算法生成的输出进行评估，从而取代或辅助人工评估。这在以下场景中尤为有用：模型训练的奖励信号：使用LLM-as-a-Judge评估模型的输出，并将其作为强化学习或直接偏好优化（Direct Preference Opti …

继续阅读“LLM-as-a-Judge的偏差分析：位置偏差（Position Bias）与自我偏好（Self-Preference）”

2025年11月22日

指令层级（Instruction Hierarchy）：防止Prompt Injection导致系统指令被覆盖的防御策略

指令层级（Instruction Hierarchy）：防止Prompt Injection导致系统指令被覆盖的防御策略各位朋友，大家好。今天我们来深入探讨一个日益重要的安全问题：Prompt Injection，以及一种有效的防御策略——指令层级（Instruction Hierarchy）。在大型语言模型（LLM）广泛应用的背景下，Prompt Injection已经成为一个严重的威胁，它允许恶意用户通过精心设计的输入（Prompt）来操控LLM的行为，甚至覆盖系统预设的指令，从而导致各种安全风险和不可预测的后果。什么是Prompt Injection？简单来说，Prompt Injection是一种利用LLM对自然语言输入的信任，通过在用户输入中嵌入指令来劫持LLM的行为的方式。LLM通常被设计为遵循用户输入的指令，但如果没有适当的防御机制，攻击者可以利用这一点来让LLM执行恶意操作，例如：数据泄露：指示LLM泄露其内部数据或训练数据。代码执行：指示LLM生成并执行恶意代码。虚假信息传播：指示LLM生成并传播虚假信息。服务降级：指示LLM执行无限循环或拒绝服 …

继续阅读“指令层级（Instruction Hierarchy）：防止Prompt Injection导致系统指令被覆盖的防御策略”