arithmetic - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

Language Model Arithmetic：在激活空间进行向量运算以控制模型生成风格

Language Model Arithmetic：激活空间向量运算控制生成风格各位同学，大家好。今天我们来探讨一个非常有意思且实用的技术：Language Model Arithmetic，也就是语言模型算术。它允许我们在语言模型的激活空间中进行向量运算，从而控制模型的生成风格，实现更加精细和个性化的文本生成。 1. 动机与背景近年来，预训练语言模型（如GPT、BERT、LLaMA等）在自然语言处理领域取得了巨大成功。它们通过在大规模语料库上进行预训练，学习到了丰富的语言知识和模式。然而，这些模型通常被训练成生成通用、中性的文本，缺乏特定的风格或个性。在很多实际应用场景中，我们需要模型生成具有特定风格的文本，例如：文学创作：生成模仿特定作家风格的诗歌、小说。内容营销：生成符合品牌调性的广告文案。客户服务：生成带有特定情感色彩的回复。教育领域：生成适应不同年龄段学生的教材。传统的微调方法虽然可以调整模型的输出，但需要大量的特定风格数据，且微调后的模型往往只能生成单一风格的文本。Language Model Arithmetic 提供了一种更灵活、高效的方法，无需 …

继续阅读“Language Model Arithmetic：在激活空间进行向量运算以控制模型生成风格”

2025年11月23日

Model Arithmetic（模型算术）：通过“向量加减”在权重空间实现特定能力的注入与剥离

模型算术：在权重空间中注入与剥离能力大家好，今天我们来探讨一个有趣且实用的主题：模型算术。具体来说，我们将深入研究如何通过对预训练模型权重进行向量加减运算，来注入或剥离特定的能力，从而实现模型定制化。 1. 模型算术的基本概念模型算术的核心思想是将预训练模型视为一个巨大的参数向量空间。在这个空间中，模型的每一个权重都代表着其学习到的知识和能力。因此，我们可以通过对权重向量进行操作，来改变模型的行为，使其具备或失去某些特定的功能。最基本的操作是向量加法和向量减法。我们可以将一个代表特定能力的“能力向量”加到原始模型的权重上，从而增强或添加该能力。相反，我们可以从原始模型中减去一个“能力向量”，从而削弱或移除该能力。这种方法的优势在于：效率高：相比于从头开始训练一个模型，或者进行微调，模型算术通常需要更少的计算资源和时间。灵活性强：可以针对特定需求，精确地控制模型的行为。可解释性：通过分析能力向量，我们可以更好地理解模型内部的运作机制。 2. 如何构建“能力向量” 构建“能力向量”是模型算术的关键步骤。目前，主要有两种方法： 2.1. 基于微调的差分方法这种方法的核心思想是 …

继续阅读“Model Arithmetic（模型算术）：通过“向量加减”在权重空间实现特定能力的注入与剥离”

2025年11月22日

模型算术强度（Arithmetic Intensity）分析：Memory Wall对大模型训练吞吐量的制约

模型算术强度分析：Memory Wall 对大模型训练吞吐量的制约大家好，今天我们来深入探讨一个在大模型训练中至关重要，却又常常被忽视的概念：算术强度（Arithmetic Intensity）。理解算术强度以及它与硬件性能的交互，能帮助我们更好地理解 Memory Wall 对大模型训练吞吐量的制约，从而更有针对性地进行模型优化和硬件选择。 1. 什么是算术强度？简单来说，算术强度衡量的是计算操作数量与内存访问数量的比率。更正式地说：算术强度 = 计算操作数 / 内存访问量这个比率越高，意味着算法执行过程中，每从内存中读取一次数据，就能进行更多的计算。高算术强度的算法更倾向于受到计算能力的限制，而低算术强度的算法更容易受到内存带宽的限制。举个例子，考虑两个操作：向量加法： c = a + b (a, b, c都是向量) 矩阵乘法： C = A * B (A, B, C都是矩阵) 对于向量加法，我们需要读取 a 和 b，然后将它们相加，并将结果写入 c。假设向量长度为 n，那么计算操作数是 n（n次加法），内存访问量是 3n（读 a, 读 b, 写 c）。算术强度约为 …

继续阅读“模型算术强度（Arithmetic Intensity）分析：Memory Wall对大模型训练吞吐量的制约”