激活 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

激活值动态量化：推理时实时计算范围的开销与收益大家好，今天我们来深入探讨一个在模型推理优化中非常重要的技术——激活值的动态量化。我们将重点关注在推理过程中实时计算激活值范围的开销和收益，并通过代码示例来加深理解。 1. 量化的基本概念与动机在深度学习模型部署中，模型的大小、推理速度和功耗是至关重要的指标。量化是一种将模型的权重和激活值从浮点数（通常是FP32）转换为低精度整数（例如INT8）的技术。通过使用更少的比特位来表示数据，我们可以显著减小模型大小，提高推理速度，并降低功耗。量化的主要优势：模型大小减小：将FP32数据转换为INT8数据可以将模型大小减少4倍。推理速度提升：低精度计算通常比浮点数计算更快，尤其是在支持INT8计算的硬件上。功耗降低：使用低精度数据可以降低内存访问和计算的功耗。量化方法主要分为以下几种：训练后量化 (Post-Training Quantization, PTQ): 在模型训练完成后进行量化，不需要重新训练模型。PTQ可以分为静态量化和动态量化。量化感知训练 (Quantization-Aware Training, QAT) …

继续阅读“激活值的动态量化（Dynamic Quantization）：在推理时实时计算激活范围的开销与收益”

好的，下面是一篇关于激活引导（Activation Steering）的技术讲座文章，包含代码示例，逻辑严谨，并以正常人类的语言表述。激活引导：在推理时控制大型语言模型的情感与风格大家好，今天我们来深入探讨一个引人入胜的技术领域：激活引导（Activation Steering）。激活引导是一种在推理阶段干预大型语言模型（LLM）激活向量的技术，旨在控制模型生成文本的情感、风格或其他特定属性。简单来说，我们可以通过这种方法，在不重新训练模型的情况下，引导模型输出我们想要的结果。 1. 背景与动机大型语言模型在文本生成方面展现出了惊人的能力，但同时也存在一些挑战。其中一个关键问题是，模型的输出往往难以控制。例如，我们可能希望模型生成更积极的文本，或者模仿特定作家的风格，但直接提示（prompting）有时效果不佳或不稳定。传统的微调（fine-tuning）方法可以解决这个问题，但需要大量的标注数据和计算资源。此外，微调会改变模型的整体行为，可能影响其在其他任务上的表现。激活引导提供了一种更轻量级、更灵活的替代方案。它允许我们在推理时动态地调整模型的行为，而无需修改模型的权重。 …

继续阅读“Activation Steering（激活引导）：通过在推理时干预激活向量控制模型的情感与风格”