wa - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

异常值抑制（Outlier Suppression）：在W8A8量化中处理Transformer激活值尖峰的旋转技巧

好的，我们开始。异常值抑制（Outlier Suppression）：在W8A8量化中处理Transformer激活值尖峰的旋转技巧 Transformer模型在自然语言处理和其他领域取得了显著的成功。然而，其庞大的规模和计算复杂度使其难以在资源受限的设备上部署。量化是一种有效的模型压缩技术，可以将模型的权重和激活值从浮点数转换为低精度整数，从而减小模型大小并提高推理速度。 W8A8量化是一种常见的量化方案，它将权重和激活值都量化为8位整数。虽然W8A8量化可以显著提高推理效率，但它也面临着一些挑战。其中一个主要挑战是Transformer激活值中存在的异常值（outliers）。这些异常值是指那些幅度远大于其他激活值的数值。它们的存在会严重影响量化性能，因为量化器需要更大的动态范围来容纳这些异常值，从而导致量化精度下降。本文将深入探讨异常值对W8A8量化的影响，并介绍一种有效的异常值抑制技术——旋转技巧（Rotation Trick）。我们将详细解释旋转技巧的原理、实现方法以及在Transformer模型中的应用。此外，我们还将提供实验结果，以证明旋转技巧在提高W8A8量化Tra …

继续阅读“异常值抑制（Outlier Suppression）：在W8A8量化中处理Transformer激活值尖峰的旋转技巧”

2025年11月22日

Marlin内核：利用FP16xINT4矩阵乘法加速W4A16量化模型的推理速度

Marlin内核：利用FP16xINT4矩阵乘法加速W4A16量化模型的推理速度大家好，今天我们要探讨的是如何利用Marlin内核，通过FP16xINT4矩阵乘法来加速W4A16量化模型的推理速度。在深度学习模型部署中，推理速度至关重要，尤其是在资源受限的边缘设备上。量化作为一种有效的模型压缩和加速技术，越来越受到关注。W4A16指的是权重（Weights）量化到4比特，激活（Activations）量化到16比特。这种量化方式在保持模型精度的同时，可以显著减少模型大小和计算复杂度。本次讲座将分为以下几个部分：量化技术概述：简单介绍量化的概念、目的和常见量化方案。 W4A16量化方案详解：深入讲解W4A16量化方案的具体实现方式，包括量化和反量化过程。 FP16xINT4矩阵乘法的优势：分析FP16xINT4矩阵乘法相比于传统INT8矩阵乘法的优势，以及如何利用它来加速W4A16模型的推理。 Marlin内核及其优化：介绍Marlin内核的基本架构，以及针对FP16xINT4矩阵乘法的优化策略。代码实现与性能评估：通过代码示例演示如何在Marlin内核中实现FP16x …

继续阅读“Marlin内核：利用FP16xINT4矩阵乘法加速W4A16量化模型的推理速度”

2025年11月22日

W4A16量化内核开发：在推理端保持激活值高精度以对抗异常值的算子实现

W4A16量化内核开发：在推理端保持激活值高精度以对抗异常值的算子实现大家好，今天我们来探讨一个重要的量化话题：W4A16量化内核开发中，如何在推理端保持激活值高精度以对抗异常值的算子实现。 1. 量化背景及挑战量化是一种降低模型计算和存储成本的有效技术。它通过将模型中的权重和激活值从高精度（例如 FP32）转换为低精度（例如 INT8）来减少内存占用和计算复杂度。然而，量化也会带来精度损失，尤其是在存在异常值（Outliers）的情况下。 1.1 异常值的定义与影响异常值是指在数据集中远离其他数据点的极端值。在神经网络中，异常值可能出现在权重或激活值中。激活值中的异常值通常是由于网络结构、训练数据或训练过程中的不稳定因素引起的。异常值的存在会严重影响量化精度。例如，如果激活值中存在一个很大的异常值，而我们使用线性量化，那么为了包含这个异常值，量化范围会被拉大，导致其他正常激活值被量化到非常小的整数范围内，从而损失精度。 1.2 W4A16量化方案 W4A16量化方案指的是权重（Weights）使用 4-bit 量化，激活值（Activations）使用 16-bit 量化。这 …

继续阅读“W4A16量化内核开发：在推理端保持激活值高精度以对抗异常值的算子实现”