qat - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月26日

深度学习模型量化算法（PTQ/QAT）在PyTorch中的应用：精度损失与推理加速的权衡

PyTorch 深度学习模型量化：精度损失与推理加速的权衡大家好！今天我们来深入探讨一个在深度学习模型部署中至关重要的主题：模型量化。具体来说，我们将聚焦于 PyTorch 框架下两种主流的量化技术：训练后量化 (Post-Training Quantization, PTQ) 和量化感知训练 (Quantization-Aware Training, QAT)。我们的目标是理解这两种方法的原理、应用场景，以及如何在精度损失和推理加速之间取得平衡。 1. 为什么需要模型量化？深度学习模型，尤其是大型模型，通常以 32 位浮点数 (FP32) 存储权重和激活值。虽然 FP32 提供了高精度，但它带来了几个问题：模型尺寸大：大尺寸模型需要更多的存储空间，增加了存储和传输成本。计算量大： FP32 运算需要更多的计算资源，导致推理速度慢，能耗高。内存带宽限制：在硬件设备上，频繁地读取和写入 FP32 数据会成为性能瓶颈。模型量化通过将模型的权重和激活值从 FP32 转换为低精度格式（例如 INT8），可以有效地解决这些问题。量化的好处包括：模型尺寸减小： INT8 模型比 …

继续阅读“深度学习模型量化算法（PTQ/QAT）在PyTorch中的应用：精度损失与推理加速的权衡”

2025年11月23日

量化感知的微调（QAT）：在LoRA微调过程中模拟量化噪声以恢复精度

好的，没问题。量化感知微调 (QAT) 与 LoRA：精度恢复的策略大家好，今天我们来探讨一个在深度学习模型微调中非常重要的话题：量化感知微调 (Quantization Aware Training, QAT) 与低秩适应 (Low-Rank Adaptation, LoRA)。特别地，我们将重点关注如何在 LoRA 微调过程中有效地利用 QAT 来模拟量化噪声，从而恢复因量化而损失的精度。 1. 量化的必要性与挑战深度学习模型在部署时，往往需要将其参数量化为较低的精度，比如 INT8 或甚至更低。这样做可以显著减小模型的大小，降低计算复杂度，并提高推理速度，尤其是在资源受限的边缘设备上。然而，量化过程不可避免地会引入量化误差，导致模型精度下降。量化误差主要来源于将连续值（通常是 FP32 浮点数）映射到离散值（比如 INT8 整数）的过程。这个过程涉及到舍入、截断等操作，从而产生信息损失。 2. 量化感知训练 (QAT) 的核心思想量化感知训练 (QAT) 是一种在训练过程中模拟量化操作的技术，旨在使模型在量化后的性能尽可能接近量化前的性能。其核心思想是在训练时，将量化操 …

继续阅读“量化感知的微调（QAT）：在LoRA微调过程中模拟量化噪声以恢复精度”

2025年11月23日

量化感知训练（QAT）：在微调阶段模拟量化噪声以提升低比特推理精度

量化感知训练 (QAT): 在微调阶段模拟量化噪声以提升低比特推理精度大家好，今天我将深入探讨量化感知训练（Quantization Aware Training，QAT），这是一种用于提升低比特量化模型推理精度的强大技术。我们将从量化的基本概念入手，逐步深入到QAT的原理、实现以及一些高级技巧。 1. 量化基础 1.1 什么是量化？量化是一种将神经网络中的浮点数（通常是32位或16位）转换为低精度整数（例如8位、4位甚至更低）的技术。这种转换可以显著减小模型大小、降低内存占用、提高计算速度，尤其是在资源受限的设备上，如移动设备和嵌入式系统。 1.2 量化的类型主要有两种类型的量化：训练后量化 (Post-Training Quantization, PTQ): 这种方法在模型训练完成后进行量化。它通常不需要重新训练模型，因此实施起来相对简单。然而，由于量化误差的引入，精度损失可能会比较显著。PTQ又可以分为静态量化和动态量化。静态量化: 使用校准数据集来确定量化参数（例如，缩放因子和零点）。这些参数在推理期间保持不变。动态量化: 量化参数是根据每个张量或层的输入动态计算的 …

继续阅读“量化感知训练（QAT）：在微调阶段模拟量化噪声以提升低比特推理精度”