压缩率 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

Tokenizer的Merge Rules优化：如何平衡词表大小与压缩率以提升特定语言的编码效率

Tokenizer的Merge Rules优化：平衡词表大小与压缩率以提升特定语言的编码效率大家好！今天我们来探讨一个在自然语言处理领域至关重要的话题：Tokenizer的Merge Rules优化，特别是如何在平衡词表大小与压缩率之间找到最佳方案，以提升特定语言的编码效率。Tokenizer是NLP流水线的第一步，它将原始文本分解成一个个token，这些token随后会被转换成数字ID，作为模型输入。一个好的Tokenizer能够显著提升模型的性能和效率，而Merge Rules则是决定Tokenizer性能的关键因素之一。 1. Tokenization 的基本概念与挑战在深入讨论Merge Rules优化之前，我们先回顾一下Tokenization的基本概念和面临的挑战。Tokenization是将文本分割成更小单元（tokens）的过程。这些tokens可以是单词、子词（subwords）或者字符。常见的Tokenization方法包括： Word-based Tokenization: 基于单词的Tokenization，简单直接，但容易产生巨大的词表，尤其是在形态丰富的 …

继续阅读“Tokenizer的Merge Rules优化：如何平衡词表大小与压缩率以提升特定语言的编码效率”

2025年11月23日

BPE与Unigram分词算法对比：Tiktoken在处理代码缩进与空白字符时的压缩率分析

Tiktoken代码分词压缩率深度分析：BPE vs. Unigram，缩进与空白的特殊处理大家好！今天我们来深入探讨Tiktoken分词器在处理代码时的压缩效率，特别是针对代码缩进和空白字符的处理策略。我们将对比Byte Pair Encoding (BPE) 和 Unigram Language Model 两种分词算法，分析Tiktoken如何利用它们在代码场景下实现高效的压缩。 1. 分词算法概览：BPE与Unigram 在深入代码细节之前，我们先回顾一下BPE和Unigram两种分词算法的核心思想。 Byte Pair Encoding (BPE): BPE是一种自下而上的分词算法。它从字符级别开始，迭代地将出现频率最高的字节对（byte pairs）合并成新的token，直到达到预设的词汇表大小。优点: 简单易懂，易于实现，能够有效地处理未登录词（Out-of-Vocabulary, OOV）问题，因为它总是可以将任何输入分解成字符级别的token。缺点: 可能产生次优的token，因为它是贪婪地合并频率最高的字节对，而没有全局优化。此外，BPE的词汇表构建过程对训练 …

继续阅读“BPE与Unigram分词算法对比：Tiktoken在处理代码缩进与空白字符时的压缩率分析”

2025年11月23日

AQLM（Additive Quantization）：利用多码本加性量化实现极高压缩率（2bit）下的性能保持

AQLM：利用多码本加性量化实现极高压缩率（2bit）下的性能保持各位同学，大家好！今天我们来深入探讨一种前沿的量化技术——AQLM，也就是Additive Quantization with Multiple Codebooks，利用多码本加性量化来实现极高压缩率（通常是2bit甚至更低）下的性能保持。在深度学习模型部署中，模型体积一直是制约其在资源受限设备上应用的关键因素。量化作为一种有效的模型压缩方法，旨在降低模型权重所需的存储空间和计算复杂度，但传统的量化方法在极低比特下往往会带来显著的精度损失。AQLM通过巧妙地利用加性量化和多码本策略，有效地缓解了这个问题，使得模型能够在极低比特下依然保持可接受的性能。 1. 量化技术回顾与挑战首先，我们简单回顾一下量化的基本概念。量化本质上是将连续取值的浮点数转换为离散的整数，从而减少存储空间和计算量。常见的量化方法包括：线性量化 (Linear Quantization): 将浮点数线性映射到整数范围。是最简单也是最常用的量化方法。非线性量化 (Non-linear Quantization): 使用非线性函数映射浮点数到整数， …

继续阅读“AQLM（Additive Quantization）：利用多码本加性量化实现极高压缩率（2bit）下的性能保持”