词表 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

多语言词表的扩充策略：在不破坏原有模型能力的前提下利用词嵌入对齐新增语言

多语言词表扩充策略：词嵌入对齐与模型能力保持各位同学，大家好。今天我们来探讨一个重要的自然语言处理问题：如何在不显著影响原有模型性能的前提下，利用词嵌入对齐技术来扩展多语言模型的词汇表，从而使其支持新的语言。一、背景与挑战随着全球化的深入，多语言自然语言处理的需求日益增长。构建能够处理多种语言的统一模型，可以显著提高资源利用率，并促进跨语言知识迁移。然而，多语言模型的构建面临诸多挑战，其中一个关键挑战就是词汇表的管理与扩展。词汇表大小限制：模型的词汇表大小通常受到硬件资源和计算复杂度的限制。为每种语言都维护一个独立的词汇表会导致模型参数量急剧增加，难以训练和部署。新语言引入：当需要支持一种新的语言时，简单地将新语言的词汇添加到现有词汇表中可能会破坏原有模型的知识表示，导致原有语言的性能下降。词义对齐：不同语言的词汇之间存在语义上的对应关系，如何有效地利用这些对应关系，将新语言的词嵌入与现有词嵌入空间对齐，是提高模型跨语言泛化能力的关键。二、词嵌入对齐的基本原理词嵌入对齐的核心思想是将不同语言的词嵌入映射到同一个共享的向量空间中，使得语义相似的词汇在向量空间中的距离 …

继续阅读“多语言词表的扩充策略：在不破坏原有模型能力的前提下利用词嵌入对齐新增语言”

2025年11月23日

Tokenizer的Merge Rules优化：如何平衡词表大小与压缩率以提升特定语言的编码效率

Tokenizer的Merge Rules优化：平衡词表大小与压缩率以提升特定语言的编码效率大家好！今天我们来探讨一个在自然语言处理领域至关重要的话题：Tokenizer的Merge Rules优化，特别是如何在平衡词表大小与压缩率之间找到最佳方案，以提升特定语言的编码效率。Tokenizer是NLP流水线的第一步，它将原始文本分解成一个个token，这些token随后会被转换成数字ID，作为模型输入。一个好的Tokenizer能够显著提升模型的性能和效率，而Merge Rules则是决定Tokenizer性能的关键因素之一。 1. Tokenization 的基本概念与挑战在深入讨论Merge Rules优化之前，我们先回顾一下Tokenization的基本概念和面临的挑战。Tokenization是将文本分割成更小单元（tokens）的过程。这些tokens可以是单词、子词（subwords）或者字符。常见的Tokenization方法包括： Word-based Tokenization: 基于单词的Tokenization，简单直接，但容易产生巨大的词表，尤其是在形态丰富的 …

继续阅读“Tokenizer的Merge Rules优化：如何平衡词表大小与压缩率以提升特定语言的编码效率”

2025年11月23日

词表扩充（Vocabulary Expansion）：在现有LLM中插入新语言Token并对齐嵌入空间的策略

词表扩充（Vocabulary Expansion）：在现有LLM中插入新语言Token并对齐嵌入空间的策略大家好，今天我们来深入探讨一个在大型语言模型（LLM）领域非常关键且具有挑战性的课题：词表扩充（Vocabulary Expansion），以及如何在扩充词表的同时，有效地对齐新加入的Token与现有Token的嵌入空间。为什么需要词表扩充？ LLM的性能很大程度上依赖于其词表（Vocabulary），也就是模型能够理解和生成的Token集合。一个好的词表应该具备以下特点：覆盖率广：能够覆盖尽可能多的语言现象，减少未知词（Unknown Words, UNK）的出现。粒度合适： Token的长度应该适中，既能捕捉语义信息，又能避免词表过大。编码效率高：能用较少的Token表示相同的文本，提高模型效率。然而，现有的LLM的词表通常是基于特定数据集训练得到的，可能存在以下局限性：缺乏特定领域的词汇：例如，一个通用LLM可能缺乏医学、法律或金融领域的专业术语。缺乏低资源语言的词汇：很多LLM主要面向英语等高资源语言，对其他语言的支持不足。无法处理新兴词汇：语 …

继续阅读“词表扩充（Vocabulary Expansion）：在现有LLM中插入新语言Token并对齐嵌入空间的策略”

2025年11月22日

Logit Lens技术：直接将中间层Hidden State投影到词表以透视推理过程

Logit Lens：窥视语言模型的推理黑盒大家好，今天我们来探讨一个令人着迷的技术——Logit Lens。这个技术提供了一种直接而简洁的方式，去理解大型语言模型（LLM）内部的推理过程，它允许我们“透视”模型中间层的隐藏状态，并将其直接映射到词汇表，从而揭示模型在不同阶段对下一个词的预测。长期以来，大型语言模型都被视为一个黑盒子。我们输入文本，模型输出结果，但我们很难理解模型内部发生了什么，为什么会做出这样的预测。Logit Lens的出现，为我们打开了一扇窗，让我们能够窥视模型内部的决策过程。 1. Logit Lens的核心思想 Logit Lens的核心思想非常简单：将Transformer模型中间层的隐藏状态（Hidden State）直接投影到词汇表空间，得到一个与词汇表大小相同的logits向量，然后分析这个logits向量，就可以了解模型在当前层对下一个词的预测倾向。传统的理解模型的方式，通常是基于梯度分析、注意力机制可视化等方法。这些方法虽然有用，但通常比较间接，而且难以解释。Logit Lens则提供了一种更加直接和可解释的方法。让我们用公式来表达这个过程 …

继续阅读“Logit Lens技术：直接将中间层Hidden State投影到词表以透视推理过程”