好的,现在我们开始。 Tokenizer的Glitch Token现象:导致模型输出崩溃的异常聚类中心与嵌入空间分析 大家好,今天我们来深入探讨一个在自然语言处理(NLP)中经常被忽视,但却可能导致模型输出崩溃的现象:Tokenizer的Glitch Token。这个现象指的是,在tokenizer构建词汇表的过程中,由于各种原因,产生了一些异常的token,这些token在嵌入空间中表现出异常的聚类中心,从而在模型推理阶段引发意想不到的问题。 1. Glitch Token的定义与产生原因 Glitch Token并非一个正式的学术术语,而是我们为了方便讨论而提出的一个概念。它指的是那些由于以下原因产生的,在语义上缺乏意义,或者与其他token存在异常关联的token: 脏数据: 训练tokenizer的数据集中包含大量噪声、特殊字符、乱码等。例如,网页抓取的数据可能包含HTML标签、JavaScript代码等。 罕见字符组合: 数据集中存在一些罕见的字符组合,tokenizer将其错误地识别为一个token。例如,连续的标点符号、特殊符号等。 Tokenizer的算法缺陷: 某些t …