分词器 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

在构建基于检索增强生成 (RAG) 系统的过程中，我们常常关注检索模块的效率、生成模型的性能，以及如何设计高效的向量数据库。然而，一个看似基础却极易被忽视的环节——分词 (Tokenization)，却可能成为影响整个RAG系统性能的关键“陷阱”。不同的分词器，如OpenAI模型家族使用的Tiktoken和广泛应用于多语言场景的SentencePiece，其工作原理和分词结果的差异，将直接影响我们的文档分割边界，进而对RAG的检索准确性和生成质量产生深远影响。今天，我们将深入探讨这一陷阱，剖析不同分词器的工作机制，并通过代码实例展示它们如何导致RAG系统中的分割边界问题，并提出相应的缓解策略。第一章：分词的基石——为什么我们需要Tokenization？在深入探讨分词器的差异之前，我们首先要理解分词在自然语言处理（NLP）特别是大型语言模型（LLM）中的核心作用。 1.1 什么是分词？分词是将连续的文本序列切分成更小、有意义的单元（tokens）的过程。这些单元可以是单词、子词（subword）、字符或字节。LLM不能直接处理原始文本，它们需要将文本转换为模型能够理解的数值表示 …

继续阅读“解析 ‘Tokenization’ 陷阱：为什么不同的分词器（Tiktoken vs SentencePiece）会影响 RAG 的分割边界？”

视频分词器（Video Tokenizer）的重建质量：VQ-VAE在动态纹理与微小运动上的损失分析大家好，今天我们来深入探讨视频分词器，特别是基于 VQ-VAE（Vector Quantized Variational Autoencoder）的视频分词器，在处理动态纹理和微小运动时所面临的重建质量问题。我们将分析其损失函数，并探讨如何改进以提升性能。 1. 引言：视频分词器的重要性视频分词器是近年来视频理解领域的重要研究方向。它旨在将视频分解为一系列离散的、有意义的片段（tokens），从而实现对视频内容的高效压缩、表示和推理。类似于自然语言处理中的tokenization过程，视频分词器可以将视频转化为一种类似于“视频语言”的形式，使得我们可以使用类似于处理文本的方法来处理视频。这种方法在视频生成、视频编辑、视频检索等多个领域都有着广泛的应用前景。例如，我们可以利用视频分词器进行视频的摘要生成，通过提取关键的视频tokens来概括视频内容；也可以进行视频编辑，通过替换或修改特定的视频tokens来实现对视频内容的修改。 VQ-VAE 作为一种强大的生成模型，在图像和音频领域 …

继续阅读“视频分词器（Video Tokenizer）的重建质量：VQ-VAE在动态纹理与微小运动上的损失分析”