character - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

尊敬的各位同仁，欢迎来到今天的讲座。在人工智能，特别是大型语言模型（LLM）飞速发展的今天，我们正面临一个看似简单却又充满挑战的基础问题：如何有效地处理海量的文本数据，并将其以一种对AI模型友好的方式呈现。LLM的强大能力毋庸置疑，但它们并非没有局限。其中最显著的，便是“上下文窗口”的限制。这意味着模型一次能够处理的文本量是有限的。当我们需要向LLM提供一份长达数万甚至数十万字的文档，例如一份技术手册、一本小说、或者一份复杂的法律合同，我们不能简单地将整个文档一次性喂给模型。这就引出了一个核心需求：文本切割（Text Splitting），或者更常用的术语：文本分块（Chunking）。然而，文本分块绝非简单地“剪切”文本。今天，我们将深入探讨一个在LLM应用开发中至关重要的工具——RecursiveCharacterTextSplitter。我们将从最基础的问题出发：为什么简单的长度切割会破坏段落的语义完整性？接着，我们将详细解析RecursiveCharacterTextSplitter如何以其巧妙的设计，在满足长度限制的同时，最大程度地保留文本的语义连贯性。一、语义完整性 …

继续阅读“解析 ‘Recursive Character Text Splitter’：为什么简单的长度切割会破坏段落的语义完整性？”

各位观众老爷们，大家好！今天咱们聊聊MySQL里那些让人头疼，但又不得不面对的字符集和校对规则，也就是Character Set和Collation。别害怕，我会尽量用大白话，加上代码示例，把这俩玩意儿给您讲明白。一、字符集 (Character Set)：存啥玩意儿？简单来说，字符集就是MySQL用来存储字符的一套编码规则。您可以把它想象成一个翻译器，把我们看到的文字（比如汉字、英文、表情符号）转换成计算机能理解的二进制数字。 1. 常见的字符集： latin1 (也叫 iso-8859-1): 这是MySQL默认的字符集，历史悠久，但只能存储西欧字符，不支持中文。您要是用它来存中文，那画面太美我不敢看，全是乱码！ gbk: 支持简体中文和一些常用字符，但范围有限。 utf8: 曾经是MySQL里最常用的Unicode字符集，注意，我说的是曾经。它只能存储一部分Unicode字符，对于一些罕见字符（比如表情符号）就无能为力了。 utf8mb4: 这才是MySQL里真正完整支持Unicode的字符集！它能存储所有Unicode字符，包括表情符号、特殊符号等等。所以，现在推荐您用 …

继续阅读“MySQL高阶讲座之：`MySQL`的`Character Set`：`utf8`、`utf8mb4`与`Collation`的深层理解。”