探讨 JavaScript 中的 Intl.Segmenter API 如何实现字符串的语言感知分段 (例如按字、句、段落)。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位靓仔靓女们，早上好/下午好/晚上好！欢迎来到今天的“JavaScript 黑魔法之 Intl.Segmenter 炼成术”讲座。今天咱们不搞玄学，只撸干货，目标是彻底搞懂 Intl.Segmenter 这个听起来高大上，用起来却非常友好的 API。

引子：字符串分段的痛点

在处理文本时，我们经常需要将字符串分割成更小的单元，比如单词、句子、段落。这听起来很简单，但实际上却暗藏杀机。比如，用 string.split(' ') 来分割英文句子看起来很完美，但遇到中文、日文、泰文等没有明显空格分隔的语言就直接 GG 了。更别说，即使是英文，也要处理标点符号、连字符、缩写等等细节。

所以，我们需要一个真正理解语言规则的工具，而不是简单粗暴的字符串分割。这时，Intl.Segmenter 就闪亮登场了。

主角登场：Intl.Segmenter 是个啥？

Intl.Segmenter API 是 ECMAScript 国际化 API (Intl) 的一部分，专门用于实现语言感知的字符串分段。简单来说，它可以根据指定的语言和分割类型，将字符串分割成更有意义的片段，例如：

grapheme: 用户可感知字符。比如 "👨‍👩‍👧‍👦" 这是一个家庭的表情符号，它其实是由多个 Unicode 码点组成的，但用户感知为一个整体。
word: 单词。例如 "Hello world!" 可以分割成 "Hello" 和 "world"。
sentence: 句子。例如 "This is a sentence. This is another sentence." 可以分割成两个句子。

Intl.Segmenter 的核心价值在于它充分考虑了各种语言的特性，从而提供更准确、更可靠的分段结果。

语法剖析：如何召唤 Intl.Segmenter

首先，我们需要创建一个 Intl.Segmenter 实例：

const segmenter = new Intl.Segmenter(locale, options);

locale: (可选) 指定语言环境，比如 ‘en’, ‘zh-CN’, ‘ja’ 等。如果不指定，则使用默认的语言环境。
options: (可选) 一个对象，用于配置分段的类型。

options 对象可以包含以下属性：

granularity: 指定分割的粒度。可选值有： "grapheme", "word", "sentence"。默认值是 "grapheme"。

举个例子：

// 创建一个英文单词分割器
const wordSegmenter = new Intl.Segmenter('en', { granularity: 'word' });

// 创建一个中文句子分割器
const chineseSentenceSegmenter = new Intl.Segmenter('zh-CN', { granularity: 'sentence' });

// 创建一个默认的 grapheme 分割器
const defaultSegmenter = new Intl.Segmenter();

创建好 Segmenter 之后，就可以使用 segment() 方法来分割字符串了：

const segments = wordSegmenter.segment('Hello world!');

segment() 方法返回一个 Segments 对象，它是一个可迭代对象，包含了分割后的片段信息。

实战演练：各种姿势玩转 Intl.Segmenter

接下来，咱们通过几个实际的例子来深入了解 Intl.Segmenter 的用法。

1. Grapheme 分段：处理复杂的 Unicode 字符

先来一个稍微复杂点的例子，处理 Unicode 组合字符和表情符号：

const text = '👨‍👩‍👧‍👦 Hello, こんにちは!'; // 包含家庭表情符号，英文和日文
const segmenter = new Intl.Segmenter(); // 默认是 grapheme 分段

const segments = segmenter.segment(text);

for (const segment of segments) {
  console.log(segment.segment, segment.index, segment.input);
}

这段代码会输出：

👨‍👩‍👧‍👦 0 👨‍👩‍👧‍👦 Hello, こんにちは!
  4 👨‍👩‍👧‍👦 Hello, こんにちは!
H 5 👨‍👩‍👧‍👦 Hello, こんにちは!
e 6 👨‍👩‍👧‍👦 Hello, こんにちは!
l 7 👨‍👩‍👧‍👦 Hello, こんにちは!
l 8 👨‍👩‍👧‍👦 Hello, こんにちは!
o 9 👨‍👩‍👧‍👦 Hello, こんにちは!
, 10 👨‍👩‍👧‍👦 Hello, こんにちは!
  11 👨‍👩‍👧‍👦 Hello, こんにちは!
こ 12 👨‍👩‍👧‍👦 Hello, こんにちは!
ん 13 👨‍👩‍👧‍👦 Hello, こんにちは!
に 14 👨‍👩‍👧‍👦 Hello, こんにちは!
ち 15 👨‍👩‍👧‍👦 Hello, こんにちは!
は 16 👨‍👩‍👧‍👦 Hello, こんにちは!
! 17 👨‍👩‍👧‍👦 Hello, こんにちは!

可以看到，即使是复杂的家庭表情符号，Intl.Segmenter 也能正确地识别为一个 grapheme。

2. Word 分段：英文单词分割

const text = "Hello world! This is a test.";
const segmenter = new Intl.Segmenter('en', { granularity: 'word' });

const segments = segmenter.segment(text);

for (const segment of segments) {
  console.log(segment.segment, segment.index, segment.input, segment.isWordLike);
}

这段代码会输出：

Hello 0 Hello world! This is a test. true
  5 Hello world! This is a test. false
world 6 Hello world! This is a test. true
! 11 Hello world! This is a test. false
  12 Hello world! This is a test. false
This 13 Hello world! This is a test. true
  17 Hello world! This is a test. false
is 18 Hello world! This is a test. true
  20 Hello world! This is a test. false
a 21 Hello world! This is a test. true
  22 Hello world! This is a test. false
test 23 Hello world! This is a test. true
. 27 Hello world! This is a test. false

注意 segment.isWordLike 属性，它表示当前片段是否像一个单词。空格、标点符号等会被标记为 false。

3. Sentence 分段：英文句子分割

const text = "This is a sentence. This is another sentence. And a third one!";
const segmenter = new Intl.Segmenter('en', { granularity: 'sentence' });

const segments = segmenter.segment(text);

for (const segment of segments) {
  console.log(segment.segment);
}

这段代码会输出：

This is a sentence.
 This is another sentence.
 And a third one!

可以看到，Intl.Segmenter 能够根据句号正确地分割句子。

4. 中文分词：解决中文分词难题

const text = "今天天气真好，我们一起去玩吧！";
const segmenter = new Intl.Segmenter('zh-CN', { granularity: 'word' });

const segments = segmenter.segment(text);

for (const segment of segments) {
  console.log(segment.segment);
}

这段代码会输出：

今天
天气
真
好
，
我们
一起
去
玩
吧
！

可以看到，Intl.Segmenter 能够比较好地将中文句子分割成词语。虽然不完美，但相比于自己手写分词算法，已经好太多了。

5. 日文分词：处理日文的复杂性

const text = "今日はいい天気ですね。一緒に遊びに行きましょう！";
const segmenter = new Intl.Segmenter('ja', { granularity: 'word' });

const segments = segmenter.segment(text);

for (const segment of segments) {
  console.log(segment.segment);
}

这段代码会输出：

今日
は
いい
天気
です
ね
。
一緒
に
遊び
に
行き
ましょう
！

同样，Intl.Segmenter 也能处理日文的分词。

6. 泰文分词：挑战无空格语言

const text = "สวัสดีค่ะวันนี้อากาศดีมาก";
const segmenter = new Intl.Segmenter('th', { granularity: 'word' });

const segments = segmenter.segment(text);

for (const segment of segments) {
  console.log(segment.segment);
}

输出结果：

สวัสดี
ค่ะ
วัน
นี้
อากาศ
ดี
มาก

Intl.Segmenter 可以正确处理泰文分词，这对于没有空格分隔的语言来说非常重要。

高级用法：自定义分割逻辑 (BreakIterator)

虽然 Intl.Segmenter 已经很强大了，但有时候我们可能需要更精细的控制。这时，可以考虑使用 BreakIterator (Intl.v8BreakIterator) 来定制分割逻辑。

注意：Intl.v8BreakIterator 不是标准 API，而是 V8 引擎提供的扩展，在不同的 JavaScript 引擎中可能不可用。因此，使用时需要进行特性检测。

if ('v8BreakIterator' in Intl) {
  const text = "This is a sentence.  And another one!";
  const iterator = new Intl.v8BreakIterator('en', { type: 'sentence' });
  iterator.adoptText(text);
  let start = iterator.first();
  let next = iterator.next();
  while (next !== -1) {
    const segment = text.substring(start, next);
    console.log(segment);
    start = next;
    next = iterator.next();
  }
} else {
  console.log("Intl.v8BreakIterator is not supported in this environment.");
}

这段代码使用 Intl.v8BreakIterator 来分割英文句子，效果与 Intl.Segmenter 类似。 BreakIterator 提供了更底层的控制，可以根据需要自定义分割规则。

性能考量：Intl.Segmenter 真的快吗？

Intl.Segmenter 的性能取决于多种因素，包括：

语言环境: 不同的语言环境可能需要不同的分词算法，性能也会有所差异。
字符串长度: 处理长字符串肯定比短字符串更耗时。
JavaScript 引擎: 不同的 JavaScript 引擎对 Intl API 的实现可能有所不同。

一般来说，Intl.Segmenter 的性能是可以接受的，但如果需要处理大量的文本数据，建议进行性能测试，并根据实际情况进行优化。例如，可以考虑缓存 Segmenter 实例，避免重复创建。

兼容性：谁能用，谁不能用？

Intl.Segmenter 的兼容性还是不错的。主流浏览器（Chrome, Firefox, Safari, Edge）都支持这个 API。但是，一些旧版本的浏览器可能不支持。

建议在使用 Intl.Segmenter 之前，进行特性检测：

if ('Intl' in window && 'Segmenter' in Intl) {
  // Intl.Segmenter is supported
  const segmenter = new Intl.Segmenter('en', { granularity: 'word' });
  // ...
} else {
  // Intl.Segmenter is not supported
  console.log('Intl.Segmenter is not supported in this browser.');
  // Provide a fallback implementation
}

如果浏览器不支持 Intl.Segmenter，可以考虑使用 polyfill 或 fallback 实现。

总结：Intl.Segmenter 的优势与局限

特性	优势	局限
语言感知	能够根据语言规则进行分段，避免了简单字符串分割的局限性	对一些非常特殊的语言或领域，可能需要自定义分割逻辑
Unicode 支持	能够正确处理 Unicode 组合字符和表情符号
易用性	API 简单易用，上手快
兼容性	主流浏览器支持	旧版本浏览器可能不支持，需要进行特性检测和提供 fallback
性能	性能通常可以接受，但处理大量文本数据时需要进行性能测试和优化

最佳实践：如何优雅地使用 Intl.Segmenter

进行特性检测: 在使用 Intl.Segmenter 之前，务必进行特性检测，以确保浏览器支持。
选择合适的粒度: 根据实际需求选择合适的分割粒度 (grapheme, word, sentence)。
缓存 Segmenter 实例: 避免重复创建 Segmenter 实例，以提高性能。
处理不支持的语言: 如果需要支持 Intl.Segmenter 不支持的语言，可以考虑使用第三方库或自定义分割逻辑。
关注性能: 在处理大量文本数据时，关注性能，并进行必要的优化。

彩蛋：Intl.Segmenter 的未来

Intl.Segmenter 还在不断发展中。未来可能会增加更多的分割类型，支持更多的语言，并提供更强大的自定义能力。让我们拭目以待！

结束语：掌握黑魔法，成为文本处理大师

今天的“JavaScript 黑魔法之 Intl.Segmenter 炼成术”讲座就到这里了。希望通过今天的学习，大家能够掌握 Intl.Segmenter 这个强大的 API，在文本处理的道路上越走越远，成为真正的文本处理大师！感谢大家的聆听！下课！

发表回复 取消回复

发表回复取消回复