JS `RegExp Set Notation` (提案)：更强大的正则表达式字符集操作 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位听众，早上好！今天咱们聊点刺激的，就是那个正则表达式里的“集合表示法”（RegExp Set Notation）提案。别怕，听名字唬人，其实就是让你的正则表达式的字符集操作变得更强大、更灵活，玩出更多花样。

一、什么是字符集，以及它现在的局限性

首先，我们来回顾一下什么是字符集。在正则表达式里，字符集（Character Set，也叫字符类）是用方括号 [] 包裹的一系列字符，它匹配方括号内的任意一个字符。比如：

[abc] 匹配 ‘a’、’b’ 或 ‘c’ 中的任意一个。
[0-9] 匹配 0 到 9 之间的任意一个数字。
[^abc] 匹配除了 ‘a’、’b’ 和 ‘c’ 之外的任意一个字符（取反）。

字符集是正则表达式里非常基础但又极其重要的组成部分。但是，目前的字符集操作比较简单，主要就是字符的罗列、范围的指定以及取反。如果你想表达更复杂的字符集关系，比如求并集、交集、差集、对称差等等，那就力不从心了。

例如，你想匹配所有字母和数字，但排除掉 ‘a’ 和 ‘b’，现有的正则表达式就有点难写，你可能需要这样：[0-9c-zC-Z]，这还只是排除两个字母。如果排除的字符更多，表达式会变得非常冗长和难以维护。

二、 RegExp Set Notation：让字符集操作起飞

RegExp Set Notation 提案就是为了解决这个问题而生的。它引入了一些新的操作符，让你可以对字符集进行更强大的操作，就像操作数学集合一样。这些操作符主要有：

并集 (Union): [set1 set2] (注意：set1和set2之间有一个空格)
- 匹配 set1 或 set2 中的任意一个字符。相当于数学上的集合并集。
交集 (Intersection): [set1&&set2]
- 匹配同时属于 set1 和 set2 的字符。相当于数学上的集合交集。
差集 (Subtraction): [set1--set2]
- 匹配属于 set1 但不属于 set2 的字符。相当于数学上的集合差集。
对称差 (Symmetric Difference): [set1~~set2]
- 匹配属于 set1 或 set2，但不同时属于两者的字符。相当于数学上的集合对称差。

这些操作符可以组合使用，构建出非常复杂的字符集。

三、操作符详解及代码示例

接下来，我们来详细看看每个操作符的用法，并结合代码示例来加深理解。

并集 (Union): [set1 set2]

并集操作符 [set1 set2] 将两个字符集合并起来。任何属于 set1 或 set2 的字符都会被匹配。

// 匹配字母或数字
const regex1 = /[a-z0-9]/; // 传统写法，比较简单的情况
const regex2 = /[a-z 0-9]/; // 使用并集，效果相同，但更清晰
console.log(regex2.test('a'));   // true
console.log(regex2.test('5'));   // true
console.log(regex2.test('$'));   // false

// 匹配大小写字母或数字
const regex3 = /[a-z A-Z 0-9]/;
console.log(regex3.test('a'));   // true
console.log(regex3.test('A'));   // true
console.log(regex3.test('5'));   // true
console.log(regex3.test('$'));   // false

// 并集可以包含多个集合
const regex4 = /[a-z A-Z 0-9 _]/; // 匹配字母、数字或下划线
console.log(regex4.test('_'));   // true

需要注意的是，在传统的字符集里，直接把字符或字符范围放在一起，也表示并集。因此，对于简单的并集操作，RegExp Set Notation 的优势并不明显。但是，当与其他操作符组合使用时，它的威力就显现出来了。

交集 (Intersection): [set1&&set2]

交集操作符 [set1&&set2] 匹配同时属于 set1 和 set2 的字符。只有两个集合共有的字符才会被匹配。

// 匹配既是字母又是 ASCII 字符的字符 (实际上就是所有字母)
const regex5 = /[a-zA-Z&&[:ascii:]]/;
console.log(regex5.test('a'));   // true
console.log(regex5.test('A'));   // true
console.log(regex5.test('5'));   // false
console.log(regex5.test('$'));   // false

// 匹配既是数字又是十六进制字符的字符 (实际上就是 0-9)
const regex6 = /[0-9&&[0-9a-fA-F]]/;
console.log(regex6.test('5'));   // true
console.log(regex6.test('a'));   // false
console.log(regex6.test('$'));   // false

交集操作在需要精确匹配特定类型的字符时非常有用。例如，你可以用它来匹配既是字母又是 Unicode 字符的字符，或者既是数字又是特殊符号的字符（虽然这种情况可能比较少见）。

差集 (Subtraction): [set1--set2]

差集操作符 [set1--set2] 匹配属于 set1 但不属于 set2 的字符。简单来说，就是从 set1 中排除掉 set2 中的字符。

// 匹配所有字母，但排除 'a' 和 'b'
const regex7 = /[a-zA-Z--[ab]]/;
console.log(regex7.test('c'));   // true
console.log(regex7.test('A'));   // true
console.log(regex7.test('a'));   // false
console.log(regex7.test('b'));   // false
console.log(regex7.test('5'));   // false

// 匹配所有数字，但排除 0 和 1
const regex8 = /[0-9--[01]]/;
console.log(regex8.test('2'));   // true
console.log(regex8.test('0'));   // false
console.log(regex8.test('1'));   // false
console.log(regex8.test('a'));   // false

// 匹配所有单词字符（w），但排除数字
const regex9 = /[\w--[0-9]]/; //注意这里w需要转义
console.log(regex9.test('a'));   // true
console.log(regex9.test('_'));   // true
console.log(regex9.test('5'));   // false
console.log(regex9.test('$'));   // false

//传统写法，如果排除的字符很多，会很长
const regex9_old = /[a-zA-Z_]/;

差集操作是 RegExp Set Notation 中最常用的操作之一。它可以让你轻松地排除掉不需要的字符，从而使正则表达式更加精确。

对称差 (Symmetric Difference): [set1~~set2]

对称差操作符 [set1~~set2] 匹配属于 set1 或 set2，但不同时属于两者的字符。也就是说，它匹配只属于 set1 的字符和只属于 set2 的字符，但不匹配同时属于两者的字符。

// 匹配字母或数字，但不同时是字母和数字 (这个例子可能不太实用，仅作演示)
const regex10 = /[a-z~~0-9]/;
console.log(regex10.test('a'));  // true
console.log(regex10.test('5'));  // true
// 如果 'a' 和 '5' 都属于某个更大的集合，那么同时包含 'a' 和 '5' 的字符串将不匹配
console.log(regex10.test('a5')); // false （假设 regex10 匹配整个字符串，否则会匹配 'a'）
console.log(regex10.test('$'));  // false

 //更清晰的例子。假设 set1 是 [abc]，set2 是 [bcd]。那么对称差就是 [ad]。
 //以下代码无法直接运行，因为JS目前还不支持对称差，这里只是演示
 //const regex11 = /[abc~~bcd]/;
 //console.log(regex11.test('a')); // true
 //console.log(regex11.test('d')); // true
 //console.log(regex11.test('b')); // false
 //console.log(regex11.test('c')); // false

对称差操作在某些特定的场景下可能会有用，但相对来说比较少见。它主要用于需要排除掉两个集合的交集的情况。

四、字符集的简写形式和预定义字符集

RegExp Set Notation 可以与字符集的简写形式和预定义字符集（例如 w、d、s 等）结合使用，进一步提高正则表达式的表达能力。

d：匹配数字 (等价于 [0-9])
w：匹配单词字符 (等价于 [a-zA-Z0-9_])
s：匹配空白字符 (包括空格、制表符、换行符等)
[:ascii:]: 匹配ASCII字符
[:unicode:]: 匹配Unicode字符
[:word:]: 匹配单词字符（效果与w类似，但可能包含更多Unicode字符）

例如：

// 匹配所有单词字符，但排除数字
const regex11 = /[\w--[0-9]]/; //注意这里w需要转义
console.log(regex11.test('a'));   // true
console.log(regex11.test('_'));   // true
console.log(regex11.test('5'));   // false

// 匹配所有空白字符，但排除空格
const regex12 = /[\s--[ ]] /; //注意这里s需要转义，空格也需要用[]包裹
console.log(regex12.test(' '));   // false
console.log(regex12.test('t'));  // true
console.log(regex12.test('n'));  // true

// 匹配所有ASCII字符，但排除字母
const regex13 = /[[[:ascii:]]--[a-zA-Z]]/;
console.log(regex13.test('5'));   // true
console.log(regex13.test('a'));   // false
console.log(regex13.test('$'));   // true

五、优先级和结合性

在使用多个操作符时，需要注意它们的优先级和结合性。

优先级 (从高到低):
1. 范围 [a-z]、字符类简写形式 d、预定义字符集 [:ascii:]
2. 交集 &&
3. 差集 --
4. 对称差 ~~
5. 并集 (隐式，直接连接两个集合)
结合性:
- 除了并集外，所有操作符都是左结合的。也就是说，[set1--set2--set3] 等价于 [[set1--set2]--set3]。
- 并集是无结合性的，[set1 set2 set3] 等价于 [set1 [set2 set3]]，也等价于 [[set1 set2] set3]。

为了避免混淆，建议在复杂的表达式中使用括号来明确指定优先级。例如，[[a-z]--[0-9]&&[b-f]] 可能会让人困惑，可以写成 [[a-z]--([0-9]&&[b-f])]，这样更清晰。

六、实际应用场景

RegExp Set Notation 在很多场景下都能派上用场。比如：

数据清洗： 从文本中提取特定类型的字符，排除掉不需要的字符。例如，提取所有非字母数字字符，用于清理用户输入。
验证： 验证用户输入是否符合特定的格式要求。例如，验证密码是否包含字母、数字和特殊符号，但排除掉某些不安全的符号。
代码高亮： 在代码编辑器中高亮显示不同类型的代码元素。例如，高亮显示所有关键字，但排除掉注释中的关键字。
自然语言处理： 在文本分析中，对文本进行分词、词性标注等处理。例如，提取所有名词，但排除掉专有名词。
网络安全： 在网络安全领域，可以使用正则表达式来检测恶意代码和攻击模式。例如，检测包含特定字符序列的 URL，但排除掉合法的 URL。

七、兼容性

到目前为止（2024年），RegExp Set Notation 还没有被所有 JavaScript 引擎完全支持。但是，V8 引擎（Chrome 和 Node.js 使用的引擎）已经实现了该提案。你可以通过以下方式来检查你的 JavaScript 引擎是否支持 RegExp Set Notation：

try {
  const regex = /[a&&b]/; // 如果不支持，会抛出 SyntaxError
  console.log("RegExp Set Notation is supported!");
} catch (e) {
  console.log("RegExp Set Notation is NOT supported!");
}

如果你的引擎不支持 RegExp Set Notation，你可以使用一些 polyfill 库来模拟它的行为。但是，polyfill 的性能可能会比较差，因此建议在生产环境中使用支持 RegExp Set Notation 的引擎。

八、总结

RegExp Set Notation 是一个非常有用的正则表达式扩展，它可以让你对字符集进行更强大的操作，从而使正则表达式更加灵活和精确。虽然它还没有被所有 JavaScript 引擎完全支持，但随着时间的推移，相信它会成为正则表达式的标准组成部分。

掌握 RegExp Set Notation 可以让你在处理文本数据时更加得心应手，写出更简洁、更高效的正则表达式。

九、最后的提醒

正则表达式是一个强大的工具，但也是一个容易出错的工具。在使用正则表达式时，一定要仔细测试，确保它能够正确地匹配你想要匹配的文本。
正则表达式的性能可能会受到多种因素的影响，例如正则表达式的复杂度、输入文本的大小等等。在编写高性能的正则表达式时，需要考虑这些因素，并进行优化。
正则表达式的语法和语义可能会因不同的编程语言和工具而异。在使用正则表达式时，一定要查阅相关的文档，了解其具体的语法和语义。

好了，今天的讲座就到这里。感谢大家的聆听！希望大家能够喜欢这个强大的新特性，并在实际工作中灵活运用。

（鞠躬）

发表回复 取消回复

发表回复取消回复