JS `Code-to-AST Parser` (`Acorn`, `Esprima`) 自定义 AST 解析器 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位靓仔靓女，晚上好！我是你们的老朋友，BUG终结者。今天咱们来聊聊一个听起来高大上，实际上也挺高大上的话题：JS Code-to-AST Parser，也就是JavaScript代码到抽象语法树的解析器，重点是，如何自定义一个。

准备好了吗？坐稳扶好，发车了！

一、啥是AST？为啥要搞它？

首先，我们要搞清楚AST是啥玩意。想象一下，你写了一段JavaScript代码，电脑是怎么理解它的？难道它真的能像人一样“读懂”你的意图？

当然不是！电脑理解代码的方式，就是把它转换成一种结构化的数据表示形式，这种形式就是抽象语法树（Abstract Syntax Tree，简称AST）。

AST就像一棵树，树的每个节点代表代码中的一个语法结构，比如变量声明、函数调用、循环语句等等。通过这棵树，电脑就能清晰地知道代码的结构和含义。

举个简单的例子：

const x = 1 + 2;

这段代码对应的AST大概长这样（简化版）：

{
  "type": "VariableDeclaration",
  "declarations": [
    {
      "type": "VariableDeclarator",
      "id": {
        "type": "Identifier",
        "name": "x"
      },
      "init": {
        "type": "BinaryExpression",
        "operator": "+",
        "left": {
          "type": "Literal",
          "value": 1
        },
        "right": {
          "type": "Literal",
          "value": 2
        }
      }
    }
  ],
  "kind": "const"
}

看不懂？没关系，慢慢来。简单来说，VariableDeclaration表示变量声明，VariableDeclarator表示变量声明符（就是x = 1 + 2这一部分），Identifier表示变量名，BinaryExpression表示二元表达式（就是1 + 2），Literal表示字面量（就是1和2）。

那为啥要搞AST呢？

AST应用非常广泛，比如：

代码分析： 静态代码分析工具（如ESLint）会利用AST来检查代码风格、潜在错误等。
代码转换： Babel等工具会利用AST将ES6+代码转换为ES5代码，实现代码的兼容性。
代码压缩： UglifyJS等工具会利用AST来删除不必要的空格、注释，甚至修改代码结构，从而减小代码体积。
代码编辑器： 代码编辑器会利用AST来实现代码高亮、自动补全、代码折叠等功能。
静态类型检查： TypeScript等工具会利用AST来实现静态类型检查，提前发现代码中的类型错误。

总之，AST是理解和操作JavaScript代码的基石。

二、现有Parser：Acorn和Esprima

JavaScript社区已经有很多成熟的AST解析器，其中最流行的就是Acorn和Esprima。

Acorn： 体积小、速度快、可扩展性强，是很多工具的首选。
Esprima： 历史悠久、功能完整、兼容性好，但体积相对较大。

它们都提供了一个parse方法，可以将JavaScript代码转换为AST。

const acorn = require("acorn");

const code = "const x = 1 + 2;";

const ast = acorn.parse(code, { ecmaVersion: 2020 });

console.log(JSON.stringify(ast, null, 2));

这段代码会输出上面我们看到的AST结构。

三、自定义AST Parser：从零开始

既然已经有这么多好用的Parser，为啥还要自定义呢？

学习： 自定义Parser可以帮助我们深入理解JavaScript语法和AST的原理。
定制： 我们可以根据自己的需求定制Parser，例如支持特定的语法扩展、生成特定的AST结构等。
性能： 在某些特定场景下，自定义Parser可能比通用Parser更高效。

3.1 词法分析 (Lexical Analysis)

首先，我们要进行词法分析，也就是将源代码分解成一个个的token（词法单元）。Token是代码中最小的语义单元，比如关键字、标识符、运算符、字面量等等。

例如，对于代码const x = 1 + 2;，词法分析的结果可能是：

[
  { type: "keyword", value: "const" },
  { type: "identifier", value: "x" },
  { type: "operator", value: "=" },
  { type: "number", value: "1" },
  { type: "operator", value: "+" },
  { type: "number", value: "2" },
  { type: "punctuator", value: ";" }
]

我们可以用一个简单的状态机来实现词法分析。

function tokenize(code) {
  const tokens = [];
  let cursor = 0;

  while (cursor < code.length) {
    const char = code[cursor];

    if (/[a-zA-Z]/.test(char)) {
      // 标识符
      let value = "";
      while (/[a-zA-Z0-9]/.test(code[cursor])) {
        value += code[cursor];
        cursor++;
      }
      tokens.push({ type: "identifier", value });
    } else if (/[0-9]/.test(char)) {
      // 数字
      let value = "";
      while (/[0-9]/.test(code[cursor])) {
        value += code[cursor];
        cursor++;
      }
      tokens.push({ type: "number", value });
    } else if (/[+-*/=]/.test(char)) {
      // 运算符
      tokens.push({ type: "operator", value: char });
      cursor++;
    } else if (/[;]/.test(char)) {
      // 分隔符
      tokens.push({ type: "punctuator", value: char });
      cursor++;
    } else if (/s/.test(char)) {
      // 空格
      cursor++;
    } else {
      throw new Error(`Unexpected character: ${char}`);
    }
  }

  return tokens;
}

const code = "const x = 1 + 2;";
const tokens = tokenize(code);
console.log(tokens);

这段代码只是一个非常简单的例子，只能处理标识符、数字、运算符和分隔符。实际的JavaScript词法分析要复杂得多，需要处理关键字、字符串、注释、正则表达式等等。

3.2 语法分析 (Syntactic Analysis)

接下来，我们要进行语法分析，也就是将token流转换成AST。语法分析器会根据JavaScript的语法规则，将token组织成一棵树。

语法分析有很多种方法，最常用的就是递归下降分析（Recursive Descent Parsing）。递归下降分析是一种自顶向下的分析方法，它为每个语法规则定义一个函数，函数会递归地调用其他函数来解析子规则。

例如，我们可以定义一个函数来解析变量声明：

function parseVariableDeclaration(tokens, cursor) {
  if (tokens[cursor].type === "keyword" && tokens[cursor].value === "const") {
    cursor++;
    const id = parseIdentifier(tokens, cursor);
    cursor = id.cursor;
    if (tokens[cursor].type === "operator" && tokens[cursor].value === "=") {
      cursor++;
      const init = parseExpression(tokens, cursor);
      cursor = init.cursor;
      return {
        type: "VariableDeclaration",
        declarations: [
          {
            type: "VariableDeclarator",
            id: id.node,
            init: init.node,
          },
        ],
        kind: "const",
        cursor: cursor,
      };
    } else {
      throw new Error("Expected '=' after identifier");
    }
  } else {
    throw new Error("Expected 'const'");
  }
}

这个函数会检查当前token是否是const关键字，如果是，就继续解析标识符和初始化表达式，然后构建一个VariableDeclaration节点。

类似地，我们可以定义函数来解析标识符、表达式、语句等等。

function parseIdentifier(tokens, cursor) {
    if(tokens[cursor].type === "identifier") {
        return {
            node: {
                type: "Identifier",
                name: tokens[cursor].value
            },
            cursor: cursor + 1
        }
    } else {
        throw new Error("Expected identifier");
    }
}

function parseExpression(tokens, cursor) {
    // 简化版，只处理数字字面量
    if (tokens[cursor].type === "number") {
        return {
            node: {
                type: "Literal",
                value: parseInt(tokens[cursor].value, 10)
            },
            cursor: cursor + 1
        }
    } else {
        throw new Error("Expected expression");
    }
}

最后，我们可以定义一个parse函数，它会从token流的开头开始，递归地调用各个解析函数，构建完整的AST。

function parse(tokens) {
  let cursor = 0;
  const body = [];

  while (cursor < tokens.length) {
    const statement = parseVariableDeclaration(tokens, cursor);
    body.push(statement);
    cursor = statement.cursor;
  }

  return {
    type: "Program",
    body: body,
  };
}

const ast = parse(tokens);
console.log(JSON.stringify(ast, null, 2));

3.3 完整示例 (极其简化版)

下面是一个完整的（极其简化版）的自定义AST Parser的示例：

// 词法分析器
function tokenize(code) {
  const tokens = [];
  let cursor = 0;

  while (cursor < code.length) {
    const char = code[cursor];

    if (/[a-zA-Z]/.test(char)) {
      // 标识符
      let value = "";
      while (/[a-zA-Z0-9]/.test(code[cursor])) {
        value += code[cursor];
        cursor++;
      }
      tokens.push({ type: "identifier", value });
    } else if (/[0-9]/.test(char)) {
      // 数字
      let value = "";
      while (/[0-9]/.test(code[cursor])) {
        value += code[cursor];
        cursor++;
      }
      tokens.push({ type: "number", value });
    } else if (/[+-*/=]/.test(char)) {
      // 运算符
      tokens.push({ type: "operator", value: char });
      cursor++;
    } else if (/[;]/.test(char)) {
      // 分隔符
      tokens.push({ type: "punctuator", value: char });
      cursor++;
    } else if (/s/.test(char)) {
      // 空格
      cursor++;
    } else {
      throw new Error(`Unexpected character: ${char}`);
    }
  }

  return tokens;
}

// 语法分析器
function parseIdentifier(tokens, cursor) {
    if(tokens[cursor].type === "identifier") {
        return {
            node: {
                type: "Identifier",
                name: tokens[cursor].value
            },
            cursor: cursor + 1
        }
    } else {
        throw new Error("Expected identifier");
    }
}

function parseExpression(tokens, cursor) {
    // 简化版，只处理数字字面量
    if (tokens[cursor].type === "number") {
        return {
            node: {
                type: "Literal",
                value: parseInt(tokens[cursor].value, 10)
            },
            cursor: cursor + 1
        }
    } else {
        throw new Error("Expected expression");
    }
}

function parseVariableDeclaration(tokens, cursor) {
  if (tokens[cursor].type === "keyword" && tokens[cursor].value === "const") {
    cursor++;
    const id = parseIdentifier(tokens, cursor);
    cursor = id.cursor;
    if (tokens[cursor].type === "operator" && tokens[cursor].value === "=") {
      cursor++;
      const init = parseExpression(tokens, cursor);
      cursor = init.cursor;
      return {
        type: "VariableDeclaration",
        declarations: [
          {
            type: "VariableDeclarator",
            id: id.node,
            init: init.node,
          },
        ],
        kind: "const",
        cursor: cursor,
      };
    } else {
      throw new Error("Expected '=' after identifier");
    }
  } else {
    throw new Error("Expected 'const'");
  }
}

function parse(tokens) {
  let cursor = 0;
  const body = [];

  while (cursor < tokens.length) {
    const statement = parseVariableDeclaration(tokens, cursor);
    body.push(statement);
    cursor = statement.cursor;
  }

  return {
    type: "Program",
    body: body,
  };
}

const code = "const x = 1;";
const tokens = tokenize(code);
const ast = parse(tokens);
console.log(JSON.stringify(ast, null, 2));

3.4 进阶方向

这个例子非常简单，只能处理const x = 1;这种形式的代码。要实现一个完整的JavaScript Parser，还需要做很多工作：

支持更多的语法规则： 例如let、var、function、if、for等等。
处理运算符优先级： 例如1 + 2 * 3应该先算乘法。
处理错误： 当代码不符合语法规则时，应该给出友好的错误提示。
优化性能： 提高Parser的速度和效率。
支持ES6+新特性： 例如箭头函数、类、模块等等。

四、总结

自定义AST Parser是一个复杂的任务，需要深入理解JavaScript语法和编译原理。但是，通过自定义Parser，我们可以更好地理解代码的本质，并根据自己的需求定制工具。

希望今天的讲座对大家有所帮助。记住，BUG不可怕，可怕的是不敢面对BUG！

下次再见！

发表回复 取消回复

发表回复取消回复