JS `Code Generation` `AST` 到 `Bytecode` / `Machine Code` 的过程 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位老铁，大家好！今天咱们来聊聊JavaScript代码从“高大上”的AST到“接地气”的Bytecode/Machine Code的奇妙旅程。准备好迎接一大波代码了吗？Let’s go!

开场白：代码的变形记

想象一下，你写了一段JavaScript代码，比如：

function add(a, b) {
  return a + b;
}

let result = add(5, 3);
console.log(result);

这段代码对你来说一目了然，但计算机可不这么认为。它需要把这段代码翻译成它能理解的语言，也就是机器码。但直接翻译难度太大，所以通常会先翻译成一种中间形式，也就是字节码 (Bytecode)。这个过程就像是把一种语言翻译成另一种语言，需要经过一系列的步骤，包括词法分析、语法分析、语义分析、代码优化和代码生成。

第一站：AST – 代码的骨架

首先，JavaScript引擎（比如V8、SpiderMonkey）会把你的代码分解成一个个的token，比如function、add、(, a, ,, b, )等等。这个过程叫做词法分析 (Lexical Analysis)。

然后，这些token会被组合成一个抽象语法树 (Abstract Syntax Tree, AST)。AST就像是代码的骨架，它清晰地表达了代码的结构和语义。

上面的代码对应的AST大概长这样（简化版）：

Program
  |
  FunctionDeclaration (add)
  |   |
  |   Identifier (add)
  |   |
  |   Params (a, b)
  |   |
  |   BlockStatement
  |       |
  |       ReturnStatement
  |           |
  |           BinaryExpression (+)
  |               |
  |               Identifier (a)
  |               |
  |               Identifier (b)
  |
  VariableDeclaration (result)
  |
  VariableDeclarator (result)
  |   |
  |   Identifier (result)
  |   |
  |   CallExpression (add)
  |       |
  |       Identifier (add)
  |       |
  |       Arguments (5, 3)
  |
  ExpressionStatement
      |
      CallExpression (console.log)
          |
          MemberExpression (console.log)
          |   |
          |   Identifier (console)
          |   |
          |   Identifier (log)
          |
          Arguments (result)
              |
              Identifier (result)

是不是看着有点眼花？没关系，记住AST就是代码的结构化表示就行了。不同的JavaScript引擎对AST的实现可能略有不同，但核心思想是一样的。

第二站：从AST到Bytecode – 虚拟机指令

有了AST之后，JavaScript引擎就可以开始生成字节码了。字节码是一种中间代码，它比机器码更抽象，但比源代码更接近机器码。字节码通常由一系列的指令组成，这些指令会被虚拟机 (Virtual Machine, VM) 执行。

不同的JavaScript引擎使用的字节码格式也不同。这里我们用一个假设的字节码格式来演示一下。

对于上面的add函数，字节码可能长这样：

// Function: add
00: LoadArg a
01: LoadArg b
02: Add
03: Return

// Main
04: LoadConst 5
05: LoadConst 3
06: CallFunction add, 2  // 调用add函数，传递2个参数
07: StoreVar result
08: LoadGlobal console
09: GetProperty log
10: LoadVar result
11: CallMethod log, 1    // 调用log方法，传递1个参数
12: Return

解释一下：

LoadArg a: 把参数a加载到寄存器里。
LoadConst 5: 把常量5加载到寄存器里。
Add: 把两个寄存器里的值相加，结果放到一个寄存器里。
CallFunction add, 2: 调用add函数，传递2个参数。
StoreVar result: 把寄存器里的值存储到变量result里。
CallMethod log, 1: 调用log方法，传递1个参数。

这些指令会被JavaScript引擎的虚拟机执行。虚拟机就像是一个模拟CPU，它可以执行字节码指令。

不同的引擎，不同的策略

不同的JavaScript引擎，例如V8 (Chrome, Node.js), SpiderMonkey (Firefox), JavaScriptCore (Safari)，在生成字节码和执行字节码方面，策略各有千秋。

引擎	字节码名称	主要特点
V8	Ignition	V8的Ignition解释器负责执行字节码。V8还使用了一个叫做TurboFan的优化编译器，它可以把字节码编译成高度优化的机器码。V8的优化策略非常激进，它会根据代码的运行情况动态地进行优化。例如，如果一个函数被频繁调用，V8就会把它编译成机器码。
SpiderMonkey	WarpMonkey	SpiderMonkey的WarpMonkey编译器也可以把字节码编译成机器码。SpiderMonkey的优化策略相对保守，它会先对代码进行静态分析，然后再进行优化。SpiderMonkey还使用了分代垃圾回收机制，它可以有效地管理内存。
JavaScriptCore	FTL (Faster Than Light)	JavaScriptCore的FTL编译器也是一个优化编译器。JavaScriptCore的优化策略介于V8和SpiderMonkey之间。JavaScriptCore还使用了LLVM (Low Level Virtual Machine) 作为它的后端编译器，LLVM可以生成高质量的机器码。

第三站：JIT编译 – 速度的飞跃

仅仅靠虚拟机执行字节码，速度还是不够快。为了提高性能，现代JavaScript引擎通常会使用即时编译 (Just-In-Time Compilation, JIT)。JIT编译会在运行时把字节码编译成机器码，这样就可以直接在CPU上执行，从而大大提高性能。

JIT编译就像是一个“翻译加速器”，它可以把字节码“瞬间”翻译成机器码。

JIT编译器会分析代码的运行情况，找出可以优化的部分，然后生成高度优化的机器码。例如，如果一个函数被频繁调用，JIT编译器就会把它编译成机器码。

举个例子：JIT优化中的内联 (Inlining)

假设有以下代码：

function square(x) {
  return x * x;
}

function calculate(y) {
  return square(y + 1);
}

let result = calculate(5);
console.log(result);

如果没有JIT，calculate函数会调用square函数，这会产生函数调用的开销。但是，JIT编译器可以把square函数内联到calculate函数中，消除函数调用的开销。

内联后的代码相当于：

function calculate(y) {
  // return square(y + 1);  // 原来的代码
  let x = y + 1;          // 内联后的代码
  return x * x;            // 内联后的代码
}

let result = calculate(5);
console.log(result);

这样，calculate函数就不用再调用square函数了，性能自然就提高了。

第四站：Machine Code – CPU的语言

最后，JIT编译器会把优化后的字节码编译成机器码。机器码是CPU可以直接执行的指令，它是二进制的，例如：

10110000 00000101  // mov eax, 5
00000001 11000000  // add eax, eax
11000011            // ret

这段机器码的意思是：

把5加载到eax寄存器里。
把eax寄存器里的值和它自己相加，结果放到eax寄存器里。
返回。

机器码是CPU的“母语”，CPU可以直接执行机器码，从而完成各种计算任务。

总结：从AST到Machine Code的流程

用一张表格来总结一下整个流程：

阶段	描述	————-	——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————– 9.	0.
1. 词法分析	将源代码分解成Token序列。

发表回复 取消回复

发表回复取消回复