JS `AST` (Abstract Syntax Tree) 混淆与反混淆技术 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位靓仔靓女，晚上好！我是今晚的AST混淆与反混淆技术讲座的讲师，人称“代码界的Tony老师”（因为我喜欢给代码换发型，而且收费还挺贵的，咳咳，开玩笑）。今天咱们就来聊聊这个听起来高大上，实际上也确实挺高大上的主题。

开场白：AST，代码的骨架

想象一下，如果代码是人，那么AST就是它的骨架。我们写的JavaScript代码，在浏览器或者Node.js环境里运行之前，都要经过一个解析的过程，把我们写的文本代码转换成一个树形结构，这个树形结构就叫做抽象语法树（Abstract Syntax Tree，简称AST）。

AST里包含了代码的各种信息：变量声明、函数定义、循环语句、表达式等等。有了这个骨架，JavaScript引擎才能理解我们的代码，并且执行它。

第一部分：AST 混淆技术大赏

既然AST是代码的骨架，那么混淆AST，就相当于给代码做了个全身整形手术，让它面目全非，难以辨认，从而保护我们的代码不被轻易破解。但是，这个手术必须得保证代码整容之后还能正常运行，不然就变成医疗事故了。

下面，我们来介绍几种常见的AST混淆技术：

变量名/函数名混淆

这是最基础，也是最常见的混淆方式。把有意义的变量名和函数名替换成无意义的短字符串，比如a, b, c，或者更复杂的_0xabc, _0x123。
- 原理： 降低代码的可读性，增加理解代码逻辑的难度。
- 示例代码：
```
// 原始代码
function calculateSum(a, b) {
  return a + b;
}

// 混淆后代码
function _0x123(a, b) {
  return a + b;
}
```
- 优点： 实现简单，效果明显。
- 缺点： 容易被反混淆，例如通过代码格式化工具可以一定程度上恢复可读性。

字符串加密

将代码中的字符串常量进行加密，在运行时再解密。

原理： 防止敏感信息直接暴露在代码中，增加破解者获取信息的难度。

示例代码：

// 原始代码
console.log("Hello, world!");

// 混淆后代码
var _0x456 = function(_0x789) {
  var _0xabc = "";
  for (var i = 0; i < _0x789.length; i++) {
    _0xabc += String.fromCharCode(_0x789.charCodeAt(i) ^ 123); // 简单的异或加密
  }
  return _0xabc;
};
console.log(_0x456("x1dx0bx0bx14x1fx00x17x08x02x14x04x01")); // "x1dx0bx0bx14x1fx00x17x08x02x14x04x01" 是 "Hello, world!" 加密后的结果

优点： 保护字符串常量。
缺点： 加密解密会增加代码的运行负担，加密算法如果过于简单容易被破解。

控制流平坦化

将代码的控制流（例如if/else，switch/case，循环）打乱，变成一个状态机。

原理： 隐藏代码的逻辑结构，增加代码理解的难度。

示例代码（简化版）：

// 原始代码
function processData(data) {
  if (data > 10) {
    console.log("Data is greater than 10");
  } else {
    console.log("Data is less than or equal to 10");
  }
}

// 混淆后代码
function processData(data) {
  var state = 0;
  while (true) {
    switch (state) {
      case 0:
        if (data > 10) {
          state = 1;
        } else {
          state = 2;
        }
        break;
      case 1:
        console.log("Data is greater than 10");
        state = 3;
        break;
      case 2:
        console.log("Data is less than or equal to 10");
        state = 3;
        break;
      case 3:
        return;
    }
  }
}

优点： 有效隐藏代码逻辑。
缺点： 增加代码的复杂性，降低代码的运行效率。

Dead Code Injection（死代码注入）

在代码中插入一些永远不会执行的代码，来迷惑破解者。
- 原理： 增加代码的干扰信息，让破解者难以区分有效代码和无效代码。
- 示例代码：
```
// 原始代码
function calculateArea(radius) {
  return Math.PI * radius * radius;
}

// 混淆后代码
function calculateArea(radius) {
  if (false) { // 永远不会执行
    console.log("This is dead code.");
  }
  return Math.PI * radius * radius;
}
```
- 优点： 实现简单，对代码运行影响小。
- 缺点： 容易被识别和去除。
Opaque Predicates（不透明谓词）

插入一些永远为真或永远为假的表达式，来控制代码的执行流程。
- 原理： 类似死代码注入，但更复杂，可以根据不同的条件插入不同的谓词。
- 示例代码：
```
// 原始代码
function processData(data) {
  if (data > 0) {
    console.log("Data is positive");
  }
}

// 混淆后代码
function processData(data) {
  var x = 1, y = 2;
  if (x + y === 3) { // 永远为真
    console.log("Data is positive");
  }
}
```
- 优点： 比死代码注入更难识别。
- 缺点： 需要精心设计谓词，否则容易被破解。
代码变形（Code Transformation）

使用等价的代码结构替换原始代码，例如将a + b替换成b + a，或者使用位运算代替算术运算。
- 原理： 改变代码的表面形式，但不改变代码的功能。
- 示例代码：
```
// 原始代码
function calculateSum(a, b) {
  return a + b;
}

// 混淆后代码
function calculateSum(a, b) {
  return b + a; // 简单的代码变形
}
```
- 优点： 可以与其它混淆技术结合使用，增加混淆的强度。
- 缺点： 效果有限，容易被反混淆。

第二部分：AST 反混淆技术揭秘

既然有混淆，那肯定就有反混淆。反混淆就是想方设法把混淆后的代码还原成可读性更高的代码。这就像侦探破案，需要分析线索，抽丝剥茧。

下面，我们来介绍几种常见的AST反混淆技术：

代码格式化

使用代码格式化工具（例如Prettier）将代码进行格式化，使其结构清晰，易于阅读。
- 原理： 解决变量名/函数名混淆带来的可读性问题。
- 工具： Prettier, js-beautify
- 示例：
  对于变量名混淆的代码，格式化后可以更容易地识别代码结构，方便后续分析。
变量名/函数名恢复

尝试根据变量的上下文和使用方式，推断出变量的含义，并将其替换成更有意义的名称。
- 原理： 利用代码的上下文信息，推断变量的用途。
- 方法：
  - 静态分析： 分析代码的控制流和数据流，确定变量的类型和用途。
  - 动态分析： 在运行时观察变量的值和行为，推断变量的含义。
- 示例：
  如果一个变量被用于循环计数，可以将其重命名为i或index。
字符串解密

识别代码中的字符串解密函数，并使用该函数解密字符串常量。
- 原理： 分析解密算法，编写解密脚本。
- 方法：
  - 手动分析： 仔细阅读解密函数，理解其算法，并用JavaScript或其他语言编写解密脚本。
  - 自动化分析： 使用工具自动识别解密函数，并生成解密脚本。
- 示例：
  对于异或加密的字符串，可以使用相同的异或运算解密。
控制流解平坦化

分析代码的状态机，还原代码的控制流结构。
- 原理： 识别状态变量和状态转移规则，将状态机转换为if/else和循环结构。
- 方法：
  - 手动分析： 绘制状态转移图，分析状态之间的关系。
  - 自动化分析： 使用工具自动分析状态机，并生成还原后的代码。
- 示例：
  将switch/case结构转换为if/else结构。
死代码移除

识别并移除代码中的死代码。
- 原理： 分析代码的控制流，确定哪些代码永远不会执行。
- 方法：
  - 静态分析： 分析代码的条件判断和循环语句，确定哪些代码永远不会被执行。
  - 动态分析： 在运行时观察代码的执行路径，确定哪些代码没有被执行。
- 示例：
  移除if (false) { ... }中的代码。
不透明谓词消除

识别并消除代码中的不透明谓词。
- 原理： 分析谓词的表达式，确定其真假值。
- 方法：
  - 符号执行： 使用符号执行技术，分析谓词的表达式，确定其真假值。
  - 约束求解： 将谓词的表达式转换为约束条件，使用约束求解器求解其真假值。
- 示例：
  将if (x + y === 3) { ... }替换为if (true) { ... }。

第三部分：AST混淆与反混淆的攻防之道

AST混淆与反混淆就像一场猫鼠游戏，混淆者想方设法隐藏代码，反混淆者则竭尽全力破解代码。

混淆者的目标： 最大化代码的混淆程度，同时最小化对代码性能的影响。
反混淆者的目标： 最大化代码的可读性，同时最小化破解的时间和成本。

如何提高混淆的强度？

多重混淆： 将多种混淆技术结合使用，增加破解的难度。
动态混淆： 在运行时动态改变代码的结构，增加破解的难度。
自修改代码： 使代码能够自我修改，增加破解的难度。

如何提高反混淆的效率？

自动化工具： 使用自动化工具进行反混淆，提高破解的效率。
代码分析： 深入分析代码的结构和逻辑，找到破解的突破口。
团队协作： 组织团队进行反混淆，集思广益，提高破解的成功率。

总结：

AST混淆与反混淆是一项复杂而有趣的技术。掌握这些技术，可以帮助我们更好地保护自己的代码，也可以帮助我们更好地理解和分析别人的代码。但记住，所有的混淆技术都不是绝对安全的，最终的安全性取决于混淆的强度和反混淆者的能力。

代码安全是一场永无止境的竞赛，攻防双方都在不断进化。希望今天的讲座能够帮助大家更好地理解AST混淆与反混淆技术，并在未来的开发工作中更好地应用这些技术。

好了，今天的讲座就到这里，大家有什么问题可以提问，我尽量解答。谢谢大家！

发表回复 取消回复

发表回复取消回复