JS `Identifier Renaming` (标识符重命名) 碰撞与字典攻击反制 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

咳咳，各位观众老爷们，大家好！今天咱们来聊聊一个有点儿意思，但又容易被忽略的话题：JavaScript 代码混淆中的标识符重命名碰撞与字典攻击反制。

先别打瞌睡，这玩意儿听起来高深，其实啊，就是给你的代码穿上一层迷彩服，让坏人不好直接看懂。

第一幕：为啥要改名字？

想象一下，你辛辛苦苦写了一个游戏，结果别人直接把你的 JavaScript 代码扒下来，稍微改改就变成他的了，气不气？

标识符重命名，就是把你的变量名、函数名、类名等等，改成一些毫无意义的字符，比如把 userName 改成 _0xabc123，把 calculateScore 改成 a。这样，即使别人拿到你的代码，也看不懂这些变量是干嘛的，增加了理解和修改的难度。

第二幕：重命名也有门道

重命名看似简单，但如果瞎改一通，可能会适得其反。最常见的问题就是“碰撞”，也就是不同的标识符被改成了相同的名字。

// 原始代码
function calculateSum(a, b) {
  let result = a + b;
  return result;
}

function calculateProduct(a, b) {
  let result = a * b;
  return result;
}

如果简单粗暴地把 result 都改成 x，那就完犊子了：

// 错误的重命名
function calculateSum(a, b) {
  let x = a + b;
  return x;
}

function calculateProduct(a, b) {
  let x = a * b;  // 这里的 x 会覆盖 calculateSum 里的 x
  return x;
}

结果就是 calculateProduct 返回的结果会覆盖 calculateSum 的结果，程序就跑飞了。

正确的做法是：

作用域分析： 搞清楚每个标识符的作用域，避免不同作用域的标识符重名。
统一命名规则： 采用一套规则，比如使用不同的前缀或后缀来区分不同的标识符。
使用工具： 现在有很多代码混淆工具，它们会自动处理这些问题，比如 UglifyJS, Terser, Babel 等等。

第三幕：字典攻击？What’s that?

好，现在我们已经把标识符改得面目全非了，是不是就万事大吉了？Too young, too simple!

黑客们也不是吃素的，他们会使用“字典攻击”来尝试破解你的代码。

啥是字典攻击？简单来说，就是他们会收集一些常见的变量名、函数名，比如 userName、password、getData 等等，然后尝试把你混淆后的代码中的标识符替换成这些常见的名字，看看能不能猜出一些信息。

举个栗子：

假设你的代码里有这么一段：

function _0xabc123(a, b) {
  return a + b;
}

let _0xdef456 = 10;
let _0xghi789 = 20;

let _0xjkl012 = _0xabc123(_0xdef456, _0xghi789);
console.log(_0xjkl012);

如果黑客通过字典攻击，猜出 _0xabc123 可能是 add，_0xdef456 可能是 num1，_0xghi789 可能是 num2，_0xjkl012 可能是 sum，那你的代码就基本被破解了：

function add(num1, num2) {
  return num1 + num2;
}

let num1 = 10;
let num2 = 20;

let sum = add(num1, num2);
console.log(sum);

第四幕：反击！反击！反击！

既然有字典攻击，那咱们就得想办法反击。

1. 增加复杂度：

更长的标识符： 不要使用短小的标识符，比如 a、b，而是使用更长的、更随机的标识符，比如 _0xabcdefghijklmnopqrstuvwxyz。
不规则的命名： 不要使用有规律的命名，比如 _0x001、_0x002，而是使用完全随机的命名。
多态命名： 相同的逻辑，使用不同的命名方式。

2. 引入无用代码：

在代码中插入一些无用的变量、函数、表达式，增加攻击者的分析难度。

function _0xabc123(a, b) {
  let _0xmno456 = Math.random(); // 插入一个无用的变量
  if (_0xmno456 > 0.5) {
    console.log("This is a useless log."); // 插入一个无用的日志
  }
  return a + b;
}

3. 控制流平坦化：

把代码的控制流变得更加复杂，让攻击者难以理解代码的执行逻辑。

// 原始代码
function processData(data) {
  if (data.type === 'A') {
    // 处理 A 类型的数据
  } else if (data.type === 'B') {
    // 处理 B 类型的数据
  } else {
    // 处理其他类型的数据
  }
}

// 控制流平坦化后的代码
function processData(data) {
  let state = 0;
  let result;

  while (true) {
    switch (state) {
      case 0:
        if (data.type === 'A') {
          state = 1;
        } else {
          state = 2;
        }
        break;
      case 1:
        // 处理 A 类型的数据
        state = 3;
        break;
      case 2:
        if (data.type === 'B') {
          state = 4;
        } else {
          state = 5;
        }
        break;
      case 4:
        // 处理 B 类型的数据
        state = 3;
        break;
      case 5:
        // 处理其他类型的数据
        state = 3;
        break;
      case 3:
        return result;
    }
  }
}

4. 字符串加密：

将代码中的字符串进行加密，防止攻击者直接搜索字符串来定位代码。

// 原始代码
console.log("Hello, world!");

// 加密后的代码
function _0xencrypt(str) {
  // 实现字符串加密的逻辑
  return str.split('').map(char => String.fromCharCode(char.charCodeAt(0) + 1)).join('');
}

console.log(_0xencrypt("Hello, world!")); // 输出 "Ifmmp, xpsme!"

5. 代码变形（Metamorphism）：

每次混淆代码时，都采用不同的混淆策略，让攻击者难以找到规律。

6. 使用专业的代码混淆工具：

这些工具通常会提供更强大的混淆功能，并不断更新，以应对新的攻击手段。常用的工具有：

UglifyJS/Terser: 轻量级，主要用于代码压缩和简单混淆。
JavaScript Obfuscator: 功能强大，提供多种混淆选项，包括标识符重命名、字符串加密、控制流平坦化等等。
Jscrambler: 专业级的代码保护工具，提供多层保护，包括代码混淆、防篡改、防调试等等。

第五幕：实战演练

咱们用 JavaScript Obfuscator 来演示一下：

首先，安装 JavaScript Obfuscator：

npm install javascript-obfuscator --save-dev

然后，创建一个 obfuscate.js 文件：

const JavaScriptObfuscator = require('javascript-obfuscator');
const fs = require('fs');

const code = fs.readFileSync('your-code.js', 'utf8');

const obfuscationResult = JavaScriptObfuscator.obfuscate(code, {
  compact: true,
  controlFlowFlattening: true,
  controlFlowFlatteningThreshold: 0.75,
  deadCodeInjection: true,
  deadCodeInjectionThreshold: 0.4,
  debugProtection: false,
  debugProtectionInterval: false,
  disableConsoleOutput: true,
  domainLock: [],
  forceTransformStrings: false,
  identifierNamesGenerator: 'hexadecimal',
  identifiersPrefix: '',
  inputFileName: '',
  log: false,
  numbersToExpressions: true,
  renameGlobals: false,
  reservedNames: [],
  reservedStrings: [],
  rotateStringArray: true,
  seed: 0,
  selfDefending: true,
  shuffleStringArray: true,
  splitStrings: true,
  splitStringsChunkLength: 10,
  stringArray: true,
  stringArrayEncoding: ['rc4'],
  stringArrayThreshold: 0.75,
  transformObjectKeys: true,
  unicodeEscapeSequence: false
});

fs.writeFileSync('obfuscated-code.js', obfuscationResult.getObfuscatedCode(), 'utf8');

把 your-code.js 替换成你的 JavaScript 代码文件名，然后运行：

node obfuscate.js

就会生成一个 obfuscated-code.js 文件，里面就是混淆后的代码。

第六幕：注意事项

性能影响： 代码混淆会增加代码的大小，并降低代码的执行效率。需要在安全性和性能之间进行权衡。
调试困难： 混淆后的代码难以调试。建议在开发阶段不要使用混淆，只在发布前进行混淆。
无法彻底防止破解： 代码混淆只能增加破解的难度，但无法彻底防止破解。如果你的代码非常重要，还需要采取其他的安全措施，比如服务器端验证、数字签名等等。
遵守法律法规： 代码混淆可能会涉及到知识产权问题。需要确保你的代码混淆行为符合法律法规。

第七幕：总结

今天我们聊了 JavaScript 代码混淆中的标识符重命名碰撞与字典攻击反制。

记住，代码混淆不是万能的，但它可以有效地保护你的代码，增加攻击者的分析难度。在实际应用中，需要根据你的具体需求，选择合适的混淆策略和工具，并不断更新，以应对新的攻击手段。

好了，今天的讲座就到这里，感谢各位观众老爷的捧场！如果有什么问题，欢迎提问！

发表回复 取消回复

发表回复取消回复