C++中的Name Mangling与Demangling：解析C++符号名称的底层机制与工具实现

各位来宾，大家好！今天我将为大家深入讲解C++中的Name Mangling与Demangling机制。这两个概念对于理解C++编译器的工作方式，以及在链接不同编译器生成的代码时至关重要。

1. 什么是Name Mangling？

Name Mangling，也称为名称修饰，是C++编译器为了支持函数重载、命名空间、类等特性而采用的一种技术。在C++中，允许存在多个同名的函数，只要它们的参数列表不同即可，这就是函数重载。此外，不同的命名空间也可能包含同名的函数或变量。为了区分这些同名实体，编译器会将它们的名称进行编码，生成一个唯一的、编译器内部使用的符号名称，这就是Name Mangling的结果。

简单来说，Name Mangling 就是将源代码中函数或变量的名字，通过编译器特定的算法，转换成一个在目标文件（.o或.obj）和可执行文件中使用的唯一符号名称。

为什么需要Name Mangling？

函数重载: 允许同名函数拥有不同的参数列表。
命名空间: 允许不同的命名空间定义同名的函数和变量。
类和成员函数: 区分不同类的成员函数，以及不同参数的成员函数。
模板: 为模板实例化生成唯一的函数和类名称。

2. Name Mangling的实现原理

Name Mangling的具体实现方式依赖于编译器。不同的编译器（例如GCC、Clang、MSVC）使用不同的算法进行名称修饰。这意味着由不同编译器编译的代码，其符号名称可能不兼容。

虽然不同编译器实现的细节有所不同，但Name Mangling通常会包含以下信息：

原始名称: 函数或变量的原始名称。
命名空间: 如果该函数或变量位于命名空间中，则包含命名空间的名称。
类名: 如果该函数是类的成员函数，则包含类名。
参数类型: 函数的参数类型列表。
调用约定: 函数的调用约定（如cdecl、stdcall、__fastcall）。
返回类型: 函数的返回类型。

我们来看一些例子，以便更清楚地理解Name Mangling的规则。

示例1：全局函数

// test.cpp
int add(int a, int b) {
    return a + b;
}

使用GCC编译：

g++ -c test.cpp
nm test.o

输出（简化）：

0000000000000000 T _Z3addii

_Z3addii 就是经过 Name Mangling 后的函数名。解释如下：

_Z: 这是 GCC Name Mangling 的前缀。
3: 函数名 add 的长度。
add: 函数名。
ii: 两个 int 类型的参数。

示例2：命名空间中的函数

// test.cpp
namespace my_namespace {
    int add(int a, int b) {
        return a + b;
    }
}

使用GCC编译：

g++ -c test.cpp
nm test.o

输出（简化）：

0000000000000000 T _ZN12my_namespace3addEii

_ZN12my_namespace3addEii 的解释如下：

_Z: GCC Name Mangling 前缀。
N: 表示这是一个命名空间。
12my_namespace: 命名空间 my_namespace，长度为12。
3add: 函数名 add，长度为3。
E: 表示命名空间结束。
ii: 两个 int 类型的参数。

示例3：类成员函数

// test.cpp
class MyClass {
public:
    int add(int a, int b) {
        return a + b;
    }
};

使用GCC编译：

g++ -c test.cpp
nm test.o

输出（简化）：

0000000000000000 T _ZN7MyClass3addEii

_ZN7MyClass3addEii 的解释如下：

_Z: GCC Name Mangling 前缀。
N: 表示这是一个命名空间/类。
7MyClass: 类名 MyClass，长度为7。
3add: 函数名 add，长度为3。
E: 表示命名空间/类结束。
ii: 两个 int 类型的参数。

示例4：函数重载

// test.cpp
int add(int a, int b) { return a + b; }
double add(double a, double b) { return a + b; }

使用GCC编译：

g++ -c test.cpp
nm test.o

输出（简化）：

0000000000000000 T _Z3addii
0000000000000020 T _Z3adddd

可以看到，即使函数名相同，但由于参数类型不同，Name Mangling 后的名称也不同：

_Z3addii: add(int, int)
_Z3adddd: add(double, double)

3. Name Demangling

Name Demangling 是 Name Mangling 的逆过程。它将编译器生成的修饰过的符号名称转换回人类可读的原始名称。这对于调试、分析和理解编译器生成的代码非常有用。

如何进行 Name Demangling？

c++filt 工具: 大多数 Unix-like 系统（包括 Linux 和 macOS）都提供了 c++filt 工具，它可以将 Mangled 的名称转换回 Demangled 的名称。

例如：

c++filt _ZN7MyClass3addEii

输出：

MyClass::add(int, int)

IDE 和 Debugger: 许多集成开发环境（IDE）和调试器（如 GDB 和 LLDB）都内置了 Name Demangling 功能，可以在调试过程中显示 Demangled 的符号名称。
在线 Demangler: 网上也有许多在线的 Name Demangler 工具，可以方便地进行名称转换。
编程方式: C++标准库提供了一些工具，可以编程方式进行Name Demangling。

4. 编程方式实现Name Demangling

C++11引入了<cxxabi.h>头文件，其中包含abi::__cxa_demangle函数，用于在运行时进行Name Demangling。

#include <iostream>
#include <cxxabi.h>
#include <string>

std::string demangle(const char* mangled_name) {
    int status = -4; // some arbitrary value to detect errors
    std::unique_ptr<char, void(*)(void*)> res {
        abi::__cxa_demangle(mangled_name, NULL, NULL, &status),
        std::free
    };

    return (status == 0) ? res.get() : mangled_name;
}

int main() {
    const char* mangled_name = "_ZN7MyClass3addEii";
    std::string demangled_name = demangle(mangled_name);
    std::cout << "Mangled Name: " << mangled_name << std::endl;
    std::cout << "Demangled Name: " << demangled_name << std::endl;
    return 0;
}

这段代码使用了 abi::__cxa_demangle 函数来进行 Name Demangling。注意，abi::__cxa_demangle 是一个非标准的函数，但它在许多 C++ 编译器中都可用。std::unique_ptr用于自动管理分配的内存。

5. 不同编译器之间的兼容性问题

由于不同的 C++ 编译器使用不同的 Name Mangling 算法，因此由不同编译器编译的代码，其符号名称可能不兼容。这会导致链接时出现问题，例如未定义的符号错误。

例如，如果使用 GCC 编译了一个库，然后尝试使用 MSVC 编译的程序链接该库，则可能会遇到链接错误，因为 MSVC 无法识别 GCC 生成的 Mangled 名称。

如何解决编译器兼容性问题？

使用相同的编译器: 最简单的解决方案是使用相同的编译器编译所有代码。
extern "C": extern "C" 可以阻止 C++ 编译器进行 Name Mangling。它告诉编译器，该函数应该使用 C 语言的调用约定进行编译，这意味着函数名不会被修饰。但是，extern "C" 只能用于 C 风格的函数，即没有函数重载、命名空间和类等 C++ 特性的函数。
```
// my_library.h
#ifndef MY_LIBRARY_H
#define MY_LIBRARY_H

#ifdef __cplusplus
extern "C" {
#endif

int my_function(int a, int b);

#ifdef __cplusplus
}
#endif

#endif
```
```
// my_library.c
int my_function(int a, int b) {
   return a + b;
}
```
```
// main.cpp
#include <iostream>
#include "my_library.h"

int main() {
   int result = my_function(10, 20);
   std::cout << "Result: " << result << std::endl;
   return 0;
}
```
在这个例子中，my_function 函数被声明为 extern "C"，这意味着它将使用 C 语言的调用约定进行编译，从而避免 Name Mangling。
使用 COM 接口: 组件对象模型 (COM) 是一种二进制接口标准，它允许不同的组件在不了解彼此实现细节的情况下进行交互。COM 接口使用 GUID (全局唯一标识符) 来标识，而不是使用名称。这使得 COM 组件可以由不同的编译器编译，而不会出现兼容性问题。
使用 Platform-Specific 抽象层: 可以创建一个抽象层，该抽象层封装了平台特定的代码，并提供了一个统一的接口供应用程序使用。这样，应用程序就可以在不同的平台上运行，而无需修改代码。

6. Name Mangling 的优缺点

优点:

支持函数重载、命名空间和类等 C++ 特性。
避免了命名冲突。
允许编译器进行优化。

缺点:

使目标文件和可执行文件中的符号名称难以阅读。
导致不同编译器之间的兼容性问题。
增加了调试的难度。

7. Name Mangling 规则示例 (GCC)

以下表格提供了一些常见的 GCC Name Mangling 规则示例：

C++ 代码	Mangled 名称	解释
`int foo(int a, int b);`	`_Z3fooii`	`_Z` 前缀，`3` 函数名长度，`foo` 函数名，`ii` 两个 `int` 参数
`namespace ns { int bar(); }`	`_ZN2ns3barEv`	`_Z` 前缀，`N` 命名空间，`2ns` 命名空间长度和名称，`3bar` 函数名长度和名称，`Ev` 无参数
`class MyClass { public: int baz(double x); };`	`_ZN7MyClass3bazEd`	`_Z` 前缀，`N` 类，`7MyClass` 类名长度和名称，`3baz` 函数名长度和名称，`Ed` 一个 `double` 参数
`int operator+(int a, int b);`	`_Zplii`	`_Z` 前缀，`pl` 表示 `operator+`，`ii` 两个 `int` 参数
`template <typename T> T max(T a, T b);` (int实例化)	`_Z3maxIiET_S0_S0_`	`_Z` 前缀，`3max` 函数名长度和名称，`Ii` `int` 实例化, `ET_S0_S0_` 参数类型

8. 总结一下今天的内容

今天我们深入探讨了C++中的Name Mangling与Demangling机制。Name Mangling是编译器用于区分同名符号的关键技术，虽然它带来了兼容性问题，但却支持了C++的强大特性。Demangling则是理解和调试这些符号名称的必备工具。理解这些概念能让我们更深入地了解C++编译器的底层工作原理，并能更好地解决链接时可能遇到的问题。掌握Name Mangling与Demangling对于开发高质量的C++代码至关重要。希望今天的讲解对大家有所帮助！

更多IT精英技术系列讲座，到智猿学院

C++中的Name Mangling与Demangling：解析C++符号名称的底层机制与工具实现

发表回复 取消回复

发表回复取消回复