C++ ABI (Application Binary Interface)：理解函数调用约定与数据布局 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

哈喽，各位好！今天咱们要聊聊C++ ABI，这玩意儿听起来高大上，其实说白了就是C++程序之间“说话”的规则。你想啊，不同编译器、不同操作系统，甚至同一编译器的不同版本，它们编译出来的代码肯定有些差异。如果没有一套统一的“语言”，那这些程序之间怎么协同工作呢？这就需要ABI来定义了。

简单来说，ABI定义了什么？

函数调用约定 (Calling Convention): 函数参数如何传递，返回值如何处理，谁来负责清理栈？
数据布局 (Data Layout): 类、结构体成员在内存中如何排列，虚函数表放在哪里？
名称修饰 (Name Mangling): C++支持重载，编译器如何给函数起一个唯一的名字？
异常处理 (Exception Handling): 异常如何抛出，如何捕获，栈如何回滚？
运行时支持 (Runtime Support): 运行时库提供哪些功能，例如内存分配、类型信息等。

咱们一个一个来啃。

函数调用约定 (Calling Convention)

函数调用约定就像是开会时的礼仪。谁先发言？谁做总结？谁负责清理会场？在C++中，它决定了函数参数的传递方式，以及谁来清理栈。

常见的调用约定有：

cdecl: 这是C/C++默认的调用约定（在x86架构上）。参数从右向左压栈，调用者负责清理栈。这意味着每个函数调用都会产生额外的清理代码，但它允许可变参数函数 (如printf) 的存在。
```
// 示例：cdecl 调用约定
int __cdecl add(int a, int b) {
    return a + b;
}
```
stdcall: Windows API常用的调用约定。参数从右向左压栈，被调用者负责清理栈。这种方式比cdecl更节省空间，因为清理栈的代码只在函数内部出现一次。但它不支持可变参数函数。
```
// 示例：stdcall 调用约定 (Windows)
#ifdef _WIN32
int __stdcall add(int a, int b) {
    return a + b;
}
#endif
```
fastcall: 尝试通过寄存器传递参数，以提高性能。具体哪些寄存器由编译器决定。不同的编译器对fastcall的实现可能不同。通常，前几个参数会通过寄存器传递，剩下的参数通过栈传递。
```
// 示例：fastcall 调用约定 (Visual C++)
#ifdef _WIN32
int __fastcall add(int a, int b) {
    return a + b;
}
#endif
```
thiscall: 专门用于成员函数的调用约定。this指针通常通过ECX寄存器（在x86架构上）传递，其余参数的传递方式与cdecl或stdcall类似。
```
// 示例：thiscall 调用约定 (隐式)
class MyClass {
public:
    int add(int a) { // thiscall
        return m_value + a;
    }
private:
    int m_value = 10;
};
```
System V AMD64 ABI: 这是Linux和macOS (x86-64架构) 上常用的调用约定。前6个整型或指针参数通过RDI, RSI, RDX, RCX, R8, R9 寄存器传递，浮点数参数通过XMM0, XMM1, …, XMM7寄存器传递，其余参数通过栈传递。调用者负责清理栈。
```
// 示例：System V AMD64 ABI (Linux/macOS)
int add(int a, int b, int c, int d, int e, int f, int g) {
    return a + b + c + d + e + f + g;
}
```

代码示例：不同调用约定下的汇编代码

为了更直观地看到不同调用约定的区别，咱们可以看看汇编代码（以x86架构为例）。

假设有以下C++代码：

int add(int a, int b) {
    return a + b;
}

int main() {
    int result = add(10, 20);
    return 0;
}

cdecl:

在Visual Studio中编译成Debug模式，然后查看汇编代码（可以通过调试器或者反汇编工具）。关键部分如下：

; 调用 add 函数
push    20                  ; 第二个参数压栈
push    10                  ; 第一个参数压栈
call    add                 ; 调用 add 函数
add     esp, 8              ; 调用者清理栈 (esp + 8)

; add 函数
push    ebp                 ; 保存 ebp
mov     ebp, esp            ; 设置 ebp 为栈顶
mov     eax, DWORD PTR [ebp+8]  ; 取第一个参数 (a)
add     eax, DWORD PTR [ebp+12] ; 取第二个参数 (b)，并加到 eax 上
pop     ebp                 ; 恢复 ebp
ret                         ; 返回 (cdecl 不清理栈)

可以看到，调用者 (main 函数) 在调用 add 之后，执行了 add esp, 8 来清理栈。

stdcall: (仅适用于Windows)

修改代码，指定 stdcall 调用约定：

#ifdef _WIN32
int __stdcall add(int a, int b) {
    return a + b;
}

int main() {
    int result = add(10, 20);
    return 0;
}
#endif

汇编代码的关键部分如下：

; 调用 add 函数
push    20                  ; 第二个参数压栈
push    10                  ; 第一个参数压栈
call    add                 ; 调用 add 函数
; 没有 add esp, 8  (调用者不清理栈)

; add 函数
push    ebp                 ; 保存 ebp
mov     ebp, esp            ; 设置 ebp 为栈顶
mov     eax, DWORD PTR [ebp+8]  ; 取第一个参数 (a)
add     eax, DWORD PTR [ebp+12] ; 取第二个参数 (b)，并加到 eax 上
pop     ebp                 ; 恢复 ebp
ret     8                   ; 返回，并清理栈 (ret 8)

可以看到，调用者没有清理栈，而 add 函数执行了 ret 8，这就是被调用者清理栈的方式。

总结：

调用约定	参数传递顺序	清理栈的责任	可变参数支持	适用平台/场景
cdecl	从右向左	调用者	支持	C/C++默认，x86
stdcall	从右向左	被调用者	不支持	Windows API，x86
fastcall	寄存器优先	编译器决定	编译器决定	追求性能，x86
thiscall	`this`指针寄存器传递，其余类似cdecl/stdcall	编译器决定	编译器决定	成员函数，x86
System V AMD64 ABI	寄存器优先 (RDI, RSI, RDX, RCX, R8, R9)	调用者	支持	Linux/macOS (x86-64)

数据布局 (Data Layout)

数据布局决定了类、结构体成员在内存中的排列方式。这包括成员的顺序、对齐方式，以及虚函数表的位置。

1. 成员顺序：

通常情况下，成员按照它们在类或结构体中声明的顺序排列。但是，编译器可能会为了优化性能而进行一些调整 (例如，重新排序成员)。

struct MyStruct {
    int a;
    char b;
    int c;
};

在没有特殊指定的情况下，a、b、c 在内存中依次排列。

2. 内存对齐：

为了提高CPU访问数据的效率，编译器会对数据进行对齐。对齐规则通常是：

基本类型： 通常按照类型的大小对齐。例如，int 通常按照4字节对齐，char 按照1字节对齐，double 按照8字节对齐。
结构体/类： 按照成员中最大对齐值的倍数对齐。

回到上面的 MyStruct 例子，如果没有对齐，它的大小应该是 4 + 1 + 4 = 9 字节。但是，由于对齐，编译器可能会在 b 后面插入一些填充字节，使其大小变成12字节（假设int是4字节对齐）。

#include <iostream>

#pragma pack(push, 1) // 强制 1 字节对齐
struct MyStructPacked {
    int a;
    char b;
    int c;
};
#pragma pack(pop) // 恢复默认对齐

struct MyStruct {
    int a;
    char b;
    int c;
};

int main() {
    std::cout << "sizeof(MyStructPacked): " << sizeof(MyStructPacked) << std::endl; // 输出 9
    std::cout << "sizeof(MyStruct): " << sizeof(MyStruct) << std::endl; // 输出 12 (或者其他值，取决于编译器和平台)
    return 0;
}

#pragma pack 指令可以用来控制对齐方式。 #pragma pack(push, 1) 表示将对齐设置为1字节， #pragma pack(pop) 表示恢复默认对齐。

3. 虚函数表 (vtable)：

如果一个类包含虚函数，编译器会为这个类创建一个虚函数表 (vtable)。vtable 是一个函数指针数组，每个指针指向一个虚函数的实现。类的每个对象都会包含一个指向 vtable 的指针 (通常称为 vptr)。

class Base {
public:
    virtual void foo() { std::cout << "Base::foo()" << std::endl; }
    virtual void bar() { std::cout << "Base::bar()" << std::endl; }
};

class Derived : public Base {
public:
    void foo() override { std::cout << "Derived::foo()" << std::endl; } // 覆盖
};

在这个例子中，Base 类有一个 vtable，包含指向 Base::foo 和 Base::bar 的指针。 Derived 类也有一个 vtable，它覆盖了 foo 函数，所以 vtable 中对应的指针指向 Derived::foo，而 bar 函数没有被覆盖，所以 vtable 中对应的指针仍然指向 Base::bar。

vptr 通常放在对象的起始位置，以便快速访问 vtable。

代码示例：查看内存布局

可以使用指针运算和强制类型转换来查看对象的内存布局。

#include <iostream>

struct MyStruct {
    int a;
    char b;
    int c;
};

int main() {
    MyStruct s;
    s.a = 10;
    s.b = 'A';
    s.c = 20;

    std::cout << "Address of s: " << &s << std::endl;
    std::cout << "Address of s.a: " << &s.a << std::endl;
    std::cout << "Address of s.b: " << &s.b << std::endl;
    std::cout << "Address of s.c: " << &s.c << std::endl;

    // 使用指针运算查看内存
    int* pa = &s.a;
    char* pb = &s.b;
    int* pc = &s.c;

    std::cout << "Value of s.a: " << *pa << std::endl;
    std::cout << "Value of s.b: " << *pb << std::endl;
    std::cout << "Value of s.c: " << *pc << std::endl;

    return 0;
}

运行这段代码，可以看到 a、 b、 c 的地址是连续的（但 b 和 c 之间可能存在填充字节）。

总结：

方面	描述	影响
成员顺序	成员在内存中的排列顺序	对象大小，内存访问效率
内存对齐	数据在内存中的对齐方式	对象大小，内存访问效率
虚函数表	虚函数指针数组	多态，动态绑定

名称修饰 (Name Mangling)

C++ 支持函数重载，这意味着可以有多个同名但参数列表不同的函数。为了区分这些函数，编译器会对函数名进行“修饰”，生成一个唯一的名称。这个过程称为名称修饰 (Name Mangling)。

不同的编译器使用不同的名称修饰规则。例如：

Microsoft Visual C++: 使用一种比较复杂的修饰规则，通常以 ? 开头。
GCC/Clang: 使用 Itanium C++ ABI，修饰后的名称通常以 _Z 开头。

int add(int a, int b) { return a + b; }
double add(double a, double b) { return a + b; }

经过名称修饰后，这两个函数可能会变成：

Visual C++:
- ?add@@YAHHH@Z (int add(int, int))
- ?add@@YANNN@Z (double add(double, double))
GCC/Clang:
- _Z3addii (int add(int, int))
- _Z3adddd (double add(double, double))

可以使用 c++filt 命令 (在 Linux/macOS 上) 来还原修饰后的名称。例如：

c++filt _Z3addii

输出：

add(int, int)

extern "C"

extern "C" 可以用来告诉编译器，按照C语言的规则进行编译和链接。这意味着：

不进行名称修饰： 函数名保持不变。
使用C语言的调用约定： 通常是 cdecl (在 x86 架构上)。

extern "C" 常用于C++和C语言的混合编程。

// C++ 代码
extern "C" {
    int c_function(int a, int b); // 声明 C 函数
}

int main() {
    int result = c_function(10, 20);
    return 0;
}

// C 代码 (c_function.c)
int c_function(int a, int b) {
    return a + b;
}

总结：

方面	描述	作用
名称修饰	编译器生成唯一函数名	支持函数重载，链接器区分不同函数
`extern "C"`	告诉编译器按照C语言规则编译	C/C++混合编程

异常处理 (Exception Handling)

C++ 的异常处理机制允许程序在运行时捕获和处理错误。ABI 定义了异常如何抛出、如何捕获，以及栈如何回滚。

1. 异常抛出：

当程序抛出一个异常时，运行时系统会：

创建一个异常对象 (exception object)。
查找能够处理该异常的 catch 块。
如果找到匹配的 catch 块，则执行该 catch 块中的代码。
如果没有找到匹配的 catch 块，则调用 std::terminate 终止程序。

2. 栈回滚 (Stack Unwinding)：

在查找 catch 块的过程中，运行时系统需要回滚栈，即销毁所有已构造的局部对象。这个过程称为栈回滚。

栈回滚需要保证：

所有局部对象的析构函数都被调用。
所有资源都被正确释放。

3. 异常规范 (Exception Specification)： (C++11 之后已弃用，C++17 移除)

异常规范可以用来声明一个函数可能抛出的异常类型。例如：

void foo() throw(int, std::bad_alloc); // 声明 foo 函数可能抛出 int 或 std::bad_alloc 类型的异常
void bar() noexcept; // 声明 bar 函数不会抛出任何异常 (C++11 引入)

noexcept 关键字 (C++11 引入) 比 throw() 更强大，它可以告诉编译器，这个函数不会抛出任何异常，从而允许编译器进行更多的优化。

代码示例：

#include <iostream>
#include <stdexcept>

class MyException : public std::exception {
public:
    const char* what() const noexcept override {
        return "My custom exception!";
    }
};

void foo(int value) {
    if (value < 0) {
        throw MyException();
    }
    std::cout << "Value is: " << value << std::endl;
}

int main() {
    try {
        foo(-1);
    } catch (const MyException& e) {
        std::cerr << "Caught exception: " << e.what() << std::endl;
    } catch (const std::exception& e) {
        std::cerr << "Caught standard exception: " << e.what() << std::endl;
    } catch (...) {
        std::cerr << "Caught unknown exception!" << std::endl;
    }

    return 0;
}

总结：

方面	描述	作用
异常抛出	程序抛出异常	通知程序发生了错误
栈回滚	销毁局部对象，释放资源	保证程序状态的一致性
`noexcept`	声明函数不抛出异常	允许编译器进行优化

运行时支持 (Runtime Support)

C++ 运行时库提供了一些基本的功能，例如：

内存分配： new 和 delete 操作符。
类型信息： RTTI (Run-Time Type Information)，例如 typeid 操作符。
异常处理： 异常处理机制的实现。
线程支持： 多线程编程的支持。

不同的编译器和操作系统可能会提供不同的运行时库。例如：

Microsoft Visual C++: 使用 Microsoft 的 C Runtime Library (CRT)。
GCC/Clang: 使用 libstdc++ 或 libc++。

总结：

ABI 是 C++ 程序之间互操作的基础。理解 ABI 可以帮助我们：

编写可移植的代码。
解决链接错误。
优化程序性能。
进行 C/C++ 混合编程。

希望今天的讲解能够帮助大家更好地理解 C++ ABI。这玩意儿的确挺深奥，需要慢慢消化。记住，实践是检验真理的唯一标准，多写代码，多调试，才能真正掌握它！祝大家编程愉快！

函数调用约定 (Calling Convention)

数据布局 (Data Layout)

名称修饰 (Name Mangling)

异常处理 (Exception Handling)

运行时支持 (Runtime Support)

发表回复 取消回复

发表回复取消回复