C++ `std::endian`：C++20 字节序探测与处理 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众，欢迎来到今天的C++字节序奇妙之旅！我是你们的导游，今天咱们要深入C++20的std::endian，揭开字节序的神秘面纱，看看它如何让我们的代码更加健壮和可移植。

开场白：字节序，一个让程序员挠头的家伙

各位有没有遇到过这样的情况：你辛辛苦苦写了一段代码，在你的电脑上跑得飞起，结果到了别人的电脑上，数据就乱了？或者你的程序需要和别的系统通信，结果双方鸡同鸭讲，完全无法理解对方的意思？

很有可能，你碰到了字节序这个让人头疼的问题。

简单来说，字节序就是多字节数据类型（比如int，float）在内存中存储的顺序。不同的CPU架构可能采用不同的字节序，这就导致了数据在不同系统之间传递时，可能会被错误地解释。

一、什么是字节序？大端小端傻傻分不清？

想象一下，你有一张写着数字“1234”的纸条。你可以从左往右读，也可以从右往左读。字节序也是类似的，它决定了多字节数据在内存中存储的顺序。

大端序 (Big-Endian)： 最高有效字节 (Most Significant Byte, MSB) 存储在最低的内存地址处。就像我们平时写数字一样，从最重要的部分开始写。
- 例子：数字 0x12345678 在内存中存储为 12 34 56 78。
小端序 (Little-Endian)： 最低有效字节 (Least Significant Byte, LSB) 存储在最低的内存地址处。就像倒着写数字一样，从最不重要的部分开始写。
- 例子：数字 0x12345678 在内存中存储为 78 56 34 12。

那么问题来了，为什么会有这两种不同的字节序呢？历史原因，纯粹是历史原因。不同的CPU厂商选择了不同的方式，结果就形成了现在这种局面。

二、 std::endian：C++20的救星来了！

在C++20之前，我们想要判断系统的字节序，通常需要借助一些平台相关的宏或者自己写一些丑陋的代码。比如：

// 传统方法，平台相关
#ifdef _WIN32
    // Windows 系统通常是小端序
    bool isLittleEndian = true;
#elif defined(__linux__)
    // Linux 系统根据CPU架构而定，可能大端也可能小端
    // 需要更复杂的判断
    // ...
#else
    // 其他平台，自行判断
    // ...
#endif

这种方式不仅代码冗余，而且可移植性很差。

C++20终于看不下去了，推出了std::endian，它位于<endian>头文件中，提供了一种标准化的方式来判断系统的字节序。

std::endian是一个枚举类，它有三个可能的值：

std::endian::little: 系统是小端序。
std::endian::big: 系统是大端序。
std::endian::native: 系统的字节序既不是大端也不是小端。这种情况比较罕见，通常出现在一些特殊的硬件平台上。

三、 std::endian 的用法：简单易懂

使用std::endian非常简单：

#include <iostream>
#include <endian>

int main() {
    if constexpr (std::endian::native == std::endian::little) {
        std::cout << "系统是小端序" << std::endl;
    } else if constexpr (std::endian::native == std::endian::big) {
        std::cout << "系统是大端序" << std::endl;
    } else {
        std::cout << "系统既不是大端也不是小端" << std::endl;
    }

    return 0;
}

注意几个关键点：

constexpr： std::endian::native是一个编译期常量，这意味着我们可以在编译期进行判断，从而优化代码。
头文件： 别忘了包含<endian>头文件。
比较： 使用 == 来比较 std::endian::native 和 std::endian::little 或 std::endian::big。

四、解决实际问题：网络编程中的字节序转换

std::endian最大的用处在于网络编程。在网络传输中，通常使用网络字节序 (Network Byte Order)，它规定为大端序。

如果你的系统是小端序，那么在发送数据之前，你需要将数据从主机字节序 (Host Byte Order) 转换为网络字节序；在接收数据之后，你需要将数据从网络字节序转换为主机字节序。

C++提供了一些函数来进行字节序转换：

htons(): 将16位主机字节序转换成网络字节序 (Host To Network Short)。
htonl(): 将32位主机字节序转换成网络字节序 (Host To Network Long)。
ntohs(): 将16位网络字节序转换成主机字节序 (Network To Host Short)。
ntohl(): 将32位网络字节序转换成主机字节序 (Network To Host Long)。

例子：

#include <iostream>
#include <endian>
#include <arpa/inet> // Linux 系统需要包含此头文件

int main() {
    uint32_t hostValue = 0x12345678;
    uint32_t networkValue;

    if constexpr (std::endian::native == std::endian::little) {
        // 如果是小端序，需要转换
        networkValue = htonl(hostValue);
        std::cout << "小端序，转换后的网络字节序: 0x" << std::hex << networkValue << std::endl;
    } else {
        // 如果是大端序，不需要转换
        networkValue = hostValue;
        std::cout << "大端序，不需要转换" << std::endl;
    }

    uint32_t convertedHostValue = ntohl(networkValue);
    std::cout << "转换回主机字节序: 0x" << std::hex << convertedHostValue << std::endl;

    return 0;
}

解释：

htonl() 函数将 hostValue 从主机字节序转换为网络字节序。
ntohl() 函数将 networkValue 从网络字节序转换回主机字节序。
arpa/inet.h：在Linux系统中，你需要包含此头文件才能使用 htonl() 和 ntohl() 函数。Windows下则需要包含winsock2.h并链接ws2_32.lib。

五、更高级的用法：自定义数据类型的字节序转换

如果你的程序中使用了自定义的数据类型，你也需要考虑字节序的问题。你可以使用std::memcpy或者位运算来进行字节序转换。

例子：

#include <iostream>
#include <endian>
#include <cstring> // std::memcpy

struct MyData {
    uint16_t id;
    uint32_t value;
};

// 将 MyData 转换为网络字节序
MyData convertToNetwork(MyData data) {
    MyData networkData;

    if constexpr (std::endian::native == std::endian::little) {
        // 转换 id
        uint16_t networkId = htons(data.id);
        std::memcpy(&networkData.id, &networkId, sizeof(networkId));

        // 转换 value
        uint32_t networkValue = htonl(data.value);
        std::memcpy(&networkData.value, &networkValue, sizeof(networkValue));
    } else {
        networkData = data; // 大端序，不需要转换
    }

    return networkData;
}

// 将 MyData 从网络字节序转换为主机字节序
MyData convertToHost(MyData data) {
    MyData hostData;

    if constexpr (std::endian::native == std::endian::little) {
        // 转换 id
        uint16_t hostId;
        std::memcpy(&hostId, &data.id, sizeof(data.id));
        hostData.id = ntohs(hostId);

        // 转换 value
        uint32_t hostValue;
        std::memcpy(&hostValue, &data.value, sizeof(data.value));
        hostData.value = ntohl(hostValue);
    } else {
        hostData = data; // 大端序，不需要转换
    }

    return hostData;
}

int main() {
    MyData data = {0x1234, 0x56789ABC};

    MyData networkData = convertToNetwork(data);
    std::cout << "网络字节序: id=0x" << std::hex << networkData.id << ", value=0x" << networkData.value << std::endl;

    MyData hostData = convertToHost(networkData);
    std::cout << "主机字节序: id=0x" << std::hex << hostData.id << ", value=0x" << hostData.value << std::endl;

    return 0;
}

解释：

我们定义了一个自定义的数据类型 MyData，包含一个 16 位的 id 和一个 32 位的 value。
convertToNetwork() 函数将 MyData 转换为网络字节序。
convertToHost() 函数将 MyData 从网络字节序转换为主机字节序。
我们使用 std::memcpy() 将转换后的值复制到 networkData 中。

六、总结：std::endian 的优势

标准化： 提供了一种标准化的方式来判断系统的字节序，避免了平台相关的代码。
编译期判断： 可以在编译期进行判断，从而优化代码。
可移植性： 提高了代码的可移植性，使得代码可以在不同的平台上运行。
易于使用： 使用起来非常简单，只需要包含 <endian> 头文件即可。

七、拓展阅读和注意事项

网络编程库： 许多网络编程库（例如 Boost.Asio）已经封装了字节序转换的功能，你可以直接使用这些库，而不需要自己手动进行转换。
字节对齐： 除了字节序之外，还需要注意字节对齐的问题。不同的编译器和平台可能采用不同的字节对齐方式，这也会影响数据的存储方式。可以使用 #pragma pack 来控制字节对齐。
浮点数的字节序： 浮点数的字节序也需要注意。不同的CPU架构可能采用不同的浮点数表示方式。
std::byteswap (C++23): C++23 引入了 std::byteswap 函数，可以用来交换字节序。虽然 htonl/ntohl 等函数已经存在，但 std::byteswap 更加通用，可以用于任何类型的字节序交换。

八、常见问题解答 (FAQ)

Q: 我需要总是进行字节序转换吗？

A: 不是的。只有当你的程序需要在不同的字节序的系统之间传递数据时，才需要进行字节序转换。如果你的程序只在同一个系统上运行，或者所有系统都使用相同的字节序，那么就不需要进行转换。
Q: 如何知道一个文件或数据的字节序？

A: 这通常需要根据文件格式或协议的规范来确定。有些文件格式会在文件头中包含字节序信息。
Q: std::endian::native 到底是什么？

A: std::endian::native 表示当前系统的字节序。它是一个编译期常量，可以用来在编译期判断系统的字节序。
Q: 我可以使用 std::endian 来判断一个文件的字节序吗？

A: 不行。std::endian 只能用来判断当前系统的字节序。要判断一个文件的字节序，你需要读取文件的内容，并根据文件格式的规范来判断。

九、表格总结

特性	描述
`std::endian`	C++20 引入的枚举类，用于判断系统的字节序。
`std::endian::little`	表示系统是小端序。
`std::endian::big`	表示系统是大端序。
`std::endian::native`	表示当前系统的字节序。
`htons()`	将 16 位主机字节序转换成网络字节序。
`htonl()`	将 32 位主机字节序转换成网络字节序。
`ntohs()`	将 16 位网络字节序转换成主机字节序。
`ntohl()`	将 32 位网络字节序转换成主机字节序。
`std::byteswap` (C++23)	用于交换字节序的通用函数。
网络字节序	规定为大端序，用于网络传输。

十、结束语：掌握字节序，代码更健壮

掌握字节序对于编写可移植和健壮的代码至关重要。std::endian 的引入使得判断系统的字节序变得更加简单和标准化。希望通过今天的讲解，大家能够更加深入地理解字节序，并在实际开发中灵活运用。

感谢大家的观看！下次再见！

发表回复 取消回复

发表回复取消回复