Python高级技术之：`Python`的`struct`模块：在网络通信中打包和解包二进制数据。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

嘿，各位代码界的弄潮儿们，准备好迎接一场关于struct模块的二进制数据之旅了吗？今天，咱们就来聊聊这个在网络通信中扮演重要角色的家伙，看看它是如何把数据打包成神秘的二进制，又如何把这些二进制密码解开的。

第一幕：struct模块，何方神圣？

想象一下，你正在用Python和另一台用C++写的服务器进行通信。Python擅长处理字符串，C++则更喜欢直接操作内存。那么问题来了，它们之间如何高效地交换数据呢？难道要Python把所有数字都转换成字符串，然后C++再把字符串转回数字？这效率也太低了吧！

这时候，struct模块就派上用场了。它允许你把Python的数据类型（比如整数、浮点数、字符串）打包成C风格的二进制数据，也可以把C风格的二进制数据解包成Python的数据类型。简单来说，它就像一个翻译官，让Python和C/C++能够无障碍地“对话”。

第二幕：格式字符串，struct模块的灵魂

struct模块的核心在于“格式字符串”。这个字符串定义了数据的类型、大小端、对齐方式等等。就像一份详细的菜谱，告诉struct模块如何打包和解包数据。

先来看一些常用的格式字符：

格式字符	C 类型	Python 类型	标准大小 (字节)	注释
`x`	padding byte	no value	1	填充字节，不对应任何Python值
`c`	char	string of length 1	1	字符
`b`	signed char	integer	1	带符号字符
`B`	unsigned char	integer	1	无符号字符
`h`	short	integer	2	短整数
`H`	unsigned short	integer	2	无符号短整数
`i`	int	integer	4	整数
`I`	unsigned int	integer	4	无符号整数
`l`	long	integer	4	长整数
`L`	unsigned long	integer	4	无符号长整数
`q`	long long	integer	8	长长整数
`Q`	unsigned long long	integer	8	无符号长长整数
`f`	float	float	4	浮点数
`d`	double	float	8	双精度浮点数
`s`	char[]	string		字符数组 (必须指定长度，如 `10s`)
`p`	char[]	string		Pascal字符串 (第一个字节表示长度)
`P`	void *	integer		指针 (其大小取决于平台)

重点来了：大小端模式

大端模式（Big-Endian）： 高位字节存储在低地址，低位字节存储在高地址。就像我们阅读习惯一样，从左到右，从高到低。
小端模式（Little-Endian）： 低位字节存储在低地址，高位字节存储在高地址。和我们的阅读习惯相反。

举个例子，假设有一个32位整数 0x12345678：

大端模式存储： 12 34 56 78 (内存地址从低到高)
小端模式存储： 78 56 34 12 (内存地址从低到高)

为什么大小端模式这么重要？因为不同的CPU架构可能使用不同的大小端模式。如果你在小端机器上打包数据，然后在需要大端机器上解包，就会出错。

struct模块允许你指定大小端模式，通过在格式字符串前面添加一个字符：

>：大端模式
<：小端模式
!：网络字节序 (通常是大端模式)

第三幕：pack和unpack，打包和解包的魔法

现在，我们来学习如何使用pack和unpack函数进行打包和解包：

struct.pack(format, v1, v2, ...)：将值 v1, v2, … 根据格式字符串 format 打包成字节串。
struct.unpack(format, buffer)：从字节串 buffer 根据格式字符串 format 解包，返回一个元组。

示例1：打包整数和浮点数

import struct

# 打包一个整数和一个浮点数 (大端模式)
data = struct.pack('>if', 12345, 3.14159)
print(data)  # 输出: b'x00x0009x00@t!xf9'

# 解包这个字节串
unpacked_data = struct.unpack('>if', data)
print(unpacked_data) # 输出: (12345, 3.141590118408203)

在这个例子中，>if 表示：

>：大端模式
i：整数 (4字节)
f：浮点数 (4字节)

示例2：打包字符串

import struct

# 打包一个字符串 (10个字节，不足补0)
name = "Alice"
packed_name = struct.pack('10s', name.encode('utf-8')) # 需要编码成字节串
print(packed_name) # 输出: b'Alicex00x00x00x00x00'

# 解包这个字节串
unpacked_name = struct.unpack('10s', packed_name)[0].decode('utf-8').rstrip('x00') #去除填充字符
print(unpacked_name) # 输出: Alice

注意：字符串需要编码成字节串 (.encode('utf-8'))，解包后也需要解码 (.decode('utf-8'))。并且需要使用 rstrip('x00') 去除填充的空字符。

示例3：网络通信中的应用

import socket
import struct

# 创建一个socket
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.bind(('127.0.0.1', 8888))
s.listen(1)

conn, addr = s.accept()
print('Connected by', addr)

# 接收一个长度为4的整数 (大端模式)，表示数据的长度
data_length_bytes = conn.recv(4)
data_length = struct.unpack('>i', data_length_bytes)[0]

# 接收数据
data = conn.recv(data_length)
print('Received data:', data.decode('utf-8'))

conn.close()
s.close()

# 客户端代码
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.connect(('127.0.0.1', 8888))

message = "Hello, world!"
message_bytes = message.encode('utf-8')
message_length = len(message_bytes)

# 打包数据的长度 (大端模式)
length_bytes = struct.pack('>i', message_length)

# 发送长度和数据
s.sendall(length_bytes + message_bytes)

s.close()

在这个例子中，服务器首先接收一个4字节的整数，表示接下来数据的长度。然后，服务器根据这个长度接收实际的数据。客户端则先打包数据的长度，再发送数据。这种方式在网络通信中非常常见，可以确保数据的完整性。

第四幕：高级技巧和注意事项

对齐方式： 为了提高内存访问效率，编译器通常会对数据进行对齐。struct模块也提供了对齐方式的控制，通过在格式字符串前面添加数字来实现。比如，4i 表示4个整数，每个整数都按照4字节对齐。

struct.calcsize(format)： 这个函数可以计算给定格式字符串的数据结构的大小。

import struct

size = struct.calcsize('>i') # 计算大端模式整数的大小
print(size) # 输出: 4

size = struct.calcsize('10s') # 计算10字节字符串的大小
print(size) # 输出: 10

错误处理： struct.unpack 如果提供的字节串长度不足，会抛出 struct.error 异常。因此，在解包之前，最好检查字节串的长度是否符合预期。

使用namedtuple增强可读性： struct.unpack 返回一个元组，当你有很多字段的时候，通过索引访问可能会降低代码的可读性。可以使用 collections.namedtuple 来给每个字段命名。

import struct
from collections import namedtuple

data = struct.pack('>iif', 1, 2, 3.14)
MyStruct = namedtuple('MyStruct', ['x', 'y', 'z'])
unpacked_data = MyStruct(*struct.unpack('>iif', data))

print(unpacked_data.x) # 输出: 1
print(unpacked_data.y) # 输出: 2
print(unpacked_data.z) # 输出: 3.140000104904175

pack_into 和 unpack_from： 这两个函数允许你直接在已有的缓冲区中打包和解包数据，避免了创建新的字节串。

import struct
import array

# 创建一个可变字节数组
buffer = array.array('b', [0] * 12) # 创建一个12字节的byte array

# 将数据打包到缓冲区中
struct.pack_into('>iif', buffer, 0, 1, 2, 3.14)

# 从缓冲区中解包数据
unpacked_data = struct.unpack_from('>iif', buffer, 0)

print(unpacked_data) # 输出: (1, 2, 3.140000104904175)

第五幕：实战演练：解析TCP数据包

让我们来一个更实际的例子：解析一个简化的TCP数据包。假设我们的TCP数据包结构如下：

字段	大小 (字节)	描述
源端口	2	发送方的端口号
目标端口	2	接收方的端口号
序列号	4	序列号，用于数据包的排序
确认号	4	期望接收的下一个序列号
数据偏移	1	TCP头部长度 (以4字节为单位)
保留位 + 标志位	1	控制标志 (SYN, ACK, FIN等)
窗口大小	2	接收窗口大小
校验和	2	校验和，用于检测数据包错误
紧急指针	2	紧急数据的偏移量
数据	可变	实际的数据

我们可以使用struct模块来解析这个数据包：

import struct

# 模拟一个TCP数据包 (头部 + 数据)
tcp_packet = b'x12x34x56x78x00x00x00x01x00x00x00x02x05x10x00x01x00x00x00x00Hello, TCP!'

# 定义格式字符串
tcp_header_format = '>HHIIBBHHH'  # 大端模式
tcp_header_size = struct.calcsize(tcp_header_format)

# 解包TCP头部
tcp_header = struct.unpack(tcp_header_format, tcp_packet[:tcp_header_size])

# 提取数据
data = tcp_packet[tcp_header_size:]

# 打印解析结果
print('Source Port:', tcp_header[0])
print('Destination Port:', tcp_header[1])
print('Sequence Number:', tcp_header[2])
print('Acknowledgement Number:', tcp_header[3])
print('Data Offset:', tcp_header[4] * 4) # 乘以4，因为单位是4字节
print('Flags:', tcp_header[5])
print('Window Size:', tcp_header[6])
print('Checksum:', tcp_header[7])
print('Urgent Pointer:', tcp_header[8])
print('Data:', data.decode('utf-8'))

这个例子展示了如何使用struct模块来解析复杂的二进制数据结构，这是网络编程中非常重要的技能。

第六幕：总结与展望

struct模块是Python处理二进制数据的利器，它在网络通信、文件格式解析、硬件接口等领域都有广泛的应用。掌握struct模块，可以让你更加深入地理解数据的本质，编写更加高效和灵活的代码。

虽然struct模块功能强大，但也有一些局限性。例如，它不支持嵌套的数据结构，对于复杂的数据结构，可能需要手动进行多次打包和解包。

未来，随着Python的不断发展，可能会出现更加高级的二进制数据处理库，提供更加便捷和强大的功能。但struct模块作为基础工具，仍然会在很长时间内发挥重要作用。

好了，今天的struct模块之旅就到这里。希望大家通过这次学习，能够掌握这个强大的工具，在代码的世界里自由驰骋！记住，二进制数据并不神秘，只要掌握了正确的方法，就能轻松驾驭它！

下次再见！

发表回复 取消回复

发表回复取消回复