Python `marshal` 模块：序列化 Python 字节码与安全隐患 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众，欢迎来到今天的“Python 冷知识与作死指南”讲座！今天我们要聊聊一个Python自带，但很多人可能没怎么用过，甚至听都没听过的模块：marshal。

开场白：marshal 是个啥？

想象一下，你写了一段非常酷炫的Python代码，你想把它保存下来，下次直接加载就能运行，不用重新解释一遍。你可能会想到pickle，但今天要说的marshal，比pickle更底层，更……危险。

marshal模块主要用于将Python对象的字节码序列化和反序列化。注意，是字节码，不是对象本身！这和pickle有本质区别。pickle可以序列化几乎任何Python对象，而marshal只能序列化一些特定的、比较基础的类型，主要是代码对象（code object）、整数、浮点数、字符串等。

marshal 的适用场景：

Python 内部使用： marshal 最常见的用途是Python解释器内部，用于存储.pyc文件（编译后的Python代码）。当你第一次运行一个.py文件时，Python会将它编译成字节码，并保存到.pyc文件中，下次再运行时，如果.py文件没有修改，Python就会直接加载.pyc文件，提高运行速度。
简单的数据交换： 如果你需要快速地序列化一些简单的Python数据结构（比如整数、字符串），而且不关心跨平台兼容性，marshal可能是一个选择。但请注意，强烈不推荐在生产环境中使用marshal进行数据交换，因为它缺乏安全性。
代码混淆（不推荐）： 有些人会尝试使用marshal来混淆Python代码，但这种方法并不靠谱，很容易被破解。

marshal 的基本用法：

marshal模块提供了几个核心函数：

marshal.dump(value, file[, version]): 将value序列化到打开的文件中。version参数指定序列化格式的版本，默认为0。
marshal.load(file): 从打开的文件中读取序列化的数据，并返回反序列化后的对象。
marshal.dumps(value[, version]): 将value序列化为字节串。
marshal.loads(bytes): 从字节串中读取序列化的数据，并返回反序列化后的对象。

代码示例：序列化和反序列化代码对象

import marshal
import dis

def my_function(x):
    return x * 2

# 获取函数的代码对象
code_object = my_function.__code__

# 将代码对象序列化到文件
with open("my_function.marshal", "wb") as f:
    marshal.dump(code_object, f)

# 从文件反序列化代码对象
with open("my_function.marshal", "rb") as f:
    loaded_code_object = marshal.load(f)

# 创建一个新的函数，使用反序列化的代码对象
import types
new_function = types.FunctionType(loaded_code_object, globals())

# 调用新函数
print(new_function(5))  # 输出：10

# 查看代码对象的内容
dis.dis(code_object) #输出字节码
dis.dis(loaded_code_object) #输出字节码

这段代码演示了如何使用marshal序列化和反序列化一个函数的代码对象。首先，我们定义了一个简单的函数my_function，然后获取它的__code__属性，这是一个代码对象。接着，我们使用marshal.dump将代码对象序列化到文件中。最后，我们使用marshal.load从文件中反序列化代码对象，并使用types.FunctionType创建一个新的函数。

marshal 的局限性：

版本依赖： marshal的序列化格式在不同的Python版本之间可能不兼容。这意味着你用Python 3.x序列化的数据，可能无法在Python 2.x中反序列化，反之亦然。甚至在同一个大版本下，不同的小版本也可能不兼容。
类型限制： marshal只能序列化一些特定的类型，比如代码对象、整数、浮点数、字符串等。它不能序列化自定义的类实例，也不能序列化一些复杂的内置类型，比如集合（set）和字典（dict）的某些特殊情况。
安全性问题： 这是marshal最严重的问题。marshal模块不提供任何安全性保证。这意味着，如果你反序列化一个来自不可信来源的数据，可能会导致代码注入攻击。

marshal 的安全隐患：代码注入

想象一下，如果有人恶意修改了.pyc文件，或者提供了一个恶意的marshal数据，当你加载它时，就会执行其中的恶意代码。

import marshal
import types

# 构造一个恶意的代码对象
evil_code = compile("import os; os.system('rm -rf /')", '<string>', 'exec') # 绝对不要运行这段代码！

# 将恶意代码对象序列化
evil_data = marshal.dumps(evil_code)

# 写入文件
with open('evil.marshal', 'wb') as f:
    f.write(evil_data)

# 反序列化恶意代码对象 (非常危险！)
with open('evil.marshal', 'rb') as f:
    loaded_evil_code = marshal.load(f)

# 创建并执行恶意函数 (绝对不要运行这段代码！)
evil_function = types.FunctionType(loaded_evil_code, globals())
evil_function()

上面的代码演示了一个简单的代码注入攻击。我们首先使用compile函数创建一个恶意的代码对象，该代码对象会删除系统中的所有文件（这是一个非常危险的操作，绝对不要在你的机器上运行这段代码！）。然后，我们使用marshal.dumps将恶意代码对象序列化，并保存到文件中。最后，我们使用marshal.load从文件中反序列化恶意代码对象，并使用types.FunctionType创建一个新的函数。当我们调用这个函数时，恶意代码就会被执行。

marshal vs pickle：一场安全性与性能的较量

特性	`marshal`	`pickle`
用途	主要用于Python内部，序列化字节码	用于序列化Python对象
类型支持	有限，只能序列化基础类型和代码对象	广泛，可以序列化几乎任何Python对象
安全性	极低，容易受到代码注入攻击	可以提供一定的安全性，但仍然存在安全风险
性能	相对较高，因为只处理字节码	相对较低，因为需要处理更复杂的对象结构
跨版本兼容	很差，不同Python版本之间可能不兼容	相对较好，但仍然需要注意版本兼容性问题
可读性	序列化后的数据不可读	序列化后的数据也不可读，但可以使用`pickletools`查看

总结：marshal 的正确使用姿势

除非你非常清楚自己在做什么，否则不要使用marshal。
永远不要反序列化来自不可信来源的数据。
如果需要序列化Python对象，优先选择pickle或其他更安全的序列化库（如json、protobuf）。
如果必须使用marshal，请务必对数据进行签名或加密，以防止篡改。
时刻关注Python版本的兼容性问题。

安全建议：

输入验证： 在使用marshal.loads()之前，对输入数据进行严格的验证，确保其来源可信。
最小权限原则： 运行反序列化代码时，使用最小权限的用户，限制其访问敏感资源的能力。
代码审查： 对使用marshal的代码进行严格的代码审查，确保没有潜在的安全漏洞。
使用更安全的替代方案： 如果可以，尽量使用更安全的序列化方式，如JSON或Protocol Buffers。
沙箱环境： 在沙箱环境中运行反序列化代码，限制其对系统资源的访问。

额外的代码示例：使用marshal序列化简单数据

import marshal

# 序列化整数
data = 12345
marshaled_data = marshal.dumps(data)
print(f"Marshaled integer: {marshaled_data}")

# 反序列化整数
unmarshaled_data = marshal.loads(marshaled_data)
print(f"Unmarshaled integer: {unmarshaled_data}")

# 序列化字符串
data = "Hello, Marshal!"
marshaled_data = marshal.dumps(data)
print(f"Marshaled string: {marshaled_data}")

# 反序列化字符串
unmarshaled_data = marshal.loads(marshaled_data)
print(f"Unmarshaled string: {unmarshaled_data}")

# 序列化元组
data = (1, 2, "three")
marshaled_data = marshal.dumps(data)
print(f"Marshaled tuple: {marshaled_data}")

# 反序列化元组
unmarshaled_data = marshal.loads(marshaled_data)
print(f"Unmarshaled tuple: {unmarshaled_data}")

# 尝试序列化字典 (可能会失败)
data = {"a": 1, "b": 2}
try:
    marshaled_data = marshal.dumps(data)
    print(f"Marshaled dictionary: {marshaled_data}") #如果能成功序列化，则打印
    unmarshaled_data = marshal.loads(marshaled_data)
    print(f"Unmarshaled dictionary: {unmarshaled_data}")
except ValueError as e:
    print(f"Error marshaling dictionary: {e}")

这个例子展示了如何使用marshal序列化和反序列化一些简单的数据类型，比如整数、字符串和元组。注意，marshal对字典的支持有限，某些情况下可能会失败。

总结：

marshal是一个强大但危险的工具。它在Python内部扮演着重要的角色，但也容易被滥用，导致安全问题。希望今天的讲座能让你对marshal有一个更深入的了解，并在使用它时保持警惕。记住，安全第一！

今天的讲座就到这里，谢谢大家！希望大家以后能小心使用marshal，不要给自己挖坑。下课！

发表回复 取消回复

发表回复取消回复