Python `pickle` 反序列化漏洞：远程代码执行与防御 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位听众，欢迎来到今天的“Python pickle 反序列化漏洞：远程代码执行与防御”讲座。今天咱们不讲那些高深的理论，就来聊聊这个pickle，一个看似人畜无害，实则暗藏杀机的模块。我会尽量用大白话，加上生动的例子，保证大家听完之后，能对这个漏洞有个清晰的认识，并且知道该如何防范。

一、什么是 pickle？它为什么这么受欢迎？

首先，pickle 是 Python 的一个标准库，它的主要功能是序列化和反序列化 Python 对象。

序列化 (Pickling): 简单来说，就是把 Python 对象（比如列表、字典、类实例等）转换成一种可以存储或传输的字节流。你可以想象成把一个复杂的玩具拆成零件，打包起来。
反序列化 (Unpickling): 就是把这个字节流还原成原来的 Python 对象。相当于把打包好的玩具零件重新组装起来。

为什么 pickle 这么受欢迎？原因很简单：

方便快捷： 可以轻松地保存和加载 Python 对象，不用自己写复杂的代码来处理对象的存储和读取。
支持多种类型： 支持几乎所有 Python 对象类型，包括自定义类。
Python 内置： 不需要安装额外的库，直接就可以用。

来看个简单的例子：

import pickle

# 创建一个字典
data = {
    'name': 'Alice',
    'age': 30,
    'city': 'New York'
}

# 序列化到文件
with open('data.pickle', 'wb') as f:
    pickle.dump(data, f)

# 从文件反序列化
with open('data.pickle', 'rb') as f:
    loaded_data = pickle.load(f)

print(loaded_data)  # 输出: {'name': 'Alice', 'age': 30, 'city': 'New York'}

这段代码演示了如何使用 pickle 将一个字典序列化到文件，然后再从文件中反序列化出来。是不是很简单？

二、pickle 的甜蜜陷阱：远程代码执行漏洞

好了，铺垫了这么多，终于要说到重点了。pickle 虽然方便，但它最大的问题是：不安全！

pickle 在反序列化的时候，会执行字节流中包含的 Python 代码。这意味着，如果有人构造了一个恶意的 pickle 文件，你用 pickle.load() 去加载它，就会执行这段恶意代码，从而导致远程代码执行 (Remote Code Execution, RCE)。

你可以想象一下，有人给你一个 pickle 格式的“礼物”，你打开一看，结果里面不是惊喜，而是一个病毒！

为什么会这样？因为 pickle 在反序列化的时候，会调用一些特殊的函数来创建对象，比如 __reduce__。如果一个类定义了 __reduce__ 方法，pickle 在序列化该类的实例时，会调用这个方法。而在反序列化的时候，pickle 会根据 __reduce__ 方法的返回值来创建对象。

如果攻击者能够控制 __reduce__ 方法的返回值，就可以让 pickle 执行任意代码。

举个例子，下面是一个简单的 PoC (Proof of Concept) 代码，演示了如何利用 pickle 执行系统命令：

import pickle
import base64

class Exploit:
    def __reduce__(self):
        import os
        return (os.system, ('ls -l',)) # 执行 'ls -l' 命令

# 创建 Exploit 类的实例
exploit = Exploit()

# 序列化 exploit 对象
serialized_data = pickle.dumps(exploit)

# 将序列化的数据编码为 base64，方便传输
base64_data = base64.b64encode(serialized_data).decode()

print("Payload (base64):", base64_data)

# 模拟接收端，从 base64 解码并反序列化
# 注意：这段代码千万不要在生产环境运行！
import base64
import pickle

# 假设我们收到了 base64 编码的数据
received_data = base64_data

# 解码 base64 数据
decoded_data = base64.b64decode(received_data)

# 反序列化数据
try:
    pickle.loads(decoded_data)
except Exception as e:
    print(f"Error during deserialization: {e}")

这段代码做了什么？

定义了一个 Exploit 类，这个类重写了 __reduce__ 方法。__reduce__ 方法返回一个元组，第一个元素是要调用的函数（这里是 os.system），第二个元素是函数的参数（这里是 'ls -l' 命令）。
创建 Exploit 类的实例，并使用 pickle.dumps() 将其序列化。
将序列化的数据使用base64编码，方便传输。
在接收端，使用 pickle.loads() 反序列化数据。由于 Exploit 类定义了 __reduce__ 方法，pickle 在反序列化时会调用 os.system('ls -l')，从而执行系统命令。

重要提示： 这段代码只是一个演示，千万不要在生产环境运行！否则可能会造成严重的后果。

三、pickle 漏洞的常见场景

pickle 漏洞在哪些场景下比较常见呢？

Web 应用： 如果 Web 应用允许用户上传 pickle 文件，或者从 Cookie 中反序列化数据，就可能存在 pickle 漏洞。
RPC (Remote Procedure Call)： 如果使用 pickle 作为 RPC 的序列化方式，攻击者可以构造恶意的 pickle 数据，从而在服务器端执行任意代码。
机器学习： 很多机器学习模型使用 pickle 来保存和加载。如果加载了来自不可信来源的模型，就可能存在安全风险。
任务队列 (Task Queue)： 比如 Celery，如果使用 pickle 作为任务的序列化方式，也可能存在 pickle 漏洞。

四、如何防御 pickle 漏洞？

既然 pickle 这么危险，那我们该如何防御呢？

永远不要反序列化来自不可信来源的数据！ 这是最重要的一点。如果你的应用需要处理序列化数据，一定要确保数据的来源是可信的。
使用更安全的序列化方式： 比如 JSON。JSON 只能序列化基本的数据类型，不能执行任意代码，因此更加安全。
如果必须使用 pickle，可以考虑使用 restricted unpickling： 限制 pickle 可以调用的函数。但这需要对 pickle 的内部机制有深入的了解，配置起来比较复杂。
使用签名验证： 对序列化的数据进行签名，确保数据没有被篡改。
代码审计： 定期对代码进行安全审计，发现潜在的 pickle 漏洞。

下面是一个表格，总结了各种防御方法的优缺点：

防御方法	优点	缺点	适用场景
不反序列化不可信数据	最简单有效	限制了应用的功能	所有场景
使用更安全的序列化方式 (JSON)	安全性高，易于理解和使用	只能序列化基本数据类型，不能序列化复杂的 Python 对象	不需要序列化复杂 Python 对象，只需要传输简单数据
`restricted unpickling`	可以在一定程度上限制 `pickle` 的行为	配置复杂，需要对 `pickle` 的内部机制有深入的了解，容易出错	必须使用 `pickle`，但又想提高安全性
签名验证	可以检测数据是否被篡改	需要维护密钥，增加了复杂性	需要确保数据没有被篡改
代码审计	可以发现潜在的漏洞	需要专业的安全人员，成本较高	所有场景，尤其是大型项目

五、替代方案：json，marshal，protobuf

既然 pickle 这么危险，那么有没有其他更安全的序列化方式呢？当然有！

JSON (JavaScript Object Notation): 是一种轻量级的数据交换格式，易于阅读和编写，也易于机器解析和生成。JSON 只能序列化基本的数据类型，比如字符串、数字、布尔值、列表、字典等，不能执行任意代码，因此更加安全。

import json

data = {
    'name': 'Alice',
    'age': 30,
    'city': 'New York'
}

# 序列化到字符串
json_data = json.dumps(data)
print(json_data)  # 输出: {"name": "Alice", "age": 30, "city": "New York"}

# 从字符串反序列化
loaded_data = json.loads(json_data)
print(loaded_data)  # 输出: {'name': 'Alice', 'age': 30, 'city': 'New York'}

marshal: 是 Python 内置的另一个序列化模块。与 pickle 相比，marshal 的速度更快，但它只能序列化一部分 Python 对象，而且它的格式是不稳定的，不同版本的 Python 可能会有不同的格式。marshal 也存在安全问题，不建议用于处理来自不可信来源的数据。

Protocol Buffers (protobuf): 是 Google 开发的一种语言无关、平台无关、可扩展的序列化协议。protobuf 的性能很高，而且支持多种语言。protobuf 需要先定义数据的结构，然后再根据结构生成序列化和反序列化的代码。

# 需要先安装 protobuf 库: pip install protobuf

# 假设我们有一个 person.proto 文件，定义了 Person 消息
# 请参考 protobuf 的官方文档来创建 .proto 文件

import person_pb2  # 假设我们已经根据 person.proto 生成了 person_pb2.py 文件

# 创建 Person 对象
person = person_pb2.Person()
person.name = "Alice"
person.id = 123
person.email = "[email protected]"

# 序列化到字符串
serialized_data = person.SerializeToString()

# 反序列化
new_person = person_pb2.Person()
new_person.ParseFromString(serialized_data)

print(new_person.name)  # 输出: Alice

六、真实案例分析

为了让大家更直观地了解 pickle 漏洞的危害，我们来看几个真实的案例：

CVE-2019-1010204： 这是一个 Jenkins 的漏洞，攻击者可以利用 pickle 反序列化漏洞，在 Jenkins 服务器上执行任意代码。
Pickle RCE in PyTorch Distributed Training: 一些研究表明，在分布式训练中，如果使用不安全的 pickle 反序列化，可能会导致远程代码执行。

这些案例告诉我们，pickle 漏洞不仅仅是理论上的威胁，而是真实存在的，并且可能造成严重的后果。

七、总结

今天我们深入探讨了 Python pickle 反序列化漏洞，了解了它的原理、常见场景、防御方法和替代方案。希望大家能够记住以下几点：

pickle 很方便，但也很危险。
永远不要反序列化来自不可信来源的数据。
尽量使用更安全的序列化方式，比如 JSON 或 protobuf。
定期进行代码安全审计，发现潜在的漏洞。

记住，安全无小事。只有时刻保持警惕，才能有效地防范 pickle 漏洞，保护我们的系统安全。

好了，今天的讲座就到这里。谢谢大家！有什么问题可以提问。

发表回复 取消回复

发表回复取消回复