Python `pickle` 反序列化漏洞：远程代码执行与防御 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位朋友们，欢迎来到今天的“Python Pickle反序列化漏洞：远程代码执行与防御”主题讲座。今天咱们不搞虚的，直接上干货，用最通俗易懂的方式，把这个听起来高大上的漏洞扒个精光。

开场白：Pickle，你这浓眉大眼的也叛变了？

首先，让我们来认识一下今天的主角——pickle。在Python的世界里，pickle 模块就像一位勤劳的搬运工，负责将Python对象（比如列表、字典、自定义类实例）转换成字节流，方便存储到文件或者通过网络传输。这个过程叫做序列化（Serialization），反过来，把字节流还原成Python对象，就叫做反序列化（Deserialization）。

一般来说，序列化和反序列化本身是很正常的行为。但问题就出在，pickle 在反序列化的时候，有点“过于信任”了。它会忠实地执行字节流中包含的指令，而这些指令里，可能就藏着坏家伙精心设计的恶意代码。

所以，咱们今天要聊的，就是当 pickle 遇上心怀不轨的黑客，会发生怎样惨绝人寰的故事。

第一幕：漏洞原理大揭秘——Pickle是如何被“调包”的？

要理解 pickle 的漏洞，我们需要先简单了解一下它的工作原理。 pickle 使用一种基于栈的虚拟机来执行反序列化操作。字节流实际上是一系列的操作码，告诉虚拟机如何创建对象、设置属性、调用函数等等。

其中，有两个操作码尤其值得注意：

__reduce__：这是一个魔术方法，允许对象自定义序列化和反序列化的行为。如果一个对象定义了 __reduce__ 方法，pickle 在反序列化时就会调用它。
system（在某些环境下）：虽然 pickle 本身没有直接提供执行系统命令的操作码，但结合 __reduce__ 方法，我们可以间接地调用 os.system 或 subprocess.call 之类的函数，从而执行任意系统命令。

举个栗子：

假设我们有以下代码：

import pickle
import os

class Exploit:
    def __reduce__(self):
        return (os.system, ('ls -l',))  # 执行 'ls -l' 命令

# 序列化
exploit_object = Exploit()
pickled_data = pickle.dumps(exploit_object)

# 反序列化 (危险！)
# os.system('rm -rf /')  # 假设黑客替换了 ls -l，后果不堪设想
unpickled_object = pickle.loads(pickled_data)

print(unpickled_object) # 这里实际上会执行 ls -l 命令

在这个例子中，Exploit 类定义了 __reduce__ 方法，返回一个元组，第一个元素是 os.system 函数，第二个元素是要传递给 os.system 的参数 ('ls -l',)。当 pickle.loads 反序列化这个对象时，它会调用 __reduce__ 方法，进而执行 os.system('ls -l')，屏幕上就会显示当前目录的文件列表。

更危险的情况：

如果黑客把 'ls -l' 替换成 'rm -rf /'（高危操作，请勿模仿！），那你的整个系统就GG了。

第二幕：漏洞利用的N种姿势——黑客的常用套路

有了理论基础，我们再来看看黑客是如何利用 pickle 漏洞的。

恶意Pickle文件： 黑客可以构造一个包含恶意代码的 pickle 文件，诱骗用户下载并反序列化。比如，伪装成一个看似无害的图片、文档，或者一个“优化”过的配置文件。
Web应用： 在Web应用中，如果用户可以上传 pickle 文件，或者Web应用使用 pickle 来处理用户提交的数据，黑客就有机可乘。
网络传输： 如果应用程序通过网络传输 pickle 数据，而没有进行适当的验证和安全措施，黑客可以截获并篡改数据，插入恶意代码。

一些常见的攻击场景：

场景	攻击方式	危害
Web应用上传	用户上传包含恶意代码的pickle文件，服务器反序列化执行	远程代码执行，服务器被控制
缓存系统	攻击者将恶意pickle数据存储到缓存中，其他服务读取并反序列化	影响其他服务，导致代码执行
API接口	API接口接收pickle数据，未进行验证直接反序列化	远程代码执行，服务器被控制，数据泄露
机器学习模型存储	将恶意代码注入到机器学习模型的pickle文件中，加载模型时执行	攻击者可以控制加载模型的系统，窃取数据或进行其他恶意操作
分布式任务队列	任务队列中存储pickle格式的任务，攻击者可以注入恶意任务	远程代码执行，影响任务队列的正常运行

第三幕：防御之道——如何保护你的代码和数据？

既然 pickle 这么危险，那我们该如何保护自己呢？别慌，办法总是有的。

永远不要反序列化来自不受信任来源的数据！ 这是最重要的原则！就像不要随便吃陌生人给的糖果一样。如果必须处理来自外部的数据，请务必进行严格的验证和过滤。
使用更安全的序列化方式： pickle 不是唯一的选择。json、protobuf、msgpack 等序列化格式更加安全，因为它们不具备执行任意代码的能力。当然，选择哪种序列化方式取决于你的具体需求。

如果必须使用 pickle，请使用 hmac 进行签名验证： 在序列化数据时，使用密钥对数据进行签名。在反序列化之前，验证签名是否有效。这样可以防止数据被篡改。

import pickle
import hmac
import hashlib

# 密钥 (请务必使用强密钥，并妥善保管！)
SECRET_KEY = b'ThisIsASecretKey'

def serialize_data(data):
    pickled_data = pickle.dumps(data)
    signature = hmac.new(SECRET_KEY, pickled_data, hashlib.sha256).hexdigest()
    return {'data': pickled_data, 'signature': signature}

def deserialize_data(serialized_data):
    pickled_data = serialized_data['data']
    signature = serialized_data['signature']

    # 验证签名
    expected_signature = hmac.new(SECRET_KEY, pickled_data, hashlib.sha256).hexdigest()
    if not hmac.compare_digest(signature, expected_signature):
        raise ValueError('Invalid signature!')

    return pickle.loads(pickled_data)

# 示例
data = {'name': 'Alice', 'age': 30}
serialized = serialize_data(data)
deserialized = deserialize_data(serialized)
print(deserialized)

# 尝试篡改数据 (会抛出 ValueError)
# serialized['data'] = b'malicious data'
# deserialized = deserialize_data(serialized)

hmac.compare_digest() 函数用于安全地比较签名，防止时序攻击。

使用白名单机制： 可以自定义一个 Unpickler 类，重写 find_class 方法，只允许反序列化特定的类。

import pickle
import os

ALLOWED_CLASSES = {'__main__': ['MyClass']}  # 只允许反序列化 MyClass 类

class RestrictedUnpickler(pickle.Unpickler):
    def find_class(self, module, name):
        # 检查是否在白名单中
        if module in ALLOWED_CLASSES and name in ALLOWED_CLASSES[module]:
            return super().find_class(module, name)
        else:
            raise pickle.UnpicklingError(f"Forbidden class: {module}.{name}")

class MyClass:
    def __init__(self, value):
        self.value = value

    def __repr__(self):
        return f"MyClass(value={self.value})"

def restricted_loads(data):
    return RestrictedUnpickler(io.BytesIO(data)).load()

# 示例
obj = MyClass(123)
pickled_data = pickle.dumps(obj)

# 反序列化 (安全)
import io
deserialized_obj = restricted_loads(pickled_data)
print(deserialized_obj)

# 尝试反序列化其他类 (会抛出 pickle.UnpicklingError)
class EvilClass:
    def __reduce__(self):
        return (os.system, ('ls -l',))

evil_obj = EvilClass()
evil_pickled_data = pickle.dumps(evil_obj)

try:
    deserialized_evil_obj = restricted_loads(evil_pickled_data)
except pickle.UnpicklingError as e:
    print(f"Error: {e}")

请注意，这种方法并不能完全阻止攻击，因为攻击者仍然可能利用白名单中的类来执行恶意操作。所以，要结合其他安全措施一起使用。

使用dill库进行序列化: dill库是pickle库的扩展，它允许序列化更多的Python对象，比如lambda函数和内部类。然而，与pickle一样，dill也存在安全风险，因为它也能够执行任意代码。在使用dill时，务必小心处理不受信任的输入数据。
监控和日志： 实施适当的监控和日志记录，以便及时发现和响应潜在的攻击。例如，可以监控反序列化操作的频率和来源，以及异常行为。

第四幕：案例分析——从真实世界中汲取教训

光说不练假把式，我们来看几个真实世界中的 pickle 漏洞案例，加深理解。

CVE-2019-9740 (Jupyter Notebook): Jupyter Notebook 存在一个 pickle 反序列化漏洞，攻击者可以构造恶意的 Notebook 文件，在用户打开时执行任意代码。
一些机器学习框架： 很多机器学习框架使用 pickle 来保存和加载模型。如果模型文件被篡改，攻击者就可以控制加载模型的系统。

总结：安全意识，永不过时

pickle 反序列化漏洞是一个老生常谈的话题，但仍然时不时地出现在各种应用中。究其原因，还是安全意识不够强。记住，永远不要信任来自外部的数据，时刻保持警惕，才能有效地防范此类攻击。

最后的忠告：

pickle 虽好，可不要贪杯哦！
安全第一，代码第二！
持续学习，拥抱变化！

好了，今天的讲座就到这里。希望大家有所收获，也希望大家在今后的开发工作中，能够更加重视安全问题，写出更加健壮、可靠的代码。谢谢大家！

发表回复 取消回复

发表回复取消回复