Python高级技术之：`Python`的`pickle`模块：序列化与反序列化的性能和安全性考量。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位亲爱的程序员朋友们，晚上好！我是你们的老朋友，今天咱们来聊聊Python里一个既方便又有点“危险”的模块：pickle。别紧张，我说的“危险”可不是说它会炸，而是指它在安全性方面有一些需要注意的地方。咱们今天就来扒一扒pickle的皮，看看它到底是个什么玩意儿，以及怎么安全又高效地使用它。

一、pickle：让你的Python对象“永生”

首先，我们得搞清楚pickle是干嘛的。简单来说，pickle模块实现了对Python对象结构的序列化和反序列化。啥意思呢？想象一下，你辛辛苦苦创建了一个Python对象，里面存了很多重要的数据。你想把这个对象保存下来，下次再用，怎么办？如果你用传统的方法，比如写到文本文件里，那你就得自己定义一套格式，把对象里的数据一个个提取出来，按照格式写入文件，下次再从文件里读出来，再按照格式解析成对象。听起来就麻烦，对吧？

pickle就厉害了，它能直接把你的Python对象“冻结”起来，变成一串字节流，保存到文件里或者通过网络传输。等你想用的时候，再把这串字节流“解冻”成原来的Python对象。就像给你的对象施了个魔法，让它“永生”了。

1.1 序列化：dump和dumps

pickle模块提供了两个主要的函数用于序列化：

pickle.dump(obj, file): 将Python对象obj序列化到文件file中。
pickle.dumps(obj): 将Python对象obj序列化成一个字节流。

看几个例子：

import pickle

# 定义一个简单的Python对象
data = {
    'name': '小明',
    'age': 18,
    'grades': [90, 85, 92]
}

# 序列化到文件
with open('data.pickle', 'wb') as f:  # 注意要以二进制写入模式打开文件
    pickle.dump(data, f)

# 序列化成字节流
data_bytes = pickle.dumps(data)
print(data_bytes)

代码解释：

我们创建了一个字典data，里面包含了姓名、年龄和成绩。
使用pickle.dump()将data序列化到名为data.pickle的文件中。注意，文件打开模式要用wb，表示以二进制写入。
使用pickle.dumps()将data序列化成一个字节流，并打印出来。

1.2 反序列化：load和loads

与序列化对应，pickle模块也提供了两个主要的函数用于反序列化：

pickle.load(file): 从文件file中反序列化出Python对象。
pickle.loads(bytes): 从字节流bytes中反序列化出Python对象。

继续看例子：

import pickle

# 从文件反序列化
with open('data.pickle', 'rb') as f:  # 注意要以二进制读取模式打开文件
    loaded_data = pickle.load(f)

print(loaded_data)

# 从字节流反序列化
loaded_data_from_bytes = pickle.loads(data_bytes)
print(loaded_data_from_bytes)

代码解释：

使用pickle.load()从data.pickle文件中反序列化出Python对象，并赋值给loaded_data。注意，文件打开模式要用rb，表示以二进制读取。
使用pickle.loads()从字节流data_bytes中反序列化出Python对象，并赋值给loaded_data_from_bytes。
打印loaded_data和loaded_data_from_bytes，可以看到它们和原来的data对象一模一样。

二、pickle的性能考量：速度与空间

pickle虽然方便，但也不是没有缺点的。性能方面，主要有两个考量：速度和空间。

2.1 序列化和反序列化的速度

pickle的序列化和反序列化速度取决于对象的复杂程度。对于简单的数据类型，比如整数、字符串等，速度很快。但对于复杂的对象，比如包含大量嵌套的列表、字典、自定义类等，速度会慢一些。

我们可以做个简单的测试：

import pickle
import time

# 创建一个包含大量数据的列表
data = list(range(1000000))

# 序列化到文件
start_time = time.time()
with open('large_data.pickle', 'wb') as f:
    pickle.dump(data, f)
end_time = time.time()
print(f"序列化到文件耗时: {end_time - start_time:.4f} 秒")

# 从文件反序列化
start_time = time.time()
with open('large_data.pickle', 'rb') as f:
    loaded_data = pickle.load(f)
end_time = time.time()
print(f"从文件反序列化耗时: {end_time - start_time:.4f} 秒")

运行结果会告诉你，序列化和反序列化一个包含一百万个整数的列表需要多少时间。你可以尝试修改列表的大小，看看速度的变化。

2.2 序列化后的大小

pickle序列化后的字节流的大小，也取决于对象的复杂程度。一般来说，对象越复杂，序列化后的字节流就越大。这意味着你需要更多的存储空间来保存序列化后的数据，也需要更长的时间来传输这些数据。

还是上面的例子，我们可以看看序列化后文件的大小：

import os

file_size = os.path.getsize('large_data.pickle')
print(f"序列化后文件大小: {file_size / 1024 / 1024:.2f} MB")

运行结果会告诉你，序列化后的large_data.pickle文件有多大。

2.3 优化pickle性能的一些技巧

使用pickle协议版本: pickle协议有不同的版本，高版本的协议通常更快更高效。你可以在pickle.dump()函数中使用protocol参数来指定协议版本。例如，pickle.dump(data, f, protocol=pickle.HIGHEST_PROTOCOL)会使用最高的协议版本。
避免序列化不必要的数据: 只序列化你需要保存的数据，避免序列化一些临时变量或者不需要的数据。
考虑使用其他序列化库: 如果性能是你的首要考虑，可以考虑使用其他的序列化库，比如json、msgpack等。这些库在某些情况下可能比pickle更快更高效。但是要注意，它们可能不支持所有Python对象类型的序列化。

三、pickle的安全性考量：不要随便“吃”别人给你的pickle！

重点来了！咱们前面说了，pickle有点“危险”，这主要体现在它的安全性方面。

3.1 pickle的安全性漏洞

pickle的反序列化过程，实际上会执行Python代码。这意味着，如果你反序列化了一个来自不可信来源的pickle数据，那么这段数据里可能包含恶意代码，你的程序就会执行这些恶意代码，造成安全问题。

举个例子，假设有人给你发了一个evil.pickle文件，内容如下：

import pickle

class Evil:
    def __reduce__(self):
        import os
        return (os.system, ('rm -rf /',))  # 危险！删除所有文件！

evil_obj = Evil()

with open('evil.pickle', 'wb') as f:
    pickle.dump(evil_obj, f)

这段代码定义了一个Evil类，它的__reduce__方法返回了一个元组，包含了os.system函数和参数('rm -rf /',)。 __reduce__方法是pickle用来序列化对象的，当pickle遇到一个包含__reduce__方法的对象时，它会调用这个方法，并把返回的结果用于序列化。而当pickle反序列化这个对象时，它会执行os.system('rm -rf /')，这意味着你的电脑上的所有文件都会被删除！（当然，这里只是一个例子，实际操作中需要root权限才能删除所有文件。）

如果你不小心执行了以下代码：

import pickle

with open('evil.pickle', 'rb') as f:
    evil_obj = pickle.load(f)

print(evil_obj) # 此处就会触发恶意代码

那么你的电脑就惨了！

3.2 如何避免pickle的安全风险

永远不要反序列化来自不可信来源的pickle数据！ 这是最重要的一条原则。如果你不确定pickle数据的来源，就不要轻易反序列化它。
使用pickle的safe模式: Python 3.8及以上版本提供了一个safe模式，可以限制pickle的反序列化行为，防止执行恶意代码。
使用其他的序列化库: 如果安全性是你的首要考虑，可以考虑使用其他的序列化库，比如json、msgpack等。这些库通常只支持简单的数据类型，不会执行Python代码，因此更安全。

3.3 pickle的安全模式

Python 3.8引入了pickletools.read_unicodes函数，可以用于验证pickle数据是否包含危险的操作码。虽然这不能完全保证安全性，但可以作为一个额外的保护层。

import pickle
import pickletools

def is_safe_pickle(file_path):
    """检查pickle文件是否安全."""
    try:
        with open(file_path, 'rb') as f:
            for opcode in pickletools.genops(f.read()):
                if opcode[0].name in {'GLOBAL', 'REDUCE', 'BUILD'}: # 危险操作码
                    return False
            return True
    except Exception as e:
        print(f"检查pickle文件出错: {e}")
        return False

# 检查evil.pickle是否安全
if is_safe_pickle('evil.pickle'):
    print("evil.pickle 是安全的")
else:
    print("evil.pickle 包含危险操作码！")

这段代码会读取pickle文件，并检查其中是否包含GLOBAL、REDUCE、BUILD等危险的操作码。如果包含，就认为这个pickle文件是不安全的。

四、pickle与其他序列化库的比较

pickle虽然方便，但也不是唯一的选择。 Python还有很多其他的序列化库，比如json、msgpack、marshal等。它们各有优缺点，适用于不同的场景。

序列化库	优点	缺点	适用场景
`pickle`	支持所有Python对象类型的序列化和反序列化。使用简单，方便快捷。	安全性风险高，容易受到恶意代码攻击。性能相对较差，序列化后的数据量较大。	保存Python对象的内部状态，比如机器学习模型、游戏存档等。在信任的环境中，可以方便地保存和加载Python对象。
`json`	跨平台性好，几乎所有编程语言都支持`json`格式。可读性强，易于调试和维护。	只支持基本数据类型的序列化，比如字符串、数字、布尔值、列表、字典等。不支持自定义类和函数的序列化。	数据交换，比如Web API的数据传输。保存配置信息，比如应用程序的配置文件。
`msgpack`	性能高，序列化和反序列化的速度很快。序列化后的数据量小，节省存储空间和传输带宽。	跨平台性不如`json`，需要安装`msgpack`库。可读性较差，不易于调试和维护。	对性能要求高的场景，比如游戏服务器、实时数据处理等。需要节省存储空间和传输带宽的场景，比如移动应用、物联网设备等。
`marshal`	Python内置的序列化库，无需安装。性能高，序列化和反序列化的速度很快。	只适用于Python内部使用，不保证跨版本兼容性。不支持自定义类和函数的序列化。	Python内部使用，比如`pyc`文件的生成。

五、总结

今天我们深入探讨了pickle模块，包括它的基本用法、性能考量和安全性风险。总结一下：

pickle是一个方便的Python对象序列化和反序列化工具。
使用pickle要注意性能问题，可以通过选择合适的协议版本和避免序列化不必要的数据来优化性能。
pickle的安全性风险很高，永远不要反序列化来自不可信来源的pickle数据。可以使用safe模式或者其他的序列化库来提高安全性。
选择合适的序列化库取决于你的具体需求，比如跨平台性、性能、安全性等。

希望今天的讲座对大家有所帮助。记住，编程世界里没有银弹，选择合适的工具，并了解它的优缺点，才能写出安全又高效的代码。

祝大家编程愉快！下次再见！

发表回复 取消回复

发表回复取消回复