Python高级技术之：`Python`的对象缓存机制：`int`和`str`的内部实现。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众老爷们，晚上好！我是你们今晚的Python老司机，今天咱们聊点硬核的——Python对象缓存机制，重点是int和str这两个常用的家伙。保证让你们听完之后，感觉自己对Python的了解又深入了一层，以后面试的时候也能多吹两句牛皮。

开场白：一切皆对象，缓存是王道

在Python的世界里，一切皆对象。数字是对象，字符串是对象，列表是对象，函数也是对象。既然是对象，那就要占用内存。如果每次都创建新的对象，那内存消耗可就大了去了。所以，Python为了提高效率，搞了一个对象缓存机制，简单来说就是把一些常用的对象缓存起来，下次要用的时候直接拿来用，不用重新创建。

第一幕：小整数池（Integer Cache）

咱们先从int开始。Python对小整数（通常是-5到256）做了特殊的处理，放到了一个叫做“小整数池”的地方。这个池子里的整数对象是预先创建好的，程序运行期间永远存在，不会被垃圾回收。

为什么要有这个小整数池呢？因为在实际编程中，这些小整数经常被用到，比如循环计数、数组索引等等。如果每次都创建新的对象，效率就太低了。

a = 1
b = 1

print(a is b)  # 输出 True

c = 257
d = 257

print(c is d)  # 输出 False (通常情况下)

e = -5
f = -5

print(e is f)  # 输出 True

看到没？a is b返回True，说明a和b指向的是同一个对象。而c is d返回False，说明c和d指向的是不同的对象。这是因为257超出了小整数池的范围。

注意： 小整数池的范围在不同的Python版本中可能略有不同，但通常都是包含-5到256。

底层实现：窥探CPython的源码

如果你想更深入地了解小整数池的实现，可以看看CPython的源码（Objects/longobject.c）。你会发现，Python在初始化的时候就预先创建了这些小整数对象，并把它们放到了一个数组里。每次需要用到小整数的时候，就直接从这个数组里取。

虽然直接看源码有点枯燥，但是当你真正理解了底层实现之后，就会对Python的运行机制有更深刻的理解。

第二幕：字符串驻留（String Interning）

接下来，咱们聊聊str。Python也有类似的缓存机制，叫做“字符串驻留”。字符串驻留是指，对于一些符合特定规则的字符串，Python只会保留一份拷贝，多个变量指向同一份拷贝。

哪些字符串会进行驻留呢？通常是以下几种：

编译时常量字符串： 在编译时就能确定值的字符串，比如"hello"。
短字符串： 长度较短的字符串，具体长度限制取决于Python的实现。通常短于20个字符。
只包含字母、数字或下划线的字符串： 如果字符串中包含其他字符（比如空格、标点符号），通常不会进行驻留。

s1 = "hello"
s2 = "hello"

print(s1 is s2)  # 输出 True

s3 = "hello world"
s4 = "hello world"

print(s3 is s4)  # 输出 False (通常情况下)

s5 = "hello_world123"
s6 = "hello_world123"

print(s5 is s6) # 输出 True

s7 = "hello!"
s8 = "hello!"

print(s7 is s8) # 输出 False

可以看到，s1和s2指向的是同一个对象，而s3和s4指向的是不同的对象。s5和s6 指向的是同一个对象， s7和s8指向的是不同的对象。这是因为"hello"是编译时常量字符串，而"hello world"包含了空格，"hello!" 包含了!。

手动驻留：sys.intern()

如果你想手动对字符串进行驻留，可以使用sys.intern()函数。这个函数会强制把字符串放到字符串驻留池中。

import sys

s9 = "hello world"
s10 = "hello world"

print(s9 is s10)  # 输出 False

s11 = sys.intern("hello world")
s12 = sys.intern("hello world")

print(s11 is s12)  # 输出 True
print(s9 is s11) # 输出 False

可以看到，通过sys.intern()函数，我们可以把s11和s12指向同一个对象。但是注意，s9 仍然指向原来的对象。

适用场景：字符串驻留的用处

字符串驻留可以有效地节省内存，特别是当程序中大量使用相同的字符串时。比如，在处理文本数据时，如果有很多重复的单词，就可以使用字符串驻留来减少内存占用。

另一个典型的应用场景是字典的键。字典的键必须是不可变的，字符串是很常用的键类型。如果对键进行驻留，可以提高字典的查找效率。

第三幕：intern机制的底层原理

字符串驻留的底层实现稍微复杂一些。CPython维护了一个字符串驻留池（intern pool），这个池子是一个哈希表，用来存储已经驻留的字符串。

当我们创建一个新的字符串时，Python会先检查这个字符串是否已经在驻留池中。如果在，就直接返回驻留池中的字符串对象；如果不在，就创建一个新的字符串对象，并把它添加到驻留池中。

字符串拼接的坑：性能优化

在Python中，字符串是不可变的。这意味着每次对字符串进行拼接操作，都会创建一个新的字符串对象。如果频繁地进行字符串拼接，会产生大量的临时对象，影响程序的性能。

s = ""
for i in range(10000):
    s += "a"  # 效率很低

上面的代码效率很低，因为每次循环都会创建一个新的字符串对象。更好的做法是使用join()方法：

s = "".join(["a" for i in range(10000)])  # 效率更高

join()方法会先计算出最终字符串的长度，然后一次性地分配内存，避免了频繁创建临时对象。

结论：了解缓存机制，写出更高效的代码

Python的对象缓存机制是一个很有用的特性，可以有效地提高程序的性能和减少内存占用。了解这个机制，可以帮助我们写出更高效的Python代码。

总结一下：

特性	对象类型	范围/条件	作用
小整数池	`int`	通常是-5到256	避免重复创建常用的小整数对象
字符串驻留	`str`	编译时常量字符串、短字符串、特定字符组合	避免重复创建相同的字符串对象
`sys.intern()`	`str`	任意字符串	手动将字符串添加到字符串驻留池，实现共享

面试技巧：如何优雅地回答相关问题

面试官：你知道Python的对象缓存机制吗？

你：当然知道！Python为了提高性能，对一些常用的对象进行了缓存。比如，小整数池会缓存-5到256之间的整数，字符串驻留池会缓存一些符合特定规则的字符串。这样可以避免重复创建相同的对象，节省内存，提高效率。我还可以用sys.intern()函数手动对字符串进行驻留。

面试官：字符串拼接应该注意什么？

你：字符串拼接应该尽量避免使用+=操作符，因为字符串是不可变的，每次拼接都会创建一个新的字符串对象。更好的做法是使用join()方法，它可以一次性地分配内存，避免频繁创建临时对象。

彩蛋：intern机制的副作用

虽然intern机制可以提高性能，但也有一些副作用。

首先，它会增加内存占用。因为驻留池中的字符串对象永远不会被垃圾回收，即使程序不再使用它们。

其次，它可能会导致一些意想不到的结果。比如，两个看起来相同的字符串，可能因为是否经过驻留而导致is运算符的结果不同。

因此，在使用intern机制时，需要权衡利弊，根据实际情况选择合适的策略。

结束语：代码之外的思考

好了，今天的Python对象缓存机制就讲到这里。希望大家能够从中学到一些东西，以后写Python代码的时候，可以更加游刃有余。记住，代码不仅仅是写出来的，更是思考出来的。理解底层的运行机制，才能写出真正高效、优雅的代码。

下次有机会，咱们再聊聊其他的Python高级特性。各位晚安！

发表回复 取消回复

发表回复取消回复