Python高级技术之：`Python`的`functools.lru_cache`：如何实现高效的函数结果缓存。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

晚上好，各位编程界的靓仔靓女们！今晚咱们来聊聊Python里一个神奇的小工具，它能让你的代码跑得飞快，而且用法简单到不行，这就是functools.lru_cache。

什么是functools.lru_cache？

想象一下，你有一个非常耗时的函数，比如计算斐波那契数列的第N项。如果你多次调用这个函数，每次都重新计算一遍，那简直就是浪费生命啊！lru_cache就像一个聪明的管家，它会记住你函数的结果，下次你再问同样的问题，它直接从记忆里掏出答案，根本不用重新计算。

lru_cache是"Least Recently Used Cache"的缩写，意思是“最近最少使用缓存”。简单来说，它会缓存函数最近使用的结果，当缓存满了之后，它会丢弃最近最少使用的结果，保证缓存的效率。

lru_cache的简单用法：

直接上代码，感受一下它的魔力：

from functools import lru_cache
import time

@lru_cache(maxsize=None)  #maxsize=None，缓存大小无限制
def fibonacci(n):
    """计算斐波那契数列的第n项"""
    if n <= 1:
        return n
    return fibonacci(n-1) + fibonacci(n-2)

start_time = time.time()
print(fibonacci(35))
end_time = time.time()
print(f"第一次计算耗时: {end_time - start_time:.4f} 秒")

start_time = time.time()
print(fibonacci(35))
end_time = time.time()
print(f"第二次计算耗时: {end_time - start_time:.4f} 秒")

运行这段代码，你会发现第一次计算可能需要几秒钟，但第二次几乎是瞬间完成！这就是lru_cache的威力。

lru_cache的参数：

lru_cache接受两个可选参数：

maxsize: 缓存的最大容量。如果设置为None，则缓存大小无限制，这意味着它会缓存所有结果。如果是一个正整数，比如maxsize=128，则缓存最多存储128个不同的结果。当缓存已满时，会丢弃最近最少使用的结果。
typed: 如果设置为True，则会区分参数的类型。例如，fibonacci(3)和fibonacci(3.0)会被认为是不同的调用，并缓存不同的结果。如果设置为False (默认值)，则会将它们视为相同的调用。

举个例子：

from functools import lru_cache

@lru_cache(maxsize=3, typed=True)
def my_function(a, b):
    print(f"计算: a={a}, b={b}")
    return a + b

print(my_function(1, 2))
print(my_function(1.0, 2))
print(my_function(1, 2))
print(my_function(1, 3))
print(my_function(1, 4))
print(my_function(1, 2)) # 缓存已满， (1, 2) 被丢弃后重新计算

这个例子中，maxsize设置为3，typed设置为True。这意味着缓存最多存储3个不同类型的结果，并且会区分参数的类型。你可以观察输出，看看哪些结果被缓存了，哪些又被重新计算了。

lru_cache的原理：

lru_cache内部使用一个字典来存储函数的结果，字典的key是函数的参数，value是函数的结果。当函数被调用时，lru_cache会先检查字典中是否存在对应的key。如果存在，则直接返回缓存的结果；如果不存在，则调用函数计算结果，并将结果存储到字典中。

当缓存已满时，lru_cache会使用LRU (Least Recently Used) 算法来决定丢弃哪个结果。LRU算法会丢弃最近最少使用的结果，保证缓存中存储的都是最常用的结果。

lru_cache的适用场景：

lru_cache非常适合以下场景：

计算密集型函数: 如果你的函数需要进行大量的计算，并且可能会被多次调用相同的参数，那么使用lru_cache可以显著提高性能。
IO密集型函数: 如果你的函数需要进行大量的IO操作，比如读取文件或者访问数据库，那么使用lru_cache可以减少IO操作的次数，提高性能。(注意，对于IO密集型函数，缓存收益可能不如计算密集型函数那么明显)
递归函数: 递归函数经常会重复计算相同的值，使用lru_cache可以避免重复计算，提高效率。比如上面斐波那契数列的例子。
数据获取函数: 如果你的函数用于从某个数据源获取数据，并且数据源的内容变化不频繁，那么使用lru_cache可以减少对数据源的访问，提高性能。

lru_cache的注意事项：

参数必须是可哈希的: lru_cache使用函数的参数作为缓存的key，因此函数的参数必须是可哈希的。这意味着参数必须是不可变类型，比如数字、字符串、元组等。如果参数是可变类型，比如列表或者字典，则无法使用lru_cache。
缓存大小的设置: maxsize参数控制缓存的大小。如果maxsize设置得太小，则缓存的命中率会降低，性能提升不明显。如果maxsize设置得太大，则会占用大量的内存。因此，需要根据实际情况选择合适的maxsize。
副作用: 如果你的函数有副作用，比如修改全局变量或者写入文件，那么使用lru_cache可能会导致意外的结果。因为lru_cache会缓存函数的结果，所以副作用可能只会被执行一次，而不是每次调用函数都执行。
线程安全: lru_cache本身不是线程安全的。如果在多线程环境中使用，需要进行额外的同步处理。

lru_cache的进阶用法：

lru_cache还提供了一些有用的属性和方法，可以帮助你更好地了解缓存的状态：

cache_info(): 返回一个命名元组，包含缓存的命中次数、未命中次数、最大容量和当前容量。
cache_clear(): 清除缓存中的所有结果。

from functools import lru_cache

@lru_cache(maxsize=3)
def my_function(a):
    print(f"计算: a={a}")
    return a * 2

print(my_function(1))
print(my_function(2))
print(my_function(1))
print(my_function(3))

print(my_function.cache_info())

my_function.cache_clear()
print(my_function.cache_info())

运行这段代码，你可以看到cache_info()返回的缓存信息，以及cache_clear()清除缓存的效果。

手动清除缓存的应用场景：

在某些情况下，你可能需要手动清除缓存。例如：

数据源更新: 如果你的函数缓存了从某个数据源获取的数据，而数据源发生了更新，那么你需要清除缓存，以便下次调用函数时能够获取最新的数据。
内存管理: 如果你的程序占用了大量的内存，而缓存占用了其中的一部分，那么你可以手动清除缓存，释放内存。
测试: 在测试过程中，你可能需要清除缓存，以便测试函数在不同情况下的行为。

lru_cache与其他缓存方案的比较：

除了lru_cache之外，还有其他的缓存方案可供选择，比如：

cachetools: 一个功能更强大的缓存库，提供了多种缓存算法和过期策略。
redis / memcached: 分布式缓存系统，可以用于在多个服务器之间共享缓存。

那么，什么时候应该使用lru_cache，什么时候应该使用其他的缓存方案呢？

一般来说，lru_cache适合于以下情况：

简单的缓存需求: 如果你的缓存需求比较简单，只需要一个基本的LRU缓存，那么lru_cache是一个不错的选择。
单进程应用: 如果你的应用是单进程的，那么lru_cache可以直接使用，无需额外的配置。
内存缓存: lru_cache将缓存数据存储在内存中，因此访问速度非常快。

如果你的缓存需求比较复杂，或者需要支持多进程/分布式环境，那么可以考虑使用其他的缓存方案。

总结：

functools.lru_cache是一个简单易用、功能强大的函数结果缓存工具。它可以显著提高函数的执行效率，特别是在计算密集型和IO密集型的场景下。合理地使用lru_cache，可以让你的Python代码跑得更快，更高效！

记住，lru_cache不是银弹，它也有自己的适用场景和局限性。在选择使用lru_cache之前，要仔细评估你的需求，并考虑可能带来的副作用。

希望今晚的讲座能帮助你更好地理解和使用lru_cache。下次再遇到需要缓存函数结果的场景，不妨试试这个神奇的小工具，相信它会给你带来惊喜！

感谢大家的聆听！祝大家编程愉快！下次再见！

发表回复 取消回复

发表回复取消回复