Python高级技术之：`Python`的`profiling`工具：`cProfile`和`line_profiler`的深度实践。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位靓仔靓女们，今天老衲要跟大家聊聊Python的性能优化秘籍——cProfile和line_profiler。别怕，性能优化听起来很高大上，其实就是给你的代码做个CT，看看哪里出了问题，然后对症下药，让它跑得飞起。

开场白：性能优化这档事儿

话说江湖上流传着这么一句话：“程序猿的一生，不是在写Bug，就是在Debug，或者是在解决性能问题。” 性能问题啊，就像你吃火锅，吃到最后发现锅底全是辣椒一样，不解决，难受！

那为啥要关注性能呢？

用户体验至上: 没人喜欢加载半天都出不来的网页或者App吧？
省钱就是赚钱: 服务器资源也是要花钱的，代码跑得快，就能省下大笔银子。
代码逼格更高: 优化过的代码，就像精心打扮过的你，更吸引人。

所以，磨刀不误砍柴工，掌握性能优化的工具，绝对是程序猿的必备技能。

第一章：`cProfile`——全局扫描仪

cProfile是Python自带的一个模块，它能帮你从宏观上了解代码的性能瓶颈。它就像一个全局扫描仪，告诉你每个函数被调用了多少次，花费了多少时间。

1.1 cProfile的基本用法

cProfile的使用非常简单，只需几行代码就能搞定。

1.1.1 命令行模式

这是最常用的方式，直接在命令行里运行你的脚本，并生成性能报告。

python -m cProfile -o profile_output.prof your_script.py

-m cProfile: 告诉Python用cProfile模块来运行脚本。
-o profile_output.prof: 指定将性能数据保存到profile_output.prof文件中。
your_script.py: 你的Python脚本。

运行完之后，你会得到一个.prof文件，但这玩意儿人看不懂，需要用pstats模块来解析。

1.1.2 代码嵌入模式

有时候，你只想对代码的某一部分进行分析，就可以直接在代码里使用cProfile。

import cProfile
import pstats

def your_function():
    # 这里是你的代码
    pass

with cProfile.Profile() as pr:
    your_function()

stats = pstats.Stats(pr)
stats.sort_stats(pstats.SortKey.TIME)  # 按运行时间排序
stats.print_stats()

这种方式更灵活，可以精确控制分析的代码范围。

1.2 解读cProfile报告

cProfile的报告看起来有点吓人，但只要掌握了关键信息，就能轻松应对。

ncalls: 函数被调用的次数。
tottime: 函数内部（不包括子函数调用）消耗的总时间。
percall: tottime除以ncalls，即每次调用函数自身消耗的平均时间。
cumtime: 函数内部（包括子函数调用）消耗的总时间。
percall: cumtime除以ncalls，即每次调用函数（包括子函数）消耗的平均时间。
filename:lineno(function): 函数所在的文件名、行号和函数名。

举个栗子：

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.001    0.001    0.005    0.005 your_script.py:5(your_function)
      100    0.002    0.000    0.002    0.000 your_script.py:8(inner_function)
        1    0.002    0.002    0.002    0.002 your_script.py:11(another_function)

从这个报告可以看出：

your_function被调用了1次，自身消耗了0.001秒，包括子函数共消耗了0.005秒。
inner_function被调用了100次，每次自身消耗了0.000秒。
another_function被调用了1次，自身消耗了0.002秒。

1.3 cProfile的局限性

cProfile虽然强大，但也有一些不足：

只能看到函数级别的性能数据: 无法精确到每一行代码。
对I/O操作不太敏感: 对于I/O密集型的程序，cProfile可能无法准确反映性能瓶颈。
有一定的性能开销: 会稍微影响程序的运行速度，所以不建议在生产环境中使用。

第二章：`line_profiler`——代码行级别的侦察兵

line_profiler是一个第三方库，它能精确到每一行代码的执行时间，让你对代码的性能了如指掌。它就像一个代码行级别的侦察兵，能告诉你哪一行代码最耗时。

2.1 line_profiler的安装

pip install line_profiler

安装完成后，还需要安装一个IPython的扩展：

pip install ipython

2.2 line_profiler的基本用法

2.2.1 代码标注

在使用line_profiler之前，需要在代码中用@profile装饰器来标记要分析的函数。注意，这个@profile装饰器不需要import，line_profiler会自动识别。

@profile
def your_function():
    # 这里是你的代码
    pass

2.2.2 运行kernprof.py

使用kernprof.py脚本来运行你的代码，并生成性能报告。

kernprof -l your_script.py

-l: 告诉kernprof.py使用line_profiler来分析代码。
your_script.py: 你的Python脚本。

运行完之后，会生成一个.lprof文件，这个文件也是人看不懂的，需要用line_profiler的工具来解析。

2.2.3 查看报告

使用line_profiler的line_profiler命令来查看报告。

python -m line_profiler your_script.py.lprof

2.3 解读line_profiler报告

line_profiler的报告非常详细，每一行代码的执行时间都一清二楚。

Line #: 代码行号。
Hits: 代码行被执行的次数。
Time: 代码行总的执行时间（单位是微秒）。
Per Hit: 代码行每次执行的平均时间（单位是微秒）。
% Time: 代码行执行时间占总时间的百分比。
Line Contents: 代码行的内容。

举个栗子：

Timer unit: 1e-06 s

Total time: 0.005026 s
File: your_script.py
Function: your_function at line 10

Line #      Hits         Time  Per Hit   % Time  Line Contents
==============================================================
    10                                           @profile
    11                                           def your_function():
    12         1          2.0      2.0      0.0      x = 1
    13       100        100.0      1.0      2.0      for i in range(100):
    14       100       4924.0     49.2     98.0          y = i * i

从这个报告可以看出：

第12行代码被执行了1次，消耗了2微秒。
第13行代码被执行了100次，消耗了100微秒。
第14行代码被执行了100次，消耗了4924微秒，占总时间的98%，是性能瓶颈所在。

2.4 line_profiler的优势

精确到代码行级别: 能精确定位性能瓶颈。
使用简单: 只需添加@profile装饰器。
报告详细: 提供丰富的性能数据。

2.5 line_profiler的局限性

需要安装第三方库: 不如cProfile方便。
有一定的性能开销: 会稍微影响程序的运行速度，所以不建议在生产环境中使用。
只支持单线程: 对于多线程程序，line_profiler可能无法准确反映性能瓶颈。

第三章：实战演练

光说不练假把式，下面我们来通过一个实际的例子，演示如何使用cProfile和line_profiler进行性能优化。

3.1 问题描述

假设我们有一个函数，用于计算斐波那契数列的前n项和。

def fibonacci_sum(n):
    a, b = 0, 1
    total = 0
    for _ in range(n):
        total += a
        a, b = b, a + b
    return total

现在我们需要计算斐波那契数列的前100000项和，看看性能如何。

result = fibonacci_sum(100000)
print(result)

3.2 使用cProfile分析

首先，我们使用cProfile来分析这个函数的性能。

python -m cProfile -o fibonacci.prof fibonacci.py

然后，查看报告：

python -m pstats fibonacci.prof

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.011    0.011    0.011    0.011 fibonacci.py:1(fibonacci_sum)

从报告可以看出，fibonacci_sum函数被调用了1次，消耗了0.011秒。看起来还不错，但我们想知道这个函数内部的哪一部分最耗时。

3.3 使用line_profiler分析

接下来，我们使用line_profiler来分析这个函数的性能。

首先，在代码中添加@profile装饰器：

@profile
def fibonacci_sum(n):
    a, b = 0, 1
    total = 0
    for _ in range(n):
        total += a
        a, b = b, a + b
    return total

然后，运行kernprof.py：

kernprof -l fibonacci.py

最后，查看报告：

python -m line_profiler fibonacci.py.lprof

Timer unit: 1e-06 s

Total time: 0.01134 s
File: fibonacci.py
Function: fibonacci_sum at line 1

Line #      Hits         Time  Per Hit   % Time  Line Contents
==============================================================
     1                                           @profile
     2                                           def fibonacci_sum(n):
     3         1          1.0      1.0      0.0      a, b = 0, 1
     4         1          1.0      1.0      0.0      total = 0
     5    100001       2565.0      0.0     22.6      for _ in range(n):
     6    100000       3691.0      0.0     32.6          total += a
     7    100000       5082.0      0.1     44.8          a, b = b, a + b
     8         1          0.0      0.0      0.0      return total

从报告可以看出：

第5行（for _ in range(n):）消耗了2565微秒，占总时间的22.6%。
第6行（total += a）消耗了3691微秒，占总时间的32.6%。
第7行（a, b = b, a + b）消耗了5082微秒，占总时间的44.8%，是性能瓶颈所在。

3.4 优化方案

从line_profiler的报告可以看出，a, b = b, a + b这行代码最耗时。这是因为Python的赋值操作比较慢，我们可以尝试使用其他方法来优化。

一种常见的优化方法是使用NumPy库。 NumPy是Python的一个科学计算库，它提供了高性能的数组操作。

import numpy as np

def fibonacci_sum_numpy(n):
    a = np.zeros(n, dtype=np.int64)
    a[0] = 0
    if n > 1:
        a[1] = 1
    for i in range(2, n):
        a[i] = a[i-1] + a[i-2]
    return np.sum(a)

3.5 优化效果

我们再次使用cProfile和line_profiler来分析优化后的代码。可以发现，使用NumPy后，性能得到了显著提升。

import cProfile
import pstats
import numpy as np

def fibonacci_sum(n):
    a, b = 0, 1
    total = 0
    for _ in range(n):
        total += a
        a, b = b, a + b
    return total

def fibonacci_sum_numpy(n):
    a = np.zeros(n, dtype=np.int64)
    a[0] = 0
    if n > 1:
        a[1] = 1
    for i in range(2, n):
        a[i] = a[i-1] + a[i-2]
    return np.sum(a)

n = 100000
# 使用 cProfile 分析
with cProfile.Profile() as pr:
    fibonacci_sum(n)
stats = pstats.Stats(pr)
stats.sort_stats(pstats.SortKey.TIME)
print("nOriginal fibonacci_sum:")
stats.print_stats(10)

with cProfile.Profile() as pr:
    fibonacci_sum_numpy(n)
stats = pstats.Stats(pr)
stats.sort_stats(pstats.SortKey.TIME)
print("nNumPy optimized fibonacci_sum_numpy:")
stats.print_stats(10)

优化后的代码运行速度提升了近10倍。

第四章：性能优化的一些建议

选择合适的数据结构和算法: 这是性能优化的基础。
避免不必要的循环和递归: 循环和递归是性能瓶颈的常见原因。
使用内置函数和库: 内置函数和库通常经过高度优化。
减少内存分配和拷贝: 内存分配和拷贝是耗时操作。
使用缓存: 缓存可以减少重复计算。
并行计算: 利用多核CPU的优势。
代码优化工具: 使用如cProfile和line_profiler工具，找出性能瓶颈。
多使用生成器:生成器减少内存占用，提高效率。
减少全局变量使用: 全局变量查询较慢，尽量使用局部变量。

优化手段	优点	缺点
使用NumPy	快速的数组操作，向量化计算	需要学习NumPy的API，可能增加代码的复杂性
使用缓存	减少重复计算，提高效率	需要维护缓存，可能增加内存占用
并行计算	利用多核CPU的优势，提高计算速度	需要处理线程同步和数据共享问题，可能增加代码的复杂性
减少内存分配	减少内存占用，提高效率	需要仔细设计数据结构，避免不必要的内存分配
使用生成器	减少内存占用，提高效率	代码可读性可能降低, 涉及yield关键字
减少全局变量使用	提高查询效率，减少命名冲突	需要重新设计代码结构，可能增加代码的复杂性

总结

cProfile和line_profiler是Python性能优化的利器。 cProfile能帮你从宏观上了解代码的性能瓶颈，而line_profiler能帮你精确到每一行代码的执行时间。掌握了这两个工具，你就能像一个经验丰富的医生一样，准确诊断代码的“病情”，并开出“药方”，让你的代码跑得更快，更稳定。

希望今天的讲座对大家有所帮助。记住，性能优化是一个持续的过程，需要不断学习和实践。下次再见！

开场白：性能优化这档事儿

第一章：cProfile——全局扫描仪

第二章：line_profiler——代码行级别的侦察兵

第三章：实战演练

第四章：性能优化的一些建议

总结

发表回复 取消回复

第一章：`cProfile`——全局扫描仪

第二章：`line_profiler`——代码行级别的侦察兵

发表回复取消回复