Python `ptrace`：利用 `ptrace` 调试 Python 进程 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众，今天咱们来聊聊一个有点神秘，但绝对能让你在 Python 调试界瞬间逼格满满的技能：ptrace！

开场白：谁是 ptrace？为啥要用它？

首先，ptrace 这玩意儿，不是 Python 自带的，它是个系统调用，属于 Linux、macOS 这些类 Unix 系统的“骨灰级”调试工具。你可以把它想象成一个超级侦探，可以附身到另一个进程身上，读取它的内存、修改它的寄存器，甚至控制它的执行流程。

等等，你说 Python 不是有 pdb 吗？还有各种 IDE 自带的调试器，好用得不行啊！为啥还要学这玩意儿？

嗯，问得好！pdb 和 IDE 调试器固然方便，但它们也有局限性。比如：

无法调试没有源码的 Python 程序： 有些 Python 程序可能是编译过的，或者你压根拿不到源码，pdb 就傻眼了。
无法调试已经崩溃的 Python 程序： 崩溃现场往往是最有价值的，但 pdb 只能在程序运行过程中调试。
需要修改目标程序： pdb 需要在代码中插入断点，有时候你不希望修改目标程序。
调试复杂场景： 多线程、多进程、异步 IO，这些复杂场景下，pdb 可能会让你感到力不从心。
深入理解 Python 运行时： 想知道 Python 解释器底层发生了什么？ptrace 可以帮你窥探一二。
安全分析和逆向工程： 分析恶意代码、破解软件，ptrace 是必备技能。

这时候，ptrace 就派上用场了。它可以让你像上帝一样，俯视目标进程的一切，不受任何限制。当然，能力越大，责任越大，使用 ptrace 需要 root 权限，而且要小心操作，否则可能会把目标进程搞崩。

ptrace 的基本原理：侦探是如何附身的？

ptrace 的核心思想是父进程可以控制子进程的执行。具体来说，分为以下几个步骤：

父进程调用 fork() 创建一个子进程。
子进程调用 ptrace(PTRACE_TRACEME, 0, 0, 0) 告诉内核，自己要被追踪。 相当于子进程举手投降：“我愿意被你控制！”
子进程调用 exec() 执行目标程序。 这时，子进程会被暂停，等待父进程的指示。
父进程调用 wait() 等待子进程暂停。
父进程调用 ptrace() 的其他命令，读取子进程的内存、寄存器，或者控制它的执行。 比如 PTRACE_PEEKTEXT 读取内存，PTRACE_POKETEXT 修改内存，PTRACE_CONT 继续执行。
父进程不断重复步骤 4 和 5，直到子进程结束。

这个过程就像父进程给子进程戴上了一个“追踪器”，可以随时监听和控制子进程的行动。

Python 中使用 ptrace：python-ptrace 库

虽然 ptrace 是系统调用，但 Python 提供了 python-ptrace 库，让我们可以在 Python 代码中使用它。这个库封装了 ptrace 的各种命令，用起来方便多了。

首先，安装 python-ptrace：

pip install python-ptrace

下面，我们来写一个简单的例子，用 ptrace 追踪一个 Python 程序：

import os
import sys
from ptrace.debugger import PtraceDebugger
from ptrace.os_tools import PtraceWrapper

def trace_me():
    """
    这个函数会被追踪，里面故意放一些变量和操作，方便我们观察。
    """
    a = 10
    b = "hello"
    c = [1, 2, 3]
    print(f"a = {a}, b = {b}, c = {c}")
    a += 5
    b += " world"
    c.append(4)
    print(f"a = {a}, b = {b}, c = {c}")

def trace_target():
    """
    目标程序，被父进程追踪。
    """
    trace_me()

def tracer():
    """
    追踪器程序，追踪目标程序。
    """
    pid = os.fork()  # 创建子进程

    if pid == 0:
        # 子进程
        ptrace_wrapper = PtraceWrapper()
        ptrace_wrapper.trace_me()  # 告诉内核，自己要被追踪
        os.execv(sys.executable, [sys.executable, "-c", "from __main__ import trace_target; trace_target()"])  # 执行目标程序
    else:
        # 父进程
        debugger = PtraceDebugger()
        process = debugger.addProcess(pid, is_attached=False) # is_attached=False表示这是我们创建的进程，而不是附加到一个已有的进程上
        process.wait()  # 等待子进程暂停

        print(f"进程 {pid} 启动，开始追踪...")

        try:
            while True:
                process.wait()
                print(f"进程 {pid} 停止，信号：{process.event.signal}")

                # 在这里可以读取进程的内存、寄存器等信息
                # 例如，读取变量 a 的值（需要知道 a 的内存地址）
                # 具体的地址获取方式见后面的高级用法

                # 继续执行子进程
                process.cont()
        except ProcessExit:
            print(f"进程 {pid} 结束，退出码：{process.exit_code}")
        except Exception as e:
            print(f"追踪过程中发生错误：{e}")
        finally:
            debugger.quit()

if __name__ == "__main__":
    tracer()

这个例子中，tracer() 函数是追踪器程序，它首先 fork() 一个子进程，然后在子进程中执行 trace_target() 函数。父进程则使用 python-ptrace 库来追踪子进程的执行。

运行这个程序，你会看到类似这样的输出：

进程 12345 启动，开始追踪...
进程 12345 停止，信号：SIGTRAP
进程 12345 停止，信号：SIGTRAP
进程 12345 停止，信号：SIGTRAP
进程 12345 停止，信号：SIGTRAP
...
进程 12345 结束，退出码：0

SIGTRAP 信号表示子进程因为 ptrace 的关系而暂停了。

高级用法：读取内存、修改寄存器、设置断点

上面的例子只是一个简单的框架，我们还没有真正读取子进程的内存、修改寄存器，或者设置断点。下面，我们来学习一些高级用法。

1. 读取内存：process.readBytes(address, size)

要读取子进程的内存，我们需要知道目标变量的内存地址。这个地址可以通过多种方式获取，比如：

静态分析： 如果你知道目标程序的源码，可以使用 objdump、readelf 等工具来分析程序的符号表，找到变量的地址。
动态调试： 可以先用 pdb 或 IDE 调试器运行目标程序，找到变量的地址，然后再用 ptrace 读取。
猜测： 如果你知道目标变量的类型和大概位置，可以尝试猜测它的地址，然后用 ptrace 读取，如果读到的数据符合预期，就说明猜对了。

假设我们已经知道变量 a 的地址是 0x7ffff7b4d000，那么我们可以这样读取它的值：

address = 0x7ffff7b4d000
size = 4  # int 类型占用 4 个字节
data = process.readBytes(address, size)
value = int.from_bytes(data, byteorder='little')  # 将字节转换为整数
print(f"变量 a 的值为：{value}")

2. 修改内存：process.writeBytes(address, data)

要修改子进程的内存，我们需要先准备好要写入的数据，然后调用 process.writeBytes()。比如，我们要把变量 a 的值修改为 100：

address = 0x7ffff7b4d000
value = 100
data = value.to_bytes(4, byteorder='little')  # 将整数转换为字节
process.writeBytes(address, data)
print(f"已将变量 a 的值修改为：{value}")

3. 读取寄存器：process.getreg(regname)

要读取子进程的寄存器，我们需要知道寄存器的名称。常见的寄存器包括 rax、rbx、rcx、rdx、rip、rsp、rbp 等。比如，我们要读取 rip 寄存器的值（指令指针，指向下一条要执行的指令）：

rip = process.getreg("rip")
print(f"指令指针 RIP 的值为：{rip}")

4. 修改寄存器：process.setreg(regname, value)

要修改子进程的寄存器，我们需要指定寄存器的名称和要设置的值。比如，我们要把 rip 寄存器的值修改为某个地址，从而改变程序的执行流程：

new_rip = 0x400500  # 假设我们要跳转到这个地址
process.setreg("rip", new_rip)
print(f"已将指令指针 RIP 的值修改为：{new_rip}")

5. 设置断点：process.createBreakpoint(address) 和 process.deleteBreakpoint(address)

断点是指程序执行到某个地址时，会暂停执行，等待调试器的指示。ptrace 可以让我们在子进程中设置断点，从而方便我们观察程序的执行流程。

address = 0x400500  # 假设我们要在这个地址设置断点
breakpoint = process.createBreakpoint(address)
print(f"已在地址 {address} 设置断点")

# ... 等待断点触发 ...

process.deleteBreakpoint(address)
print(f"已删除地址 {address} 的断点")

实战案例：破解一个简单的密码验证程序

为了让你更好地理解 ptrace 的用法，我们来做一个实战案例：破解一个简单的密码验证程序。

假设我们有这样一个 Python 程序 password.py：

def check_password(password):
    """
    检查密码是否正确。
    """
    correct_password = "secret"
    if password == correct_password:
        print("密码正确！")
        return True
    else:
        print("密码错误！")
        return False

if __name__ == "__main__":
    password = input("请输入密码：")
    if check_password(password):
        print("程序执行成功！")
    else:
        print("程序执行失败！")

这个程序会提示用户输入密码，然后调用 check_password() 函数来验证密码是否正确。我们的目标是，即使不知道正确的密码，也能让程序输出 "程序执行成功！"。

下面，我们来写一个 ptrace 程序 cracker.py 来破解这个程序：

import os
import sys
from ptrace.debugger import PtraceDebugger
from ptrace.os_tools import PtraceWrapper

def cracker():
    """
    破解程序，修改 check_password() 函数的返回值，使其永远返回 True。
    """
    pid = os.fork()

    if pid == 0:
        # 子进程
        ptrace_wrapper = PtraceWrapper()
        ptrace_wrapper.trace_me()
        os.execv(sys.executable, [sys.executable, "password.py"])  # 执行目标程序
    else:
        # 父进程
        debugger = PtraceDebugger()
        process = debugger.addProcess(pid, is_attached=False)
        process.wait()

        print(f"进程 {pid} 启动，开始破解...")

        # 找到 check_password() 函数的地址
        # 这一步比较复杂，需要分析 password.py 的汇编代码，或者用 gdb 动态调试
        # 这里我们假设已经找到了 check_password() 函数的地址
        check_password_address = 0x400800  # 假设的地址

        # 在 check_password() 函数的入口处设置断点
        breakpoint = process.createBreakpoint(check_password_address)
        print(f"已在 check_password() 函数的入口处设置断点：{check_password_address}")

        try:
            while True:
                process.wait()
                print(f"进程 {pid} 停止，信号：{process.event.signal}")

                # 获取当前指令指针 RIP 的值
                rip = process.getreg("rip")
                print(f"当前指令指针 RIP 的值为：{rip}")

                # 判断是否是 check_password() 函数的断点被触发
                if rip == check_password_address:
                    print("check_password() 函数被调用，准备修改返回值...")

                    # 修改 check_password() 函数的返回值
                    # 不同的 CPU 架构和调用约定，修改返回值的方式可能不同
                    # 这里我们假设返回值保存在 rax 寄存器中
                    # 我们将 rax 寄存器的值设置为 1，表示 True
                    process.setreg("rax", 1)
                    print("已将返回值修改为 True")

                    # 让程序继续执行
                    process.cont()
                else:
                    # 继续执行子进程
                    process.cont()
        except ProcessExit:
            print(f"进程 {pid} 结束，退出码：{process.exit_code}")
        except Exception as e:
            print(f"破解过程中发生错误：{e}")
        finally:
            debugger.quit()

if __name__ == "__main__":
    cracker()

这个 cracker.py 程序会追踪 password.py 程序的执行，在 check_password() 函数的入口处设置断点。当 check_password() 函数被调用时，cracker.py 会修改 rax 寄存器的值，使其返回 True，从而绕过密码验证。

运行 cracker.py，你会发现，即使你输入错误的密码，程序也会输出 "程序执行成功！"。

ptrace 的局限性：并非万能

虽然 ptrace 功能强大，但它也有一些局限性：

需要 root 权限： 只有 root 用户才能使用 ptrace 追踪其他进程。
性能开销： ptrace 会显著降低目标程序的性能，因为它需要在每次系统调用时暂停和恢复进程。
反调试： 有些程序会使用反调试技术来阻止 ptrace 的追踪，比如检测是否被 ptrace 追踪，或者故意抛出异常。
复杂性： ptrace 的使用比较复杂，需要深入理解操作系统和汇编语言的知识。

总结：ptrace，调试界的瑞士军刀

ptrace 就像一把瑞士军刀，虽然不是每个问题都需要用到它，但在某些特殊情况下，它可以帮助你解决其他工具无法解决的问题。掌握 ptrace，可以让你在 Python 调试界更上一层楼，成为真正的调试大师！

一些小技巧：

善用 gdb： gdb 是一个强大的调试器，可以用来分析程序的内存布局、寄存器状态等信息，这些信息对于使用 ptrace 非常有用。
阅读源码： 阅读 Python 解释器的源码，可以帮助你更好地理解 Python 程序的执行过程，从而更好地使用 ptrace 进行调试。
多做实验： ptrace 的学习需要大量的实践，只有通过不断地尝试和探索，才能真正掌握它的用法。

最后，送给大家一句话：

调试的艺术，在于不断地探索和发现。

希望今天的讲座对大家有所帮助！下次再见！

发表回复 取消回复

发表回复取消回复