利用 ‘eBPF’ 实现零开销的生产环境追踪：监控那些隐藏在内核层面的 TCP 丢包和文件延迟 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位技术专家、工程师们，欢迎来到今天的讲座。我们今天将深入探讨一个在现代高性能系统运维中日益重要的话题：如何利用 eBPF 实现零开销的生产环境追踪，特别是针对那些隐藏在内核层面的 TCP 丢包和文件 I/O 延迟。

在复杂的分布式系统中，性能问题和间歇性故障常常令人束手无策。应用程序日志看似详尽，却往往只记录了用户空间的表象，而那些真正的瓶颈和异常，比如网络栈深处的 TCP 丢包，或者文件系统层面的微秒级延迟，却如同幽灵般难以捕捉。传统的监控工具，如 netstat、iostat，提供了聚合数据，但缺乏细粒度的上下文信息。而基于探针或代理的传统追踪方法，又常常引入不可接受的性能开销，使得它们在生产环境中望而却步。

这就是 eBPF 登场的时刻。eBPF，扩展的 Berkeley Packet Filter，是 Linux 内核中的一项革命性技术。它允许我们在内核运行时动态加载、执行自定义的沙盒程序，而无需修改内核源代码或加载内核模块。eBPF 程序可以安全地在各种内核事件点（如系统调用、函数入口/出口、网络事件等）上执行，收集高度细致的性能数据，并将其高效地传递给用户空间。其核心优势在于：极低的开销、极高的灵活性以及在内核层面的无与伦比的洞察力。

今天，我们将一起揭开 eBPF 的神秘面纱，并通过实际的代码示例，学习如何利用它来精准追踪 TCP 丢包和文件 I/O 延迟，将那些曾经的“黑盒”变成透明的“白盒”。

eBPF：内核的超能力编程接口

要理解 eBPF 如何实现零开销追踪，我们首先要掌握它的基本原理。eBPF 并非一个全新的概念，它是经典 BPF (Berkeley Packet Filter) 的演进，最初用于高效过滤网络数据包。而“e”代表“扩展”，意味着它的能力已经远远超越了网络过滤，成为一个通用的、可编程的内核虚拟机。

eBPF 的核心机制

沙盒环境与验证器 (Verifier)：
当一个 eBPF 程序被加载到内核时，它不会直接执行。首先，它会经过一个严格的内核内验证器。这个验证器会静态分析程序的代码，确保它满足以下安全条件：
- 终止性：程序必须在有限步内完成，不能包含无限循环。
- 内存安全：程序不能访问无效内存地址，不能越界读写。
- 资源限制：程序不能占用过多栈空间，不能执行特权操作。
- 类型安全：确保寄存器和栈的类型使用正确。
  只有通过了验证器的程序才能被加载。这是 eBPF 在生产环境安全运行的基石。
即时编译 (JIT Compilation)：
通过验证器后，eBPF 字节码会被即时编译 (JIT) 成宿主 CPU 架构的原生机器码。这意味着 eBPF 程序以接近内核原生代码的速度运行，避免了解释器带来的性能损耗。这也是“零开销”的重要来源之一。
程序类型与挂载点 (Attach Points)：
eBPF 程序有多种类型，每种类型都针对特定的内核事件。常见的类型包括：
- BPF_PROG_TYPE_KPROBE: 挂载到内核函数的入口 (kprobe) 或出口 (kretprobe)，用于追踪函数调用和返回值。
- BPF_PROG_TYPE_TRACEPOINT: 挂载到内核中预定义的静态追踪点，这些点由内核开发者明确标记，通常更稳定。
- BPF_PROG_TYPE_PERF_EVENT: 挂载到硬件/软件性能计数器事件。
- BPF_PROG_TYPE_XDP: 在网络驱动程序的最早阶段处理数据包，实现高性能网络功能。
- BPF_PROG_TYPE_SCHED_CLS: 挂载到流量控制 (TC) 子系统，用于网络流量分类和整形。
- BPF_PROG_TYPE_SYSCALL (或 BPF_PROG_TYPE_RAW_TRACEPOINT): 挂载到系统调用入口/出口。
eBPF 映射 (Maps)：
eBPF 程序不能直接与用户空间通信，也不能直接访问任意内核内存。它们通过特殊的共享内存结构——eBPF 映射——来存储状态或将数据传递给用户空间。常见的映射类型包括：
- BPF_MAP_TYPE_HASH: 哈希表，用于存储键值对。
- BPF_MAP_TYPE_ARRAY: 数组，通过索引访问。
- BPF_MAP_TYPE_PERF_EVENT_ARRAY: 一组 CPU 独立的环形缓冲区，用于高效地将事件数据从内核流式传输到用户空间。这是我们实现实时追踪的关键。
- BPF_MAP_TYPE_RINGBUF: 环形缓冲区，更现代的事件数据传输机制。
- BPF_MAP_TYPE_STACK_TRACE: 存储内核或用户空间栈回溯。
eBPF 辅助函数 (Helper Functions)：
eBPF 程序在一个受限的环境中运行，不能直接调用任意内核函数。相反，内核提供了一组经过验证器安全检查的辅助函数 (e.g., bpf_map_lookup_elem, bpf_ktime_get_ns, bpf_get_current_pid_tgid, bpf_perf_event_output)，供 eBPF 程序调用以执行特定操作。

开发流程概览

典型的 eBPF 应用由两部分组成：

内核态 eBPF 程序：通常用 C 语言编写（使用 clang/LLVM 编译到 eBPF 字节码），负责在内核事件点收集数据。
用户态控制程序：通常用 Go、Python、Rust 或 C 编写，负责加载 eBPF 程序、与 eBPF 映射交互（读取数据、更新配置等），并处理或展示收集到的数据。

有了这些基础知识，我们现在可以深入到具体的追踪场景。

追踪 TCP 丢包：揭示网络栈深处的秘密

TCP 丢包是网络性能下降的常见原因，但往往难以诊断。应用程序可能只看到连接超时或重传，却无法知道丢包发生的确切原因和位置。这些丢包可能发生在发送端、接收端、网络设备、甚至是内核网络栈的内部。eBPF 能够让我们直接在内核中观察这些事件。

TCP 丢包的常见原因与内核挂载点

TCP 丢包可以在网络栈的多个阶段发生：

接收路径 (Ingress):
- 网卡队列溢出: 网卡接收数据包的速度快于内核处理速度。
- 协议栈队列溢出: 内核处理队列（如 softnet_data->input_pkt_queue）溢出。
- sk_buff 分配失败: 内核无法分配 sk_buff 结构来存储传入数据包。
- 防火墙/Netfilter 丢弃: 数据包被防火墙规则明确丢弃。
- 套接字接收缓冲区满: 应用程序未能及时读取数据，导致套接字接收缓冲区溢出。
- 校验和错误/格式错误: 数据包损坏。
- TCP 状态不匹配: 例如，收到一个 SYN 包但没有对应的监听套接字。
- 非预期 RST/FIN: 收到意外的 RST 或 FIN 包导致连接关闭。
发送路径 (Egress):
- 套接字发送缓冲区满: 应用程序写入数据过快，发送缓冲区溢出。
- IP 层分片失败/MTU 问题: 数据包过大无法传输。
- 路由失败: 无法找到到达目的地的路由。
- 邻居表 (ARP/NDP) 失败: 无法解析 MAC 地址。
- 网卡发送队列溢出: 网卡发送速度慢于内核提交速度。

eBPF 追踪策略

对于 TCP 丢包，我们关注的关键内核函数和追踪点包括：

kfree_skb: 这是内核释放 sk_buff (网络数据包的核心结构) 的通用函数。它有一个 reason 参数，可以指示为什么释放这个 sk_buff。
tracepoint:net:netif_rx_drop: 当数据包在 netif_rx 路径中被丢弃时触发。
tracepoint:net:net_dev_queue: 当数据包在 dev_queue_xmit 路径中被丢弃时触发。
kprobe:tcp_drop: (如果存在且稳定) 专门用于 TCP 层的丢弃。
kprobe:ip_rcv_finish: 在 IP 层处理完数据包后，可以检查套接字的 sk_drops 计数。

由于 kfree_skb 是一个非常通用的函数，我们通常会结合它的 reason 参数以及 sk_buff 的内容（如协议类型、源/目的地址、端口）来判断是否是 TCP 丢包，以及是什么原因。

代码示例 1：统计 TCP 丢包总数

这个例子将统计所有因为特定原因（例如，套接字接收缓冲区满）而被内核丢弃的 TCP 包。

内核态 BPF C 代码 (tcp_drop_counter.bpf.c)

#include "vmlinux.h" // 包含内核类型定义，通常由 pahole 或 bpftool 生成
#include <bpf/bpf_helpers.h>
#include <bpf/bpf_tracing.h>
#include <bpf/bpf_core_read.h>

// 定义一个哈希映射，用于存储丢包原因和对应的计数
// BPF_MAP_TYPE_HASH 适用于键值对存储
// key: u32 (丢包原因 code), value: u64 (计数)
struct {
    __uint(type, BPF_MAP_TYPE_HASH);
    __uint(max_entries, 256); // 假设最多有256种丢包原因
    __uint(key_size, sizeof(__u32));
    __uint(value_size, sizeof(__u64));
} drop_reasons_map SEC(".maps");

// 定义一个 perf buffer 映射，用于将事件数据流式传输到用户空间
// BPF_MAP_TYPE_PERF_EVENT_ARRAY 适合事件流
struct {
    __uint(type, BPF_MAP_TYPE_PERF_EVENT_ARRAY);
    __uint(key_size, sizeof(__u32));
    __uint(value_size, sizeof(__u32)); // 占位符，实际会根据 CPU 数量调整
} events SEC(".maps");

// 定义发送到用户空间的事件结构体
struct drop_event {
    __u64 timestamp_ns;
    __u32 pid;
    char comm[TASK_COMM_LEN];
    __u32 drop_reason;
    __u32 saddr;
    __u32 daddr;
    __u16 sport;
    __u16 dport;
    __u16 family; // AF_INET 或 AF_INET6
};

// 挂载到 kfree_skb 函数的入口
// kfree_skb 是释放 sk_buff 的通用函数
// 参数 ctx 是通用的 pt_regs，适用于 kprobe
// 参数 skb 是被释放的 sk_buff 指针
// 参数 reason 是丢弃的原因代码 (skb_drop_reason_t)
SEC("kprobe/kfree_skb")
int BPF_KPROBE(kfree_skb_drop_reason, struct sk_buff *skb, enum skb_drop_reason reason) {
    // 检查 skb 是否是 TCP 包。通常通过协议类型来判断。
    // BPF_CORE_READ 宏用于安全地从内核结构体中读取成员，支持 CO-RE
    __u16 protocol = BPF_CORE_READ(skb, protocol);
    if (protocol != htons(ETH_P_IP)) { // 检查是否是 IPv4
        return 0;
    }

    __u8 ip_protocol = 0;
    // 假设是 IPv4，我们需要读取 IP 头获取上层协议
    // 注意：skb->head 和 skb->transport_header 需要仔细计算偏移量
    // 更好的方式是使用 bpf_skb_load_bytes 或 bpf_skb_pull_data
    // 但在 kprobe 上直接访问 skb->head 需要更复杂的边界检查
    // 为了简化，我们直接从 skb->network_header 获取 IP 头
    // 这段逻辑在实际生产中需要更严谨地处理 IPv6 和各种网络层头部的偏移
    // 考虑到 kfree_skb 发生在 skb 生命周期后期，网络层头部可能已被处理
    // 在这里，我们假设 skb->head 指向 sk_buff_data_t，skb->network_header 是相对于 head 的偏移
    // 更安全的做法是使用 tracepoint 或在更早的 kprobe 点获取这些信息

    // 简化处理：尝试读取 IP 头部
    struct iphdr *ip_hdr = (struct iphdr *)(skb->head + BPF_CORE_READ(skb, network_header));
    // 再次检查指针是否有效，以及 skb->len 是否足够大
    if ((void *)(ip_hdr + 1) > (void *)(skb->head + BPF_CORE_READ(skb, len))) {
         return 0; // 不完整的 IP 头
    }
    ip_protocol = BPF_CORE_READ(ip_hdr, protocol);

    if (ip_protocol != IPPROTO_TCP) { // 检查是否是 TCP 协议
        return 0;
    }

    // 更新丢包原因计数
    __u32 drop_key = reason;
    __u64 *drop_count = bpf_map_lookup_elem(&drop_reasons_map, &drop_key);
    if (drop_count) {
        __sync_fetch_and_add(drop_count, 1);
    } else {
        __u64 one = 1;
        bpf_map_update_elem(&drop_reasons_map, &drop_key, &one, BPF_ANY);
    }

    // 准备事件数据发送到用户空间
    struct drop_event *event;
    event = bpf_perf_event_output(ctx, &events, BPF_F_CURRENT_CPU, NULL, sizeof(*event));
    if (!event) {
        return 0;
    }

    event->timestamp_ns = bpf_ktime_get_ns();
    __u64 pid_tgid = bpf_get_current_pid_tgid();
    event->pid = pid_tgid >> 32; // PID
    bpf_get_current_comm(&event->comm, sizeof(event->comm));
    event->drop_reason = reason;

    // 尝试获取 IP 地址和端口
    // 注意：在 kfree_skb 阶段，skb->sk 可能已经为空或指向无效套接字
    // 并且 transport_header 可能已被移除或修改
    // 这部分代码非常脆弱，仅作示意。在生产环境中，可能需要更早的挂载点
    // 比如 `tcp_v4_rcv` 或 `tcp_send_skb` 来获取套接字信息。
    // 对于 kfree_skb，获取连接信息通常需要解析 sk_buff 中的头部。
    // 这是一个简化的示例，假设我们可以访问 transport_header 和 IP 头。

    struct tcphdr *tcp_hdr = (struct tcphdr *)(skb->head + BPF_CORE_READ(skb, transport_header));
    if ((void *)(tcp_hdr + 1) > (void *)(skb->head + BPF_CORE_READ(skb, len))) {
        // 不完整的 TCP 头
        event->saddr = 0; event->daddr = 0;
        event->sport = 0; event->dport = 0;
        event->family = AF_INET;
    } else {
        event->saddr = BPF_CORE_READ(ip_hdr, saddr);
        event->daddr = BPF_CORE_READ(ip_hdr, daddr);
        event->sport = BPF_CORE_READ(tcp_hdr, source);
        event->dport = BPF_CORE_READ(tcp_hdr, dest);
        event->family = AF_INET;
    }

    bpf_perf_event_output(ctx, &events, BPF_F_CURRENT_CPU, event, sizeof(*event));

    return 0;
}

用户态 Go 代码 (tcp_drop_monitor.go)

package main

import (
    "bytes"
    "encoding/binary"
    "fmt"
    "net"
    "os"
    "os/signal"
    "syscall"
    "time"

    "github.com/cilium/ebpf"
    "github.com/cilium/ebpf/link"
    "github.com/cilium/ebpf/perf"
    "golang.org/x/sys/unix"
)

//go:generate go run github.com/cilium/ebpf/cmd/bpf2go -cc clang -cflags "-O2 -g -Wall" bpf tcp_drop_counter.bpf.c -- -I./headers

// 定义与 eBPF 程序中 drop_event 结构体对应的 Go 结构体
type DropEvent struct {
    TimestampNs uint64
    Pid         uint32
    Comm        [16]byte // TASK_COMM_LEN
    DropReason  uint32
    Saddr       uint32
    Daddr       uint32
    Sport       uint16
    Dport       uint16
    Family      uint16
}

// 辅助函数：将 IPv4 地址从 uint32 转换为 net.IP
func ipv4ToString(ip uint32) string {
    b := make([]byte, 4)
    binary.LittleEndian.PutUint32(b, ip)
    return net.IP(b).String()
}

// 定义 skb_drop_reason_t 枚举值到可读字符串的映射
var dropReasonMap = map[uint32]string{
    0:  "NOT_APPLICABLE",
    1:  "NO_SOCKET",
    2:  "TOO_SMALL",
    3:  "PAGED_TOO_SMALL",
    4:  "BAD_FRAGMENTS",
    5:  "SOCKET_FILTER",
    6:  "OTHERHOST",
    7:  "IP_CSUM",
    8:  "IP_INHDR",
    9:  "IP_RPFILTER",
    10: "UNICAST_IN_L2_MULTICAST",
    11: "MULTICAST_IN_L2_UNICAST",
    12: "BAD_ETHTYPE",
    13: "CPU_BACKLOG",
    14: "XDP",
    15: "TC_EGRESS",
    16: "QDISC_DROP",
    17: "OTHERHOST_FWD",
    18: "INVALID_PROTO",
    19: "GARBAGE_PACKET",
    20: "TX_H_BACKLOG",
    21: "TARGET_FULL",
    22: "MAC_HEADER",
    23: "UNHANDLED_PROTOCOL",
    24: "IPV6_CSUM",
    25: "IPV6_HDR",
    26: "IPV6_RPFILTER",
    27: "TCP_CSUM",
    28: "TCP_HDR",
    29: "TCP_L7_FILTER",
    30: "TCP_NO_SOCKET",
    31: "TCP_LISTEN_OVERFLOW",
    32: "TCP_RESET",
    33: "TCP_SYN_OVERFLOW",
    34: "TCP_INVALID_WINDOW",
    35: "TCP_FULL_RECV_BUF", // This is often what we are looking for!
    36: "TCP_TOO_MANY_ORPHANS",
    37: "TCP_TOO_MANY_UNANSWERED_SYN",
    38: "TCP_INVALID_STATE",
    39: "TCP_FAST_CLOSE",
    40: "TCP_INVALID_SEQUENCE",
    41: "TCP_INVALID_ACK",
    42: "TCP_INVALID_OPTION",
    43: "TCP_MD5_FAILED",
    44: "TCP_SYNCOOKIE_FAILED",
    45: "TCP_DEFRAG_FAIL",
    46: "TCP_SEG_TOO_OLD",
    47: "TCP_SEG_OUT_OF_WINDOW",
    48: "TCP_CONN_RESET",
    49: "TCP_TIMESTAMPS_FAILED",
    // ... 更多原因
}

func main() {
    stopper := make(chan os.Signal, 1)
    signal.Notify(stopper, os.Interrupt, syscall.SIGTERM)

    // 加载 BPF 对象
    objs := bpfObjects{}
    if err := loadBpfObjects(&objs, nil); err != nil {
        fmt.Fprintf(os.Stderr, "failed to load BPF objects: %vn", err)
        os.Exit(1)
    }
    defer objs.Close()

    // 挂载 kprobe
    kp, err := link.Kprobe("kfree_skb", objs.KfreeSkbDropReason, nil)
    if err != nil {
        fmt.Fprintf(os.Stderr, "failed to attach kprobe: %vn", err)
        os.Exit(1)
    }
    defer kp.Close()

    fmt.Println("Tracing TCP packet drops... Press Ctrl-C to stop.")

    // 创建 perf event reader
    rd, err := perf.NewReader(objs.Events, os.Getpagesize())
    if err != nil {
        fmt.Fprintf(os.Stderr, "failed to create perf event reader: %vn", err)
        os.Exit(1)
    }
    defer rd.Close()

    // 定期读取丢包计数映射
    ticker := time.NewTicker(5 * time.Second)
    defer ticker.Stop()

    go func() {
        for range ticker.C {
            fmt.Println("n--- Drop Reasons Summary ---")
            var key uint32
            var value uint64
            iter := objs.DropReasonsMap.Iterate()
            for iter.Next(&key, &value) {
                reasonStr, ok := dropReasonMap[key]
                if !ok {
                    reasonStr = fmt.Sprintf("UNKNOWN_REASON_%d", key)
                }
                fmt.Printf("  Reason: %s (%d), Count: %dn", reasonStr, key, value)
            }
            if err := iter.Err(); err != nil {
                fmt.Fprintf(os.Stderr, "failed to iterate drop reasons map: %vn", err)
            }
            fmt.Println("--------------------------")
        }
    }()

    var event DropEvent
    for {
        select {
        case <-stopper:
            fmt.Println("Exiting.")
            return
        default:
            record, err := rd.Read()
            if err != nil {
                if perf.Is = nil {
                    // 缓冲区为空，继续等待
                    continue
                }
                fmt.Fprintf(os.Stderr, "failed to read from perf reader: %vn", err)
                return
            }

            if record.LostSamples != 0 {
                fmt.Printf("perf event ring buffer full, lost %d samplesn", record.LostSamples)
                continue
            }

            reader := bytes.NewReader(record.RawSample)
            if err := binary.Read(reader, binary.LittleEndian, &event); err != nil {
                fmt.Fprintf(os.Stderr, "failed to parse perf event: %vn", err)
                continue
            }

            reasonStr, ok := dropReasonMap[event.DropReason]
            if !ok {
                reasonStr = fmt.Sprintf("UNKNOWN_REASON_%d", event.DropReason)
            }
            commStr := string(bytes.TrimRight(event.Comm[:], "x00"))
            srcIP := ipv4ToString(event.Saddr)
            dstIP := ipv4ToString(event.Daddr)

            fmt.Printf("[%s] PID: %5d, COMM: %-16s, DROP: %-25s, SRC: %s:%d, DST: %s:%dn",
                time.Now().Format("15:04:05.000"),
                event.Pid, commStr, reasonStr,
                srcIP, unix.Ntohs(event.Sport),
                dstIP, unix.Ntohs(event.Dport))
        }
    }
}

编译与运行

安装依赖: clang, llvm, go, libbpf-dev。
生成 vmlinux.h: bpftool btf dump file /sys/kernel/btf/vmlinux format c > vmlinux.h (或者使用 pahole 和 bpftool gen skeleton 简化流程)。
生成 Go 绑定: go generate (这会运行 bpf2go 命令，编译 BPF C 代码并生成 Go 封装)。
运行 Go 程序: sudo go run .

解释:

内核态:
- kprobe/kfree_skb: 我们挂载到 kfree_skb，这是内核释放 sk_buff 的核心函数。
- sk_buff *skb, enum skb_drop_reason reason: kfree_skb 的参数，skb 是被释放的数据包，reason 是一个枚举值，说明了丢弃的原因。
- BPF_CORE_READ: 安全地从内核结构体中读取成员，即使内核版本不同，也能通过 BTF (BPF Type Format) 信息调整偏移量，实现 CO-RE (Compile Once – Run Everywhere)。
- 协议检查：我们通过 skb->protocol 和 ip_hdr->protocol 检查数据包是否为 IPv4 TCP 包。
- drop_reasons_map: 哈希映射，用于统计每种丢包原因的总数。
- events (Perf Buffer): 用于将详细的丢包事件实时流式传输到用户空间，包括时间戳、PID、进程名、IP 地址和端口。
- bpf_perf_event_output: 辅助函数，将 drop_event 结构体发送到 perf buffer。
用户态:
- bpf2go: 用于将 C 语言编写的 eBPF 程序编译成字节码，并生成 Go 语言的封装代码，方便在 Go 程序中加载和管理 eBPF 对象。
- link.Kprobe: 用于将 eBPF 程序挂载到 kfree_skb 内核函数。
- perf.NewReader: 创建一个读取 perf buffer 的阅读器。
- ticker 和 DropReasonsMap: 定期从 drop_reasons_map 中读取聚合的丢包计数。
- rd.Read(): 实时读取 perf.Reader 中的事件数据，这些数据是内核态 bpf_perf_event_output 发送过来的。
- DropEvent 结构体：与内核态定义的结构体精确对应，用于解析事件数据。
- dropReasonMap: 将内核的 skb_drop_reason_t 枚举值转换为可读的字符串，方便理解。

表格：常见的 TCP 丢包原因及其上下文

`skb_drop_reason_t` 值	描述	常见场景	诊断建议
`TCP_FULL_RECV_BUF`	TCP 套接字接收缓冲区已满	应用程序处理数据慢于接收速度	检查应用程序性能，调整 `net.ipv4.tcp_rmem`
`CPU_BACKLOG`	CPU 软中断队列积压	高网络流量、CPU 负载过高、软中断处理慢	优化网卡中断亲和性，增加 CPU 核心，检查 `napi`
`QDISC_DROP`	网卡队列或 QDisc 策略丢弃	发送队列满，流量控制策略 (如 `fq_codel`) 丢弃	检查网卡发送队列大小 (`txqueuelen`)，调整 `net.core.wmem_default`
`NO_SOCKET`	没有找到匹配的套接字	端口未监听，或连接已关闭但收到延迟的数据包	检查端口监听状态，应用程序连接管理
`TCP_LISTEN_OVERFLOW`	监听套接字队列溢出	短时间内大量新连接请求，应用程序 `accept` 慢	调整 `net.core.somaxconn`，优化应用程序 `accept`
`TCP_RESET`	收到 RST 包导致连接重置	远端发送 RST，防火墙阻断，应用程序主动关闭连接	检查对端应用日志，防火墙规则
`IP_CSUM`	IP 校验和错误	硬件故障，网络损坏	检查网线、交换机，更换网卡
`BAD_FRAGMENTS`	IP 分片错误或损坏	网络路径 MTU 不匹配，中间设备故障	检查网络路径 MTU，禁用路径 MTU 发现 (PMTUD)

这个例子提供了一个强大的工具，可以实时看到哪些 TCP 包被丢弃，丢弃的原因是什么，以及哪个进程涉及其中。这对于诊断间歇性连接问题、理解高负载下的网络行为至关重要。

监控文件 I/O 延迟：揭示存储的真实性能

文件 I/O 延迟是影响应用程序性能的另一个关键因素。磁盘读写速度、文件系统缓存、内核调度、存储后端性能等都可能引入延迟。传统的 iostat 只能给出聚合的平均值，无法看到单个文件或单个进程的 I/O 延迟细节。eBPF 能够让我们在文件系统和块设备接口之间精确测量 I/O 操作的耗时。

文件 I/O 延迟的复杂性

文件 I/O 延迟的来源非常多：

应用程序层: 应用程序如何缓冲数据，是否使用异步 I/O。
文件系统层: 文件系统类型 (ext4, XFS, ZFS)、文件系统缓存 (Page Cache)、元数据操作 (目录查找、inode 更新)。
块设备层: 块设备驱动、I/O 调度器、RAID 控制器、SSD/HDD 性能。
存储网络: 对于网络存储 (NFS, iSCSI, Ceph)，网络延迟和存储服务器性能是主要因素。

我们关注的是在内核中，从一个 I/O 请求发起，到它完成的真实耗时。

eBPF 追踪策略

对于文件 I/O 延迟，我们通常会使用 kprobe 和 kretprobe 组合来测量函数执行时间。

kprobe:vfs_read / kretprobe:vfs_read: 测量虚拟文件系统 (VFS) 层的 read 操作耗时。这是应用程序 read() 系统调用最终会调用的内核函数之一。
kprobe:vfs_write / kretprobe:vfs_write: 测量 VFS 层的 write 操作耗时。
kprobe:__vfs_read / kretprobe:__vfs_read: 更底层的 VFS 读取。
kprobe:__x64_sys_read / kretprobe:__x64_sys_read: 测量 read 系统调用本身的耗时，这包括了从用户空间进入内核到返回用户空间的所有开销。
tracepoint:block:block_rq_issue / tracepoint:block:block_rq_complete: 测量块设备层面的 I/O 请求从提交到完成的耗时，这更接近实际的存储介质延迟。

我们这里选择 vfs_read 和 vfs_write，因为它们提供了文件系统层面的视图，并且更容易关联到具体的文件。

代码示例 2：追踪 `vfs_read` / `vfs_write` 延迟

这个例子将测量每个进程对特定文件执行 vfs_read 或 vfs_write 操作的延迟，并报告最慢的几次操作。

内核态 BPF C 代码 (file_latency.bpf.c)

#include "vmlinux.h"
#include <bpf/bpf_helpers.h>
#include <bpf/bpf_tracing.h>
#include <bpf/bpf_core_read.h>

#define MAX_FILENAME_LEN 128
#define MAX_ENTRIES_PER_PID 16 // 每个PID跟踪的最大文件数

// 定义一个哈希映射，用于存储每个 PID 正在进行的 I/O 操作的开始时间
// key: u64 (PID << 32 | CPU_ID), value: u64 (start_time_ns)
struct {
    __uint(type, BPF_MAP_TYPE_HASH);
    __uint(max_entries, 10240); // 假设同时有10240个I/O操作在进行
    __uint(key_size, sizeof(__u64));
    __uint(value_size, sizeof(__u64));
} start_times SEC(".maps");

// 定义发送到用户空间的事件结构体
struct io_event {
    __u64 timestamp_ns;
    __u32 pid;
    char comm[TASK_COMM_LEN];
    __u64 duration_ns;
    __u64 inode;
    char filename[MAX_FILENAME_LEN];
    __u32 bytes; // 读/写字节数
    bool is_write;
};

// Perf buffer 映射
struct {
    __uint(type, BPF_MAP_TYPE_PERF_EVENT_ARRAY);
    __uint(key_size, sizeof(__u32));
    __uint(value_size, sizeof(__u32));
} events SEC(".maps");

// 用于获取文件名的辅助函数，从 dentry 读取
static __always_inline int get_filename(struct dentry *dentry, char *buf, __u32 buf_len) {
    if (!dentry) return 0;

    // d_name 是一个 qstr 结构，包含 name 和 len
    struct qstr qstr_name;
    BPF_CORE_READ_INTO(&qstr_name, dentry, d_name);

    if (qstr_name.len >= buf_len) {
        // 截断文件名
        bpf_probe_read_kernel_str(buf, buf_len, (void *)qstr_name.name);
        buf[buf_len - 1] = '';
    } else {
        bpf_probe_read_kernel_str(buf, qstr_name.len + 1, (void *)qstr_name.name);
    }
    return 1;
}

// 挂载到 vfs_read 函数的入口
// struct file *file, char __user *buf, size_t count, loff_t *pos
SEC("kprobe/vfs_read")
int BPF_KPROBE(vfs_read_entry, struct file *file, char __user *buf, size_t count, loff_t *pos) {
    __u64 pid_tgid = bpf_get_current_pid_tgid();
    __u32 pid = pid_tgid >> 32;
    __u32 cpu_id = bpf_get_smp_processor_id();
    __u64 key = ((__u64)pid << 32) | cpu_id; // 使用 PID 和 CPU ID 作为 key

    __u64 start_time = bpf_ktime_get_ns();
    bpf_map_update_elem(&start_times, &key, &start_time, BPF_ANY);
    return 0;
}

// 挂载到 vfs_read 函数的出口
// 参数 retval 是 vfs_read 的返回值 (读取的字节数)
SEC("kretprobe/vfs_read")
int BPF_KRETPROBE(vfs_read_exit, struct file *file, char __user *buf, size_t count, loff_t *pos) {
    __u64 pid_tgid = bpf_get_current_pid_tgid();
    __u32 pid = pid_tgid >> 32;
    __u32 cpu_id = bpf_get_smp_processor_id();
    __u64 key = ((__u64)pid << 32) | cpu_id;

    __u64 *start_time_ptr = bpf_map_lookup_elem(&start_times, &key);
    if (!start_time_ptr) {
        return 0; // 没有找到对应的开始时间，可能由于探针丢失或并发问题
    }

    __u64 start_time = *start_time_ptr;
    bpf_map_delete_elem(&start_times, &key); // 清理映射

    __u64 end_time = bpf_ktime_get_ns();
    __u64 duration_ns = end_time - start_time;

    // 过滤掉极短的或异常的延迟，例如小于1微秒的，通常是缓存命中
    if (duration_ns < 1000) { // 1 microsecond
        return 0;
    }

    // 准备事件数据
    struct io_event event = {};
    event.timestamp_ns = end_time;
    event.pid = pid;
    bpf_get_current_comm(&event.comm, sizeof(event.comm));
    event.duration_ns = duration_ns;
    event.is_write = false;
    event.bytes = (size_t)PT_REGS_RC(ctx); // vfs_read 的返回值是读取的字节数

    struct inode *inode = BPF_CORE_READ(file, f_inode);
    event.inode = BPF_CORE_READ(inode, i_ino);

    // 获取文件名
    struct dentry *dentry = BPF_CORE_READ(file, f_path.dentry);
    if (dentry) {
        get_filename(dentry, event.filename, sizeof(event.filename));
    } else {
        bpf_probe_read_kernel_str(event.filename, sizeof(event.filename), "<unknown>");
    }

    bpf_perf_event_output(ctx, &events, BPF_F_CURRENT_CPU, &event, sizeof(event));
    return 0;
}

// 挂载到 vfs_write 函数的入口 (与 vfs_read 类似)
SEC("kprobe/vfs_write")
int BPF_KPROBE(vfs_write_entry, struct file *file, const char __user *buf, size_t count, loff_t *pos) {
    __u64 pid_tgid = bpf_get_current_pid_tgid();
    __u32 pid = pid_tgid >> 32;
    __u32 cpu_id = bpf_get_smp_processor_id();
    __u64 key = ((__u64)pid << 32) | cpu_id;

    __u64 start_time = bpf_ktime_get_ns();
    bpf_map_update_elem(&start_times, &key, &start_time, BPF_ANY);
    return 0;
}

// 挂载到 vfs_write 函数的出口
SEC("kretprobe/vfs_write")
int BPF_KRETPROBE(vfs_write_exit, struct file *file, const char __user *buf, size_t count, loff_t *pos) {
    __u64 pid_tgid = bpf_get_current_pid_tgid();
    __u32 pid = pid_tgid >> 32;
    __u32 cpu_id = bpf_get_smp_processor_id();
    __u64 key = ((__u64)pid << 32) | cpu_id;

    __u64 *start_time_ptr = bpf_map_lookup_elem(&start_times, &key);
    if (!start_time_ptr) {
        return 0;
    }

    __u64 start_time = *start_time_ptr;
    bpf_map_delete_elem(&start_times, &key);

    __u64 end_time = bpf_ktime_get_ns();
    __u64 duration_ns = end_time - start_time;

    if (duration_ns < 1000) { // 1 microsecond
        return 0;
    }

    struct io_event event = {};
    event.timestamp_ns = end_time;
    event.pid = pid;
    bpf_get_current_comm(&event.comm, sizeof(event.comm));
    event.duration_ns = duration_ns;
    event.is_write = true;
    event.bytes = (size_t)PT_REGS_RC(ctx); // vfs_write 的返回值是写入的字节数

    struct inode *inode = BPF_CORE_READ(file, f_inode);
    event.inode = BPF_CORE_READ(inode, i_ino);

    struct dentry *dentry = BPF_CORE_READ(file, f_path.dentry);
    if (dentry) {
        get_filename(dentry, event.filename, sizeof(event.filename));
    } else {
        bpf_probe_read_kernel_str(event.filename, sizeof(event.filename), "<unknown>");
    }

    bpf_perf_event_output(ctx, &events, BPF_F_CURRENT_CPU, &event, sizeof(event));
    return 0;
}

用户态 Go 代码 (file_latency_monitor.go)

package main

import (
    "bytes"
    "encoding/binary"
    "fmt"
    "os"
    "os/signal"
    "syscall"
    "time"

    "github.com/cilium/ebpf"
    "github.com/cilium/ebpf/link"
    "github.com/cilium/ebpf/perf"
)

//go:generate go run github.com/cilium/ebpf/cmd/bpf2go -cc clang -cflags "-O2 -g -Wall" bpf file_latency.bpf.c -- -I./headers

type IoEvent struct {
    TimestampNs uint64
    Pid         uint32
    Comm        [16]byte
    DurationNs  uint64
    Inode       uint64
    Filename    [128]byte
    Bytes       uint32
    IsWrite     bool
}

func main() {
    stopper := make(chan os.Signal, 1)
    signal.Notify(stopper, os.Interrupt, syscall.SIGTERM)

    objs := bpfObjects{}
    if err := loadBpfObjects(&objs, nil); err != nil {
        fmt.Fprintf(os.Stderr, "failed to load BPF objects: %vn", err)
        os.Exit(1)
    }
    defer objs.Close()

    // 挂载 kprobe/kretprobe for vfs_read
    kpReadEntry, err := link.Kprobe("vfs_read", objs.VfsReadEntry, nil)
    if err != nil {
        fmt.Fprintf(os.Stderr, "failed to attach kprobe for vfs_read entry: %vn", err)
        os.Exit(1)
    }
    defer kpReadEntry.Close()

    kpReadExit, err := link.Kretprobe("vfs_read", objs.VfsReadExit, nil)
    if err != nil {
        fmt.Fprintf(os.Stderr, "failed to attach kretprobe for vfs_read exit: %vn", err)
        os.Exit(1)
    }
    defer kpReadExit.Close()

    // 挂载 kprobe/kretprobe for vfs_write
    kpWriteEntry, err := link.Kprobe("vfs_write", objs.VfsWriteEntry, nil)
    if err != nil {
        fmt.Fprintf(os.Stderr, "failed to attach kprobe for vfs_write entry: %vn", err)
        os.Exit(1)
    }
    defer kpWriteEntry.Close()

    kpWriteExit, err := link.Kretprobe("vfs_write", objs.VfsWriteExit, nil)
    if err != nil {
        fmt.Fprintf(os.Stderr, "failed to attach kretprobe for vfs_write exit: %vn", err)
        os.Exit(1)
    }
    defer kpWriteExit.Close()

    fmt.Println("Tracing file I/O latency... Press Ctrl-C to stop.")

    rd, err := perf.NewReader(objs.Events, os.Getpagesize())
    if err != nil {
        fmt.Fprintf(os.Stderr, "failed to create perf event reader: %vn", err)
        os.Exit(1)
    }
    defer rd.Close()

    var event IoEvent
    for {
        select {
        case <-stopper:
            fmt.Println("Exiting.")
            return
        default:
            record, err := rd.Read()
            if err != nil {
                if perf.Is = nil {
                    continue
                }
                fmt.Fprintf(os.Stderr, "failed to read from perf reader: %vn", err)
                return
            }

            if record.LostSamples != 0 {
                fmt.Printf("perf event ring buffer full, lost %d samplesn", record.LostSamples)
                continue
            }

            reader := bytes.NewReader(record.RawSample)
            if err := binary.Read(reader, binary.LittleEndian, &event); err != nil {
                fmt.Fprintf(os.Stderr, "failed to parse perf event: %vn", err)
                continue
            }

            commStr := string(bytes.TrimRight(event.Comm[:], "x00"))
            filenameStr := string(bytes.TrimRight(event.Filename[:], "x00"))
            opType := "READ"
            if event.IsWrite {
                opType = "WRITE"
            }

            // 转换纳秒为微秒或毫秒，使其更易读
            durationUs := float64(event.DurationNs) / 1000.0
            durationMs := durationUs / 1000.0

            fmt.Printf("[%s] PID: %5d, COMM: %-16s, OP: %-5s, FILE: %-40s, BYTES: %-8d, LATENCY: %.3f µs (%.3f ms)n",
                time.Now().Format("15:04:05.000"),
                event.Pid, commStr, opType, filenameStr, event.Bytes, durationUs, durationMs)
        }
    }
}

编译与运行

安装依赖: 同上。
生成 vmlinux.h: 同上。
生成 Go 绑定: go generate。
运行 Go 程序: sudo go run .

解释:

内核态:
- kprobe/vfs_read 和 kprobe/vfs_write: 在文件读取和写入操作的入口处，记录当前时间 (bpf_ktime_get_ns())，并存储到 start_times 映射中，key 结合了 PID 和 CPU ID，以处理并发和避免冲突。
- kretprobe/vfs_read 和 kretprobe/vfs_write: 在函数返回时，从 start_times 映射中取出开始时间，计算耗时 duration_ns。
- struct file *file：vfs_read 和 vfs_write 的第一个参数，指向被操作的文件结构体。
- BPF_CORE_READ(file, f_inode): 从 file 结构体中获取 inode 指针，进而获取 i_ino (inode 号)。
- BPF_CORE_READ(file, f_path.dentry): 从 file 结构体中获取 dentry (目录项) 指针，它是文件名的内核表示。
- get_filename 辅助函数：通过 dentry 结构体的 d_name 成员和 bpf_probe_read_kernel_str 辅助函数，安全地读取文件名。
- PT_REGS_RC(ctx): 用于获取 kretprobe 挂载点函数的返回值，对于 vfs_read/vfs_write，这是实际读/写的字节数。
- events (Perf Buffer): 用于将包含文件 I/O 延迟信息的 io_event 结构体流式传输到用户空间。
用户态:
- link.Kprobe/link.Kretprobe: 分别挂载到 vfs_read 和 vfs_write 的入口和出口。
- IoEvent 结构体：与内核态定义的结构体精确对应，用于解析事件数据。
- 实时打印：当接收到 IoEvent 时，将其格式化并打印出来，显示进程、操作类型、文件名、字节数和延迟。延迟通常以微秒或毫秒显示，更符合人类阅读习惯。

表：文件 I/O 延迟追踪的关键内核函数

函数/追踪点	描述	延迟衡量范围	优点	缺点
`kprobe:__x64_sys_read` / `__x64_sys_write`	测量系统调用 `read()` / `write()` 的总耗时	从用户空间进入内核到返回用户空间	涵盖所有内核态开销	包含文件系统缓存命中等非实际存储延迟
`kprobe:vfs_read` / `vfs_write`	测量 VFS 层读/写操作耗时	文件系统层面的读写操作，包括缓存检查	精确到文件系统操作，可关联文件	仍可能包含 Page Cache 命中带来的“假延迟”
`kprobe:generic_file_read_iter` / `generic_file_write_iter`	更底层的通用文件 I/O 迭代器，实际数据传输	更接近实际数据传输，但仍受 Page Cache 影响	粒度更细，直接涉及数据传输	区分缓存命中/未命中可能需要更多逻辑
`tracepoint:block:block_rq_issue` / `block:block_rq_complete`	测量块设备 I/O 请求从提交到完成的耗时	真实存储介质的 I/O 延迟，不含文件系统缓存	反映真实存储性能，与文件系统无关	难以直接关联到具体文件名，需要额外的映射

通过这个工具，我们能够实时看到哪些进程在对哪些文件执行 I/O 操作，以及这些操作的实际延迟是多少。这对于发现 I/O 密集型应用的瓶颈、诊断存储性能问题、甚至识别恶意或异常的文件访问行为都非常有价值。

生产环境的零开销与最佳实践

我们已经看到了 eBPF 在 TCP 丢包和文件 I/O 延迟追踪方面的强大能力。现在，让我们回到“零开销”这个核心承诺，并探讨在生产环境中部署 eBPF 时的最佳实践。

为什么是“零开销”？

“零开销”是一个相对的概念，通常指的是可忽略不计的开销，远低于传统追踪工具。eBPF 实现这一点的关键在于：

内核内执行: eBPF 程序直接在内核中运行，避免了用户态和内核态之间昂贵的上下文切换。
JIT 编译: eBPF 字节码被编译成原生机器码，执行效率极高，与原生内核代码相当。
沙盒与验证器: 严格的验证器保证了程序的安全性，避免了程序崩溃或引入内核漏洞的风险，减少了调试和恢复的开销。
事件驱动: 程序只在特定事件发生时才被触发执行，而不是持续轮询或插入大量检测点。
高效的数据传输: Perf Buffer 和 Ring Buffer 提供了高度优化的机制，用于将内核态收集的数据异步、批量地传输到用户空间，减少了同步 I/O 的开销。
极简的程序逻辑: eBPF 程序通常很小，只执行少量指令来收集必要的数据，避免了复杂逻辑带来的性能负担。

在实际生产环境中，一个设计良好、代码精简的 eBPF 追踪程序，其 CPU 和内存开销通常在 1% 以下，甚至更低。这使得它成为唯一能够在生产环境中持续运行的细粒度追踪工具。

生产部署与稳定性

CO-RE (Compile Once – Run Everywhere): 这是 eBPF 走向生产的关键。通过 BPF Type Format (BTF) 和 libbpf 库，eBPF 程序可以在一个内核版本上编译，然后在其他不同内核版本的机器上运行，无需重新编译。BPF_CORE_READ 宏在幕后利用 BTF 自动调整结构体成员的偏移量。确保你的内核支持 BTF（通常 Linux 5.x 及以上版本默认支持）。
libbpf 与 bpftool: libbpf 是一个 C 库，提供了加载、管理 eBPF 程序的标准接口，支持 CO-RE。bpftool 是一个强大的命令行工具，用于检查、调试 eBPF 程序、映射和 BTF 信息。
错误处理: eBPF 程序在内核中运行，任何错误都可能导致探针卸载。用户空间程序应能优雅地处理 perf.Reader 错误、映射查找失败以及 bpf_perf_event_output 失败（例如，缓冲区满）。
资源限制: eBPF 程序有严格的指令数限制（约 100 万条指令）、栈空间限制（512 字节）以及映射大小限制。设计程序时应尽可能精简。
动态控制: 考虑在用户空间程序中实现动态开启/关闭追踪、调整过滤条件或采样率的功能，以适应不同的生产环境需求。
监控 eBPF 自身: 监控 eBPF 程序的加载状态、CPU 使用率、以及 perf_event_output 的丢弃率，确保其健康运行。

与现有监控体系集成

eBPF 提供了原始、高保真的数据，但这些数据通常需要进一步处理和可视化才能发挥最大价值。

数据聚合: 用户空间程序可以对 eBPF 收集的实时事件进行聚合（例如，计算平均延迟、P99 延迟、每秒丢包数），然后将聚合结果暴露给 Prometheus 等监控系统。
可视化: 利用 Grafana 结合 Prometheus 数据源，构建定制化的仪表板，将 eBPF 提供的洞察力以直观的方式展现。例如，可以绘制 TCP 丢包原因随时间变化的堆叠图，或者按进程/文件细分的 I/O 延迟热力图。
告警: 基于 eBPF 聚合的数据设置告警规则，例如，当特定类型的 TCP 丢包率超过阈值，或关键文件 I/O 延迟长时间处于高位时触发告警。

安全考量

尽管 eBPF 验证器提供了强大的安全保障，但在生产环境中部署时仍需注意：

权限管理: 加载 eBPF 程序通常需要 CAP_SYS_ADMIN 权限。应确保只有受信任的用户或服务才能加载和管理 eBPF 程序。
信息泄露: eBPF 程序能够访问内核数据结构。虽然验证器会限制内存访问，但恶意程序仍可能通过合法手段读取敏感信息。只加载来源可靠的 eBPF 程序。
拒绝服务: 编写不当的 eBPF 程序，即使通过验证器，也可能因为频繁触发或执行时间过长而间接影响系统性能。仔细测试和审计 eBPF 代码。

展望未来：可观测性的新范式

eBPF 正在彻底改变我们理解和调试 Linux 系统的能力。它将可观测性的边界从用户空间扩展到内核深处，以几乎零开销的方式提供了前所未有的可见性。我们今天探讨的 TCP 丢包和文件 I/O 延迟仅仅是冰山一角。eBPF 还可以用于：

进程调度分析: 测量任务切换延迟、CPU 饥饿。
内存访问模式: 追踪页故障、缓存行为。
系统调用行为: 监控所有系统调用的频率、参数和耗时。
安全审计: 检测异常进程行为、文件访问模式、网络连接。
网络性能优化: XDP 和 TC 程序可以实现高性能防火墙、负载均衡和流量整形。

eBPF 不仅仅是一个工具，它代表了一种全新的可观测性范式。它将复杂的内核行为暴露给用户态，让开发者和运维人员能够以数据驱动的方式，精准定位并解决那些曾经难以捉摸的性能瓶颈和安全隐患。随着 eBPF 生态系统的日益成熟，以及更多高级库和框架的出现，它必将成为每一位技术专家工具箱中不可或缺的一部分。我们正站在一个由 eBPF 驱动的，更透明、更可控、更高效的系统管理时代的开端。

eBPF：内核的超能力编程接口

eBPF 的核心机制

开发流程概览

追踪 TCP 丢包：揭示网络栈深处的秘密

TCP 丢包的常见原因与内核挂载点

eBPF 追踪策略

代码示例 1：统计 TCP 丢包总数

监控文件 I/O 延迟：揭示存储的真实性能

文件 I/O 延迟的复杂性

eBPF 追踪策略

代码示例 2：追踪 vfs_read / vfs_write 延迟

生产环境的零开销与最佳实践

为什么是“零开销”？

生产部署与稳定性

与现有监控体系集成

安全考量

展望未来：可观测性的新范式

发表回复 取消回复

代码示例 2：追踪 `vfs_read` / `vfs_write` 延迟

发表回复取消回复