如何通过 `binlog` 解析工具（如 `mysqlbinlog`）追踪`数据`的`变更`历史？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

通过 Binlog 解析工具追踪数据变更历史

大家好，今天我们来深入探讨如何利用 MySQL 的 Binlog 解析工具（例如 mysqlbinlog）来追踪数据库中数据的变更历史。这在数据审计、数据恢复、复制以及调试等场景中都至关重要。

1. Binlog 简介：MySQL 的变更记录

Binlog（Binary Log）是 MySQL 用于记录所有更改数据库状态的事件的二进制文件。这些事件包括：

数据变更（Data Manipulation Language, DML）： INSERT、UPDATE、DELETE 语句。
数据定义（Data Definition Language, DDL）： CREATE TABLE、ALTER TABLE、DROP TABLE 等语句。
事务信息： 事务的开始和结束，以及事务内的所有操作。

Binlog 以事件序列的形式记录这些变更，可以按照时间顺序或基于位置（position）进行读取。

2. 启用 Binlog

在使用 mysqlbinlog 之前，必须确保 MySQL 服务器已经启用了 Binlog 功能。通常，这需要在 MySQL 的配置文件（例如 my.cnf 或 my.ini）中进行配置。以下是一些常见的配置项：

[mysqld]
log-bin=mysql-bin  ; // 指定 Binlog 文件的前缀名
binlog_format=ROW   ; // 指定 Binlog 的格式 (ROW, STATEMENT, MIXED)
server-id=1         ; // 必须唯一，用于区分不同的 MySQL 服务器
expire_logs_days=7  ; // 自动删除过期日志的天数
sync_binlog=1       ; // 每次写入都同步到磁盘，保证数据安全 (性能会受到影响)

log-bin: 指定 Binlog 文件的前缀名。例如，设置为 mysql-bin，则生成的 Binlog 文件名可能是 mysql-bin.000001、mysql-bin.000002 等。
binlog_format: 指定 Binlog 的格式。这是一个关键配置，直接影响 mysqlbinlog 的解析结果：
- STATEMENT: 记录的是 SQL 语句。优点是文件较小，但可能存在问题，例如依赖于上下文的函数（如 NOW()、RAND()）可能导致主从数据不一致。
- ROW: 记录的是实际的行变更。优点是数据一致性好，缺点是文件较大，因为会记录每一行的具体变化。
- MIXED: 混合模式，MySQL 会自动选择 STATEMENT 或 ROW 格式。
server-id: 用于标识 MySQL 服务器的唯一 ID。在复制环境中，每个服务器必须有唯一的 server-id。
expire_logs_days: 指定 Binlog 文件自动删除的天数。
sync_binlog: 控制 Binlog 写入磁盘的频率。sync_binlog=1 表示每次写入都同步到磁盘，可以保证数据安全，但会影响性能。

修改配置文件后，需要重启 MySQL 服务器才能使配置生效。

3. 使用 mysqlbinlog 解析 Binlog

mysqlbinlog 是 MySQL 自带的 Binlog 解析工具，可以将 Binlog 文件转换为可读的 SQL 语句或事件信息。

3.1 基本用法

mysqlbinlog [options] log_file ...

log_file: 要解析的 Binlog 文件名。可以指定多个文件。
options: 各种选项，用于控制解析的行为。

3.2 常用选项

选项	描述
`--start-datetime=datetime`	从指定的日期时间开始解析。
`--stop-datetime=datetime`	到指定的日期时间结束解析。
`--start-position=position`	从指定的 position 开始解析。
`--stop-position=position`	到指定的 position 结束解析。
`--database=db_name`	只解析指定数据库的事件。
`--table=db_name.table_name`	只解析指定表的事件。
`--result-file=file_name`	将解析结果输出到指定的文件。
`--verbose`	显示更详细的信息。
`--base64-output=[AUTO\|DECODE\|SKIP]`	控制如何处理 Base64 编码的数据。 `AUTO` 表示自动检测，`DECODE` 表示解码，`SKIP` 表示跳过。对于 `ROW` 格式的 Binlog，通常需要设置为 `DECODE`。

3.3 示例

假设我们要解析 mysql-bin.000001 文件，并将结果输出到 output.sql 文件中：

mysqlbinlog mysql-bin.000001 > output.sql

如果 Binlog 格式为 ROW，并且要解码 Base64 编码的数据：

mysqlbinlog --base64-output=DECODE mysql-bin.000001 > output.sql

如果要从指定的时间点开始解析，到指定的时间点结束：

mysqlbinlog --start-datetime="2023-10-26 00:00:00" --stop-datetime="2023-10-26 12:00:00" mysql-bin.000001 > output.sql

如果要只解析 test 数据库中 users 表的事件：

mysqlbinlog --database=test --table=test.users mysql-bin.000001 > output.sql

4. 解析 ROW 格式的 Binlog

ROW 格式的 Binlog 记录的是实际的行变更，需要进行额外的处理才能还原出 SQL 语句。mysqlbinlog 默认会输出一些元数据信息以及 Base64 编码的数据。

例如，ROW 格式的 Binlog 可能会包含如下内容：

# at 1575
#231026 10:00:00 server id 1  end_log_pos 1683 CRC32 0x3924d863  Table_map: `test`.`users` mapped to number 123
# at 1683
#231026 10:00:00 server id 1  end_log_pos 1790 CRC32 0x3f8b483e  Write_rows: table id 123 flags: STMT_END_F

### INSERT INTO `test`.`users`
### SET
###   @1=1 /* INT meta=0 nullable=0 is_unsigned=0 */
###   @2='John Doe' /* VARSTRING(255) meta=255 nullable=1 charset=utf8mb4 */
###   @3='[email protected]' /* VARSTRING(255) meta=255 nullable=1 charset=utf8mb4 */
###   @4='2023-10-26 10:00:00' /* DATETIME meta=0 nullable=1 */
### INSERT INTO `test`.`users`
### SET
###   @1=2 /* INT meta=0 nullable=0 is_unsigned=0 */
###   @2='Jane Smith' /* VARSTRING(255) meta=255 nullable=1 charset=utf8mb4 */
###   @3='[email protected]' /* VARSTRING(255) meta=255 nullable=1 charset=utf8mb4 */
###   @4='2023-10-26 10:00:00' /* DATETIME meta=0 nullable=1 */

为了更容易理解和处理这些信息，可以使用一些工具或脚本来解析 ROW 格式的 Binlog。以下是一个简单的 Python 示例，用于将 ROW 格式的 Binlog 转换为 SQL 语句：

import re

def parse_row_binlog(binlog_file):
    """
    解析 ROW 格式的 Binlog 文件，提取 SQL 语句。
    """
    sql_statements = []
    current_statement = ""

    with open(binlog_file, 'r') as f:
        for line in f:
            line = line.strip()

            if line.startswith("### INSERT INTO") or line.startswith("### UPDATE") or line.startswith("### DELETE FROM"):
                current_statement = line + "n"
            elif line.startswith("### SET"):
                current_statement += line + "n"
            elif line.startswith("### WHERE"):
                current_statement += line + "n"
            elif line == "":
                if current_statement:
                    sql_statements.append(format_sql(current_statement))
                    current_statement = ""

    return sql_statements

def format_sql(statement):
    """
    将提取的 SET/WHERE 信息转换为可执行的 SQL 语句。
    """
    lines = statement.split("n")
    operation = lines[0].split("### ")[1]

    if "INSERT INTO" in operation:
        table_name = operation.split("INSERT INTO `")[1].split("`")[0]
        values = {}
        for line in lines[1:]:
            if line.startswith("###   @"):
                parts = line.split("/*")
                variable = parts[0].split("###   @")[1].split("=")[0]
                value = parts[0].split("=")[1].strip()
                values[variable] = value
        columns = ", ".join([re.sub(r'[@]', '', k) for k in values.keys()])
        vals = ", ".join([v for v in values.values()])
        sql = f"INSERT INTO `{table_name}` ({columns}) VALUES ({vals});"

    elif "UPDATE" in operation:
        table_name = operation.split("UPDATE `")[1].split("`")[0]
        set_values = {}
        where_values = {}
        set_section = False
        where_section = False

        for line in lines[1:]:
            if line.startswith("### SET"):
                set_section = True
                where_section = False
            elif line.startswith("### WHERE"):
                set_section = False
                where_section = True
            elif line.startswith("###   @") and set_section:
                parts = line.split("/*")
                variable = parts[0].split("###   @")[1].split("=")[0]
                value = parts[0].split("=")[1].strip()
                set_values[variable] = variable + "=" + value
            elif line.startswith("###   @") and where_section:
                parts = line.split("/*")
                variable = parts[0].split("###   @")[1].split("=")[0]
                value = parts[0].split("=")[1].strip()
                where_values[variable] = variable + "=" + value

        set_clause = ", ".join([v for v in set_values.values()])
        where_clause = " AND ".join([v for v in where_values.values()])

        sql = f"UPDATE `{table_name}` SET {set_clause} WHERE {where_clause};"
    elif "DELETE FROM" in operation:
        table_name = operation.split("DELETE FROM `")[1].split("`")[0]
        where_values = {}
        for line in lines[1:]:
            if line.startswith("### WHERE"):
                parts = line.split("/*")
                variable = parts[0].split("###   @")[1].split("=")[0]
                value = parts[0].split("=")[1].strip()
                where_values[variable] = variable + "=" + value
        where_clause = " AND ".join([v for v in where_values.values()])
        sql = f"DELETE FROM `{table_name}` WHERE {where_clause};"

    return sql

if __name__ == "__main__":
    binlog_file = "mysql-bin.000001"  # 替换为你的 Binlog 文件名
    sql_statements = parse_row_binlog(binlog_file)

    for sql in sql_statements:
        print(sql)

这个脚本会读取指定的 Binlog 文件，并尝试提取 INSERT、UPDATE 和 DELETE 语句，然后将它们格式化为可执行的 SQL 语句。

注意： 这个脚本只是一个简单的示例，可能无法处理所有类型的 ROW 格式 Binlog 事件。实际应用中，可能需要根据具体情况进行修改和完善。

5. 使用第三方工具

除了 mysqlbinlog 和自定义脚本外，还有一些第三方工具可以用于解析 Binlog，例如：

Debezium: 一个开源的分布式平台，用于捕获数据库的变更数据（Change Data Capture, CDC）。
Maxwell: 一个 Java 编写的 Binlog 提取器，可以将 Binlog 数据转换为 JSON 格式。
go-mysql: 一个 Go 语言编写的 MySQL 工具集，包含 Binlog 解析器。

这些工具通常提供更强大的功能和更灵活的配置选项，可以满足更复杂的需求。

6. 注意事项

权限： 运行 mysqlbinlog 需要具有足够的权限才能读取 Binlog 文件。通常需要 MySQL 的 SUPER 权限。
Binlog 格式： 选择合适的 Binlog 格式非常重要。ROW 格式可以保证数据一致性，但文件较大，解析也更复杂。
字符集： 确保客户端的字符集与 Binlog 的字符集一致，否则可能会出现乱码问题。
Binlog 文件轮转： MySQL 会定期轮转 Binlog 文件，旧的 Binlog 文件会被删除。需要定期备份 Binlog 文件，以便进行历史数据追踪。

7. 在实际应用中追踪数据变更

假设我们需要追踪 orders 表中订单状态的变更历史。可以按照以下步骤进行：

启用 Binlog，并设置为 ROW 格式。
编写一个程序，使用 mysqlbinlog 或第三方工具解析 Binlog 文件。
过滤出 orders 表的 UPDATE 事件。
提取订单 ID 和订单状态的变更前后的值。
将变更历史记录到另一个表中，例如 order_history。

order_history 表的结构可能如下：

字段	类型	描述
id	INT	自增主键
order_id	INT	订单 ID
old_status	VARCHAR(20)	变更前的订单状态
new_status	VARCHAR(20)	变更后的订单状态
changed_at	DATETIME	变更时间

通过这种方式，就可以追踪订单状态的变更历史，并进行审计和分析。

8. 总结

通过以上讲解，我们了解了如何通过 mysqlbinlog 或其他工具来追踪数据的变更历史。这涉及到启用 Binlog，选择合适的 Binlog 格式，使用 mysqlbinlog 解析 Binlog 文件，以及编写程序或使用第三方工具来提取和处理 Binlog 数据。掌握这些技能对于数据库管理和数据分析至关重要。

希望今天的讲座对大家有所帮助，谢谢！

通过 Binlog 解析工具追踪数据变更历史

发表回复 取消回复

发表回复取消回复