剖析 WordPress `WP_Block_Parser` 类的源码：它如何将文章中的区块 HTML 解析为结构化对象。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众，掌声欢迎！今天咱们来聊聊 WordPress 里面那个低调但关键的英雄——WP_Block_Parser。它就像个辛勤的园丁，把文章内容里那堆花花绿绿的区块 HTML，整理成井井有条的花园（也就是结构化的对象）。咱们要深入它的内心，看看它到底是怎么做到的，就像解剖一只青蛙一样，不过别担心，这次不会有动物受伤，只有代码会受伤（开玩笑啦！）。

Block Parser 是什么？我为什么要关心它？

首先，让我们明确一下目标。WP_Block_Parser 的主要任务是解析 WordPress 文章或者页面中的区块内容。自从 WordPress 5.0 引入 Gutenberg 编辑器以来，内容不再是简单的 HTML 文本，而是由一个个独立的“区块”组成的。这些区块可以是段落、标题、图片、列表等等。WP_Block_Parser 负责将这些区块从原始的 HTML 字符串中提取出来，并转换成 PHP 可以理解的结构化数据，方便后续处理和渲染。

你不关心它？那你就错过了理解 WordPress 内容组织方式的关键。如果你想开发自己的区块、修改现有区块的行为、或者对文章内容进行高级分析，你就必须了解 WP_Block_Parser 的工作原理。

入门：简单的区块 HTML 例子

在深入代码之前，我们先来看一个简单的区块 HTML 示例：

<!-- wp:paragraph -->
<p>Hello, world!</p>
<!-- /wp:paragraph -->

<!-- wp:image {"id":123,"sizeSlug":"large"} -->
<figure class="wp-block-image size-large"><img src="image.jpg" alt="" class="wp-image-123"/></figure>
<!-- /wp:image -->

<!-- wp:list -->
<ul><li>Item 1</li><li>Item 2</li></ul>
<!-- /wp:list -->

可以看到，每个区块都以  开头，以  结尾。block-name 是区块的名称，比如 paragraph、image、list。attributes 则是区块的属性，以 JSON 格式存储。

WP_Block_Parser 的核心方法

WP_Block_Parser 类主要有一个核心方法：parse( $content )。这个方法接收一个包含区块 HTML 的字符串作为输入，返回一个数组，数组中的每个元素代表一个区块，包含了区块的名称、属性、内容等信息。

class WP_Block_Parser {
    /**
     * Parses blocks out of a content string.
     *
     * @since 5.0.0
     *
     * @param string $content String to parse blocks from.
     * @return array Block list.
     */
    public function parse( $content ) {
        // ... 核心解析逻辑 ...
    }
}

深入 parse() 方法的内部

parse() 方法的实现比较复杂，涉及到正则表达式匹配、递归调用等技术。我们将其分解为几个关键步骤来理解：

清理内容: 首先，parse() 会对输入的内容进行一些清理，例如移除多余的空白字符，处理 HTML 注释等。
正则表达式匹配: 接下来，parse() 使用正则表达式来查找区块的起始和结束标记。WordPress 使用以下正则表达式来匹配区块：
```
$regex = '/n?)((.*?)|z)/s';
```
这个正则表达式看起来有点吓人，但我们可以将其分解为几个部分：
- n?): 匹配起始标记的结束部分，例如 -->。n? 允许换行。
- ((.*?)|z): 匹配区块的内容和结束标记。(.*?) 用于捕获区块的内容。 匹配结束标记，1 是一个反向引用，指向之前捕获的区块名称。z 匹配字符串的结尾，用于处理没有结束标记的区块。
- /s: 这个修饰符表示 . 可以匹配换行符，这对于处理包含多行内容的区块非常重要。
递归调用: 如果在当前区块的内容中又发现了嵌套的区块，parse() 会递归调用自身来解析嵌套的区块。这使得 WordPress 可以处理复杂的区块结构。
构建区块对象: 对于每个匹配到的区块，parse() 会创建一个包含以下属性的数组：
- blockName: 区块的名称，例如 core/paragraph。
- attrs: 区块的属性，解析后的 PHP 数组。
- innerBlocks: 一个数组，包含了当前区块的所有子区块。
- innerHTML: 包含该区块的完整HTML字符串。
- innerContent: 一个数组，包含了该区块的内容，其中也可能包含子区块。

代码示例：简化版的 parse() 方法

为了更好地理解 parse() 方法的工作原理，我们可以编写一个简化版的实现：

<?php

class Simple_Block_Parser {

    public function parse( $content ) {
        $blocks = [];
        $regex  = '/<!--s+wp:([a-z0-9/-]+)s+({.*?}|)s*(-->n?)((.*?)<!--s+/wp:1s+-->|z)/s';

        preg_match_all( $regex, $content, $matches, PREG_SET_ORDER );

        foreach ( $matches as $match ) {
            $block_name  = $match[1];
            $attrs_string = $match[2];
            $inner_html  = $match[4];

            $attrs = [];
            if ( ! empty( $attrs_string ) ) {
                $attrs = json_decode( $attrs_string, true );
            }

            $block = [
                'blockName'   => $block_name,
                'attrs'       => $attrs,
                'innerHTML'   => $inner_html,
                'innerBlocks' => $this->parse( $inner_html ), // 递归调用
            ];

            $blocks[] = $block;
        }

        return $blocks;
    }
}

// 示例用法
$content = '
<!-- wp:paragraph -->
<p>Hello, world!</p>
<!-- /wp:paragraph -->

<!-- wp:image {"id":123,"sizeSlug":"large"} -->
<figure class="wp-block-image size-large"><img src="image.jpg" alt="" class="wp-image-123"/></figure>
<!-- /wp:image -->
';

$parser = new Simple_Block_Parser();
$blocks = $parser->parse( $content );

echo '<pre>';
print_r( $blocks );
echo '</pre>';

?>

这个简化版的 parse() 方法虽然没有处理所有的情况，但它已经能够解析简单的区块 HTML，并将其转换成结构化的数组。

WP_Block_Parser 的局限性

WP_Block_Parser 并非完美无缺。它有一些局限性：

性能问题: 使用正则表达式进行匹配可能会比较耗时，尤其是在处理大型文章时。
错误处理: WP_Block_Parser 对错误的区块 HTML 的处理能力有限。如果 HTML 结构不正确，可能会导致解析失败。
嵌套深度限制: 为了防止无限递归，WP_Block_Parser 对区块的嵌套深度有限制。

表格总结：WP_Block_Parser 的关键属性

属性名	类型	描述
`blockName`	string	区块的名称，例如 `core/paragraph`。
`attrs`	array	区块的属性，解析后的 PHP 数组。
`innerBlocks`	array	一个数组，包含了当前区块的所有子区块。
`innerHTML`	string	包含该区块的完整HTML字符串。
`innerContent`	array	一个数组，包含了该区块的内容。如果区块包含嵌套区块，则该数组会包含 HTML 和子区块的混合内容。

如何利用 WP_Block_Parser 进行开发

了解了 WP_Block_Parser 的工作原理，我们就可以利用它进行各种开发：

自定义区块渲染: 我们可以使用 parse_blocks() 函数（它是对 WP_Block_Parser 的封装）来解析文章内容，然后根据区块的类型和属性，自定义区块的渲染方式。
区块内容分析: 我们可以使用 parse_blocks() 函数来提取文章中的所有区块，并分析它们的类型、属性和内容，例如统计文章中使用了多少个图片区块、哪些区块使用了特定的属性等。
区块数据迁移: 我们可以使用 parse_blocks() 函数来解析文章内容，然后将区块数据迁移到其他系统或格式。

示例：使用 parse_blocks() 函数自定义区块渲染

<?php

function my_custom_render_block( $block ) {
    if ( $block['blockName'] === 'core/paragraph' ) {
        // 修改段落区块的 HTML
        $block['innerHTML'] = '<p style="color: blue;">' . $block['innerHTML'] . '</p>';
    }

    return $block['innerHTML'];
}

add_filter( 'render_block', 'my_custom_render_block', 10, 2 );

?>

这个示例代码使用 render_block 过滤器来修改段落区块的 HTML。当 WordPress 渲染段落区块时，my_custom_render_block() 函数会被调用，将段落的颜色设置为蓝色。

总结

WP_Block_Parser 是 WordPress 区块编辑器的核心组件之一。它负责将文章内容中的区块 HTML 解析成结构化的数据，方便 WordPress 进行后续处理和渲染。通过了解 WP_Block_Parser 的工作原理，我们可以更好地理解 WordPress 的内容组织方式，并利用它进行各种开发，例如自定义区块渲染、区块内容分析和区块数据迁移。

希望今天的讲座能够帮助大家更好地理解 WP_Block_Parser。记住，代码就像魔法，理解它，你就能创造奇迹！谢谢大家！

发表回复 取消回复

发表回复取消回复