分析 WordPress `the_content` 过滤器在 Gutenberg 中的源码实现：如何将区块数据转换为前端 HTML。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众，晚上好！今天咱们来聊聊WordPress的the_content过滤器在Gutenberg时代的故事。这是一个关于数据如何变成网页上漂亮画面的故事，听起来是不是有点像魔法？

我们都知道，Gutenberg带来的最大变化就是区块。以前我们写文章，就是一大坨文字，现在则是各种积木一样的区块拼起来的。那么，这些区块数据是如何变成我们最终看到的HTML的呢？答案就藏在the_content过滤器里。

一、the_content过滤器：从原始数据到网页呈现的桥梁

首先，咱们得明确the_content过滤器是干嘛的。简单来说，它就像一个传送带，把WordPress文章的内容从数据库里拉出来，经过一系列处理，最终变成浏览器可以理解的HTML代码。

在WordPress的世界里，the_content过滤器允许开发者修改文章内容，插入广告、做链接转换，或者像Gutenberg一样，把区块数据渲染成HTML。

二、Gutenberg与the_content：一场美丽的邂逅

Gutenberg并没有完全抛弃the_content过滤器，而是巧妙地利用了它。当文章保存到数据库时，Gutenberg会把文章内容序列化成一种特殊的格式，里面包含了所有区块的信息。这个格式就是所谓的“区块语法”（Block Syntax）。

例如，一个简单的段落区块在数据库里可能是这样的：

<!-- wp:paragraph -->
<p>Hello, Gutenberg!</p>
<!-- /wp:paragraph -->

the_content过滤器的主要任务就是解析这些区块语法，然后把它们转换成最终的HTML。

三、源码剖析：gutenberg_parse_blocks函数

Gutenberg的核心就在于如何解析这些区块。这部分工作主要由gutenberg_parse_blocks函数完成。这个函数位于wp-includes/blocks.php文件中（或者对应的Gutenberg插件目录下）。

咱们来一起看看这个函数的大致流程：

输入： 原始的文章内容（包含区块语法的字符串）。
解析： 使用正则表达式或其他方法，识别出所有的区块。
转换： 针对每个区块，找到对应的渲染函数，把区块数据转换成HTML。
输出： 拼接所有区块的HTML，形成最终的文章内容。

虽然gutenberg_parse_blocks函数本身比较复杂，但是它的核心思想就是“识别 + 转换”。

四、区块注册与渲染：register_block_type与render_callback

要让Gutenberg知道如何渲染一个区块，首先需要注册这个区块。这就要用到register_block_type函数。

register_block_type(
    'my-plugin/my-block', // 区块名称，必须是唯一的
    array(
        'attributes'      => array(
            'content' => array(
                'type' => 'string',
                'default' => 'Hello, World!',
            ),
        ),
        'render_callback' => 'my_block_render_callback', // 渲染函数
    )
);

function my_block_render_callback( $attributes ) {
    $content = $attributes['content'];
    return '<p class="my-block">' . esc_html( $content ) . '</p>';
}

解释一下：

register_block_type：注册一个名为my-plugin/my-block的区块。
attributes：定义区块的属性，例如content，类型是字符串，默认值是Hello, World!。
render_callback：指定渲染函数，当Gutenberg遇到这个区块时，就会调用这个函数来生成HTML。
my_block_render_callback：渲染函数，接收区块的属性作为参数，返回HTML代码。

重点是render_callback，它就是把区块数据变成HTML的关键。这个函数可以根据区块的属性，生成任何你想要的HTML代码。

五、the_content过滤器的实际应用

Gutenberg通过the_content过滤器，把gutenberg_parse_blocks函数的输出插入到文章内容中。这意味着，我们也可以利用the_content过滤器来修改Gutenberg生成的HTML。

例如，我们可以添加一个过滤器，给所有的段落区块添加一个额外的class：

add_filter( 'the_content', 'add_paragraph_class' );

function add_paragraph_class( $content ) {
    // 使用正则表达式匹配所有的段落区块
    $content = preg_replace(
        '/<p([^>]*)>/',
        '<p$1 class="my-custom-class">',
        $content
    );
    return $content;
}

这段代码使用正则表达式匹配所有的<p>标签，并在标签中添加my-custom-class。

六、深入gutenberg_parse_blocks：正则表达式与状态机

gutenberg_parse_blocks函数的实现细节比较复杂，它使用了正则表达式和状态机来解析区块语法。

简单来说，状态机就是一种根据当前状态和输入，转换到下一个状态的机制。在解析区块语法时，状态机可以帮助我们跟踪当前的解析状态，例如是否在一个区块内部，是否在一个属性内部等等。

正则表达式则用于匹配区块的开始和结束标记，以及属性的名称和值。

虽然理解gutenberg_parse_blocks函数的全部细节需要花费一些时间，但是掌握正则表达式和状态机的基本概念，可以帮助我们更好地理解它的工作原理。

七、表格总结：关键函数与概念

函数/概念	描述	作用
`the_content`	WordPress过滤器，用于修改文章内容	允许Gutenberg将区块数据渲染成HTML，也允许开发者修改Gutenberg生成的HTML
`gutenberg_parse_blocks`	Gutenberg的核心函数，用于解析区块语法	将包含区块语法的文章内容转换成HTML
`register_block_type`	注册一个区块类型	定义区块的属性和渲染函数
`render_callback`	区块的渲染函数	接收区块的属性作为参数，返回HTML代码
区块语法 (Block Syntax)	Gutenberg用于存储区块信息的格式	存储文章内容中的区块信息
正则表达式	用于匹配字符串中的模式	在`gutenberg_parse_blocks`函数中，用于匹配区块的开始和结束标记，以及属性的名称和值
状态机	一种根据当前状态和输入，转换到下一个状态的机制	在`gutenberg_parse_blocks`函数中，用于跟踪当前的解析状态

八、一些幽默的思考

the_content过滤器就像一个“翻译官”，把Gutenberg的“火星文”（区块语法）翻译成浏览器可以理解的“地球语”（HTML）。
gutenberg_parse_blocks函数就像一个“拼图大师”，把文章内容中的各种区块碎片拼成一个完整的画面。
render_callback函数就像一个“艺术家”，根据区块的属性，创作出各种各样的HTML作品。
如果我们把Gutenberg比作一个乐高积木，那么the_content过滤器就是把这些积木搭建成房子的“说明书”。

九、总结与展望

the_content过滤器是WordPress的核心机制之一，它在Gutenberg时代仍然发挥着重要的作用。通过the_content过滤器，Gutenberg可以把区块数据渲染成HTML，从而实现可视化的编辑体验。

理解the_content过滤器的工作原理，可以帮助我们更好地理解Gutenberg的架构，也可以让我们更灵活地定制WordPress的功能。

虽然gutenberg_parse_blocks函数的实现细节比较复杂，但是掌握正则表达式和状态机的基本概念，可以帮助我们更好地理解它的工作原理。

未来，随着Gutenberg的不断发展，the_content过滤器可能会发生一些变化。但是，它作为文章内容处理的核心机制，仍然会继续发挥重要的作用。

好了，今天的讲座就到这里。希望大家有所收获！如果有什么问题，欢迎提问。

发表回复 取消回复

发表回复取消回复