探究 WordPress `WP_HTML_Tag_Processor` 类的源码：如何安全地修改 HTML 内容。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位代码界的段子手、BUG界的扛把子们，今天咱们来聊聊WordPress里一个有点意思，但又经常被人忽略的小玩意儿：WP_HTML_Tag_Processor。别看它名字长，其实就是个“HTML标签处理器”，说白了，就是帮你安全地“动刀子”修改HTML内容的。

为啥要强调“安全”呢？因为直接用字符串操作HTML，一不小心就会把HTML结构搞崩，轻则页面错乱，重则直接白屏。 WP_HTML_Tag_Processor 就像个外科医生，拿着手术刀，能精确地找到你想修改的标签，并且保证不会伤及无辜。

准备工作：认识你的“手术刀”

在开始之前，咱们先来认识一下这把“手术刀”的基本构造：

WP_HTML_Tag_Processor( string $html ): 构造函数，把你的HTML代码“装载”到处理器里。
next_tag( string|array|null $name = null, bool $require_full_match = false ): 找到下一个标签。可以指定标签名，也可以不指定。
get_tag(): 返回当前标签的名字 (例如 ‘img’, ‘div’, ‘a’)。
get_attribute( string $name ): 获取当前标签的某个属性值。
set_attribute( string $name, string $value ): 设置当前标签的某个属性值。
remove_attribute( string $name ): 移除当前标签的某个属性。
get_updated_html(): 获取修改后的HTML代码。
is_tag_closer(): 检查当前标签是否是闭合标签 (例如 </p>)。
get_token_type(): 获取当前token的类型（例如：WP_HTML_Token::TOKEN_TYPE_TAG_OPEN, WP_HTML_Token::TOKEN_TYPE_TEXT等等）。
seek( int $position ): 直接跳转到 HTML 字符串中的某个位置。这个方法比较少用，除非你有特殊的定位需求。

实战演练：给图片加个“懒加载”

咱们先来个简单的热身运动：给文章里的所有 <img> 标签加上 loading="lazy" 属性，让页面加载更快。

<?php

$content = '<p>这是一段文字。</p><img src="image1.jpg"><p>这是另一段文字。</p><img src="image2.jpg">';

$processor = new WP_HTML_Tag_Processor( $content );

while ( $processor->next_tag( 'img' ) ) {
  $processor->set_attribute( 'loading', 'lazy' );
}

$new_content = $processor->get_updated_html();

echo "原始内容:n";
echo $content . "nn";

echo "修改后的内容:n";
echo $new_content . "n";

// 输出:
// 原始内容:
// <p>这是一段文字。</p><img src="image1.jpg"><p>这是另一段文字。</p><img src="image2.jpg">

// 修改后的内容:
// <p>这是一段文字。</p><img src="image1.jpg" loading="lazy"><p>这是另一段文字。</p><img src="image2.jpg" loading="lazy">

这段代码很简单，首先把HTML内容扔给 WP_HTML_Tag_Processor，然后用 next_tag('img') 找到所有的 <img> 标签，最后用 set_attribute('loading', 'lazy') 给它们加上 loading="lazy" 属性。

进阶操作：移除所有链接的 `target="_blank"`

有些网站喜欢在新标签页打开链接，会在 <a> 标签里加上 target="_blank"。但如果你觉得这很烦人，可以用 WP_HTML_Tag_Processor 把它统统干掉。

<?php

$content = '<a href="https://example.com" target="_blank">链接1</a><p>这是一段文字。</p><a href="https://wordpress.org" target="_blank" rel="noopener">链接2</a>';

$processor = new WP_HTML_Tag_Processor( $content );

while ( $processor->next_tag( 'a' ) ) {
  if ( $processor->get_attribute( 'target' ) === '_blank' ) {
    $processor->remove_attribute( 'target' );
    // 顺便把 rel="noopener" 也干掉，防止安全漏洞
    $processor->remove_attribute( 'rel' );
  }
}

$new_content = $processor->get_updated_html();

echo "原始内容:n";
echo $content . "nn";

echo "修改后的内容:n";
echo $new_content . "n";

// 输出:
// 原始内容:
// <a href="https://example.com" target="_blank">链接1</a><p>这是一段文字。</p><a href="https://wordpress.org" target="_blank" rel="noopener">链接2</a>

// 修改后的内容:
// <a href="https://example.com">链接1</a><p>这是一段文字。</p><a href="https://wordpress.org">链接2</a>

这次我们加了个判断，只有当 <a> 标签的 target 属性是 "_blank" 时，才移除它。而且，为了安全起见，我们还顺手把 rel="noopener" 也给干掉了。

高级技巧：根据属性值修改标签

有时候，我们需要根据标签的属性值来决定是否修改它。比如，我们只想修改 class="special-image" 的 <img> 标签的 src 属性。

<?php

$content = '<img src="image1.jpg" class="normal-image"><img src="image2.jpg" class="special-image">';

$processor = new WP_HTML_Tag_Processor( $content );

while ( $processor->next_tag( 'img' ) ) {
  if ( $processor->get_attribute( 'class' ) === 'special-image' ) {
    $old_src = $processor->get_attribute( 'src' );
    $new_src = str_replace( '.jpg', '_large.jpg', $old_src );
    $processor->set_attribute( 'src', $new_src );
  }
}

$new_content = $processor->get_updated_html();

echo "原始内容:n";
echo $content . "nn";

echo "修改后的内容:n";
echo $new_content . "n";

// 输出:
// 原始内容:
// <img src="image1.jpg" class="normal-image"><img src="image2.jpg" class="special-image">

// 修改后的内容:
// <img src="image1.jpg" class="normal-image"><img src="image2.jpg" class="special-image" src="image2_large.jpg">

这段代码只修改了 class="special-image" 的 <img> 标签的 src 属性，把 .jpg 替换成了 _large.jpg。

应对复杂情况：处理自闭合标签

有些HTML标签是自闭合的，比如 <br> 和 <img />。 WP_HTML_Tag_Processor 也能正确处理它们。

<?php

$content = '<p>这是一行文字。<br>这是另一行文字。<img src="image.jpg" />';

$processor = new WP_HTML_Tag_Processor( $content );

while ( $processor->next_tag() ) { // 不指定标签名，匹配所有标签
  $tag_name = $processor->get_tag();
  if ( $tag_name === 'br' ) {
    // 可以对 <br> 标签做一些处理，比如替换成 <br />
    // 注意：直接替换字符串可能会破坏HTML结构，这里只是举个例子
    // 更好的做法可能是使用DOMDocument
  } elseif ( $tag_name === 'img' ) {
    // 可以对 <img> 标签做一些处理
  }
}

// ...

性能优化：避免不必要的循环

如果你的HTML内容非常庞大，频繁地调用 next_tag() 可能会影响性能。我们可以尽量减少循环的次数，只在必要的时候才调用 next_tag()。

例如，如果你只想修改第一个 <h1> 标签，可以这样做：

<?php

$content = '<h1>标题1</h1><p>这是一段文字。</p><h1>标题2</h1>';

$processor = new WP_HTML_Tag_Processor( $content );

if ( $processor->next_tag( 'h1' ) ) {
  $processor->set_attribute( 'class', 'main-title' );
}

$new_content = $processor->get_updated_html();

echo "原始内容:n";
echo $content . "nn";

echo "修改后的内容:n";
echo $new_content . "n";

// 输出:
// 原始内容:
// <h1>标题1</h1><p>这是一段文字。</p><h1>标题2</h1>

// 修改后的内容:
// <h1 class="main-title">标题1</h1><p>这是一段文字。</p><h1>标题2</h1>

安全注意事项：防止 XSS 攻击

虽然 WP_HTML_Tag_Processor 能保证HTML结构的完整性，但它不能防止XSS攻击。如果你从用户那里获取数据，并且要把这些数据插入到HTML中，一定要进行转义，防止恶意代码注入。

可以使用 esc_attr()、esc_html() 等函数进行转义。

<?php

$user_input = '<script>alert("XSS");</script>'; // 恶意代码

$content = '<input type="text" value="' . esc_attr( $user_input ) . '">';

echo $content;

// 输出:
// <input type="text" value="&lt;script&gt;alert(&quot;XSS&quot;);&lt;/script&gt;">

实际应用场景：

主题开发: 修改主题输出的HTML结构，比如添加自定义的CSS类。
插件开发: 自动给文章中的图片添加水印，或者实现一些SEO优化功能。
内容迁移: 批量修改数据库中的HTML内容，比如替换旧的图片链接。
增强可访问性: 自动给图片添加 alt 属性，或者给链接添加 title 属性。

`WP_HTML_Tag_Processor` 与 `DOMDocument` 的对比

你可能会问，既然WordPress已经有了 WP_HTML_Tag_Processor，为啥还要用 DOMDocument 呢？它们有什么区别？

特性	`WP_HTML_Tag_Processor`	`DOMDocument`
操作方式	基于状态机的“流式”处理，逐个标签扫描。	基于DOM树的“对象”处理，先把HTML解析成DOM树。
性能	通常更快，尤其是在处理大型HTML文档时。	可能会慢一些，因为需要先构建DOM树。
内存占用	更低，因为不需要把整个HTML文档加载到内存中。	更高，因为需要把整个HTML文档加载到内存中。
功能	主要用于修改标签的属性，以及移除标签。	功能更强大，可以添加、删除、移动、替换标签，以及修改文本内容。
复杂度	相对简单，API比较直观。	相对复杂，需要理解DOM树的概念。
安全性	专注于HTML结构的完整性，需要开发者自己处理XSS问题。	同样需要开发者自己处理XSS问题。

简单来说，WP_HTML_Tag_Processor 适合处理简单的HTML修改任务，比如修改标签属性。而 DOMDocument 适合处理复杂的HTML结构操作，比如添加、删除、移动标签。

如果你的任务很简单，用 WP_HTML_Tag_Processor 可以获得更好的性能。如果你的任务很复杂，或者需要操作文本内容，那就用 DOMDocument 吧。

深入源码：理解状态机的工作原理

WP_HTML_Tag_Processor 的核心是一个状态机。状态机根据当前的状态和输入的字符，来决定下一步的动作。

简单来说，状态机就像一个“自动售货机”，你投入不同的硬币（输入），它会给你不同的商品（输出）。

WP_HTML_Tag_Processor 的状态包括：

DATA: 正在处理文本内容。
TAG_OPEN: 遇到了 < 符号，开始解析标签。
TAG_NAME: 正在解析标签的名字。
ATTRIBUTE_NAME: 正在解析属性的名字。
ATTRIBUTE_VALUE: 正在解析属性的值。
TAG_CLOSE: 遇到了 > 符号，标签解析完毕。

状态机根据输入的字符，在这些状态之间切换。例如，当遇到 < 符号时，状态机从 DATA 状态切换到 TAG_OPEN 状态。

通过理解状态机的工作原理，可以更好地理解 WP_HTML_Tag_Processor 的内部机制，从而更灵活地使用它。

总结：

WP_HTML_Tag_Processor 是一个强大的工具，可以安全地修改WordPress中的HTML内容。掌握它可以让你在主题和插件开发中更加得心应手。记住，它的优点在于速度和安全性，尤其是在只需要修改属性的时候。但是，在进行复杂的HTML操作时，可能需要借助 DOMDocument。并且，无论使用哪种方法，都要注意安全问题，防止XSS攻击。

好了，今天的“HTML标签处理器”讲座就到这里。希望大家以后能用好这把“手术刀”，让你的WordPress代码更加优雅、高效。记住，代码的世界，没有BUG是不可能的，但我们可以尽量让BUG少一点，再少一点！下次再见！