分析 `wp_kses()` 函数的源码，它是如何使用白名单机制对 HTML 内容进行过滤的？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

欢迎来到今天的“HTML清洁工养成记”讲座！我是你们今天的向导，将带你们深入了解WordPress的wp_kses()函数，看看这位HTML世界的清洁工是如何利用白名单机制，把那些潜在的“脏乱差”的HTML代码变得干净整洁的。

第一幕：认识我们的主角——wp_kses()

话说在WordPress这个内容管理系统中，安全可是头等大事。用户可以自由地发布文章，但如果允许他们随意插入HTML代码，那就像打开了潘多拉的魔盒，各种恶意脚本、XSS攻击都可能跑出来兴风作浪。

为了守护WordPress的安全，wp_kses()函数应运而生。它的主要职责就是：

接收一段HTML代码：可以是用户输入的内容，也可以是数据库中存储的HTML片段。
利用白名单进行过滤：只允许白名单中指定的HTML标签、属性和协议通过，其他的统统干掉。
返回过滤后的干净HTML代码：确保输出的HTML是安全的，不会对网站造成威胁。

简单来说，wp_kses()就像一个严格的海关检查员，只允许携带特定“许可证”的HTML元素入境，任何未经授权的“走私品”都会被没收。

第二幕：wp_kses()的内部结构——白名单的奥秘

wp_kses()的核心在于它的白名单机制。这个白名单定义了哪些HTML标签、属性和协议是允许的。WordPress默认提供了一个基础的白名单，但开发者也可以根据需要自定义。

让我们先来看看wp_kses()函数的基本结构：

function wp_kses( $string, $allowed_html, $allowed_protocols = array() ) {
    // ... 函数体 ...
}

$string：需要过滤的HTML字符串。
$allowed_html：一个数组，定义了允许的HTML标签及其属性。这就是白名单的核心。
$allowed_protocols：一个数组，定义了允许的URL协议（例如http, https, mailto）。

重点在于$allowed_html这个参数。它是一个多维数组，结构如下：

$allowed_html = array(
    'tag_name' => array(
        'attribute_name' => true, // 允许该属性，不限制属性值
        'attribute_name2' => array( 'http', 'https' ), // 允许该属性，并限定属性值必须是指定的协议
    ),
    'tag_name2' => array(
        // ... 其他属性 ...
    ),
);

tag_name：允许的HTML标签名称（例如p, a, img）。
attribute_name：允许的属性名称（例如href, src, class）。
true：表示允许该属性，不限制属性值。
array( 'http', 'https' )：表示允许该属性，但属性值必须是指定的协议（例如http或https）。

让我们看一个实际的例子：

$allowed_html = array(
    'p' => array(
        'class' => true,
        'style' => true,
    ),
    'a' => array(
        'href' => array( 'http', 'https', 'mailto' ),
        'title' => true,
        'rel' => true,
    ),
    'img' => array(
        'src' => array( 'http', 'https' ),
        'alt' => true,
        'width' => true,
        'height' => true,
    ),
    'br' => array(),
    'strong' => array(),
    'em' => array(),
);

这个白名单表示：

允许使用<p>标签，并且允许class和style属性。
允许使用<a>标签，并且href属性的协议必须是http、https或mailto，还允许title和rel属性。
允许使用<img>标签，并且src属性的协议必须是http或https，还允许alt、width和height属性。
允许使用<br>, <strong>和<em>标签，没有任何属性限制。

任何不在这个白名单中的标签或属性都会被wp_kses()移除。

第三幕：wp_kses()的工作流程——一步一步剥洋葱

wp_kses()的过滤过程可以概括为以下几个步骤：

HTML实体解码：将HTML实体（例如<, >, &）解码为对应的字符。
标签提取：使用正则表达式提取HTML字符串中的所有标签。
标签遍历和过滤：遍历提取出的标签，根据白名单进行过滤。
- 如果标签在白名单中，则保留，并进一步过滤其属性。
- 如果标签不在白名单中，则移除。
属性过滤：对于保留的标签，遍历其属性，根据白名单进行过滤。
- 如果属性在白名单中，则保留，并检查其值是否符合白名单的限制。
- 如果属性不在白名单中，则移除。
URL协议过滤：对于href和src等URL相关的属性，检查其协议是否在允许的协议列表中。如果不在，则移除该属性。
HTML实体编码：将过滤后的HTML字符串中的特殊字符（例如<, >）编码为HTML实体，以防止XSS攻击。
返回过滤后的HTML字符串。

为了更清楚地理解这个过程，我们来看一段简化的wp_kses()代码片段（注意：这只是为了演示原理，并非完整的wp_kses()实现）：

function simplified_wp_kses( $string, $allowed_html ) {
    $string = html_entity_decode( $string, ENT_QUOTES, 'UTF-8' ); // HTML实体解码

    preg_match_all( '/<[^>]+>/i', $string, $matches ); // 提取所有标签

    $filtered_html = '';
    foreach ( $matches[0] as $tag ) {
        // 提取标签名
        preg_match( '/<([a-z0-9]+)/i', $tag, $tag_name_match );
        $tag_name = strtolower( $tag_name_match[1] );

        if ( isset( $allowed_html[ $tag_name ] ) ) { // 标签在白名单中
            // 提取属性
            preg_match_all( '/([a-z0-9]+)="([^"]*)"/i', $tag, $attribute_matches );

            $allowed_attributes = $allowed_html[ $tag_name ];
            $filtered_attributes = '';

            for ( $i = 0; $i < count( $attribute_matches[0] ); $i++ ) {
                $attribute_name = strtolower( $attribute_matches[1][ $i ] );
                $attribute_value = $attribute_matches[2][ $i ];

                if ( isset( $allowed_attributes[ $attribute_name ] ) ) { // 属性在白名单中
                    //  简单起见，这里不做协议检查
                    $filtered_attributes .= ' ' . $attribute_name . '="' . esc_attr( $attribute_value ) . '"';
                }
            }

            $filtered_html .= '<' . $tag_name . $filtered_attributes . '>';
        } else {
            // 标签不在白名单中，直接移除
            $filtered_html .= ''; // 或者可以保留标签内的文本内容
        }
    }

    $filtered_html = htmlentities( $filtered_html, ENT_QUOTES, 'UTF-8' );  // HTML实体编码

    return $filtered_html;
}

这段代码简化了wp_kses()的流程，但足以说明白名单过滤的基本原理。它提取HTML标签和属性，然后与白名单进行比对，只保留白名单中允许的标签和属性，并对属性值进行适当的转义。

第四幕：自定义白名单——打造专属的安全堡垒

WordPress允许开发者自定义wp_kses()的白名单，以满足不同的需求。你可以使用wp_kses_allowed_html过滤器来修改默认的白名单。

例如，假设你想允许在文章中使用<iframe>标签，并且允许src、width和height属性，你可以这样做：

function allow_iframe_tag( $allowed_tags, $context ) {
    if ( $context === 'post' ) { // 只在文章内容中允许
        $allowed_tags['iframe'] = array(
            'src' => true,
            'width' => true,
            'height' => true,
            'frameborder' => true,
            'allowfullscreen' => true,
        );
    }

    return $allowed_tags;
}
add_filter( 'wp_kses_allowed_html', 'allow_iframe_tag', 10, 2 );

这段代码通过wp_kses_allowed_html过滤器，向post上下文的白名单中添加了<iframe>标签及其允许的属性。

第五幕：wp_kses()的局限性——没有银弹

虽然wp_kses()是一个强大的HTML过滤工具，但它并非万能的。它主要依赖于白名单机制，因此：

白名单必须足够全面：如果白名单遗漏了某些必要的标签或属性，可能会导致用户无法正常使用某些功能。
白名单也可能过于宽松：如果白名单包含了不安全的标签或属性，可能会引入安全风险。
wp_kses()无法防御所有类型的XSS攻击：某些高级的XSS攻击可能会绕过wp_kses()的过滤。

因此，在使用wp_kses()时，需要仔细评估其局限性，并采取其他安全措施，例如：

输入验证：在将用户输入保存到数据库之前，进行严格的验证，确保输入符合预期的格式和类型。
输出转义：在将数据输出到HTML页面之前，进行适当的转义，防止XSS攻击。
内容安全策略 (CSP)：使用CSP来限制浏览器可以加载的资源，从而减少XSS攻击的风险。

第六幕：总结与展望——HTML清洁工的未来

wp_kses()是WordPress中一个重要的安全函数，它通过白名单机制对HTML代码进行过滤，有效防止了XSS攻击。

然而，wp_kses()并非完美无缺，它存在一定的局限性。为了确保WordPress的安全，我们需要综合运用各种安全措施，包括输入验证、输出转义和内容安全策略。

随着Web技术的不断发展，XSS攻击也在不断演变。未来的wp_kses()可能会采用更先进的过滤技术，例如基于机器学习的XSS检测，以更好地保护WordPress的安全。

希望今天的讲座能让你对wp_kses()有更深入的了解。记住，安全无小事，让我们一起努力，打造一个更安全的WordPress世界！

附录：常用HTML标签的白名单示例

为了方便大家参考，这里提供一些常用HTML标签的白名单示例：

标签名	属性	说明
`p`	`class`, `style`, `align`	段落标签，允许自定义样式、对齐方式等。
`a`	`href` (http, https, mailto), `title`, `target`, `rel`, `class`	链接标签，允许链接到网页、邮箱，可以设置链接标题、打开方式等。
`img`	`src` (http, https), `alt`, `width`, `height`, `class`, `loading`	图片标签，允许显示网络图片，可以设置图片描述、尺寸等。
`br`	无	换行标签，没有任何属性。
`strong`	无	强调标签，没有任何属性。
`em`	无	斜体标签，没有任何属性。
`ul`	`class`, `style`	无序列表标签，允许自定义样式。
`ol`	`class`, `style`	有序列表标签，允许自定义样式。
`li`	`class`, `style`	列表项标签，允许自定义样式。
`h1`–`h6`	`class`, `style`, `align`	标题标签，允许自定义样式、对齐方式等。
`blockquote`	`cite`, `class`, `style`	引用标签，允许引用来源，自定义样式。
`code`	`class`, `style`	代码标签，允许自定义样式。
`pre`	`class`, `style`	预格式化文本标签，允许自定义样式。
`table`	`class`, `style`, `width`, `border`, `cellspacing`, `cellpadding`	表格标签，允许自定义样式、尺寸、边框等。
`thead`	`class`, `style`	表头标签，允许自定义样式。
`tbody`	`class`, `style`	表体标签，允许自定义样式。
`tr`	`class`, `style`	表行标签，允许自定义样式。
`td`	`class`, `style`, `colspan`, `rowspan`	表格单元格标签，允许自定义样式、跨列、跨行等。
`th`	`class`, `style`, `colspan`, `rowspan`	表头单元格标签，允许自定义样式、跨列、跨行等。

请注意，这只是一个示例，实际使用时需要根据具体需求进行调整。

感谢大家的参与，希望这次讲座对你有所帮助！下次再见！

发表回复 取消回复

发表回复取消回复