WordPress源码深度解析之：`WordPress`的`Sanitize`与`Validate`：输入数据过滤与验证的底层函数。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

哟，各位听众老爷们，今儿咱来聊聊WordPress的“Sanitize”和“Validate”，这俩哥们儿可是WordPress安全大厦的基石。说白了，就是给你的数据“洗洗澡”、“照照镜子”，看看是不是干净，是不是靠谱。

一、开场白：为啥要Sanitize和Validate？

话说江湖险恶，互联网更是鱼龙混杂。用户提交的数据，啥都有可能，恶意代码、垃圾信息，防不胜防。你不sanitize和validate，就相当于敞开大门，邀请黑客来家里做客，轻则网站瘫痪，重则数据泄露，身败名裂。

所以，必须Sanitize！必须Validate！重要的事情说三遍！

二、Sanitize：给数据洗个澡

Sanitize，中文可以翻译成“消毒”、“净化”，就是把数据里可能有害的东西去掉，让它变得安全。

WordPress提供了很多sanitize函数，针对不同的数据类型，有不同的处理方式。

sanitize_text_field(): 最常用的sanitize函数，主要用于清理文本字段。

它会干掉以下坏家伙：
- HTML标签（允许少数例外，比如<strong>、<em>，但可以配置）
- PHP代码
- JavaScript代码
- 多余的空白字符
```
$unsafe_text = '<script>alert("XSS");</script><h1>Hello</h1>  World  ';
$safe_text = sanitize_text_field( $unsafe_text );
echo "Unsafe: " . $unsafe_text . "n";
echo "Safe: " . $safe_text; // 输出: Hello World
```

sanitize_email(): 专门用来清理email地址，确保email格式正确，并删除非法字符。

$unsafe_email = '[email protected]<script>';
$safe_email = sanitize_email( $unsafe_email );
echo "Unsafe: " . $unsafe_email . "n";
echo "Safe: " . $safe_email; // 输出: [email protected]

sanitize_url(): 清理URL，确保URL格式正确，并且是合法的协议（http、https、ftp等）。

$unsafe_url = 'javascript:alert("XSS");';
$safe_url = sanitize_url( $unsafe_url );
echo "Unsafe: " . $unsafe_url . "n";
echo "Safe: " . $safe_url; // 输出: (empty string)

sanitize_textarea_field(): 清理textarea字段，和sanitize_text_field()类似，但更宽松，保留换行符。

$unsafe_textarea = "<p>Hello</p>nWorld<script>alert('XSS')</script>";
$safe_textarea = sanitize_textarea_field( $unsafe_textarea );
echo "Unsafe: " . $unsafe_textarea . "n";
echo "Safe: " . $safe_textarea; // 输出: HellonWorldalert('XSS')

wp_kses(): 终极武器，可以自定义允许哪些HTML标签和属性。非常强大，但也很复杂。

$unsafe_html = '<p style="color:red;">Hello <script>alert("XSS");</script> World</p>';
$allowed_html = array(
    'p' => array(
        'style' => array(),
    ),
);
$safe_html = wp_kses( $unsafe_html, $allowed_html );
echo "Unsafe: " . $unsafe_html . "n";
echo "Safe: " . $safe_html; // 输出: <p style="color:red;">Hello  World</p>

absint(): 确保数据是正整数。

$unsafe_int = '-10';
$safe_int = absint( $unsafe_int );
echo "Unsafe: " . $unsafe_int . "n";
echo "Safe: " . $safe_int; // 输出: 10

intval(): 将数据转换为整数。

$unsafe_int = '10abc';
$safe_int = intval( $unsafe_int );
echo "Unsafe: " . $unsafe_int . "n";
echo "Safe: " . $safe_int; // 输出: 10

Sanitize函数汇总表：

函数名	作用	适用场景
`sanitize_text_field()`	清理文本字段	文本输入框、单行文本
`sanitize_email()`	清理Email地址	Email输入框
`sanitize_url()`	清理URL	URL输入框
`sanitize_textarea_field()`	清理textarea字段	多行文本输入框
`wp_kses()`	自定义HTML过滤	需要允许特定HTML标签和属性的富文本编辑器
`absint()`	转换为正整数	需要正整数的场景，比如ID、数量等
`intval()`	转换为整数	需要整数的场景
`sanitize_title()`	清理文章标题，生成别名（slug）	文章标题、页面标题
`sanitize_file_name()`	清理文件名	文件上传
`esc_sql()`	为SQL查询字符串添加转义符，防止SQL注入	直接构建SQL查询语句时

三、Validate：照照镜子，看看靠不靠谱

Validate，中文可以翻译成“验证”、“校验”，就是检查数据是否符合预期的格式和规则。

WordPress也提供了一些validate函数，用于验证数据的有效性。

is_email(): 验证email地址是否有效。

$email1 = '[email protected]';
$email2 = 'test@example';
echo "Email 1 is valid: " . (is_email( $email1 ) ? 'Yes' : 'No') . "n"; // 输出: Yes
echo "Email 2 is valid: " . (is_email( $email2 ) ? 'Yes' : 'No') . "n"; // 输出: No

filter_var(): PHP内置的函数，可以进行各种类型的验证，比如email、URL、IP地址等。

$url = 'http://www.example.com';
if (filter_var($url, FILTER_VALIDATE_URL)) {
    echo "$url is a valid URLn";
} else {
    echo "$url is not a valid URLn";
}

$ip = '127.0.0.1';
if (filter_var($ip, FILTER_VALIDATE_IP)) {
    echo "$ip is a valid IP addressn";
} else {
    echo "$ip is not a valid IP addressn";
}

wp_verify_nonce(): 验证nonce值，防止CSRF攻击。这东西比较复杂，后面单独说。

Validate函数汇总表：

函数名	作用	适用场景
`is_email()`	验证Email地址是否有效	Email输入框验证
`filter_var()`	PHP内置的验证函数，可以验证多种类型数据	URL、IP地址等验证
`wp_verify_nonce()`	验证nonce值，防止CSRF攻击	所有需要防止CSRF攻击的表单提交
`is_numeric()`	检查变量是否是数字或数字字符串	需要数字的场景
`ctype_alpha()`	检查字符串是否只包含字母	验证用户名、姓名等
`ctype_digit()`	检查字符串是否只包含数字	验证邮政编码、电话号码等
`preg_match()`	使用正则表达式进行验证	各种复杂的验证场景，比如日期格式、密码强度等

四、Sanitize和Validate的爱恨情仇：

Sanitize是主动防御，Validate是被动检查。 Sanitize试图把坏东西提前干掉，Validate是检查数据是否符合预期。
Sanitize是尽可能让数据安全，Validate是确保数据有效。 Sanitize可能会损失一些信息，Validate不会修改数据。
Sanitize和Validate通常一起使用。 先sanitize，再validate，双保险。

五、实战演练：评论表单的Sanitize和Validate

咱们以WordPress的评论表单为例，看看如何sanitize和validate用户提交的数据。

<?php
// 获取用户提交的数据
$comment_author = $_POST['author'];
$comment_email = $_POST['email'];
$comment_url = $_POST['url'];
$comment_content = $_POST['comment'];

// Sanitize
$comment_author = sanitize_text_field( $comment_author );
$comment_email = sanitize_email( $comment_email );
$comment_url = sanitize_url( $comment_url );
$comment_content = sanitize_textarea_field( $comment_content );

// Validate
if ( empty( $comment_author ) ) {
    wp_die( 'Error: Please enter your name.' );
}

if ( ! is_email( $comment_email ) ) {
    wp_die( 'Error: Please enter a valid email address.' );
}

if ( empty( $comment_content ) ) {
    wp_die( 'Error: Please enter your comment.' );
}

// 将数据保存到数据库
$commentdata = array(
    'comment_post_ID' => $post_id,
    'comment_author' => $comment_author,
    'comment_author_email' => $comment_email,
    'comment_author_url' => $comment_url,
    'comment_content' => $comment_content,
    'comment_type' => '',
    'comment_parent' => 0,
    'user_id' => $user_ID,
    'comment_author_IP' => $_SERVER['REMOTE_ADDR'],
    'comment_agent' => $_SERVER['HTTP_USER_AGENT'],
    'comment_date' => current_time('mysql'),
    'comment_approved' => 1,
);

$comment_id = wp_insert_comment( $commentdata );

if ( $comment_id ) {
    // 评论提交成功
    wp_redirect( get_permalink( $post_id ) . '#comment-' . $comment_id );
    exit;
} else {
    // 评论提交失败
    wp_die( 'Error: Failed to submit your comment.' );
}
?>

代码解释：

获取数据： 从$_POST数组中获取用户提交的数据。
Sanitize： 使用sanitize_text_field()、sanitize_email()和sanitize_textarea_field()对数据进行清理。
Validate： 使用empty()和is_email()检查数据是否为空，email地址是否有效。
保存数据： 将清理和验证后的数据保存到数据库。

六、Nonce：防止CSRF攻击的秘密武器

CSRF（Cross-Site Request Forgery）是一种常见的web攻击，攻击者可以伪造用户请求，执行一些恶意操作。

WordPress使用Nonce（Number used once）来防止CSRF攻击。Nonce是一个随机生成的字符串，每次使用都会更新。

如何使用Nonce：

生成Nonce： 使用wp_create_nonce()函数生成Nonce。

$nonce = wp_create_nonce( 'my_action' );
echo '<input type="hidden" name="my_nonce_field" value="' . $nonce . '">';

验证Nonce： 使用wp_verify_nonce()函数验证Nonce。

if ( ! isset( $_POST['my_nonce_field'] ) || ! wp_verify_nonce( $_POST['my_nonce_field'], 'my_action' ) ) {
    wp_die( 'Sorry, your request could not be verified.' );
}

代码解释：

wp_create_nonce( 'my_action' ) 生成一个Nonce，并关联一个action name（my_action）。
wp_verify_nonce( $_POST['my_nonce_field'], 'my_action' ) 验证Nonce是否有效，并且action name是否匹配。

七、总结：

Sanitize和Validate是WordPress安全的重要组成部分。它们可以帮助你防止XSS攻击、SQL注入攻击、CSRF攻击等。

记住，永远不要相信用户提交的数据。在使用之前，一定要sanitize和validate。

八、课后作业：

研究WordPress的wp_kses()函数，了解如何自定义允许哪些HTML标签和属性。
尝试使用filter_var()函数进行各种类型的验证，比如email、URL、IP地址等。
在你的WordPress插件或主题中使用Nonce，防止CSRF攻击。

好了，今天的讲座就到这里。希望大家学有所获，保护好自己的网站。下课！

发表回复 取消回复

发表回复取消回复