分析 WordPress `wp_get_referer()` 函数的源码：如何获取 `HTTP_REFERER` 并进行安全检查。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

WordPress 的 `wp_get_referer()` 函数：你的网页从哪儿来？

各位观众，晚上好！我是你们今晚的 WordPress 安全小助手。今天咱们要聊聊 WordPress 里的一个低调但重要的角色——wp_get_referer() 函数。

wp_get_referer() 就像个八卦记者，专门打听你的访客从哪里来。但它又不像狗仔队那么不讲道德，它会检查一下信息来源是否安全可靠。咱们今天就来扒一扒它的源码，看看它是怎么打听“身世”，又是怎么保护我们的。

1. `HTTP_REFERER` 到底是个啥？

在开始之前，先简单科普一下HTTP_REFERER。

HTTP_REFERER 是一个 HTTP 请求头，它包含了当前请求的来源页面的 URL。简单来说，就是用户是从哪个页面点击链接来到你当前页面的。

举个栗子：

你正在浏览 Google 搜索结果页。
你点击了搜索结果中指向 example.com/article 的链接。
那么，当你的浏览器向 example.com/article 发起请求时，HTTP_REFERER 的值就会是 Google 的搜索结果页 URL。

这个信息很有用，可以用来分析流量来源，统计用户行为，甚至进行一些简单的安全检查。但是！HTTP_REFERER 也存在一些问题：

不可靠性： HTTP_REFERER 可以被伪造，服务器端不能完全信任它。
隐私问题： 有些用户可能会阻止浏览器发送 HTTP_REFERER，因为它暴露了用户的浏览历史。
跨域问题： 跨域请求中，HTTP_REFERER 可能会被浏览器省略或者修改。

2. `wp_get_referer()` 源码解析：

现在，让我们一起深入 wp-includes/functions.php 文件，看看 wp_get_referer() 的源码：

function wp_get_referer() {
    /**
     * Filter the Referer URL.
     *
     * @since 2.0.0
     *
     * @param string $ref The referer URL.
     */
    $ref = apply_filters( 'wp_get_referer', isset( $_SERVER['HTTP_REFERER'] ) ? wp_unslash( $_SERVER['HTTP_REFERER'] ) : '' );

    return $ref;
}

这段代码看似简单，实则蕴含着 WordPress 的安全哲学：

isset( $_SERVER['HTTP_REFERER'] )： 首先，它会检查 $_SERVER['HTTP_REFERER'] 是否存在。如果不存在，说明用户可能是直接访问的页面，或者浏览器阻止了 HTTP_REFERER 的发送。
wp_unslash( $_SERVER['HTTP_REFERER'] )： 如果 HTTP_REFERER 存在，它会使用 wp_unslash() 函数进行处理。这个函数的主要作用是移除反斜杠。为什么需要移除反斜杠？因为有些服务器可能会自动在 HTTP_REFERER 中添加反斜杠，为了保证数据的准确性，我们需要移除这些多余的反斜杠。
apply_filters( 'wp_get_referer', ... )： 最后，它会使用 apply_filters() 函数来应用一个名为 wp_get_referer 的过滤器。这个过滤器允许开发者自定义 HTTP_REFERER 的处理方式。比如，你可以添加额外的安全检查，或者修改 HTTP_REFERER 的值。

代码分解：

代码片段	解释
`isset( $_SERVER['HTTP_REFERER'] )`	检查 `$_SERVER['HTTP_REFERER']` 变量是否设置。`$_SERVER` 是一个包含服务器和执行环境信息的数组。`HTTP_REFERER` 是该数组中的一个键，用于存储 HTTP 请求头中的 `Referer` 信息。该检查确保在尝试访问 `HTTP_REFERER` 之前，它确实存在，避免产生未定义变量的错误。
`wp_unslash( $_SERVER['HTTP_REFERER'] )`	如果 `HTTP_REFERER` 存在，则使用 `wp_unslash()` 函数对其进行处理。`wp_unslash()` 函数的作用是移除字符串中的反斜杠。某些服务器配置（例如 PHP 的 `magic_quotes_gpc` 配置，该配置已在 PHP 5.4 中移除）会自动在 GET、POST 和 COOKIE 数据中添加反斜杠，以转义单引号、双引号和反斜杠等字符。如果 `HTTP_REFERER` 包含此类自动添加的反斜杠，`wp_unslash()` 函数会将其移除，以确保数据的准确性和一致性。
`apply_filters( 'wp_get_referer', ... )`	`apply_filters()` 函数是 WordPress 插件 API 的一部分，允许开发者通过过滤器修改 WordPress 的行为。`apply_filters( 'wp_get_referer', ... )` 的作用是将 `HTTP_REFERER` 的值传递给名为 `wp_get_referer` 的过滤器，以便开发者可以对 `HTTP_REFERER` 进行自定义处理。例如，开发者可以添加额外的安全检查、修改 `HTTP_REFERER` 的值，或者根据 `HTTP_REFERER` 执行特定的操作。这提供了很大的灵活性和可扩展性。

3. `wp_validate_redirect()`：更严格的安全卫士

wp_get_referer() 仅仅是获取了 HTTP_REFERER 的值，并没有进行严格的安全验证。在 WordPress 中，还有一个函数 wp_validate_redirect()，专门用于验证重定向 URL 的安全性。

让我们看看 wp_validate_redirect() 的源码（简化版）：

function wp_validate_redirect( $url, $default = '' ) {
    $url = wp_unslash( $url );

    if ( ! wp_http_validate_url( $url ) ) {
        return $default;
    }

    $home_url = parse_url( home_url() );
    $url_parts = parse_url( $url );

    if ( isset( $url_parts['host'] ) && $home_url['host'] !== $url_parts['host'] ) {
        return $default;
    }

    return $url;
}

这段代码的主要逻辑是：

wp_unslash( $url )： 移除 URL 中的反斜杠。
wp_http_validate_url( $url )： 验证 URL 的格式是否合法。这可以防止一些简单的 URL 注入攻击。
检查域名是否一致： 比较 URL 的域名和站点的域名是否一致。如果不一致，说明这是一个外部链接，可能会存在安全风险。

代码分解：

代码片段	解释
`wp_unslash( $url )`	与 `wp_get_referer()` 中一样，移除 URL 中的反斜杠，以确保数据的准确性。
`wp_http_validate_url( $url )`	使用 `wp_http_validate_url()` 函数验证 URL 的格式是否合法。该函数会检查 URL 是否符合 RFC 规范，并过滤掉一些不安全的协议和字符。这有助于防止 URL 注入攻击，例如 `javascript:` 协议。
`parse_url( home_url() )`	使用 `parse_url()` 函数将站点的 URL (通过 `home_url()` 获取) 解析成一个数组，包含协议、域名、路径等信息。
`parse_url( $url )`	使用 `parse_url()` 函数将需要验证的 URL 解析成一个数组，包含协议、域名、路径等信息。
`isset( $url_parts['host'] ) && $home_url['host'] !== $url_parts['host']`	检查需要验证的 URL 是否包含域名 (`host`)，并比较其域名与站点域名是否一致。如果需要验证的 URL 包含域名且与站点域名不一致，则说明该 URL 指向外部网站，可能存在安全风险。这种检查可以防止用户被重定向到恶意网站。

4. 如何安全地使用 `HTTP_REFERER`？

既然 HTTP_REFERER 存在这么多问题，我们应该如何安全地使用它呢？

不要完全信任 HTTP_REFERER： 永远不要把 HTTP_REFERER 作为唯一的数据来源。
使用 wp_validate_redirect() 进行验证： 如果你需要重定向用户，一定要使用 wp_validate_redirect() 函数来验证 URL 的安全性。
使用白名单： 如果你需要允许特定的 HTTP_REFERER，可以使用白名单机制。
考虑使用其他方案： 对于一些需要高度安全性的场景，可以考虑使用其他方案，例如 CSRF token。

5. 实际应用场景：

统计流量来源： 可以使用 wp_get_referer() 来统计用户是从哪些网站来到你的站点的。
防止 CSRF 攻击： HTTP_REFERER 可以作为 CSRF 攻击的一种防御手段，但不是最可靠的。
限制访问权限： 可以根据 HTTP_REFERER 来限制用户的访问权限，例如只允许从特定页面访问某个功能。

6. 示例代码：

示例 1：获取 HTTP_REFERER 并进行简单的输出：

$referer = wp_get_referer();

if ( $referer ) {
    echo '您是从以下页面来的：' . esc_url( $referer );
} else {
    echo '无法获取来源页面。';
}

示例 2：使用 wp_validate_redirect() 进行重定向：

$redirect_url = $_GET['redirect_url']; // 从 GET 参数中获取重定向 URL

$safe_redirect_url = wp_validate_redirect( $redirect_url, home_url() );

if ( $safe_redirect_url ) {
    wp_safe_redirect( $safe_redirect_url );
    exit;
} else {
    // 重定向失败，跳转到首页
    wp_safe_redirect( home_url() );
    exit;
}

在这个例子中，我们首先从 GET 参数中获取 redirect_url，然后使用 wp_validate_redirect() 函数来验证 URL 的安全性。如果 URL 是安全的，我们就使用 wp_safe_redirect() 函数进行重定向。如果 URL 不安全，我们就重定向到首页。

7. 总结：

wp_get_referer() 函数是 WordPress 中一个简单但实用的函数，它可以帮助我们获取 HTTP_REFERER 的值。但是，HTTP_REFERER 存在一些安全风险，我们不能完全信任它。为了保证安全，我们应该使用 wp_validate_redirect() 函数来验证 URL 的安全性，并考虑使用其他更可靠的安全方案。

希望今天的讲座能帮助你更好地理解 wp_get_referer() 函数，并在实际开发中安全地使用它。

好了，今天的分享就到这里，感谢大家的聆听！咱们下期再见！

WordPress 的 wp_get_referer() 函数：你的网页从哪儿来？

1. HTTP_REFERER 到底是个啥？

2. wp_get_referer() 源码解析：

3. wp_validate_redirect()：更严格的安全卫士

4. 如何安全地使用 HTTP_REFERER？