阐述 WordPress `WP_CLIUtilsparse_url()` 函数的源码：如何解析 URL 字符串。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位码农朋友们，今天咱们来聊聊 WordPress 里一个挺有意思的小工具：WP_CLIUtilsparse_url() 函数。别看它藏得挺深，但功能却很实用，尤其是在你用 WP-CLI 写脚本的时候。

开场白：URL 解析的那些事儿

在互联网的世界里，URL (Uniform Resource Locator) 那可是无处不在。无论你是访问网站、下载文件，还是提交表单，都离不开 URL。而解析 URL，就是把这个字符串拆解成各个组成部分，比如协议、域名、路径、查询参数等等。

PHP 语言本身提供了一个 parse_url() 函数，但是 WordPress 的 WP_CLIUtilsparse_url() 函数在它之上做了一些增强，特别是在处理一些特殊情况时，更加的健壮。

WP_CLIUtilsparse_url() 源码剖析

咱们直接上代码，看看这个函数到底长什么样。我尽量把代码注释写详细点，方便大家理解。

<?php

namespace WP_CLIUtils;

/**
 * Parses a URL and returns an associative array containing its components.
 *
 * This function enhances PHP's native `parse_url()` function by:
 *   - Normalizing the scheme to lowercase.
 *   - Properly handling IPv6 hosts (enclosed in square brackets).
 *   - Supporting relative URLs.
 *
 * @param string $url The URL to parse.
 * @return array|false An associative array containing the URL components, or false on failure.
 */
function parse_url( $url ) {
    $result = parse_url( $url );

    if ( false === $result ) {
        return false;
    }

    if ( isset( $result['scheme'] ) ) {
        $result['scheme'] = strtolower( $result['scheme'] );
    }

    if ( isset( $result['host'] ) ) {
        // Handle IPv6 addresses enclosed in square brackets.
        if ( '[' === substr( $result['host'], 0, 1 ) && ']' === substr( $result['host'], -1 ) ) {
            $result['host'] = substr( $result['host'], 1, -1 );
        }
    }

    // Handle path, ensuring it starts with a leading slash if the URL isn't just a fragment.
    if ( isset( $result['path'] ) ) {
        if ( ! isset( $result['scheme'] ) && ! isset( $result['host'] ) && ! isset( $result['query'] ) && ! isset( $result['port'] ) ) {
            // Relative URL but not just a fragment.  Keep as is.
        } else {
            // Absolute URL or relative URL with scheme/host/query/port.
            $result['path'] = '/' . ltrim( $result['path'], '/' );
        }
    }

    return $result;
}

逐行解读，抽丝剥茧

命名空间: namespace WP_CLIUtils; 定义了函数所在的命名空间。这样做可以避免和其他代码中的函数名冲突。
函数定义: function parse_url( $url ) { ... } 定义了 parse_url 函数，它接收一个 URL 字符串作为参数。
调用原生 parse_url(): $result = parse_url( $url ); 这是关键的一步，它调用了 PHP 原生的 parse_url() 函数来解析 URL。注意前面的反斜杠，它表示调用全局命名空间下的函数。
- 原生 parse_url() 的返回值: PHP 的 parse_url() 函数返回一个关联数组，包含 URL 的各个组成部分，比如 scheme (协议)、host (主机名)、path (路径)、query (查询参数) 等等。如果解析失败，则返回 false。
错误处理: if ( false === $result ) { return false; } 如果原生 parse_url() 解析失败，直接返回 false。
协议规范化 (Scheme Normalization):
```
if ( isset( $result['scheme'] ) ) {
    $result['scheme'] = strtolower( $result['scheme'] );
}
```
这段代码将协议 (scheme) 转换为小写。比如，把 HTTP 转换为 http。这样做可以保证协议的一致性，方便后续处理。因为 URL 的协议部分理论上是大小写不敏感的。
IPv6 地址处理 (IPv6 Host Handling):
```
if ( isset( $result['host'] ) ) {
    // Handle IPv6 addresses enclosed in square brackets.
    if ( '[' === substr( $result['host'], 0, 1 ) && ']' === substr( $result['host'], -1 ) ) {
        $result['host'] = substr( $result['host'], 1, -1 );
    }
}
```
IPv6 地址通常用方括号括起来，比如 [2001:db8::1]。这段代码检查主机名是否被方括号包裹，如果是，则移除方括号。 PHP 原生的 parse_url() 在处理这种 IPv6 地址时可能会有问题，所以需要特殊处理。
路径处理 (Path Handling):
```
if ( isset( $result['path'] ) ) {
    if ( ! isset( $result['scheme'] ) && ! isset( $result['host'] ) && ! isset( $result['query'] ) && ! isset( $result['port'] ) ) {
        // Relative URL but not just a fragment.  Keep as is.
    } else {
        // Absolute URL or relative URL with scheme/host/query/port.
        $result['path'] = '/' . ltrim( $result['path'], '/' );
    }
}
```
这段代码用于处理 URL 的路径部分。主要目的是确保路径以斜杠 / 开头，除非这个URL仅仅是一个片段（fragment，即只有#号后面的部分）。
- 相对 URL 判断: 首先，它检查 URL 是否是相对 URL，也就是说，URL 中是否缺少 scheme、host、query 和 port。如果缺少这些部分，那么就是一个相对 URL。
- 添加前导斜杠: 如果 URL 不是一个仅仅包含片段的相对 URL，那么就对路径进行处理，确保它以斜杠 / 开头。ltrim( $result['path'], '/' ) 用于移除路径开头的所有斜杠，然后再在最前面加上一个斜杠 /。这样做可以保证路径的格式统一。
返回结果: return $result; 返回解析后的关联数组。

举例说明

咱们来用几个例子，看看 WP_CLIUtilsparse_url() 函数的实际效果。

URL	`WP_CLIUtilsparse_url()` 的返回值
`http://example.com/path/to/page?query=1`	`['scheme' => 'http', 'host' => 'example.com', 'path' => '/path/to/page', 'query' => 'query=1']`
`HTTPS://EXAMPLE.COM/`	`['scheme' => 'https', 'host' => 'example.com', 'path' => '/']`
`[2001:db8::1]/path`	`['host' => '2001:db8::1', 'path' => '/path']`
`/relative/path`	`['path' => '/relative/path']`
`path/without/slash`	`['path' => '/path/without/slash']`
`#fragment`	`[]` (注意: 这是一个空数组，因为没有 scheme, host, path, query 等主要部分. 原生的 php `parse_url` 在遇到 `#fragment` 时会返回 `['fragment' => 'fragment']`，而 WP-CLI 的这个函数在这种情况下则返回空数组。这算是一种有意为之的行为差异。）

为什么要增强 parse_url()？

你可能会问，PHP 原生的 parse_url() 函数不是挺好用的吗？为什么 WordPress 还要自己写一个？

原因主要有以下几点：

兼容性: 不同的 PHP 版本对 parse_url() 的实现可能存在差异。 WP_CLIUtilsparse_url() 可以提供更一致的行为。
特殊情况处理: 如前所述，原生 parse_url() 在处理 IPv6 地址和某些特殊格式的 URL 时可能存在问题。
规范化: 将协议转换为小写，可以保证 URL 的一致性。
可维护性: WordPress 可以根据自己的需求，对 WP_CLIUtilsparse_url() 函数进行修改和扩展。

WP_CLIUtilsparse_url() 的应用场景

在 WP-CLI 的脚本中，WP_CLIUtilsparse_url() 函数有很多应用场景。比如：

提取域名: 从 URL 中提取域名，用于判断是否是站内链接。
构建 URL: 根据已有的 URL 组件，构建新的 URL。
验证 URL: 验证 URL 的格式是否正确。
分析 URL: 分析 URL 的各个组成部分，用于统计分析。

代码示例：提取域名

下面是一个简单的代码示例，演示如何使用 WP_CLIUtilsparse_url() 函数提取域名。

<?php

namespace WP_CLIExample;

use WP_CLI;
use WP_CLIUtils;

/**
 * Extracts the domain from a URL.
 *
 * ## OPTIONS
 *
 * <url>
 * : The URL to extract the domain from.
 *
 * ## EXAMPLES
 *
 *     wp example extract_domain http://example.com/path/to/page
 *     # example.com
 *
 *     wp example extract_domain https://www.example.com
 *     # www.example.com
 */
class ExtractDomainCommand {

    public function __invoke( $args, $assoc_args ) {
        $url = $args[0];

        $url_parts = Utilsparse_url( $url );

        if ( ! $url_parts || ! isset( $url_parts['host'] ) ) {
            WP_CLI::error( 'Invalid URL.' );
            return;
        }

        WP_CLI::line( $url_parts['host'] );
    }
}

WP_CLI::add_command( 'example extract_domain', __NAMESPACE__ . '\ExtractDomainCommand' );

代码解释：

定义命令: 定义一个 WP-CLI 命令 example extract_domain，用于提取域名。
获取 URL: 从命令行参数中获取 URL。
解析 URL: 使用 Utilsparse_url() 函数解析 URL。
检查结果: 检查解析结果是否有效，以及是否存在主机名。
输出域名: 如果一切正常，则输出域名。

总结

WP_CLIUtilsparse_url() 函数是一个实用的小工具，它可以帮助你更方便地解析 URL，并在 WP-CLI 脚本中进行各种操作。它在 PHP 原生的 parse_url() 函数之上做了一些增强，使其更加健壮和易用。掌握了这个函数，你就可以更加轻松地处理 URL，提高你的 WP-CLI 脚本的效率。

最后，希望今天的讲座对你有所帮助！以后遇到 URL 解析的问题，不妨试试 WP_CLIUtilsparse_url()，说不定能给你带来惊喜。

发表回复 取消回复

发表回复取消回复