PHP爬虫开发基础 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷们，欢迎来到“PHP爬虫开发速成班”！我是你们今天的导游，啊不，是讲师，人称“代码界的段子手”——Bug终结者。今天，咱们不聊人生，不谈理想，就聊聊如何用PHP这把瑞士军刀，优雅地、高效地、甚至带点小邪恶地去网络世界里“薅羊毛”，哦不，是“采集数据”！

第一幕：爬虫是什么？为什么要用PHP？

想象一下，你是一位考古学家，想要研究金字塔的历史，但金字塔太大了，你不可能一块一块地搬回去研究。于是，你发明了一种“自动挖掘机”，它可以自动地、高效地挖掘金字塔的各个角落，然后把挖掘出来的信息整理成报告给你。

爬虫，就相当于这台“自动挖掘机”。它是一种程序，可以自动地访问互联网上的网页，并提取你想要的信息。这些信息可以是文字、图片、链接等等，简直就是网络世界里的“资源回收站”。

那么，为什么要用PHP来做爬虫呢？

简单易学： PHP语法简洁明了，上手快，特别适合新手入门。就像学开手动挡汽车，虽然刚开始有点磕磕绊绊，但一旦掌握了技巧，就能开得飞起！
丰富的扩展库： PHP拥有大量的扩展库，比如curl、Guzzle、simple_html_dom等，这些库就像是爬虫工具箱里的各种工具，可以帮你轻松应对各种复杂的网页结构和反爬机制。
强大的社区支持： PHP拥有庞大的开发者社区，遇到问题可以随时求助，就像背后有一群武林高手给你撑腰，再难的难题也能迎刃而解！
成本低廉： PHP是开源的，可以免费使用，而且服务器环境搭建也相对简单，简直就是“经济适用型”爬虫开发语言。

第二幕：爬虫的“三步走”战略

爬虫的工作原理其实很简单，可以概括为“三步走”战略：

发起请求 (Request): 就像你向服务员点菜一样，你需要告诉服务器你想访问哪个网页。这个过程就是发起HTTP请求。
获取响应 (Response): 服务器收到你的请求后，会返回网页的内容，包括HTML代码、CSS样式、JavaScript脚本等等。这个过程就是获取HTTP响应。
解析内容 (Parse): 你需要从HTML代码中提取你想要的信息。这个过程就像从一堆食材中挑选你需要的菜品。

第三幕：PHP爬虫的“十八般武艺”

接下来，咱们来学习一些PHP爬虫的常用技巧，就像学习武林高手的“十八般武艺”一样，掌握越多，就能在网络世界里游刃有余。

1. 发起HTTP请求：curl和Guzzle

curl是PHP内置的扩展库，可以用来发起各种HTTP请求。它就像一把瑞士军刀，功能强大，但使用起来稍微有点繁琐。

<?php
// 初始化curl
$ch = curl_init();

// 设置请求URL
curl_setopt($ch, CURLOPT_URL, 'https://www.example.com');

// 设置返回结果为字符串
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

// 执行请求
$output = curl_exec($ch);

// 关闭curl
curl_close($ch);

// 输出结果
echo $output;
?>

Guzzle是一个更高级的HTTP客户端，它基于curl，但提供了更简洁、更易用的API。它就像一把激光剑，锋利无比，使用起来非常方便。

<?php
require 'vendor/autoload.php'; // 引入Guzzle

use GuzzleHttpClient;

$client = new Client();

$response = $client->request('GET', 'https://www.example.com');

$body = $response->getBody();

echo $body;
?>

表格：curl vs Guzzle

特性	`curl`	`Guzzle`
易用性	相对复杂	简洁易用
功能	功能强大，但需要手动设置很多选项	提供更高级的抽象，方便处理各种HTTP请求
依赖	PHP内置，无需额外安装	需要通过Composer安装
适用场景	对性能要求较高，需要精细控制HTTP请求的场景	对开发效率要求较高，需要快速构建HTTP客户端的场景

2. 解析HTML内容：simple_html_dom

simple_html_dom是一个PHP库，可以让你像使用jQuery一样，轻松地解析HTML内容。它就像一个放大镜，可以帮你找到HTML代码中的每一个细节。

<?php
require 'simple_html_dom.php';

// 从URL加载HTML
$html = file_get_html('https://www.example.com');

// 查找所有链接
foreach($html->find('a') as $element) {
    echo $element->href . '<br>';
}
?>

3. 模拟用户行为：设置User-Agent和Cookie

有些网站会根据User-Agent来判断是否是爬虫，如果是爬虫，就会拒绝访问。User-Agent是浏览器发送给服务器的一个标识，用来表明浏览器的类型和版本。

<?php
$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, 'https://www.example.com');

// 设置User-Agent
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36');

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

$output = curl_exec($ch);

curl_close($ch);

echo $output;
?>

有些网站需要登录才能访问，这时就需要设置Cookie。Cookie是服务器保存在客户端的一些数据，用来标识用户的身份。

<?php
$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, 'https://www.example.com');

// 设置Cookie
curl_setopt($ch, CURLOPT_COOKIE, 'username=your_username; password=your_password');

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

$output = curl_exec($ch);

curl_close($ch);

echo $output;
?>

4. 应对反爬机制：设置代理IP和延迟

有些网站会限制同一个IP地址的访问频率，这时就需要使用代理IP。代理IP可以隐藏你的真实IP地址，让你的爬虫看起来像是来自不同的用户。

<?php
$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, 'https://www.example.com');

// 设置代理IP
curl_setopt($ch, CURLOPT_PROXY, '127.0.0.1:8888'); // 你的代理IP地址和端口

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

$output = curl_exec($ch);

curl_close($ch);

echo $output;
?>

为了避免被网站识别为爬虫，还可以设置延迟，让爬虫在一段时间内只发起一次请求。

<?php
// 延迟一段时间
sleep(5); // 延迟5秒
?>

5. 数据存储：保存到文件或数据库

爬取到的数据需要保存起来，可以保存到文件或数据库中。保存到文件比较简单，但查询和管理数据比较麻烦。保存到数据库可以方便地查询和管理数据，但需要配置数据库环境。

保存到文件：

<?php
$data = "这是要保存的数据";

// 保存到文件
file_put_contents('data.txt', $data);
?>

保存到数据库：

<?php
// 连接数据库
$servername = "localhost";
$username = "username";
$password = "password";
$dbname = "database";

$conn = new mysqli($servername, $username, $password, $dbname);

// 检测连接
if ($conn->connect_error) {
    die("连接失败: " . $conn->connect_error);
}

$data = "这是要保存的数据";

// 插入数据
$sql = "INSERT INTO table_name (data) VALUES ('$data')";

if ($conn->query($sql) === TRUE) {
    echo "数据插入成功";
} else {
    echo "Error: " . $sql . "<br>" . $conn->error;
}

$conn->close();
?>

第四幕：爬虫的“道德经”

爬虫虽然强大，但也要遵守“游戏规则”，不能肆意妄为。我们要牢记爬虫的“道德经”：

尊重网站的robots.txt协议： robots.txt是网站用来告诉爬虫哪些页面可以爬取，哪些页面不能爬取的协议。我们要尊重网站的意愿，不要爬取禁止爬取的页面。
控制爬取频率： 不要对网站造成过大的负担，要控制爬取频率，避免被网站封IP。
遵守法律法规： 不要爬取涉及隐私、版权等敏感信息，要遵守法律法规，做一个合格的“网络公民”。

第五幕：实战演练：爬取豆瓣电影Top250

光说不练假把式，现在咱们来做一个实战演练，爬取豆瓣电影Top250的电影名称和评分。

<?php
require 'vendor/autoload.php';
require 'simple_html_dom.php';

use GuzzleHttpClient;

$client = new Client();

$url = 'https://movie.douban.com/top250';

$movies = [];

for ($i = 0; $i < 10; $i++) {
    $start = $i * 25;
    $page_url = $url . '?start=' . $start . '&filter=';

    $response = $client->request('GET', $page_url);
    $html = new simple_html_dom((string) $response->getBody());

    foreach ($html->find('.item') as $item) {
        $title = $item->find('.title', 0)->plaintext;
        $rating = $item->find('.rating_num', 0)->plaintext;

        $movies[] = [
            'title' => $title,
            'rating' => $rating,
        ];
    }
}

// 输出结果
echo "<table border='1'>";
echo "<tr><th>电影名称</th><th>评分</th></tr>";
foreach ($movies as $movie) {
    echo "<tr><td>" . $movie['title'] . "</td><td>" . $movie['rating'] . "</td></tr>";
}
echo "</table>";

?>

这个代码会爬取豆瓣电影Top250的电影名称和评分，并以表格的形式输出。

第六幕：总结与展望

好了，各位观众老爷们，今天的“PHP爬虫开发速成班”就到这里了。我们学习了爬虫的基本概念、工作原理、常用技巧和道德规范。希望大家能够学以致用，用PHP这把瑞士军刀，在网络世界里创造属于自己的价值。

当然，爬虫技术博大精深，还有很多高级技巧和进阶知识需要学习，比如：

分布式爬虫： 如何利用多台服务器并发爬取，提高爬取效率。
动态网页爬取： 如何爬取使用JavaScript动态生成的网页。
机器学习在爬虫中的应用： 如何利用机器学习算法识别验证码、提取信息等。

希望大家能够继续学习，不断探索，成为真正的爬虫高手！💪

最后，祝大家代码无Bug，爬虫顺利！我们下期再见！👋

发表回复 取消回复

发表回复取消回复