如何使用`asyncio`进行`并发`爬虫，并解析`Semaphore`和`Lock`的`用法`。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，下面开始我们的关于使用asyncio进行并发爬虫，并解析Semaphore和Lock用法的讲座。

并发爬虫与`asyncio`

传统的爬虫往往采用串行方式，即一个网页下载完成后再下载下一个。这种方式效率低下，尤其是在网络延迟较高的情况下。并发爬虫则可以同时下载多个网页，从而显著提高效率。

asyncio 是 Python 内置的异步 I/O 框架，它允许我们编写并发代码，而无需使用线程或进程。它基于事件循环，通过协程 (coroutines) 实现并发。

为什么选择 asyncio？

轻量级： 协程比线程更轻量级，创建和切换的开销更小。
单线程： asyncio 在单线程中运行，避免了线程锁带来的复杂性。
I/O 密集型任务： 爬虫是典型的 I/O 密集型任务，大部分时间都在等待网络响应，asyncio 正是为此类任务设计的。

`asyncio` 基础

在深入并发爬虫之前，我们需要了解 asyncio 的一些基本概念：

事件循环 (Event Loop): asyncio 的核心，负责调度协程的执行。
协程 (Coroutine): 使用 async def 定义的函数，可以暂停和恢复执行。
await 关键字: 用于在协程中暂停执行，等待另一个协程完成。
async with 关键字: 类似于 with 语句，但用于异步上下文管理器。
async for 关键字: 类似于 for 语句，但用于异步迭代器。
Task: 事件循环调度的执行的协程。

一个简单的 asyncio 示例：

import asyncio

async def hello(name):
    print(f"Hello, {name}!")
    await asyncio.sleep(1)  # 模拟 I/O 操作
    print(f"Goodbye, {name}!")

async def main():
    task1 = asyncio.create_task(hello("Alice"))
    task2 = asyncio.create_task(hello("Bob"))
    await asyncio.gather(task1, task2)  # 等待所有任务完成

if __name__ == "__main__":
    asyncio.run(main())

在这个例子中，hello 函数是一个协程，它使用 await 暂停执行，等待 1 秒钟。main 函数创建了两个 Task 来执行 hello 协程，并使用 asyncio.gather 等待所有任务完成。

并发爬虫的实现

现在，我们可以使用 asyncio 实现一个简单的并发爬虫。我们将使用 aiohttp 库进行异步 HTTP 请求。

import asyncio
import aiohttp
import time

async def fetch_url(session, url):
    try:
        async with session.get(url) as response:
            if response.status == 200:
                return await response.text()
            else:
                print(f"Error fetching {url}: {response.status}")
                return None
    except aiohttp.ClientError as e:
        print(f"Error fetching {url}: {e}")
        return None

async def crawl(url):
    async with aiohttp.ClientSession() as session:
        content = await fetch_url(session, url)
        if content:
            print(f"Successfully fetched {url}, length: {len(content)}")
        return content

async def main():
    urls = [
        "https://www.example.com",
        "https://www.python.org",
        "https://www.google.com",
    ]
    tasks = [asyncio.create_task(crawl(url)) for url in urls]
    await asyncio.gather(*tasks)

if __name__ == "__main__":
    start_time = time.time()
    asyncio.run(main())
    end_time = time.time()
    print(f"Total time: {end_time - start_time:.2f} seconds")

这个例子中，fetch_url 函数使用 aiohttp.ClientSession 发送异步 HTTP 请求。crawl 函数调用 fetch_url 获取网页内容，并打印网页长度。main 函数创建多个 Task 来并发地爬取多个 URL。

`Semaphore` 的用法

在并发爬虫中，我们需要控制并发数量，避免对目标网站造成过大的压力。asyncio.Semaphore 可以用来限制并发任务的数量。

Semaphore 维护一个内部计数器，表示可用资源的数量。每个 acquire() 调用都会减少计数器，每个 release() 调用都会增加计数器。当计数器为 0 时，acquire() 调用会阻塞，直到有资源可用。

import asyncio
import aiohttp
import time

semaphore = asyncio.Semaphore(3)  # 限制并发数量为 3

async def fetch_url(session, url):
    async with semaphore:
        try:
            async with session.get(url) as response:
                if response.status == 200:
                    return await response.text()
                else:
                    print(f"Error fetching {url}: {response.status}")
                    return None
        except aiohttp.ClientError as e:
            print(f"Error fetching {url}: {e}")
            return None

async def crawl(url):
    async with aiohttp.ClientSession() as session:
        content = await fetch_url(session, url)
        if content:
            print(f"Successfully fetched {url}, length: {len(content)}")
        return content

async def main():
    urls = [
        "https://www.example.com",
        "https://www.python.org",
        "https://www.google.com",
        "https://www.bing.com",
        "https://www.yahoo.com",
        "https://www.amazon.com",
    ]
    tasks = [asyncio.create_task(crawl(url)) for url in urls]
    await asyncio.gather(*tasks)

if __name__ == "__main__":
    start_time = time.time()
    asyncio.run(main())
    end_time = time.time()
    print(f"Total time: {end_time - start_time:.2f} seconds")

在这个例子中，我们创建了一个 Semaphore 对象，并将初始值设置为 3。在 fetch_url 函数中，我们使用 async with semaphore: 获取一个信号量，并在完成请求后释放信号量。这样，同时最多只有 3 个 fetch_url 协程可以运行。

Semaphore 的主要作用：

限制并发数量: 防止对服务器造成过大的压力。
控制资源使用: 限制对共享资源（如数据库连接）的访问。
避免阻塞: 确保程序不会因为资源耗尽而阻塞。

`Lock` 的用法

asyncio.Lock 用于保护共享资源，防止多个协程同时访问该资源，造成数据竞争或不一致。

Lock 类似于互斥锁，它有两种状态：锁定和未锁定。只有持有锁的协程才能访问受保护的资源。

import asyncio

lock = asyncio.Lock()
counter = 0

async def increment():
    global counter
    async with lock:
        print(f"Incrementing counter, current value: {counter}")
        await asyncio.sleep(0.1)  # 模拟一些操作
        counter += 1
        print(f"Counter incremented to: {counter}")

async def main():
    tasks = [asyncio.create_task(increment()) for _ in range(5)]
    await asyncio.gather(*tasks)
    print(f"Final counter value: {counter}")

if __name__ == "__main__":
    asyncio.run(main())

在这个例子中，我们创建了一个 Lock 对象，并在 increment 函数中使用 async with lock: 获取锁。这样，同一时刻只有一个 increment 协程可以访问 counter 变量，避免了数据竞争。

Lock 的主要作用：

保护共享资源: 确保对共享资源的访问是互斥的。
避免数据竞争: 防止多个协程同时修改共享数据，导致数据不一致。
保证原子性: 确保某些操作是原子性的，即要么全部完成，要么全部不完成。

`Semaphore` 和 `Lock` 的区别

虽然 Semaphore 和 Lock 都可以用于同步协程，但它们的作用和使用场景有所不同。

特性	`Semaphore`	`Lock`
功能	限制并发数量，允许多个协程同时访问资源 (受限)	保护共享资源，只允许一个协程访问
内部状态	维护一个计数器	只有锁定和未锁定两种状态
使用场景	控制并发连接数、限制资源使用	保护共享变量、保证原子性操作
`acquire()`	减少计数器，可能阻塞	尝试获取锁，如果已被锁定则阻塞
`release()`	增加计数器	释放锁，允许其他协程获取

简单来说，Lock 就像一间只能容纳一个人的房间，而 Semaphore 就像一间可以容纳 N 个人的房间。

实际爬虫示例：结合 `Semaphore` 和数据存储

现在我们结合一个更复杂的例子，展示如何在并发爬虫中使用 Semaphore 限制并发，并且使用 Lock 保护数据存储。假设我们需要从多个页面爬取数据，并将数据保存到列表中。

import asyncio
import aiohttp
import time

semaphore = asyncio.Semaphore(5)  # 限制并发数量为 5
data_lock = asyncio.Lock()       # 保护共享数据列表
data = []                       # 存储爬取的数据

async def fetch_url(session, url):
    async with semaphore:
        try:
            async with session.get(url) as response:
                if response.status == 200:
                    return await response.text()
                else:
                    print(f"Error fetching {url}: {response.status}")
                    return None
        except aiohttp.ClientError as e:
            print(f"Error fetching {url}: {e}")
            return None

async def process_data(url, content):
    # 模拟数据处理
    await asyncio.sleep(0.05)
    processed_data = f"Data from {url}: {len(content) if content else 0} bytes"
    return processed_data

async def store_data(processed_data):
    async with data_lock:
        data.append(processed_data)
        print(f"Stored data: {processed_data}")

async def crawl(url):
    async with aiohttp.ClientSession() as session:
        content = await fetch_url(session, url)
        if content:
            processed_data = await process_data(url, content)
            await store_data(processed_data)

async def main():
    urls = [
        "https://www.example.com",
        "https://www.python.org",
        "https://www.google.com",
        "https://www.bing.com",
        "https://www.yahoo.com",
        "https://www.amazon.com",
        "https://www.wikipedia.org",
        "https://www.reddit.com",
        "https://www.stackoverflow.com",
        "https://www.github.com",
    ]
    tasks = [asyncio.create_task(crawl(url)) for url in urls]
    await asyncio.gather(*tasks)

if __name__ == "__main__":
    start_time = time.time()
    asyncio.run(main())
    end_time = time.time()
    print(f"Total time: {end_time - start_time:.2f} seconds")
    print(f"Total data points: {len(data)}")

在这个例子中：

我们使用 Semaphore 限制了并发请求的数量。
我们使用 Lock 保护了 data 列表，防止多个协程同时修改它。
process_data 模拟了数据处理过程，例如提取关键信息。
store_data 将处理后的数据存储到 data 列表中。

异常处理和重试机制

在实际爬虫中，网络请求可能会失败。我们需要添加异常处理和重试机制，以提高爬虫的健壮性。

import asyncio
import aiohttp
import time

semaphore = asyncio.Semaphore(5)
data_lock = asyncio.Lock()
data = []
MAX_RETRIES = 3  # 最大重试次数

async def fetch_url(session, url, retry_count=0):
    async with semaphore:
        try:
            async with session.get(url) as response:
                if response.status == 200:
                    return await response.text()
                else:
                    print(f"Error fetching {url}: {response.status}")
                    return None
        except aiohttp.ClientError as e:
            print(f"Error fetching {url}: {e}")
            if retry_count < MAX_RETRIES:
                print(f"Retrying {url} (attempt {retry_count + 1})")
                await asyncio.sleep(2 ** retry_count)  # 指数退避
                return await fetch_url(session, url, retry_count + 1)
            else:
                print(f"Max retries reached for {url}")
            return None

async def process_data(url, content):
    await asyncio.sleep(0.05)
    processed_data = f"Data from {url}: {len(content) if content else 0} bytes"
    return processed_data

async def store_data(processed_data):
    async with data_lock:
        data.append(processed_data)
        print(f"Stored data: {processed_data}")

async def crawl(url):
    async with aiohttp.ClientSession() as session:
        content = await fetch_url(session, url)
        if content:
            processed_data = await process_data(url, content)
            await store_data(processed_data)

async def main():
    urls = [
        "https://www.example.com",
        "https://www.python.org",
        "https://www.google.com",
        "https://www.bing.com",
        "https://www.yahoo.com",
        "https://www.amazon.com",
        "https://www.wikipedia.org",
        "https://www.reddit.com",
        "https://www.stackoverflow.com",
        "https://www.github.com",
        "https://invalid-url.com", # 添加一个无效的 URL 用于测试
    ]
    tasks = [asyncio.create_task(crawl(url)) for url in urls]
    await asyncio.gather(*tasks)

if __name__ == "__main__":
    start_time = time.time()
    asyncio.run(main())
    end_time = time.time()
    print(f"Total time: {end_time - start_time:.2f} seconds")
    print(f"Total data points: {len(data)}")

在这个例子中，我们添加了以下功能：

重试机制: 如果请求失败，我们会重试最多 MAX_RETRIES 次。
指数退避: 每次重试之间，我们会等待更长的时间，以避免对服务器造成过大的压力。
异常处理: 我们捕获 aiohttp.ClientError 异常，并打印错误信息。

总结一些关键的实践经验

asyncio 提供了强大的并发编程能力，可以显著提高爬虫的效率。Semaphore 和 Lock 是 asyncio 中常用的同步原语，用于控制并发数量和保护共享资源。在实际爬虫开发中，需要注意异常处理、重试机制和反爬虫策略，以确保爬虫的健壮性和可靠性。

一些建议

合理设置并发数量： 过高的并发数量可能会对服务器造成压力，过低的并发数量则无法充分利用资源。
使用异步库： 使用 aiohttp 等异步库可以避免阻塞事件循环。
注意反爬虫策略： 尊重网站的 robots.txt 协议，并采取措施避免被封禁。
监控爬虫运行状态： 监控爬虫的运行状态，及时发现和解决问题。

多练习才能熟练掌握

通过以上讲解和示例，相信你已经对使用 asyncio 进行并发爬虫有了更深入的了解。希望这些知识能帮助你构建更高效、更健壮的爬虫系统。

并发爬虫与asyncio

asyncio 基础

并发爬虫的实现

Semaphore 的用法

Lock 的用法

Semaphore 和 Lock 的区别

实际爬虫示例：结合 Semaphore 和数据存储