Python高级技术之：`Python`的`selectors`模块：`I/O`多路复用在异步编程中的底层实现。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众老爷，晚上好！我是你们的老朋友，今天咱们来聊聊Python里一个稍微有点深奥，但又非常重要的模块：selectors。

开场白：为啥要聊selectors？

话说，咱们平时写Python代码，那叫一个行云流水，尤其是用asyncio搞异步编程，感觉世界都变快了。但你有没有想过，这看似神奇的异步背后，到底是谁在默默付出？没错，就是咱们今天要讲的selectors模块！

你可以把selectors想象成一个高级的“交通指挥中心”，专门负责管理各种I/O事件（比如网络连接、文件读写等等）。它能让你在一个线程里同时监听多个I/O事件，哪个事件准备好了，就通知你处理哪个，大大提高了程序的效率。

selectors模块：基本概念

selectors模块是Python标准库的一部分，它提供了一种高效的方式来监听多个文件描述符（file descriptor）上的I/O事件。简而言之，它可以让你在一个线程里同时处理多个连接，而不需要为每个连接都创建一个新的线程。

selectors模块的核心在于以下几个概念：

Selector: 这是最核心的类，它负责管理所有注册的I/O事件。
File descriptor: 文件描述符，一个整数，操作系统用来标识打开的文件、socket等I/O资源的。
Events: 你感兴趣的I/O事件类型，比如可读（EVENT_READ）、可写（EVENT_WRITE）。
Key: 当你注册一个文件描述符时，selectors会返回一个SelectorKey对象，它包含了文件描述符、事件类型、关联的数据等信息。

selectors模块：主要类和方法

selectors模块提供多个Selector的子类，对应不同的底层实现，例如SelectSelector， PollSelector，EpollSelector，KqueueSelector，DevpollSelector，BestSelector。 BestSelector会自动选择当前平台下性能最佳的实现。

以下是selectors模块中一些常用的类和方法：

类/方法	描述
`DefaultSelector`	返回当前平台最佳的`Selector`实现。
`SelectorKey`	表示一个注册的I/O事件。它包含以下属性：`fileobj` (文件对象或文件描述符), `fd` (文件描述符), `events` (感兴趣的事件), `data` (关联的数据)。
`register(fileobj, events, data=None)`	注册一个文件对象或文件描述符，并指定感兴趣的事件。返回一个`SelectorKey`对象。
`unregister(fileobj)`	取消注册一个文件对象或文件描述符。
`select(timeout=None)`	阻塞等待I/O事件的发生。返回一个(key, events)的列表，其中key是`SelectorKey`对象，events是一个事件掩码（例如`EVENT_READ \| EVENT_WRITE`）。`timeout`参数指定超时时间，如果为`None`则一直阻塞。
`get_key(fileobj)`	返回与给定文件对象关联的`SelectorKey`。如果该文件对象未注册，则引发`KeyError`。
`close()`	关闭`Selector`对象。

selectors模块：代码示例

光说不练假把式，咱们直接上代码！

import selectors
import socket

# 创建一个socket
sock = socket.socket()
sock.bind(('localhost', 12345))
sock.listen(5)
sock.setblocking(False) # 设置为非阻塞模式

# 创建一个selector
sel = selectors.DefaultSelector()

# 注册socket的可读事件
sel.register(sock, selectors.EVENT_READ, data='listening')

def accept_handler(sock, addr):
    conn, addr = sock.accept()  # Should be ready
    conn.setblocking(False)
    sel.register(conn, selectors.EVENT_READ, data='client')
    print(f"Accepted connection from {addr}")

def service_connection(key, mask):
    sock = key.fileobj
    data = key.data
    if mask & selectors.EVENT_READ:
        recv_data = sock.recv(1024)  # Should be ready
        if recv_data:
            print(f"Received {recv_data!r} from connection {data}")
            sock.send(recv_data)  # Echo back to client
        else:
            print(f"Closing connection {data}")
            sel.unregister(sock)
            sock.close()

# 事件循环
while True:
    events = sel.select(timeout=1) # 阻塞等待事件，timeout设置为1秒
    if events:
        for key, mask in events:
            if key.data == 'listening':
                accept_handler(key.fileobj, key.fileobj.getsockname())
            elif key.data == 'client':
                service_connection(key, mask)
    else:
        print("Timeout occurred!")

这个例子展示了一个简单的服务器，它使用selectors来监听socket的可读事件。当有新的连接请求时，accept_handler函数会被调用，接受连接并将其注册到selector中。当有数据到达时，service_connection函数会被调用，处理数据。

代码解析：

创建Socket并监听: 创建一个TCP socket，绑定到本地地址和端口，并开始监听连接。关键是 sock.setblocking(False)，这让socket进入非阻塞模式，这样accept和recv在没有数据时不会一直阻塞。
创建Selector: 使用 selectors.DefaultSelector() 创建一个selector实例。DefaultSelector会根据你的操作系统选择最佳的selector实现。
注册Socket: 使用 sel.register() 将监听socket注册到selector中。我们关心的是 selectors.EVENT_READ 事件，表示当socket可读时（有新的连接请求到达时），selector会通知我们。data 参数可以用来传递一些上下文信息，这里我们传递了字符串 ‘listening’，用于标识这个socket是监听socket。
事件循环: 进入一个无限循环，使用 sel.select() 等待I/O事件。select() 会阻塞，直到有事件发生或者超时（这里我们设置了超时时间为1秒）。
处理事件: sel.select() 返回一个列表，其中包含所有准备好的事件。对于每个事件，我们检查 key.data 来确定是监听socket的事件还是已连接socket的事件。
- 如果是监听socket的事件，表示有新的连接请求到达，我们调用 accept_handler 接受连接，并将新的连接socket也注册到selector中，同样关心 selectors.EVENT_READ 事件。这次 data 参数传递了字符串 ‘client’，用于标识这个socket是已连接的客户端socket。
- 如果是已连接socket的事件，表示有数据到达，我们调用 service_connection 处理数据。service_connection 从socket接收数据，并将数据回显给客户端。如果客户端关闭连接，我们会从selector中取消注册socket，并关闭socket。

selectors与asyncio的关系

你可能觉得上面的代码有点复杂，不如asyncio用起来那么简洁。这是因为asyncio是在selectors的基础上构建的。asyncio封装了selectors的底层细节，提供了更高层次的抽象，例如事件循环、协程等等，让你更容易编写异步代码。

简单来说，asyncio相当于在selectors的基础上加了一层“糖衣”，让你在享受异步编程带来的便利的同时，不用直接面对底层复杂的I/O多路复用。

selectors模块：底层实现

selectors模块在不同的操作系统上有不同的实现方式，常见的有：

select: 这是最古老的I/O多路复用机制，几乎所有操作系统都支持。但它的效率比较低，因为它需要轮询所有的文件描述符。
poll: 类似于select，但它使用poll系统调用，可以避免select的一些限制。
epoll: Linux系统下高效的I/O多路复用机制，它使用epoll系统调用，可以只关注真正发生事件的文件描述符。
kqueue: FreeBSD、macOS等系统下高效的I/O多路复用机制。

selectors.DefaultSelector()会根据当前操作系统选择最佳的实现方式。

selectors模块：使用场景

selectors模块主要用于以下场景：

构建高性能的网络服务器： 可以同时处理大量的并发连接，提高服务器的吞吐量。
实现异步I/O操作： 可以非阻塞地进行文件读写、网络通信等操作，避免线程阻塞。
开发事件驱动的应用程序： 可以监听各种事件，并在事件发生时执行相应的处理逻辑。

selectors模块：高级用法

除了上面介绍的基本用法，selectors模块还有一些高级用法，例如：

使用非阻塞I/O： 为了充分利用selectors的优势，你需要确保所有的I/O操作都是非阻塞的。可以使用socket.setblocking(False)将socket设置为非阻塞模式。
处理错误： 在I/O操作中可能会发生各种错误，例如连接断开、数据丢失等等。你需要适当地处理这些错误，保证程序的稳定性。
自定义事件处理： 你可以根据自己的需求，定义自己的事件类型和处理逻辑。

总结

selectors模块是Python异步编程的基础，它提供了一种高效的方式来监听多个文件描述符上的I/O事件。虽然asyncio已经封装了selectors的底层细节，但了解selectors的工作原理可以帮助你更好地理解异步编程，编写更高效、更稳定的程序。

彩蛋：如何调试selectors代码？

调试selectors代码可能会比较棘手，因为它涉及到多个线程和复杂的I/O操作。以下是一些调试技巧：

使用日志： 在关键的地方添加日志，可以帮助你了解程序的执行流程。
使用调试器： Python的调试器可以让你单步执行代码，查看变量的值。
使用Wireshark： Wireshark是一个强大的网络抓包工具，可以让你查看网络通信的详细信息。

最后，希望今天的讲座能让你对selectors模块有更深入的了解。记住，编程的道路是漫长的，需要不断学习和实践。加油！

发表回复 取消回复

发表回复取消回复