Linux epoll 源码分析：效率提升揭秘

需积分: 18 186 浏览量更新于2024-07-23 收藏 462KB PDF 举报

"这篇文章除了探讨Linux的epoll机制外，还涉及了与之对比的poll系统调用的工作原理。文章通过分析内核源码来解释为什么在处理大量文件描述符(fd)时，epoll更高效。" 在Linux系统中，I/O事件处理有多种方式，如传统的轮询、信号驱动I/O以及后来引入的异步I/O(AIO)。然而，在高并发的网络服务中，最常使用的机制是I/O复用，其中poll和epoll是两种主要的实现方式。首先，让我们来看看poll系统调用。poll机制允许进程等待多个文件描述符的就绪状态，而无需阻塞在单个文件描述符上。在内核2.6.9版本中，`sys_poll`函数是poll的入口点，它接收一个文件描述符数组`fds`、数组大小`nfds`以及超时时间`timeout`。在源码中，系统会检查`nfds`是否超过了最大支持的文件描述符数，并根据`timeout`计算出合适的等待时间。然后，调用`poll_initwait`初始化一个`poll_wqueues`结构，这个结构在处理I/O事件时起着关键作用。 `poll`的工作原理是遍历所有的文件描述符，并将它们注册到内核的I/O等待队列中。当某个文件描述符准备好读写操作时，内核会唤醒等待该事件的进程。然而，当文件描述符数量很大时，这种逐个检查的策略会导致效率降低，因为每次事件发生都需要扫描整个列表。相比之下，epoll（边缘触发Edge-Triggered）引入了一种更为高效的模型。epoll通过`epoll_create`、`epoll_ctl`和`epoll_wait`等系统调用提供了一种基于事件的I/O处理方法。在epoll中，内核维护了一个红黑树来存储文件描述符，并且可以使用水平触发(Level-Triggered)或边缘触发模式。边缘触发模式下，只有当文件描述符状态从非就绪变为就绪时，epoll才会通知用户空间，这减少了重复通知的开销。 epoll的优点在于其“注册”和“事件驱动”的概念。当添加一个文件描述符到epoll集合时，内核会记录这个描述符的状态。当状态改变时，内核仅对变化的文件描述符进行通知，大大减少了上下文切换和扫描操作。此外，`epoll_wait`可以返回当前就绪的文件描述符，避免了无效的轮询。总结来说，Linux的epoll相比于poll，更适应于处理大量并发连接的场景，它的设计优化了文件描述符状态的监控，降低了系统资源的消耗，提升了系统性能。因此，epoll成为了现代高性能网络服务器的首选I/O模型。

451 }

452 __set_current_state(TASK_RUNNING);

453 return count;

454 }

注意438行的set_current_state和445行的signal_pending，它们两句保障了当用户程序在调用poll后

挂起时，发信号可以让程序迅速推出poll调用，而通常的系统调用是不会被信号打断的。

纵览do_poll函数，主要是在循环内等待，直到count大于0才跳出循环，而count主要是靠do_pollfd函数

处理。

注意标红的440-443行，当用户传入的fd很多时（比如1000个），对do_pollfd就会调用很多次，poll效

率瓶颈的另一原因就在这里。

do_pollfd就是针对每个传进来的fd，调用它们各自对应的poll函数，简化一下调用过程，如下：

struct file* file = fget(fd);

file->f_op->poll（file, &(table->pt));

如果fd对应的是某个socket，do_pollfd调用的就是网络设备驱动实现的poll；如果fd对应的是某个ext3文

件系统上的一个打开文件，那do_pollfd调用的就是ext3文件系统驱动实现的poll。一句话，这个file-

>f_op->poll是设备驱动程序实现的，那设备驱动程序的poll实现通常又是什么样子呢？其实，设备驱动

程序的标准实现是：调用poll_wait，即以设备自己的等待队列为参数（通常设备都有自己的等待队列，不

然一个不支持异步操作的设备会让人很郁闷）调用struct poll_table的回调函数。

作为驱动程序的代表，我们看看socket在使用tcp时的代码：

[net/ipv4/tcp.c-->tcp_poll]

329 unsigned int tcp_poll(struct file *file, struct socket *sock, poll_table *wait)

330 {

331 unsigned int mask;

332 struct sock *sk = sock->sk;

333 struct tcp_opt *tp = tcp_sk(sk);

334

335 poll_wait(file, sk->sk_sleep, wait);

代码就看这些，剩下的无非就是判断状态、返回状态值，tcp_poll的核心实现就是poll_wait，而

poll_wait就是调用struct poll_table对应的回调函数，那poll系统调用对应的回调函数就是

__poll_wait，所以这里几乎就可以把tcp_poll理解为一个语句：

__poll_wait(file, sk->sk_sleep, wait);

由此也可以看出，每个socket自己都带有一个等待队列sk_sleep，所以上面我们所说的“设备的等待队列”

其实不止一个。

这时候我们再看看__poll_wait的实现:

[fs/select.c-->__poll_wait()]

89 void __pollwait(struct file *filp, wait_queue_head_t *wait_address, poll_table *_p)

90 {

91 struct poll_wqueues *p = container_of(_p, struct poll_wqueues, pt);

92 struct poll_table_page *table = p->table;

94 if (!table || POLL_TABLE_FULL(table)) {

95 struct poll_table_page *new_table;

97 new_table = (struct poll_table_page *) __get_free_page(GFP_KERNEL);

98 if (!new_table) {

99 p->error = -ENOMEM;

100 __set_current_state(TASK_RUNNING);

101 return;

102 }

103 new_table->entry = new_table->entries;

104 new_table->next = table;

105 p->table = new_table;

剩余16页未读，继续阅读

playzsj

粉丝: 0
资源: 4

Linux epoll 源码分析：效率提升揭秘

linux epoll的封装类

linux epoll socket UDP通信的实现! 看清楚不是tcp哟.zip

linux epoll多线程编程 例子

Linux epoll编程示例

linux epoll

linux epoll原理

linux epoll send recv 实例

lwip支持epoll

epollin和epollet事件

Linux epol

最新资源

linux epoll多线程编程例子