深度解析：poll与epoll的效率比较与内核源码分析

5星 · 超过95%的资源需积分: 9 178 浏览量更新于2024-07-22 收藏 547KB PDF 举报

本文将深入探讨Linux系统中的两个重要I/O多路复用机制——poll和epoll。作者董昊在博客中分享了他的研究，指出在处理大量文件描述符（fd）时，epoll通常比poll表现出更高的效率。文章首先介绍了poll的基本系统调用结构及其内核2.6.9版本的实现细节，强调了`sys_poll`函数中对`nfds`参数的检查以及`poll_initwait`函数的重要性。在poll系统的`sys_poll`函数中，对用户提供的`nfds`数量进行了限制，确保不超过系统支持的最大fd数（默认为256），并处理了可能的溢出情况。`poll_initwait`函数在这个过程中起着关键作用，虽然其名称看似初始化，但实际上它维护了一个在poll过程中至关重要的数据结构`poll_wq_queue`或`poll_table`，这个结构中仅包含一个函数指针。 `poll_table`的简单定义表明它主要用于管理文件描述符的集合和相关的事件处理。在实际操作中，它会存储每个fd的状态、事件类型以及回调函数，用于后续的事件检测和处理。接下来，文章转向epoll的分析。相比于poll，epoll引入了一种更高效的方式，它利用epoll_wait和epoll_ctl系统调用来分别等待事件发生和注册/删除fd。epoll在内核中使用epoll_wait函数来监控fd集合，这个函数在性能上优于poll，因为它只需要对活跃的fd进行检查，而不是遍历整个fd列表。epoll的这种设计减少了不必要的系统调用开销，尤其是在大量fd情况下，性能提升显著。通过内核源码的比较，我们可以看到epoll在减少内存消耗和提高CPU效率方面的优势，这使得epoll成为现代高并发应用中的首选I/O多路复用机制。作者建议，在处理大量fd时，开发人员应优先考虑epoll，以优化应用程序的性能。总结起来，本文通过源码分析揭示了poll与epoll在效率上的区别，重点讲解了poll的内部实现机制和epoll的高效特性，这对于理解Linux I/O多路复用原理以及选择合适的I/O复用机制对于高并发场景下的编程至关重要。同时，董昊的博客提供了深入学习和实践的宝贵资源。

451 }

452 __set_current_state(TASK_RUNNING);

453 return count;

454 }

注意438行的set_current_state和445行的signal_pending，它们两句保障了当用户程序在调用poll后

挂起时，发信号可以让程序迅速推出poll调用，而通常的系统调用是不会被信号打断的。

纵览do_poll函数，主要是在循环内等待，直到count大于0才跳出循环，而count主要是靠do_pollfd函数

处理。

注意标红的440-443行，当用户传入的fd很多时（比如1000个），对do_pollfd就会调用很多次，poll效

率瓶颈的另一原因就在这里。

do_pollfd就是针对每个传进来的fd，调用它们各自对应的poll函数，简化一下调用过程，如下：

struct file* file = fget(fd);

file->f_op->poll（file, &(table->pt));

如果fd对应的是某个socket，do_pollfd调用的就是网络设备驱动实现的poll；如果fd对应的是某个ext3文

件系统上的一个打开文件，那do_pollfd调用的就是ext3文件系统驱动实现的poll。一句话，这个file-

>f_op->poll是设备驱动程序实现的，那设备驱动程序的poll实现通常又是什么样子呢？其实，设备驱动

程序的标准实现是：调用poll_wait，即以设备自己的等待队列为参数（通常设备都有自己的等待队列，不

然一个不支持异步操作的设备会让人很郁闷）调用struct poll_table的回调函数。

作为驱动程序的代表，我们看看socket在使用tcp时的代码：

[net/ipv4/tcp.c-->tcp_poll]

329 unsigned int tcp_poll(struct file *file, struct socket *sock, poll_table *wait)

330 {

331 unsigned int mask;

332 struct sock *sk = sock->sk;

333 struct tcp_opt *tp = tcp_sk(sk);

334

335 poll_wait(file, sk->sk_sleep, wait);

代码就看这些，剩下的无非就是判断状态、返回状态值，tcp_poll的核心实现就是poll_wait，而

poll_wait就是调用struct poll_table对应的回调函数，那poll系统调用对应的回调函数就是

__poll_wait，所以这里几乎就可以把tcp_poll理解为一个语句：

__poll_wait(file, sk->sk_sleep, wait);

由此也可以看出，每个socket自己都带有一个等待队列sk_sleep，所以上面我们所说的“设备的等待队列”

其实不止一个。

这时候我们再看看__poll_wait的实现:

[fs/select.c-->__poll_wait()]

89 void __pollwait(struct file *filp, wait_queue_head_t *wait_address, poll_table *_p)

90 {

91 struct poll_wqueues *p = container_of(_p, struct poll_wqueues, pt);

92 struct poll_table_page *table = p->table;

94 if (!table || POLL_TABLE_FULL(table)) {

95 struct poll_table_page *new_table;

97 new_table = (struct poll_table_page *) __get_free_page(GFP_KERNEL);

98 if (!new_table) {

99 p->error = -ENOMEM;

100 __set_current_state(TASK_RUNNING);

101 return;

102 }

103 new_table->entry = new_table->entries;

104 new_table->next = table;

105 p->table = new_table;

回调函数

剩余16页未读，继续阅读

ranyu_ma

粉丝: 0
资源: 1

深度解析：poll与epoll的效率比较与内核源码分析

Linux内核分析：poll与epoll的效率差异

Linux IO复用：select、poll与epoll全面对比分析

深度剖析：poll与epoll系统调用与内核源码实现

poll及epoll内核实现分析

Select-Poll-Epoll-small-demo:SelectPollEpoll小演示

poll/epoll源码剖析

Linux内核poll与epoll效率探析

深度解析：poll与epoll内核源码效率比较

Linux下poll与epoll性能对比及内核源码剖析

Linux IO多路复用：select、poll与epoll详解

最新资源