深度剖析：poll与epoll系统调用与内核源码实现

需积分: 9 168 浏览量更新于2024-07-22 收藏 580KB PDF 举报

本文将深入剖析Linux内核中的poll和epoll系统调用及其源码实现。作者董昊在其博客<http://donghao.org/uii/>分享了这一详尽的讲解，主要关注于当处理大量文件描述符（fd）时，为何epoll相较于poll在效率上更具优势。首先，让我们回顾一下poll系统调用的基本结构： `int poll(struct pollfd *fds, nfds_t nfds, int timeout);` 在这个函数中，参数`fds`是一个指向`struct pollfd`数组的指针，`nfds`表示fd的个数，`timeout`是可选的超时时间。内核在2.6.9版本的实现代码中，对用户提供的`nfds`数量进行了检查，确保不超过系统支持的最大fd数（默认为256）。核心部分在于`poll_initwait(&table)`，这个函数初始化了一个名为`poll_table`的数据结构，虽然名称中包含`wait`，但它的作用远不止于此。`poll_table`实际上存储了一个函数指针，这个函数在poll操作过程中扮演了调度和管理的角色。当有事件发生时，它会根据fd的状态进行相应的处理，并且在处理过程中维护一个事件队列。相比之下，epoll是poll的一个增强版本，它在内核2.6.33之后引入，主要改进在于使用epoll_wait和epoll_ctl两个系统调用，以及在内核层面实现了更高效的数据结构。epoll不再依赖于用户空间维护fd列表，而是将这些信息存储在内核中，减少了用户态到内核态的频繁切换，提升了性能。在epoll下，fd的数量限制不再像poll那样严格，因为它利用了epoll_data结构，可以在单个epoll实例中管理大量fd。总结起来，这篇文章通过分析poll源码，揭示了其内部工作机制，尤其是`poll_table`的作用。然后，通过对比，阐述了epoll如何优化了fd管理，提高了处理大规模fd场景下的效率。对于理解这两个底层技术以及优化高并发应用程序的开发者来说，这是一篇不可多得的深入研究资料。

451 }

452 __set_current_state(TASK_RUNNING);

453 return count;

454 }

注意438行的set_current_state和445行的signal_pending，它们两句保障了当用户程序在调用poll后

挂起时，发信号可以让程序迅速推出poll调用，而通常的系统调用是不会被信号打断的。

纵览do_poll函数，主要是在循环内等待，直到count大于0才跳出循环，而count主要是靠do_pollfd函数

处理。

注意标红的440-443行，当用户传入的fd很多时（比如1000个），对do_pollfd就会调用很多次，poll效

率瓶颈的另一原因就在这里。

do_pollfd就是针对每个传进来的fd，调用它们各自对应的poll函数，简化一下调用过程，如下：

struct file* file = fget(fd);

file->f_op->poll（file, &(table->pt));

如果fd对应的是某个socket，do_pollfd调用的就是网络设备驱动实现的poll；如果fd对应的是某个ext3文

件系统上的一个打开文件，那do_pollfd调用的就是ext3文件系统驱动实现的poll。一句话，这个file-

>f_op->poll是设备驱动程序实现的，那设备驱动程序的poll实现通常又是什么样子呢？其实，设备驱动

程序的标准实现是：调用poll_wait，即以设备自己的等待队列为参数（通常设备都有自己的等待队列，不

然一个不支持异步操作的设备会让人很郁闷）调用struct poll_table的回调函数。

作为驱动程序的代表，我们看看socket在使用tcp时的代码：

[net/ipv4/tcp.c-->tcp_poll]

329 unsigned int tcp_poll(struct file *file, struct socket *sock, poll_table *wait)

330 {

331 unsigned int mask;

332 struct sock *sk = sock->sk;

333 struct tcp_opt *tp = tcp_sk(sk);

334

335 poll_wait(file, sk->sk_sleep, wait);

代码就看这些，剩下的无非就是判断状态、返回状态值，tcp_poll的核心实现就是poll_wait，而

poll_wait就是调用struct poll_table对应的回调函数，那poll系统调用对应的回调函数就是

__poll_wait，所以这里几乎就可以把tcp_poll理解为一个语句：

__poll_wait(file, sk->sk_sleep, wait);

由此也可以看出，每个socket自己都带有一个等待队列sk_sleep，所以上面我们所说的“设备的等待队列”

其实不止一个。

这时候我们再看看__poll_wait的实现:

[fs/select.c-->__poll_wait()]

89 void __pollwait(struct file *filp, wait_queue_head_t *wait_address, poll_table *_p)

90 {

91 struct poll_wqueues *p = container_of(_p, struct poll_wqueues, pt);

92 struct poll_table_page *table = p->table;

94 if (!table || POLL_TABLE_FULL(table)) {

95 struct poll_table_page *new_table;

97 new_table = (struct poll_table_page *) __get_free_page(GFP_KERNEL);

98 if (!new_table) {

99 p->error = -ENOMEM;

100 __set_current_state(TASK_RUNNING);

101 return;

102 }

103 new_table->entry = new_table->entries;

104 new_table->next = table;

105 p->table = new_table;

回调函数

剩余16页未读，继续阅读

AllenHuai

粉丝: 22
资源: 1

深度剖析：poll与epoll系统调用与内核源码实现

Linux下poll与epoll性能对比及内核源码剖析

深度解析：poll与epoll内核源码效率比较

Linux内核poll与epoll效率探析

poll和epoll源码剖析

poll和epoll内核源码剖析

epoll源码剖析

libevent_源码剖析

后端网络框架学习必备：libevent源码剖析

Redis 源码剖析与实战 深入源码底层实现，轻松通关 Redis 面试-470M网盘下载.txt

Linux 内核源码剖析- TCP.IP 实现, 樊东东, 莫澜, 上册

最新资源

Redis 源码剖析与实战深入源码底层实现，轻松通关 Redis 面试-470M网盘下载.txt