Linux内核分析：poll与epoll的效率差异

需积分: 18 127 浏览量更新于2024-07-29 收藏 462KB PDF 举报

"本文将探讨Linux系统中的两种I/O多路复用技术——poll和epoll，特别是在大量文件描述符(fd)情况下，epoll为何具有更高的效率。我们将通过分析内核源码来理解其工作原理和差异。" 在Linux系统中，poll和epoll是用于处理多个文件描述符的I/O事件监控机制，常用于高并发的网络服务。它们允许程序在一个或多个I/O事件准备好时得到通知，而不是阻塞等待单个事件的发生。首先，让我们来看poll的工作原理。poll系统调用接收一个包含文件描述符的数组和超时时间作为参数。在内核2.6.9版本中，这个调用在`fs/select.c`中的`sys_poll`函数中实现。内核会检查用户提供的文件描述符数量是否超出限制，然后根据超时时间进行转换处理，以防止溢出或负值。接着，它会初始化一个名为table的`poll_wqueues`结构体，这是poll操作的关键数据结构。 `poll_initwait`初始化的`struct poll_table`包含一个函数指针，用于与各个文件系统交互，查询文件描述符的状态。当调用`poll`时，内核会遍历所有文件描述符，对每个描述符调用对应的函数，检查其是否就绪。如果没有任何描述符就绪，内核会挂起进程，直到有事件发生或超时。然而，当文件描述符数量很大时，poll的效率会下降，因为它需要对每个描述符进行轮询。这就是epoll的优势所在。epoll使用“事件驱动”的方式，通过`epoll_ctl`添加、删除和修改文件描述符到epoll集合中，然后通过`epoll_wait`等待事件的发生。当事件发生时，内核会记录这些事件，并在`epoll_wait`返回时告知用户进程。 epoll的核心是`epoll_ctl`和`epoll_wait`。`epoll_ctl`将文件描述符注册到epoll实例，可以设置监听的事件类型（如读、写等）。`epoll_wait`则会阻塞，直到有注册的文件描述符上有事件发生。内核使用红黑树存储这些描述符，当事件发生时，仅需更新相关节点，避免了遍历整个文件描述符列表的开销。此外，epoll还支持边缘触发（ET）模式，这种模式下，只有在文件描述符状态从非就绪变为就绪时才触发事件，避免了不必要的唤醒。而在水平触发（LT）模式下，只要文件描述符保持就绪状态，每次`epoll_wait`都会返回该事件，这在某些场景下更方便，但可能增加系统调用的次数。总结来说，poll和epoll的主要区别在于，poll采用轮询检查的方式，适合小规模的文件描述符，而epoll利用内核数据结构优化，结合事件驱动和高效的通知机制，更适合处理大规模的并发连接。在处理大量并发连接时，epoll的性能通常优于poll。

451 }

452 __set_current_state(TASK_RUNNING);

453 return count;

454 }

注意438行的set_current_state和445行的signal_pending，它们两句保障了当用户程序在调用poll后

挂起时，发信号可以让程序迅速推出poll调用，而通常的系统调用是不会被信号打断的。

纵览do_poll函数，主要是在循环内等待，直到count大于0才跳出循环，而count主要是靠do_pollfd函数

处理。

注意标红的440-443行，当用户传入的fd很多时（比如1000个），对do_pollfd就会调用很多次，poll效

率瓶颈的另一原因就在这里。

do_pollfd就是针对每个传进来的fd，调用它们各自对应的poll函数，简化一下调用过程，如下：

struct file* file = fget(fd);

file->f_op->poll（file, &(table->pt));

如果fd对应的是某个socket，do_pollfd调用的就是网络设备驱动实现的poll；如果fd对应的是某个ext3文

件系统上的一个打开文件，那do_pollfd调用的就是ext3文件系统驱动实现的poll。一句话，这个file-

>f_op->poll是设备驱动程序实现的，那设备驱动程序的poll实现通常又是什么样子呢？其实，设备驱动

程序的标准实现是：调用poll_wait，即以设备自己的等待队列为参数（通常设备都有自己的等待队列，不

然一个不支持异步操作的设备会让人很郁闷）调用struct poll_table的回调函数。

作为驱动程序的代表，我们看看socket在使用tcp时的代码：

[net/ipv4/tcp.c-->tcp_poll]

329 unsigned int tcp_poll(struct file *file, struct socket *sock, poll_table *wait)

330 {

331 unsigned int mask;

332 struct sock *sk = sock->sk;

333 struct tcp_opt *tp = tcp_sk(sk);

334

335 poll_wait(file, sk->sk_sleep, wait);

代码就看这些，剩下的无非就是判断状态、返回状态值，tcp_poll的核心实现就是poll_wait，而

poll_wait就是调用struct poll_table对应的回调函数，那poll系统调用对应的回调函数就是

__poll_wait，所以这里几乎就可以把tcp_poll理解为一个语句：

__poll_wait(file, sk->sk_sleep, wait);

由此也可以看出，每个socket自己都带有一个等待队列sk_sleep，所以上面我们所说的“设备的等待队列”

其实不止一个。

这时候我们再看看__poll_wait的实现:

[fs/select.c-->__poll_wait()]

89 void __pollwait(struct file *filp, wait_queue_head_t *wait_address, poll_table *_p)

90 {

91 struct poll_wqueues *p = container_of(_p, struct poll_wqueues, pt);

92 struct poll_table_page *table = p->table;

94 if (!table || POLL_TABLE_FULL(table)) {

95 struct poll_table_page *new_table;

97 new_table = (struct poll_table_page *) __get_free_page(GFP_KERNEL);

98 if (!new_table) {

99 p->error = -ENOMEM;

100 __set_current_state(TASK_RUNNING);

101 return;

102 }

103 new_table->entry = new_table->entries;

104 new_table->next = table;

105 p->table = new_table;

剩余16页未读，继续阅读

WandouChris

粉丝: 1
资源: 11

Linux内核分析：poll与epoll的效率差异

poll和epoll内核源码剖析

poll和epoll源码剖析

poll/epoll源码剖析

select、poll和epoll

select和poll和epoll区别

poll和epoll的区别

select和poll和epoll的用法

poll和epoll区别

请说明Unix网络编程中select,poll和epoll的区别，并用C语言实现一个使用select，poll和epoll进行通信的demo

IO多路复用中，select、poll和epoll的区别

最新资源