1.什么是I/O复用
进程需要一种预先告知内核的能力,使得内核一旦发现进程指定的一个或多个I/O条件就绪(输入已准备好被读取,或者描述符已能承接更多的输出),就会通知进程。这个能力称为I/O复用。
2.I/O复用的应用场合
- 当客户同时处理多个描述符(通常是交互式输入和网络套接字)时,必须使用I/O复用
- 一个客户同时处理多个套接字是可能的
- 如果一个TCP服务器既要处理监听套接字,又要处理已连接套接字,一般就要使用I/O复用
- 如果一个服务器既要处理TCP,又要处理UDP,一般就要使用I/O复用
- 如果一个服务器要处理多个服务或者多个协议,一般就要使用I/O复用。
3.I/O复用模型
select、poll都是系统调用
select调用后将被阻塞,等待数据报套接字变为可读。当select返回套接字可读这一条件时,调用recvfrom把所读数据复制到应用进程缓冲区
使用select的优势在于我们可以等待多个描述符就绪
相当于中间多了一层。I/O是否准备就绪管理层,进程受阻于此层的调用,一直到规定时间截止或者在管理层注册中的某个或多个事件发生。
4.在多线程中使用阻塞式I/O
与I/O复用密切相关的另一种I/O模型:多线程中使用阻塞式I/O,取代select阻塞在多个文件描述符,此模型使用多个线程(每个文件描述符一个线程),这样每个线程都可以自由地调用recvfrom之类的阻塞式I/O系统调用
5.描述符集的介绍及其相关操作
参见我的另一篇博文:点击此处
6.select函数详解
该函数允许进程指示内核等待多个事件的任何一个发生、并只在有一个或多个事件发生或经历一段指定的时间后才唤醒。
#include<sys/select.h>
#include<sys/time.h>
int select(int maxfdp1,fd_set *readset,fd_set *writeset,fd_set *exceptset,const struct timeval *timeout);
//若有就绪描述符则为其数目,若超时则为0,若出错则为-1
timeout:指定等待时间(可到微秒级,但不是很准)
struct timeval
{
long tv_sec; /*seconds*/
long tv_usec;/*microseconds*/
}
1.若把timeout设置为空指针,则select阻塞永远等待,仅在有一个描述符准备好I/O时才返回
2.在有一个描述符准备好I/O时返回,但不超过该参数指定的时间
3.不等待(传入timeval结构指针,指针指向的结构体变量都置为0)。检查描述符后立即返回,称为轮询
readset writeset exceptset都是值-结果参数。我们每次重新调用select函数时,我们都得再次把所有描述符集内所关心的位均设置为1
7.pselect函数详解
此函数由POSIX定义。
#include<sys/select.h> #include<signal.h> #include<time.h> int pselect(int maxfdp1,fd_set *readfds,fd_set *writefds,fd_set *exceptfds,const struct timespec *tsptr,const sigset_t *sigmask);
pselect相对于select的两个变化:
- pselect使用timespec结构,能指定到纳秒级(旧结构只能指定到微秒级)
- pselect增加了指向信号集的指针sigmask(此时的信号集表示信号掩码)
- 对于pselect可使用一可选择的信号屏蔽字。若sigmask为空,那么在与信号有关的方面,pselect的运行状况和select相同。否则,sigmask指向一信号屏蔽字,在调用pselect时,以原子操作的方式安装该信号屏蔽字。在返回时恢复以前的信号屏蔽字。
用pselect()函数 #include <time.h> #include <stdio.h> #include <stdlib.h> #include <signal.h> #include <unistd.h> #include <sys/select.h> #define BUFFSIZE 80void sig_int(int signo) //SIGINT的信号处理函数 { char s[] = "received"; psignal(signo,s); return; }void err_sys(const char *p_error) //错误包裹函数,内部调用exit强制退出 { perror(p_error); exit(1); }void sig_alrm(int signo) //SIGALRM信号处理函数{ char s[] = "receive"; psignal(signo,s); return;}intmain(int argc,char **argv){ int maxfdp1; fd_set rset; //文件描述符集 sigset_t sigmask; //信号集,用来设置信号屏蔽字 ssize_t nread; char buf[BUFFSIZE]; sigset_t sigset; struct sigaction act; // set SIGALRM signal handler act.sa_handler = sig_alrm; if (sigemptyset(&act.sa_mask) == -1) err_sys("sigemptyset"); act.sa_flags = 0; if (sigaction(SIGALRM,&act,NULL) == -1) err_sys("sigaction"); // initialize signal set and addition SIGALRM into sigset if (sigemptyset(&sigset) == -1) err_sys("sigemptyet"); if (sigaddset(&sigset,SIGALRM) == -1) err_sys("sigaddset"); alarm(1); FD_ZERO(&rset); FD_SET(STDIN_FILENO,&rset); maxfdp1 = STDIN_FILENO + 1; if (pselect(maxfdp1,&rset,NULL,&sigset) <= 0) err_sys("pselect error"); if (FD_ISSET(STDIN_FILENO,&rset)) { if ((nread = read(STDIN_FILENO,buf,BUFFSIZE)) == -1) err_sys("read error"); if (write(STDOUT_FILENO,nread) != nread) err_sys("write error"); } exit(0);}上段代码如果没有CTRL+C送上一个SIGINT信号,将永远阻塞在与用户的交互上,ALARM产生的SIGALRM信号打断不了PSELECT,ALARM信号被成功屏蔽8.poll函数详解
#include<poll.h> int poll(struct pollfd *fdarray,unisgned long nfds,int timeout);
poll功能与select类似,不过在处理流设备时,它能够提供额外的信息struct pollfd{
int fd;
short events;
shot revents;
}
9.epoll函数详解(现今最常用的linux2.6及其之后内核支持)
具体参见我的另一篇博文:epoll机制详解
10.select、poll、epoll比较
notes;
当要保持很多的长连接,而且连接的开关很频繁的情况下,能够发挥epoll最大优势(高效的模型:非阻塞、异步IO模型)。不使用select/poll,这些函数机制复杂度O(N).
Linux2.6及其之后:使用epoll
BSD:使用kqueue
windows:IOCP
实际项目中我们使用libevent封装了统一接口(不同操作系统采用各个平台特有接口),这些平台特有API时间复杂度O(1)
在非阻塞、异步I/O模型下,我们需要亲自管理维护每个连接的状态,小心的对报文解析,为了充分利用cpu,还需采取线程池机制。
系统调用 | select | poll | epoll | 函数原型 | int select(int nfds,fd_set* readfds,fd_set* writefds,fd_set* exceptfds,struct timeval* timeout) | int poll(struct pollfd* fds,nfds_t nfds,int timeout) | int epoll_create(int size) int epoll_ctl(int epfd,int op,int fd,struct epoll_event* event) int epoll_wait(int epfd,struct epoll_event* events,int maxevents,int timeout) |
事件集合 | 统一处理所有事件类型,因此只需一个事件集参数。用户通过pollfd.events传入感兴趣的事件,内核通过修改pollfd.revents反馈其中就绪的事件 | 内核通过一个事件表直接管理用户感兴趣的所有事件。因此每次调用epoll_wait时,无须反复传入用户感兴趣的事件。epoll_wait系统调用的参数events仅用来反馈就绪的事件 | 应用程序索引就绪文件描述符的事件复杂度 | O(n) | O(n) | O(1) | 最大文件描述符数 | 一般有最大值限制(由FD_SETSIZE指定) | 系统允许打开的最大文件描述符数目 | 系统允许打开的最大文件描述符数目 | 工作模式 | Level Trigger | Level Trigger | Level/Edge Trigger | 内核实现和工作效率 | 采用轮询方式来检测就绪事件,算法时间复杂度为O(n) | 采用轮询方式来检测就绪事件,算法时间复杂度为O(n) | 采用回调方式来检测就绪事件,算法时间复杂度为O(1)。无论是select,poll还是epoll都需要内核把FD消息通知给用户空间,如何避免不必要的内存拷贝就很重要,在这点上,epoll是通过内核与用户空间mmap同一块内存实现的。 epoll因为采用mmap的机制,使得内核socket buffer和用户空间的buffer共享,从而省去了socket data copy,这也意味着,当epoll回调上层的callback函数来处socket 数据时,数据已经从内核层 "自动" 到了用户空间,虽然和用poll 一样,用户层的代码还必须要调用 read/write,但这个函数内部实现所触发的深度不同了. |
使用差别 |
fd_set read_fds; FD_ZERO(&read_fds); while(1){ FD_SET(connfd,&read_fds); ret = select(connfd + 1,&read_fds,NULL); if(FD_ISSET(connfd,&read_fds)){ //事件处理 } } |
int ret = poll(fds,MAX_EVENT_NUMBER,-1); for(int i = 0; i < MAX_EVENT_NUMBER; ++i){ if(fds[i].revents &POLLIN){ int sockfd = fds[i].fd; //事件处理 } } |
int ret = epoll_wait(epollfd,events,-1); for(int i = 0; i < ret; i++){ int sockfd = events[i].data.fd; //事件处理 } |