I/O多路復用（multiplexing）的本質(zhì)是通過一種機制（系統(tǒng)內(nèi)核緩沖I/O數(shù)據(jù)），讓單個進程可以監(jiān)視多個文件描述符，一旦某個描述符就緒（一般是讀就緒或?qū)懢途w），能夠通知程序進行相應(yīng)的讀寫操作

select、poll 和 epoll 都是 Linux API 提供的 IO 復用方式。

相信大家都了解了Unix五種IO模型，不了解的可以 => 查看這里

[1] blocking IO - 阻塞IO
[2] nonblocking IO - 非阻塞IO
[3] IO multiplexing - IO多路復用
[4] signal driven IO - 信號驅(qū)動IO
[5] asynchronous IO - 異步IO

其中前面4種IO都可以歸類為synchronous IO - 同步IO，而select、poll、epoll本質(zhì)上也都是同步I/O，因為他們都需要在讀寫事件就緒后自己負責進行讀寫，也就是說這個讀寫過程是阻塞的。

與多進程和多線程技術(shù)相比，I/O多路復用技術(shù)的最大優(yōu)勢是系統(tǒng)開銷小，系統(tǒng)不必創(chuàng)建進程/線程，也不必維護這些進程/線程，從而大大減小了系統(tǒng)的開銷。

在介紹select、poll、epoll之前，首先介紹一下Linux操作系統(tǒng)中基礎(chǔ)的概念：

用戶空間 / 內(nèi)核空間
現(xiàn)在操作系統(tǒng)都是采用虛擬存儲器，那么對32位操作系統(tǒng)而言，它的尋址空間（虛擬存儲空間）為4G（2的32次方）。
操作系統(tǒng)的核心是內(nèi)核，獨立于普通的應(yīng)用程序，可以訪問受保護的內(nèi)存空間，也有訪問底層硬件設(shè)備的所有權(quán)限。為了保證用戶進程不能直接操作內(nèi)核（kernel），保證內(nèi)核的安全，操作系統(tǒng)將虛擬空間劃分為兩部分，一部分為內(nèi)核空間，一部分為用戶空間。
進程切換
為了控制進程的執(zhí)行，內(nèi)核必須有能力掛起正在CPU上運行的進程，并恢復以前掛起的某個進程的執(zhí)行。這種行為被稱為進程切換。因此可以說，任何進程都是在操作系統(tǒng)內(nèi)核的支持下運行的，是與內(nèi)核緊密相關(guān)的，并且進程切換是非常耗費資源的。
進程阻塞
正在執(zhí)行的進程，由于期待的某些事件未發(fā)生，如請求系統(tǒng)資源失敗、等待某種操作的完成、新數(shù)據(jù)尚未到達或無新工作做等，則由系統(tǒng)自動執(zhí)行阻塞原語(Block)，使自己由運行狀態(tài)變?yōu)樽枞麪顟B(tài)。可見，進程的阻塞是進程自身的一種主動行為，也因此只有處于運行態(tài)的進程（獲得了CPU資源），才可能將其轉(zhuǎn)為阻塞狀態(tài)。當進程進入阻塞狀態(tài)，是不占用CPU資源的。
文件描述符
文件描述符（File descriptor）是計算機科學中的一個術(shù)語，是一個用于表述指向文件的引用的抽象化概念。
文件描述符在形式上是一個非負整數(shù)。實際上，它是一個索引值，指向內(nèi)核為每一個進程所維護的該進程打開文件的記錄表。當程序打開一個現(xiàn)有文件或者創(chuàng)建一個新文件時，內(nèi)核向進程返回一個文件描述符。在程序設(shè)計中，一些涉及底層的程序編寫往往會圍繞著文件描述符展開。但是文件描述符這一概念往往只適用于UNIX、Linux這樣的操作系統(tǒng)。
緩存I/O
緩存I/O又稱為標準I/O，大多數(shù)文件系統(tǒng)的默認I/O操作都是緩存I/O。在Linux的緩存I/O機制中，操作系統(tǒng)會將I/O的數(shù)據(jù)緩存在文件系統(tǒng)的頁緩存中，即數(shù)據(jù)會先被拷貝到操作系統(tǒng)內(nèi)核的緩沖區(qū)中，然后才會從操作系統(tǒng)內(nèi)核的緩沖區(qū)拷貝到應(yīng)用程序的地址空間。

Select

我們先分析一下select函數(shù)

int select(int maxfdp1,fd_set *readset,fd_set *writeset,fd_set *exceptset,const struct timeval *timeout);

【參數(shù)說明】
int maxfdp1 指定待測試的文件描述字個數(shù)，它的值是待測試的最大描述字加1。
**fd_set *readset , fd_set writeset , fd_set exceptset
fd_set可以理解為一個集合，這個集合中存放的是文件描述符(file descriptor)，即文件句柄。中間的三個參數(shù)指定我們要讓內(nèi)核測試讀、寫和異常條件的文件描述符集合。如果對某一個的條件不感興趣，就可以把它設(shè)為空指針。
*const struct timeval timeout timeout告知內(nèi)核等待所指定文件描述符集合中的任何一個就緒可花多少時間。其timeval結(jié)構(gòu)用于指定這段時間的秒數(shù)和微秒數(shù)。

【返回值】
int 若有就緒描述符返回其數(shù)目，若超時則為0，若出錯則為-1

select運行機制

select()的機制中提供一種fd_set的數(shù)據(jù)結(jié)構(gòu)，實際上是一個long類型的數(shù)組，每一個數(shù)組元素都能與一打開的文件句柄（不管是Socket句柄,還是其他文件或命名管道或設(shè)備句柄）建立聯(lián)系，建立聯(lián)系的工作由程序員完成，當調(diào)用select()時，由內(nèi)核根據(jù)IO狀態(tài)修改fd_set的內(nèi)容，由此來通知執(zhí)行了select()的進程哪一Socket或文件可讀。

從流程上來看，使用select函數(shù)進行IO請求和同步阻塞模型沒有太大的區(qū)別，甚至還多了添加監(jiān)視socket，以及調(diào)用select函數(shù)的額外操作，效率更差。但是，使用select以后最大的優(yōu)勢是用戶可以在一個線程內(nèi)同時處理多個socket的IO請求。用戶可以注冊多個socket，然后不斷地調(diào)用select讀取被激活的socket，即可達到在同一個線程內(nèi)同時處理多個IO請求的目的。而在同步阻塞模型中，必須通過多線程的方式才能達到這個目的。

select機制的問題

每次調(diào)用select，都需要把fd_set集合從用戶態(tài)拷貝到內(nèi)核態(tài)，如果fd_set集合很大時，那這個開銷也很大
同時每次調(diào)用select都需要在內(nèi)核遍歷傳遞進來的所有fd_set，如果fd_set集合很大時，那這個開銷也很大
為了減少數(shù)據(jù)拷貝帶來的性能損壞，內(nèi)核對被監(jiān)控的fd_set集合大小做了限制，并且這個是通過宏控制的，大小不可改變(限制為1024)

Poll

poll的機制與select類似，與select在本質(zhì)上沒有多大差別，管理多個描述符也是進行輪詢，根據(jù)描述符的狀態(tài)進行處理，但是poll沒有最大文件描述符數(shù)量的限制。也就是說，poll只解決了上面的問題3，并沒有解決問題1，2的性能開銷問題。

下面是pll的函數(shù)原型：

int poll(struct pollfd *fds, nfds_t nfds, int timeout);

typedef struct pollfd {
        int fd;                         // 需要被檢測或選擇的文件描述符
        short events;                   // 對文件描述符fd上感興趣的事件
        short revents;                  // 文件描述符fd上當前實際發(fā)生的事件
} pollfd_t;

poll改變了文件描述符集合的描述方式，使用了pollfd結(jié)構(gòu)而不是select的fd_set結(jié)構(gòu)，使得poll支持的文件描述符集合限制遠大于select的1024

【參數(shù)說明】

*struct pollfd fds fds是一個struct pollfd類型的數(shù)組，用于存放需要檢測其狀態(tài)的socket描述符，并且調(diào)用poll函數(shù)之后fds數(shù)組不會被清空；一個pollfd結(jié)構(gòu)體表示一個被監(jiān)視的文件描述符，通過傳遞fds指示 poll() 監(jiān)視多個文件描述符。其中，結(jié)構(gòu)體的events域是監(jiān)視該文件描述符的事件掩碼，由用戶來設(shè)置這個域，結(jié)構(gòu)體的revents域是文件描述符的操作結(jié)果事件掩碼，內(nèi)核在調(diào)用返回時設(shè)置這個域

nfds_t nfds 記錄數(shù)組fds中描述符的總數(shù)量

【返回值】
int 函數(shù)返回fds集合中就緒的讀、寫，或出錯的描述符數(shù)量，返回0表示超時，返回-1表示出錯；

Epoll

epoll在Linux2.6內(nèi)核正式提出，是基于事件驅(qū)動的I/O方式，相對于select來說，epoll沒有描述符個數(shù)限制，使用一個文件描述符管理多個描述符，將用戶關(guān)心的文件描述符的事件存放到內(nèi)核的一個事件表中，這樣在用戶空間和內(nèi)核空間的copy只需一次。

Linux中提供的epoll相關(guān)函數(shù)如下：

int epoll_create(int size);
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

1. epoll_create 函數(shù)創(chuàng)建一個epoll句柄，參數(shù)size表明內(nèi)核要監(jiān)聽的描述符數(shù)量。調(diào)用成功時返回一個epoll句柄描述符，失敗時返回-1。

2. epoll_ctl 函數(shù)注冊要監(jiān)聽的事件類型。四個參數(shù)解釋如下：

epfd 表示epoll句柄
op 表示fd操作類型，有如下3種
- EPOLL_CTL_ADD 注冊新的fd到epfd中
- EPOLL_CTL_MOD 修改已注冊的fd的監(jiān)聽事件
- EPOLL_CTL_DEL 從epfd中刪除一個fd
fd 是要監(jiān)聽的描述符
event 表示要監(jiān)聽的事件

epoll_event 結(jié)構(gòu)體定義如下：

struct epoll_event {
    __uint32_t events;  /* Epoll events */
    epoll_data_t data;  /* User data variable */
};

typedef union epoll_data {
    void *ptr;
    int fd;
    __uint32_t u32;
    __uint64_t u64;
} epoll_data_t;

3. epoll_wait 函數(shù)等待事件的就緒，成功時返回就緒的事件數(shù)目，調(diào)用失敗時返回 -1，等待超時返回 0。

epfd 是epoll句柄
events 表示從內(nèi)核得到的就緒事件集合
maxevents 告訴內(nèi)核events的大小
timeout 表示等待的超時事件

epoll是Linux內(nèi)核為處理大批量文件描述符而作了改進的poll，是Linux下多路復用IO接口select/poll的增強版本，它能顯著提高程序在大量并發(fā)連接中只有少量活躍的情況下的系統(tǒng)CPU利用率。原因就是獲取事件的時候，它無須遍歷整個被偵聽的描述符集，只要遍歷那些被內(nèi)核IO事件異步喚醒而加入Ready隊列的描述符集合就行了。

epoll除了提供select/poll那種IO事件的水平觸發(fā)（Level Triggered）外，還提供了邊緣觸發(fā)（Edge Triggered），這就使得用戶空間程序有可能緩存IO狀態(tài)，減少epoll_wait/epoll_pwait的調(diào)用，提高應(yīng)用程序效率。

水平觸發(fā)（LT）：默認工作模式，即當epoll_wait檢測到某描述符事件就緒并通知應(yīng)用程序時，應(yīng)用程序可以不立即處理該事件；下次調(diào)用epoll_wait時，會再次通知此事件
邊緣觸發(fā)（ET）： 當epoll_wait檢測到某描述符事件就緒并通知應(yīng)用程序時，應(yīng)用程序必須立即處理該事件。如果不處理，下次調(diào)用epoll_wait時，不會再次通知此事件。（直到你做了某些操作導致該描述符變成未就緒狀態(tài)了，也就是說邊緣觸發(fā)只在狀態(tài)由未就緒變?yōu)榫途w時只通知一次）。

LT和ET原本應(yīng)該是用于脈沖信號的，可能用它來解釋更加形象。Level和Edge指的就是觸發(fā)點，Level為只要處于水平，那么就一直觸發(fā)，而Edge則為上升沿和下降沿的時候觸發(fā)。比如：0->1 就是Edge，1->1 就是Level。

ET模式很大程度上減少了epoll事件的觸發(fā)次數(shù)，因此效率比LT模式下高。

總結(jié)

一張圖總結(jié)一下select,poll,epoll的區(qū)別：

	select	poll	epoll
操作方式	遍歷	遍歷	回調(diào)
底層實現(xiàn)	數(shù)組	鏈表	紅黑樹
IO效率	每次調(diào)用都進行線性遍歷，時間復雜度為O(n)	每次調(diào)用都進行線性遍歷，時間復雜度為O(n)	事件通知方式，每當fd就緒，系統(tǒng)注冊的回調(diào)函數(shù)就會被調(diào)用，將就緒fd放到readyList里面，時間復雜度O(1)
最大連接數(shù)	1024（x86）或2048（x64）	無上限	無上限
fd拷貝	每次調(diào)用select，都需要把fd集合從用戶態(tài)拷貝到內(nèi)核態(tài)	每次調(diào)用poll，都需要把fd集合從用戶態(tài)拷貝到內(nèi)核態(tài)	調(diào)用epoll_ctl時拷貝進內(nèi)核并保存，之后每次epoll_wait不拷貝

epoll是Linux目前大規(guī)模網(wǎng)絡(luò)并發(fā)程序開發(fā)的首選模型。在絕大多數(shù)情況下性能遠超select和poll。目前流行的高性能web服務(wù)器Nginx正式依賴于epoll提供的高效網(wǎng)絡(luò)套接字輪詢服務(wù)。但是，在并發(fā)連接不高的情況下，多線程+阻塞I/O方式可能性能更好。

既然select，poll，epoll都是I/O多路復用的具體的實現(xiàn)，之所以現(xiàn)在同時存在，其實他們也是不同歷史時期的產(chǎn)物

select出現(xiàn)是1984年在BSD里面實現(xiàn)的
14年之后也就是1997年才實現(xiàn)了poll，其實拖那么久也不是效率問題，而是那個時代的硬件實在太弱，一臺服務(wù)器處理1千多個鏈接簡直就是神一樣的存在了，select很長段時間已經(jīng)滿足需求
2002, 大神 Davide Libenzi 實現(xiàn)了epoll

作者：似水牛年
鏈接：http://www.itdecent.cn/p/397449cadc9a
來源：簡書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)，非商業(yè)轉(zhuǎn)載請注明出處。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

IO多路復用機制Select，Poll，Epoll

IO多路復用機制Select，Poll，Epoll

Select

select運行機制

select機制的問題

Poll

Epoll

總結(jié)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

IO多路復用機制Select，Poll，Epoll

Select

select運行機制

select機制的問題

Poll

Epoll

總結(jié)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

IO多路復用機制Select，Poll，Epoll