Linux IO模型

Linux IO模型

  網(wǎng)絡(luò)IO的本質(zhì)就是socket的讀取,socket在linux系統(tǒng)被抽象為流,IO可以理解為對流的操作。文章開始的時(shí)候也提到了,對于一次IO訪問(以read為例),數(shù)據(jù)會先被拷貝到操作系統(tǒng)內(nèi)核的緩沖區(qū),然后才會從操作系統(tǒng)內(nèi)核的緩沖區(qū)拷貝到應(yīng)用程序的地址空間中。所以說,當(dāng)一個(gè)read操作發(fā)生時(shí),它會經(jīng)歷兩個(gè)階段:

第一個(gè)階段:等待數(shù)據(jù)準(zhǔn)備。

第二個(gè)階段:將數(shù)據(jù)從內(nèi)核拷貝到進(jìn)程中

對于socket流而言:

第一步:通常涉及等待網(wǎng)絡(luò)上的數(shù)據(jù)分組到達(dá),然后復(fù)制到內(nèi)核的某個(gè)緩沖區(qū)。

第二步:把數(shù)據(jù)從內(nèi)核緩沖區(qū)復(fù)制到應(yīng)用進(jìn)程緩沖區(qū)。

當(dāng)然,如果內(nèi)核空間的緩沖區(qū)中已經(jīng)有數(shù)據(jù)了,那么就可以省略第一步。至于為什么不能直接讓磁盤控制器把數(shù)據(jù)送到應(yīng)用程序的地址空間中呢?最簡單的一個(gè)原因就是應(yīng)用程序不能直接操作底層硬件。

網(wǎng)絡(luò)應(yīng)用需要處理的無非就是兩大類問題,網(wǎng)絡(luò)IO,數(shù)據(jù)計(jì)算。相對于后者,網(wǎng)絡(luò)IO的延遲,給應(yīng)用帶來的性能瓶頸大于后者。網(wǎng)絡(luò)IO的模型大致分為如下五種:

1、阻塞IO ?(blocking I/O)

2、非阻塞IO ?(nonblocking I/O)

3、多路復(fù)用IO ?(I/O multiplexing (select?and?poll and epoll))

4、信號驅(qū)動IO ?(signal driven I/O (SIGIO))

5、異步IO ?(asynchronous I/O (the POSIX?aio_functions))

前四種都是同步,只有最后一種是異步IO。下面的模型介紹先以生活中的例子來說明概念:周末和女友去商場逛街,到了晚上飯點(diǎn),準(zhǔn)備吃完飯?jiān)偃ス浣?,但是周末人多,新白鹿飯店需要排?duì),于是有如下幾種方案可供選擇:

1、阻塞IO模型

場景描述:

  在飯店領(lǐng)完號后,前面還有n桌,不知道什么時(shí)候到我們,但是又不能離開,因?yàn)檫^號之后必須重新取號。只好在飯店里等,一直等到叫號到我們才吃完晚飯,然后去逛街。中間等待的時(shí)間什么事情都不能做。

網(wǎng)絡(luò)模型:

  在這個(gè)模型中,應(yīng)用程序?yàn)榱藞?zhí)行這個(gè)read操作,會調(diào)用相應(yīng)的一個(gè)system call,將系統(tǒng)控制權(quán)交給內(nèi)核,然后就進(jìn)行等待(這個(gè)等待的過程就是被阻塞了),內(nèi)核開始執(zhí)行這個(gè)system call,執(zhí)行完畢后會向應(yīng)用程序返回響應(yīng),應(yīng)用程序得到響應(yīng)后,就不再阻塞,并進(jìn)行后面的工作。

優(yōu)點(diǎn):

  能夠及時(shí)返回?cái)?shù)據(jù),無延遲。

缺點(diǎn):

  對用戶來說處于等待就要付出性能代價(jià)。

2、非阻塞IO

場景描述:

  等待過程是在太無聊,于是我們就去逛商場,每隔一段時(shí)間就回來詢問服務(wù)員,叫號是否到我們了,整個(gè)過程來來回回好多次。這就是非阻塞,但是需要不斷的詢問。

網(wǎng)絡(luò)模型:

  當(dāng)用戶進(jìn)程發(fā)出read操作時(shí),調(diào)用相應(yīng)的system call,這個(gè)system call會立即從內(nèi)核中返回。但是在返回的這個(gè)時(shí)間點(diǎn),內(nèi)核中的數(shù)據(jù)可能還沒有準(zhǔn)備好,也就是說內(nèi)核只是很快就返回了system call,只有這樣才不會阻塞用戶進(jìn)程,對于應(yīng)用程序,雖然這個(gè)IO操作很快就返回了,但是它并不知道這個(gè)IO操作是否真的成功了,為了知道IO操作是否成功,應(yīng)用程序需要主動的循環(huán)去問內(nèi)核。

優(yōu)點(diǎn):

  能夠在等待的時(shí)間里去做其他的事情。

缺點(diǎn):

  任務(wù)完成的響應(yīng)延遲增大了,因?yàn)槊窟^一段時(shí)間去輪詢一次read操作,而任務(wù)可能在兩次輪詢之間的任意時(shí)間完成,這對導(dǎo)致整體數(shù)據(jù)吞吐量的降低。

3、IO多路復(fù)用

場景描述:

  與第二個(gè)經(jīng)常類似,飯店安裝了電子屏幕,顯示叫號的狀態(tài),所以在逛街的時(shí)候,就不用去詢問服務(wù)員,而是看下大屏幕就可以了。(不僅僅是我們不用詢問服務(wù)員,其他所有的人都可以不用詢問服務(wù)員)

網(wǎng)絡(luò)模型:

  和第二種一樣,調(diào)用system call之后,并不等待內(nèi)核的返回結(jié)果而是立即返回。雖然返回結(jié)果的調(diào)用函數(shù)是一個(gè)異步的方式,但應(yīng)用程序會被像select、poll和epoll等具有多個(gè)文件描述符的函數(shù)阻塞住,一直等到這個(gè)system call有結(jié)果返回了,再通知應(yīng)用程序。這種情況,從IO操作的實(shí)際效果來看,異步阻塞IO和第一種同步阻塞IO是一樣的,應(yīng)用程序都是一直等到IO操作成功之后(數(shù)據(jù)已經(jīng)被寫入或者讀?。砰_始進(jìn)行下面的工作。不同點(diǎn)在于異步阻塞IO用一個(gè)select函數(shù)可以為多個(gè)文件描述符提供通知,提供了并發(fā)性。舉個(gè)例子:例如有一萬個(gè)并發(fā)的read請求,但是網(wǎng)絡(luò)上仍然沒有數(shù)據(jù),此時(shí)這一萬個(gè)read會同時(shí)各自阻塞,現(xiàn)在用select、poll、epoll這樣的函數(shù)來專門負(fù)責(zé)阻塞同時(shí)監(jiān)聽這一萬個(gè)請求的狀態(tài),一旦有數(shù)據(jù)到達(dá)了就負(fù)責(zé)通知,這樣就將一萬個(gè)等待和阻塞轉(zhuǎn)化為一個(gè)專門的函數(shù)來負(fù)責(zé)與管理。

  多路復(fù)用技術(shù)應(yīng)用于JAVA NIO的核心類庫多路復(fù)用器Selector中,目前支持I/O多路復(fù)用的系統(tǒng)調(diào)用有select、pselect、poll、epoll,在linux編程中有一段時(shí)間一直在使用select做輪詢和網(wǎng)絡(luò)事件通知的,但是select支持一個(gè)進(jìn)程打開的socket描述符(FD)收到了限制,一般為1024,由于這一限制,現(xiàn)在使用了epoll代替了select,而epoll支持一個(gè)進(jìn)程打開的FD不受限制。

  異步IO與同步IO的區(qū)別在于:同步IO是需要應(yīng)用程序主動地循環(huán)去詢問是否有數(shù)據(jù),而異步IO是通過像select等IO多路復(fù)用函數(shù)來同時(shí)檢測多個(gè)事件句柄來告知應(yīng)用程序是否有數(shù)據(jù)。

了解了前面三種IO模式,在用戶進(jìn)程進(jìn)行系統(tǒng)調(diào)用的時(shí)候,他們在等待數(shù)據(jù)到來的時(shí)候,處理的方式是不一樣的,直接等待、輪詢、select或poll輪詢,兩個(gè)階段過程:

第一個(gè)階段有的阻塞,有的不阻塞,有的可以阻塞又可以不阻塞。

第二個(gè)階段都是阻塞的。

從整個(gè)IO過程來看,他們都是順序執(zhí)行的,因此可以歸為同步模型,都是進(jìn)程自動等待且向內(nèi)核檢查狀態(tài)。

高并發(fā)的程序一般使用同步非阻塞模式,而不是多線程+同步阻塞模式。要理解這點(diǎn),先弄明白并發(fā)和并行的區(qū)別:比如去某部門辦事需要依次去幾個(gè)窗口,辦事大廳的人數(shù)就是并發(fā)數(shù),而窗口的個(gè)數(shù)就是并行度。就是說并發(fā)是同時(shí)進(jìn)行的任務(wù)數(shù)(如同時(shí)服務(wù)的http請求),而并行數(shù)就是可以同時(shí)工作的物理資源數(shù)量(如cpu核數(shù))。通過合理調(diào)度任務(wù)的不同階段,并發(fā)數(shù)可以遠(yuǎn)遠(yuǎn)大于并行度。這就是區(qū)區(qū)幾個(gè)CPU可以支撐上萬個(gè)用戶并發(fā)請求的原因。在這種高并發(fā)的情況下,為每個(gè)用戶請求創(chuàng)建一個(gè)進(jìn)程或者線程的開銷非常大。而同步非阻塞方式可以把多個(gè)IO請求丟到后臺去,這樣一個(gè)CPU就可以服務(wù)大量的并發(fā)IO請求。

 IO多路復(fù)用究竟是同步阻塞還是異步阻塞模型,這里來展開說說:

  同步是需要主動等待消息通知,而異步則是被動接受消息通知,通過回調(diào)、通知、狀態(tài)等方式來被動獲取消息。IO多路復(fù)用在阻塞到select階段時(shí),用戶進(jìn)程是主動等待并調(diào)用select函數(shù)來獲取就緒狀態(tài)消息,并且其進(jìn)程狀態(tài)為阻塞。所以IO多路復(fù)用是同步阻塞模式。

4、信號驅(qū)動式IO

  應(yīng)用程序提交read請求,調(diào)用system call,然后內(nèi)核開始處理相應(yīng)的IO操作,而同時(shí),應(yīng)用程序并不等內(nèi)核返回響應(yīng),就會開始執(zhí)行其他的處理操作(應(yīng)用程序沒有被IO阻塞),當(dāng)內(nèi)核執(zhí)行完畢,返回read響應(yīng),就會產(chǎn)生一個(gè)信號或執(zhí)行一個(gè)基于線程的回調(diào)函數(shù)來完成這次IO處理過程。在這里IO的讀寫操作是在IO事件發(fā)生之后由應(yīng)用程序來完成。異步IO讀寫操作總是立即返回,而不論IO是否阻塞,因?yàn)檎嬲淖x寫操作已經(jīng)有內(nèi)核掌管。也就是說同步IO模型要求用戶代碼自行執(zhí)行IO操作(將數(shù)據(jù)從內(nèi)核緩沖區(qū)移動用戶緩沖區(qū)或者相反),而異步操作機(jī)制則是由內(nèi)核來執(zhí)行IO操作(將數(shù)據(jù)從內(nèi)核緩沖區(qū)移動用戶緩沖區(qū)或者相反)??梢赃@樣認(rèn)為,同步IO向應(yīng)用程序通知的是IO就緒事件,而異步IO向應(yīng)用程序通知的是IO完成事件。

5、異步IO

  異步IO與上面的異步概念是一樣的, 當(dāng)一個(gè)異步過程調(diào)用發(fā)出后,調(diào)用者不能立刻得到結(jié)果,實(shí)際處理這個(gè)調(diào)用的函數(shù)在完成后,通過狀態(tài)、通知和回調(diào)來通知調(diào)用者的輸入輸出操作。異步IO的工作機(jī)制是:告知內(nèi)核啟動某個(gè)操作,并讓內(nèi)核在整個(gè)操作完成后通知我們,這種模型與信號驅(qū)動的IO區(qū)別在于,信號驅(qū)動IO是由內(nèi)核通知我們何時(shí)可以啟動一個(gè)IO操作,這個(gè)IO操作由用戶自定義的信號函數(shù)來實(shí)現(xiàn),而異步IO模型是由內(nèi)核告知我們IO操作何時(shí)完成。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容