在讀取和寫入文件I/O操作都調(diào)用操作系統(tǒng)提供的接口,因?yàn)榇疟P設(shè)備是由操作系統(tǒng)管理的,應(yīng)用程序要訪問物理設(shè)備只能通過系統(tǒng)調(diào)用的方式來工作。讀和寫分別對應(yīng)read()和write()兩個系統(tǒng)調(diào)用
而只要是系統(tǒng)調(diào)用就可能存在內(nèi)核空間地址和用戶空間地址切換的問題,這是操作系統(tǒng)為了保護(hù)系統(tǒng)本身的運(yùn)行安全,將內(nèi)核程序運(yùn)行使用的內(nèi)存空間和用戶程序運(yùn)行使用內(nèi)存空間進(jìn)行隔離造成的。這樣可以保護(hù)內(nèi)核程序運(yùn)行的安全。雖然如此,但也必然存在數(shù)據(jù)可能需要從內(nèi)核空間向用戶空間復(fù)制的問題。
如果遇到非常耗時的操作,如磁盤I/O,數(shù)據(jù)從磁盤復(fù)制到內(nèi)核空間,然后又從內(nèi)核空間復(fù)制到用戶空間,將會非常緩慢。這時操作系統(tǒng)為了加速I/O訪問,在內(nèi)核空間使用緩存機(jī)制,即將從磁盤讀取的文件按照一定的組織方式進(jìn)行緩存,如果用戶程序訪問的是同一段磁盤地址的空間數(shù)據(jù),那么操作系統(tǒng)將從內(nèi)核緩存中直接取出返回給用戶程序,這樣可以減小I/O的響應(yīng)時間。
幾種訪問文件的方式
1.標(biāo)準(zhǔn)訪問文件的方式
當(dāng)應(yīng)用程序調(diào)用read()接口時,操作系統(tǒng)檢查在內(nèi)核的高速緩存中有沒有需要的數(shù)據(jù),如果有,則從緩存中返回,如果沒有,則從磁盤中讀取,然后緩存在操作系統(tǒng)的緩存中。在調(diào)用write()接口時,應(yīng)用程序?qū)?shù)據(jù)從用戶地址空間復(fù)制到內(nèi)核地址空間的緩存中。這時對于用戶程序來說寫操作就已經(jīng)完成,至于什么時候再寫到磁盤中由操作系統(tǒng)決定,除非顯式地調(diào)用sync同步命令。 image
2.直接I/O的方式
這種方式是指,應(yīng)用程序直接訪問磁盤數(shù)據(jù),而不經(jīng)過操作系統(tǒng)內(nèi)核數(shù)據(jù)緩沖區(qū),這樣做是為了減少一次從內(nèi)核空間到用戶空間的數(shù)據(jù)復(fù)制。這種訪問文件的方式通常是在對數(shù)據(jù)的緩存管理有應(yīng)用程序?qū)崿F(xiàn)的數(shù)據(jù)庫管理系統(tǒng)中。在數(shù)據(jù)庫管理系統(tǒng)中,系統(tǒng)明確地知道應(yīng)該緩存哪些數(shù)據(jù),應(yīng)該失效哪些數(shù)據(jù),還可以對一些熱點(diǎn)數(shù)據(jù)做預(yù)加載,提前將熱點(diǎn)數(shù)據(jù)加載到內(nèi)存,可以加速數(shù)據(jù)的訪問效率。在這些情況下,操作系統(tǒng)并不知道哪些是熱點(diǎn)數(shù)據(jù),哪些數(shù)據(jù)可能只訪問一次就不會再訪問了,操作系統(tǒng)只是簡單地緩存最近一次從磁盤讀取的數(shù)據(jù),所以它做不到這樣的數(shù)據(jù)緩存。
但直接I/O也有負(fù)面影響,如果訪問的數(shù)據(jù)不在應(yīng)用程序緩存中,那么每次數(shù)據(jù)都要從磁盤進(jìn)行加載,這種直接加載會很慢。通常直接I/O與異步I/O結(jié)合使用會很好。
3.同步訪問文件的方式
數(shù)據(jù)的讀取和寫入都是同步操作的,它與標(biāo)準(zhǔn)訪問文件的方式不同在于,只有當(dāng)數(shù)據(jù)被成功寫入到磁盤時才返回給應(yīng)用程序成功的標(biāo)志。應(yīng)用在對數(shù)據(jù)安全性要求較高的場合,而且這種操作方式的硬件都是定制的。
4.異步訪問文件的方式
當(dāng)訪問數(shù)據(jù)的線程發(fā)出請求后,線程會處理其它事情,不是阻塞等待,當(dāng)請求的數(shù)據(jù)返回后繼續(xù)處理下面的操作。
5.內(nèi)存映射方式
內(nèi)存映射的方式是指操作系統(tǒng)將內(nèi)存中的某一塊區(qū)域與磁盤中的文件關(guān)聯(lián)起來,當(dāng)要訪問內(nèi)存中的一段數(shù)據(jù)是,轉(zhuǎn)換為訪問文件的某一段數(shù)據(jù)。這也是為了減少數(shù)據(jù)從內(nèi)核空間緩存到用戶空間緩存的復(fù)制操作,因?yàn)檫@兩個空間的數(shù)據(jù)是共享的。
Java訪問磁盤文件
上面是基本的Java I/O的操作接口,這些接口主要定義了如何操作數(shù)據(jù),和操作數(shù)據(jù)結(jié)構(gòu)的字節(jié)和字符的兩種方式。還有一個關(guān)鍵問題就是數(shù)據(jù)寫到何處。其中一個主要方式就是將數(shù)據(jù)持久化到物理磁盤。數(shù)據(jù)在磁盤中的唯一最小描述就是文件,即上層應(yīng)用程序只能通過文件來操作磁盤上的數(shù)據(jù),文件也是操作系統(tǒng)和磁盤驅(qū)動器交互的最小單元。
在Java中,F(xiàn)ile對象并不代表一個真實(shí)存在的文件對象,當(dāng)你指定一個路徑描述符時,它就會返回一個代表這個路徑的虛擬對象,這可能是一個文件,也可能是一個目錄。這樣設(shè)計(jì),是因?yàn)橥ǔN覀儾⒉魂P(guān)心這個文件是否真實(shí)存在,而是關(guān)心對這個文件到底如何操作。只有在真正讀取文件時,才會檢查這個文件存不存在。
例如,F(xiàn)ileInputStream類都是操作一個文件的接口,注意到在創(chuàng)建一個FileInputStream對象時會創(chuàng)建一個FileDescriptor對象,其實(shí)這個對象就是真正代表一個存在的文件對象的描述。當(dāng)我們在操作一個文件對象時可以通過getFD()方法獲取真正操作的與底層操作系統(tǒng)相關(guān)聯(lián)的文件描述。例如,可以調(diào)用FileDescriptor.sync()方法將操作系統(tǒng)緩存中的數(shù)據(jù)強(qiáng)制刷新到物理磁盤中。
image
同步、異步、阻塞、非阻塞
同步與異步:描述的是用戶線程與內(nèi)核的交互方式,同步指用戶線程發(fā)起IO請求后需要等待或者輪詢內(nèi)核IO操作完成后才能繼續(xù)執(zhí)行;而異步是指用戶線程發(fā)起IO請求后仍然繼續(xù)執(zhí)行,當(dāng)內(nèi)核IO操作完成后會通知用戶線程,或者調(diào)用用戶線程注冊的回調(diào)函數(shù)。
阻塞與非阻塞:描述是用戶線程調(diào)用內(nèi)核IO操作的方式,阻塞是指IO操作需要徹底完成后才返回到用戶空間;而非阻塞是指IO操作被調(diào)用后立即返回給用戶一個狀態(tài)值,無需等到IO操作徹底完成。