在NODE中,應用需要處理網(wǎng)絡協(xié)議、操作系統(tǒng)數(shù)據(jù)庫、處理圖片、接受上傳文件等,在網(wǎng)絡流和文件的操作中,需要處理大量的二進制數(shù)據(jù),JavaScript自有的字符串不能滿足這些需求,所以引入Buffer對象。
ECMAScript規(guī)范中,沒有二進制方面的定義,CommonJS中有部分定義。
Buffer 結構
Buffer是一個類似于Array的對象,但它主要用來操作字節(jié)。
Buffer模塊結構
Buffer是一個典型的JavaScript與C++結合的模塊,它將性能相關部分用C++實現(xiàn),將非性能相關部分用JavaScript實現(xiàn)
Buffer所占用的內(nèi)存不是通過V8分配的,屬于對外內(nèi)存,由于V8垃圾回收性能的影響,將常用的操作對象用更高效和專有的內(nèi)存分配回收策略來管理是個不錯的方式。
由于Buffer在Node中應用太過常見,Node在進程啟動就已經(jīng)加載并放在全局對象global中,所以在使用Buffer時,無需通過require()即可直接使用
Buffer 對象
Buffer對象類似于數(shù)組,元素為16進制的兩位數(shù),既0到255 的數(shù)值

上面的列子可見,不同的編碼字符占用的元素各不相同,上面代碼中的中文字在UTF-8編碼下占用3個元素,字母和標點字符占用一個元素。
Buffer可以訪問length屬性得到長度,可以通過下標訪問元素
Buffer內(nèi)存分配
Buffer對象的內(nèi)存分配不是在V8的堆內(nèi)存中,而是在Node的C++層面實現(xiàn)內(nèi)存的申請的。
處理大量的字節(jié)數(shù)據(jù)不能采用需要一點內(nèi)存就向操作系統(tǒng)申請一點內(nèi)存的方式,這會造成大量內(nèi)存申請的系統(tǒng)調(diào)用,對操作系統(tǒng)有一定得壓力。Node在內(nèi)存中使用上應用的是C++層面申請內(nèi)存、在JavaScript中分配的策略。
為了高效地使用申請來的內(nèi)存,Node采用了Slab分配機制。Slab是一種動態(tài)內(nèi)存管理機制。
slab就是一塊申請好的固定大小的內(nèi)存區(qū)域。slab具有如下3種狀態(tài)
full:完全分配狀態(tài)。
partial:部分分配狀態(tài)。
empty:沒有被分配狀態(tài)。
當我們需要一個Buffer對象可以使用 ?new Buffer(size)
Node以8KB為界限來區(qū)分Buffer是大對象還是小對象
Buffer.poolSize = 8 * 1024;
8KB的值也就是每個slab的大小值,在JavaScript層面,以它作為單位單元進行內(nèi)存的分配
1.分配小Buffer對象
指定Buffer的大小小于8KB,Node會按照小對象的方式進行分配。Buffer的分配過程中主要使用一個局部變量pool作為中間處理對象,處于分配狀態(tài)的slab單元都指向它。

小Buffer分配會存在一個slab多個Buffer對象使用,只有這些小Buffer對象在作用域釋放并都可以回收時,slab的8KB空間才會被回收。
2.分配大Buffer對象
如果需要超過8KB的Buffer對象,將會直接分配一個SlowBuffer對象作為slab單元,這個slab單元將會被這個大Buffer對象獨占
this.parent = new SlowBuffer(this.length);
this.offset = 0;
Buffer 的轉換
Buffer對象可以與字符串之間相互轉換,目前支持的字符串編碼類型有如下:
ASCII 、UTF-8、UTF-16LE/UCS-2、Base64、Binary、Hex
字符串轉Buffer
字符串轉Buferr主要在構造函數(shù)中完成 new Buffer(str, [encoding]);
encoding參數(shù)不傳遞時,默認按UTF-8編碼進行轉碼和存儲。
一個Buffer對象可以存儲不同編碼類型的字符串轉碼的值,調(diào)用write()方法可以實現(xiàn)該目的:
buf.write(string, [offset], [length], [encoding])
由于可以不斷寫入內(nèi)容到Buffer對象中,并且每次寫入可以指定編碼,所以Buffer對象中可以存在多種編碼轉換后的內(nèi)容,每次編碼所有的字節(jié)長度不同,將Buffer反轉回字符串時需要謹慎處理
Buffer 轉字符串
but.toString([encoding], [ start], [end])
比較精巧的是,可以設置encoding(默認為UTF-8)、start、end這三個參數(shù)實現(xiàn)整體或局部的轉換。如果Buffer對象由多種編碼寫入,就需要在局部指定不同的編碼,才能轉換回正常的編碼
Buffer 不支持的編碼類型
目前Node的Buffer對象支持的編碼類型有限,只有少數(shù)的幾種編碼類型可以在字符串和Buffer之間轉換。
Buffer.isEncoding(encoding)
可以使用第三方模塊 iconv iconv-lite
Buffer的拼接

這里有個潛在的問題
data += chunk;
data = data.toString() ?+ chunk.toString();
對于英文沒什么問題,但對于寬字符會有問題,會出現(xiàn)亂碼的問題。
每次讀取的Buffer長度為4? - 》 "好好學習,天天向上。" -》好??????習,??????向上???
Buffer.toString()方法默認采用UTF-8編碼
<Buffer e5 a5 bd e5 a5 bd e5 ad a6 e4 b9 a0 ef bc8c e5 a4 a9 e5 a4 a9 e590 91e4 b88a e380 82>
setEncoding() ?與 string_decoder()
在調(diào)用setEncoding()時,可讀流對象在內(nèi)部設置了一個decoder對象。每次data事件都通過該decoder對象進行Buffer到字符串中解碼,然后傳遞給調(diào)用者

StringDecoder在得到編碼后,知道寬字節(jié)字符串在UTF-8編碼下是以3個字節(jié)的方式存儲,所以第一次write()時,只取前面三個字節(jié)轉碼,后一個字節(jié)被保留在StringDecoder實例內(nèi)部。第二次write()時,會將剩余的一個字節(jié)和后續(xù)的五個字節(jié)組合在一起,再次用3的整數(shù)倍字節(jié)進行轉碼。于是亂碼問題被解決。
目前string_decoder模塊能夠處理的編碼有 ?UTF-8,Base64和UCS-2/UTF-16LE這三種編碼。
如果不是上述三種編碼,采用的拼接方式為,用一個數(shù)組來存儲接受到的所有Buffer片段并記錄下所有片段的總長度,然后調(diào)用Buffer.concat()方法生成一個合并的Buffer對象。