在對(duì)互聯(lián)網(wǎng)服務(wù)進(jìn)行服務(wù)端性能測(cè)試時(shí),主要關(guān)注兩方面的性能指標(biāo):
業(yè)務(wù)指標(biāo):如吞吐量(QPS、TPS)、響應(yīng)時(shí)間(RT)、并發(fā)數(shù)、業(yè)務(wù)成功率等
資源指標(biāo):如CPU、內(nèi)存、Disk I/O、Network I/O等資源的消耗情況
本文主要介紹一些廣泛適用的、基本的資源指標(biāo)以及這些指標(biāo)在Linux服務(wù)器的獲取
一. CPU
關(guān)于CPU資源,有三個(gè)重要概念是我們需要關(guān)注的:使用率、運(yùn)行隊(duì)列和上下文切換,這里借助一張描述進(jìn)程狀態(tài)的圖來(lái)進(jìn)行簡(jiǎn)要說(shuō)明:

Running:正在運(yùn)行的進(jìn)程
Waiting:已準(zhǔn)備就緒,等待運(yùn)行的進(jìn)程
Blocked:因?yàn)榈却承┦录瓿啥枞倪M(jìn)程,通常是在等待I/O,如Disk I/O,Network I/O等。
這里的Running和Waiting共同構(gòu)成Linux進(jìn)程狀態(tài)中的可運(yùn)行狀態(tài)(task_running),而Blocked狀態(tài)可以對(duì)應(yīng)Linux進(jìn)程狀態(tài)中的不可中斷睡眠狀態(tài)(task_uninterruptible)
在Linux可以使用vmstat來(lái)獲取這些數(shù)據(jù):

CPU使用率(CPU Utilization Percentages):有進(jìn)程處于Running狀態(tài)的時(shí)間/總時(shí)間。在vmstat主要通過us、sys和id三列數(shù)據(jù)來(lái)體現(xiàn):
us:用戶占用CPU的百分比
sy:系統(tǒng)(內(nèi)核和中斷)占用CPU的百分比
id:CPU空閑的百分比
性能測(cè)試指標(biāo)中,CPU使用率通常用us + sy來(lái)計(jì)算,其可接受上限通常在70%~80%。另外需要注意的是,在測(cè)試過程中,如果sy的值長(zhǎng)期大于25%,應(yīng)該關(guān)注in(系統(tǒng)中斷)和cs(上下文切換)的數(shù)值,并根據(jù)被測(cè)應(yīng)用的實(shí)現(xiàn)邏輯來(lái)分析是否合理。
運(yùn)行隊(duì)列進(jìn)程數(shù)(Processes on run queue):Running狀態(tài) + Waiting狀態(tài)的進(jìn)程數(shù),展示了正在運(yùn)行和等待CPU資源的任務(wù)數(shù),可以看作CPU的工作清單,是判斷CPU資源是否成為瓶頸的重要依據(jù)。vmstat通過r的值來(lái)體現(xiàn):
r: 可運(yùn)行進(jìn)程數(shù),包括正在運(yùn)行(Running)和已就緒等待運(yùn)行(Waiting)的。
如果r的值等于系統(tǒng)CPU總核數(shù),則說(shuō)明CPU已經(jīng)滿負(fù)荷。在負(fù)載測(cè)試中,其可接受上限通常不超過CPU核數(shù)的2倍。
上下文切換(Context Switches):簡(jiǎn)單來(lái)說(shuō),context指CPU寄存器和程序計(jì)數(shù)器在某時(shí)間點(diǎn)的內(nèi)容,(進(jìn)程)上下文切換即kernel掛起一個(gè)進(jìn)程并將該進(jìn)程此時(shí)的狀態(tài)存儲(chǔ)到內(nèi)存,然后從內(nèi)存中恢復(fù)下一個(gè)要執(zhí)行的進(jìn)程原來(lái)的狀態(tài)到寄存器,從其上次暫停的執(zhí)行代碼開始繼續(xù)執(zhí)行至頻繁的上下文切換將導(dǎo)致sy值增長(zhǎng)。vmstat通過cs的值來(lái)體現(xiàn):
cs:每秒上下文切換次數(shù)。
另外還有一個(gè)指標(biāo)用來(lái)作為系統(tǒng)在一段時(shí)間內(nèi)的負(fù)載情況的參考:
平均負(fù)載Load Average:在UNIX系統(tǒng)中,Load是對(duì)系統(tǒng)工作量的度量。Load取值有兩種情況,多數(shù)UNIX系統(tǒng)取運(yùn)行隊(duì)列的值(vmstat輸出的r),而Linux系統(tǒng)取運(yùn)行隊(duì)列的值 + 處于task_uninterruptible狀態(tài)的進(jìn)程數(shù)(vmstat輸出的b)**,所以會(huì)出現(xiàn)CPU使用率不高但Load值很高的情況。Load Average就是在一段時(shí)間內(nèi)的平均負(fù)載,系統(tǒng)工具top、uptime等提供1分鐘、5分鐘和15分鐘的平均負(fù)載值。

當(dāng)我們需要了解當(dāng)前系統(tǒng)負(fù)載情況時(shí),可以先查看Load average的值,如果系統(tǒng)持續(xù)處于高負(fù)載(如15分鐘平均負(fù)載大于CPU總核數(shù)的兩倍),則查看vmstat的r值和b值來(lái)確認(rèn)是CPU負(fù)荷重還是等待I/O的進(jìn)程太多。
二. Memory
Memory資源也有三方面需要關(guān)注:可用內(nèi)存,swap占用,頁(yè)面交換(Paging),仍然借助一張圖來(lái)說(shuō)明:

這里講到的內(nèi)存,包括物理內(nèi)存和虛擬內(nèi)存,如上圖所示,物理內(nèi)存和硬盤上的一塊空間(SWAP)組合起來(lái)作為虛擬內(nèi)存(Virtual Memory)為進(jìn)程的運(yùn)行提供一個(gè)連續(xù)的內(nèi)存空間,這樣的好處是進(jìn)程可用的內(nèi)存變大了,但需要注意的是,SWAP的讀寫速度遠(yuǎn)低于物理內(nèi)存,并且物理內(nèi)存和swap之間的數(shù)據(jù)交換會(huì)增加系統(tǒng)負(fù)擔(dān)。虛擬內(nèi)存被分成頁(yè)(x86系統(tǒng)默認(rèn)頁(yè)大小為4k),內(nèi)核讀寫虛擬內(nèi)存以頁(yè)為單位,當(dāng)物理內(nèi)存空間不足時(shí),內(nèi)存調(diào)度會(huì)將物理內(nèi)存上不常使用的內(nèi)存頁(yè)數(shù)據(jù)存儲(chǔ)到磁盤的SWAP空間,物理內(nèi)存與swap空間之間的數(shù)據(jù)交換過程稱為頁(yè)面交換(Paging)。
可用內(nèi)存(free memory):內(nèi)存占用的直觀數(shù)據(jù),vmstat輸出free的值,可用內(nèi)存過小將影響整個(gè)系統(tǒng)的運(yùn)行效率,對(duì)于穩(wěn)定運(yùn)行的系統(tǒng),free可接受的范圍通常應(yīng)該大于物理內(nèi)存的20%,即內(nèi)存占用應(yīng)該小于物理內(nèi)存的80%。在壓力測(cè)試時(shí),系統(tǒng)內(nèi)存資源的情況應(yīng)該用可用內(nèi)存結(jié)合頁(yè)面交換情況來(lái)判斷,如果可以內(nèi)存很少,但頁(yè)面交換也很少,此時(shí)可以認(rèn)為內(nèi)存資源還對(duì)系統(tǒng)性能構(gòu)成嚴(yán)重影響。
頁(yè)面交換(Paging):頁(yè)面交換包括從SWAP交換到內(nèi)存和從內(nèi)存交換到SWAP,如果系統(tǒng)出現(xiàn)頻繁的頁(yè)面交換,需要引起注意??梢詮膙mstat的si和so獲?。?/p>
si:每秒從SWAP讀取到內(nèi)存的數(shù)據(jù)大小
so:每秒從內(nèi)存寫入到SWAP的數(shù)據(jù)大小
SWAP空間占用:可以從vmstat的swpd來(lái)獲取當(dāng)前SWAP空間的使用情況,應(yīng)該和頁(yè)面交換結(jié)合來(lái)分析,比如當(dāng)swpd不為0,但si,so持續(xù)保持為0時(shí),內(nèi)存資源并沒有成為系統(tǒng)的瓶頸。
三. Disk
磁盤通常是系統(tǒng)中最慢的一環(huán),一是其自身速度慢,即使是SSD,其讀寫速度與內(nèi)存都還存在數(shù)量級(jí)的差距,二是其離CPU最遠(yuǎn)。另外需要說(shuō)明的是磁盤IO分為隨機(jī)IO和順序IO兩種類型,在性能測(cè)試中應(yīng)該先了解被測(cè)系統(tǒng)是偏向哪種類型。
隨機(jī)IO:隨機(jī)讀寫數(shù)據(jù),讀寫請(qǐng)求多,每次讀寫的數(shù)據(jù)量較小,其IO速度更依賴于磁盤每秒能IO次數(shù)(IOPS)。
順序IO:順序請(qǐng)求大量數(shù)據(jù),讀寫請(qǐng)求個(gè)數(shù)相對(duì)較少,每次讀寫的數(shù)據(jù)量較大,順序IO更重視每次IO的數(shù)據(jù)吞吐量。
對(duì)于磁盤,首要關(guān)注使用率,IOPS和數(shù)據(jù)吞吐量,在Linux服務(wù)區(qū),可以使用iostat來(lái)獲取這些數(shù)據(jù)。

(設(shè)備)使用率:統(tǒng)計(jì)過程中處理I/O請(qǐng)求的時(shí)間與統(tǒng)計(jì)時(shí)間的百分比,即iostat輸出中的%util,如果該值大于60%,很可能降低系統(tǒng)的性能表現(xiàn)。
IOPS:每秒處理讀/寫請(qǐng)求的數(shù)量,即iostat輸出中的r/s和w/s,個(gè)人PC的機(jī)械硬盤IOPS一般在100左右,而各種公有云/私有云的普通服務(wù)器,也只在百這個(gè)數(shù)量級(jí)。預(yù)先獲取到所用服務(wù)區(qū)的IOPS能力,然后在性能測(cè)試中監(jiān)控試試的IOPS數(shù)據(jù),來(lái)衡量當(dāng)前的磁盤是否能滿足系統(tǒng)的IO需求。
數(shù)據(jù)吞吐量:每秒讀/寫的數(shù)據(jù)大小,即iostat輸出中的rkB/s和wkB/s,通常磁盤的數(shù)據(jù)吞吐量與IO類型有直接關(guān)系,順序IO的吞吐能力明顯優(yōu)與隨機(jī)讀寫,可以預(yù)先測(cè)得磁盤在隨機(jī)IO和順序IO下的吞吐量,以便于測(cè)試時(shí)監(jiān)控到的數(shù)據(jù)進(jìn)行比較衡量。
四. Network
網(wǎng)絡(luò)本身是系統(tǒng)中一個(gè)非常復(fù)雜的部分,但常規(guī)的服務(wù)端性能測(cè)試通常放在一個(gè)局域網(wǎng)進(jìn)行,因?yàn)槲覀兪紫汝P(guān)注被測(cè)系統(tǒng)自身的性能表現(xiàn),并且需要保證能在較少的成本下發(fā)起足夠大的壓力。因此對(duì)于多數(shù)系統(tǒng)的性能測(cè)試,我們主要關(guān)注網(wǎng)絡(luò)吞吐量即可,對(duì)于穩(wěn)定運(yùn)行的系統(tǒng),需要為被測(cè)場(chǎng)景外的業(yè)務(wù)流出足夠的帶寬;在壓力測(cè)試過程中,需要注意瓶頸可能來(lái)自于帶寬。
在Linuxf服務(wù)器,可以使用iptraf來(lái)查看本機(jī)網(wǎng)絡(luò)吞吐量
五. 總結(jié)
性能測(cè)試中,數(shù)據(jù)收集很重要,但是更重要的是快速抓住關(guān)鍵數(shù)據(jù),讀懂?dāng)?shù)據(jù)的含義。
本文主要介紹服務(wù)端性能測(cè)試中,對(duì)于CPU、內(nèi)存等各種系統(tǒng)資源,通常首要關(guān)注的數(shù)據(jù),以及這些數(shù)據(jù)在Linux服務(wù)器上的獲取方式。
在實(shí)際測(cè)試中,通常會(huì)持續(xù)收集這些數(shù)據(jù),如使用nmon,JMeter的PerfMon插件,以及zabbix等專門的系統(tǒng)監(jiān)控工具,這就不在本文展開了。