譯自Understanding Linux CPU Load - when should you be worried?
你可能已經(jīng)很早就熟悉Linux負載均值這個概念了,通過uptime或者top命令就可以得到三個數(shù)字,具體如下所示:
load average: 0.09, 0.05, 0.01
絕大多數(shù)人對負載均值只是有個粗淺的認識:即這三個數(shù)字分別代表系統(tǒng)最后1分鐘、最后10分鐘以及最后15分鐘的平均負載值,并且這些數(shù)字越小越好,如果比較大則表示系統(tǒng)設(shè)備有可能負荷超載等問題。
但是你有沒有想過,這些數(shù)字有沒有邊界?代表“好”或者“壞”的邊界值又是多少?你什么時候應(yīng)該關(guān)注這些數(shù)值?你應(yīng)該什么時候去盡快處理使其降下來?
在討論這些問題之前,先了解一些負載均值相關(guān)的背景知識。我們用一臺配置了單核處理器的設(shè)備,舉個簡單例子解釋說明下。
道路千萬條,安全第一條。行車不規(guī)范,親人兩行淚。
單核CPU就像一條車道的交通情況。假設(shè)你是一座大橋的操作員,有時橋上太忙了,有很多車等著過橋。你想讓人們知道橋上的交通狀況。那么一個合適的度量標準,就是在特定時間有多少輛車在等待。如果沒有車在等,新來的司機知道他們可以馬上開過去。如果橋上堵車,那么司機就知道他們會遇到延誤。
因此,這些數(shù)值用于如下用途:
-
0.00表示橋上一輛車都沒有。也就是說,如果數(shù)值介于0.00~1.00之間,則表示沒有堵車,所有的車輛都可以流暢通過。
負載為0.00 -
0.50表示橋上的車輛只有一半。可以看到車輛間距較大,不會擁擠。
負載為0.50 -
1.00表示橋上的車輛達到最大值。一切剛剛好,但如果橋上再來一輛車,那么就出現(xiàn)堵車的情況了。
負載為1.00 -
大于1.00表示堵車了。負載數(shù)值和堵車嚴重程度有什么關(guān)系呢?舉例說明,2.00表示等待過橋的車輛和橋上滿負載的車輛一樣多,3.00表示等待的車輛是橋上滿負載的車輛的2倍,以此類推。
負載為1.70
這基本上就是CPU負載的解釋?!捌嚒本褪鞘褂肅PU時間片(即“過橋”)或排隊使用CPU(等待“過橋”)的進程,Unix將其稱為運行隊列長度,即當前運行的進程數(shù)加上等待(排隊)運行的進程數(shù)之和。
就像作為一個大橋的管理者,你肯定不愿意車輛/進程一直處于等待狀態(tài),所以應(yīng)該讓你的CPU負載低于1.00。如果偶爾超過1.00不用擔心,但如果一直大于1.00,那么就需要考慮哪里出了問題了。
所以說最理想的負載是1.00嗎?
其實并不是這樣的。當負載達到1.00時表示已經(jīng)觸及天花板了,所以一般來說會有一條邊界線,即0.70。
經(jīng)驗法則之“需要關(guān)注”——0.70:如果你的CPU負載均值一直處于>0.70的狀態(tài),那么在事情變得更糟之前,需要調(diào)查一下原因所在。
經(jīng)驗法則之“立刻修復(fù)”——1.00:如果你的CPU負載均值一直處于>1.00的狀態(tài),那么趕緊查原因修復(fù)它吧!
經(jīng)驗法則之“緊急狀況”——5.00:如果你的CPU負載均值超過了5.00,你恐怕是遇到大麻煩了!你的系統(tǒng)設(shè)備可能卡頓或者特別慢,隨時會出現(xiàn)意外情況。
多處理器下,負載為3.00,但運行結(jié)果一切正常!
是4個處理器的系統(tǒng)嗎?如果是,那就沒事兒。
在多處理器系統(tǒng)上,負載與可用處理器內(nèi)核的數(shù)量有關(guān)?!?00%利用率”在單核系統(tǒng)上負載為1.00,在雙核系統(tǒng)上為2.00,在四核系統(tǒng)上為4.00等等。
回到剛才大橋的例子上,1.00表示一條車道上的車輛。在單行道上的大橋上,1.00表示剛好滿載;在兩條車道的大橋上,1.00表示只有50%的負載——即一條車道滿載,而另一條車道是空的。
同樣地在CPU上:負載為1.00表示在單核系統(tǒng)上是100%利用率,負載為2.00表示在雙核系統(tǒng)上是100%利用率。
多核處理器VS多處理器
現(xiàn)在,我們討論下多核以及多處理器的話題。從性能的角度來看,一臺只有一個雙核處理器的機器基本上等同于一臺只有兩個單核處理器的機器。這里有許多關(guān)于緩存數(shù)量、處理器之間的進程切換頻率等的細微之處。盡管有這些細微之處,但是為了評估CPU負載值,無論這些內(nèi)核分布在多少物理處理器上,內(nèi)核的總數(shù)量都很重要。
這就引出了兩條新的經(jīng)驗法則:
內(nèi)核總數(shù)=最大負載:在一個多核系統(tǒng)里,負載不應(yīng)該超過可用的內(nèi)核數(shù)之和。
內(nèi)核就是內(nèi)核:內(nèi)核如何分布在CPU上并不重要,2個四核== 4個雙核== 8個單核,這些都是8個內(nèi)核。
回歸正傳
輸入uptime命令,得到如下的負載均值:
~ $ uptime
23:05 up 14 days, 6:08, 7 users, load averages: 0.65 0.42 0.36
這是一個雙核處理器,所以還有很大的余量空間,不需要為它擔心,除非負載長期處于1.7或更大。
那么這三個數(shù)字怎么處理呢?0.65是最后1分鐘的平均值,0.42是最后5分鐘的平均值,0.36是最后15分鐘的平均值。這就引出了一個問題:
這三個數(shù)值,我應(yīng)該關(guān)注哪個?1分鐘,5分鐘,還是15分鐘?
關(guān)于這些數(shù)值的含義我們已經(jīng)討論過(1.00表示需要馬上修復(fù)等等),你最應(yīng)該關(guān)注的是5分鐘或15分鐘的平均值。坦率地說,如果你的機器在一分鐘內(nèi)的平均峰值超過1.0,仍然是可以正常工作的。當15分鐘的平均值超過1.0時,你需要迅速去調(diào)整直至正常范圍內(nèi)(當然具體數(shù)值要看你的系統(tǒng)內(nèi)核數(shù)量)。
內(nèi)核的數(shù)量對于解釋平均負載非常重要,那么我如何得知系統(tǒng)有多少內(nèi)核?
通過cat /proc/cpuinfo命令獲取每個處理器的詳細信息,grep 'model name' /proc/cpuinfo | wc -l命令則獲取所有的內(nèi)核數(shù)量。



