Linux SWAP詳解

SWAP/swappiness/kswapd原理,swap分區(qū)優(yōu)先級(jí)的妙用

概述

本文討論的swap基于Linux4.4內(nèi)核代碼。Linux內(nèi)存管理是一套非常復(fù)雜的系統(tǒng),而swap只是其中一個(gè)很小的處理邏輯。

希望本文能讓讀者了解Linux對(duì)swap的使用大概是什么樣子。閱讀完本文,應(yīng)該可以幫你解決以下問題:

1、swap到底是干嘛的?

2、swappiness到底是用來調(diào)節(jié)什么的?

3、kswapd什么時(shí)候會(huì)進(jìn)行swap操作?

4、什么是內(nèi)存水位標(biāo)記?

5、swap分區(qū)的優(yōu)先級(jí)(priority)有啥用?

1、什么是SWAP,到底是干嘛的?

我們一般所說的swap,指的是一個(gè)交換分區(qū)或文件。在Linux上可以使用swapon -s命令查看當(dāng)前系統(tǒng)上正在使用的交換空間有哪些,以及相關(guān)信息:

從功能上講,交換分區(qū)主要是在內(nèi)存不夠用的時(shí)候,將部分內(nèi)存上的數(shù)據(jù)交換到swap空間上,以便讓系統(tǒng)不會(huì)因內(nèi)存不夠用而導(dǎo)致oom或者更致命的情況出現(xiàn)。

所以,當(dāng)內(nèi)存使用存在壓力,開始觸發(fā)內(nèi)存回收的行為時(shí),就可能會(huì)使用swap空間。

內(nèi)核對(duì)swap的使用實(shí)際上是跟內(nèi)存回收行為緊密結(jié)合的。那么關(guān)于內(nèi)存回收和swap的關(guān)系,我們需要思考以下幾個(gè)問題:

為什么要進(jìn)行內(nèi)存回收?

哪些內(nèi)存可能會(huì)被回收呢?

回收的過程中什么時(shí)候會(huì)進(jìn)行交換呢?

具體怎么交換?

下面我們就從這些問題出發(fā),一個(gè)一個(gè)進(jìn)行分析。


內(nèi)核之所以要進(jìn)行內(nèi)存回收的主要原因有兩個(gè):

1、內(nèi)核需要為任何時(shí)刻突發(fā)到來的內(nèi)存申請(qǐng)?zhí)峁┳銐虻膬?nèi)存,所以一般情況下保證有足夠的free空間對(duì)于內(nèi)核來說是必要的。

2、Linux內(nèi)核使用cache的策略雖然是不用白不用,內(nèi)核會(huì)使用內(nèi)存中的page cache對(duì)部分文件進(jìn)行緩存,以便提升文件的讀寫效率。所以內(nèi)核有必要設(shè)計(jì)一個(gè)周期性回收內(nèi)存的機(jī)制,以便cache的使用和其他相關(guān)內(nèi)存的使用不至于讓系統(tǒng)的剩余內(nèi)存長(zhǎng)期處于很少的狀態(tài)

當(dāng)真的有大于空閑內(nèi)存的申請(qǐng)到來的時(shí)候,會(huì)觸發(fā)強(qiáng)制內(nèi)存回收。

內(nèi)核在應(yīng)對(duì)這兩類回收的需求分別實(shí)現(xiàn)了兩種不同的機(jī)制:

1、使用kswapd進(jìn)程對(duì)內(nèi)存進(jìn)行周期檢查,以保證平常狀態(tài)下剩余內(nèi)存盡可能夠用。

2、直接內(nèi)存回收(directpagereclaim),就是當(dāng)內(nèi)存分配時(shí)沒有空閑內(nèi)存可以滿足要求時(shí),觸發(fā)直接內(nèi)存回收。

這兩種內(nèi)存回收的觸發(fā)路徑不同:

1、由內(nèi)核進(jìn)程kswapd直接調(diào)用內(nèi)存回收的邏輯進(jìn)行內(nèi)存回收。

參見mm/vmscan.c中的kswapd()主邏輯

2、內(nèi)存申請(qǐng)的時(shí)候進(jìn)入slow path的內(nèi)存申請(qǐng)邏輯進(jìn)行回收。

參見內(nèi)核代碼中的mm/page_alloc.c中的__alloc_pages_slowpath方法

這兩個(gè)方法中實(shí)際進(jìn)行內(nèi)存回收的過程殊途同歸,最終都是調(diào)用shrink_zone()方法進(jìn)行針對(duì)每個(gè)zone的內(nèi)存頁縮減

這個(gè)方法中會(huì)再調(diào)用shrink_lruvec()這個(gè)方法對(duì)每個(gè)組織頁的鏈表進(jìn)程檢查。找到這個(gè)線索之后,我們就可以清晰的看到內(nèi)存回收操作究竟針對(duì)的page有哪些了。

這些鏈表主要定義在mm/vmscan.c一個(gè)enum中:

根據(jù)這個(gè)enum可以看到,內(nèi)存回收主要需要進(jìn)行掃描的鏈表有如下4個(gè):

anon的inactive

anon的active

file的inactive

file的active

就是說,內(nèi)存回收操作主要針對(duì)的就是內(nèi)存中的文件頁(file ?cache)和匿名頁。

關(guān)于活躍(active)還是不活躍(inactive)的判斷內(nèi)核會(huì)使用lru算法進(jìn)行處理并進(jìn)行標(biāo)記,我們這里不詳細(xì)解釋這個(gè)過程。

整個(gè)掃描的過程分幾個(gè)循環(huán):

1、掃描每個(gè)zone上的cgroup組;

2、以cgroup的內(nèi)存為單元進(jìn)行page鏈表的掃描;

3、內(nèi)核會(huì)先掃描anon的active鏈表,將不頻繁的放進(jìn)inactive鏈表中,然后掃描inactive鏈表,將里面活躍的移回active中;

4、進(jìn)行swap的時(shí)候,先對(duì)inactive的頁進(jìn)行換出;

5、如果是file的文件映射page頁,則判斷其是否為臟數(shù)據(jù),如果是臟數(shù)據(jù)就寫回,不是臟數(shù)據(jù)可以直接釋放。

這樣看來,內(nèi)存回收這個(gè)行為會(huì)對(duì)兩種內(nèi)存的使用進(jìn)行回收:

1、anon的匿名頁內(nèi)存,主要回收手段是swap;

2、file-backed的文件映射頁,主要的釋放手段是寫回和清空。

因?yàn)獒槍?duì)filebased的內(nèi)存,沒必要進(jìn)行交換,其數(shù)據(jù)原本就在硬盤上,回收這部分內(nèi)存只要在有臟數(shù)據(jù)時(shí)寫回,并清空內(nèi)存就可以了,以后有需要再?gòu)膶?duì)應(yīng)的文件讀回來。

內(nèi)存對(duì)匿名頁和文件緩存一共用了四條鏈表進(jìn)行組織,回收過程主要是針對(duì)這四條鏈表進(jìn)行掃描和操作。

2、swappiness到底是用來調(diào)節(jié)什么的?

很多人應(yīng)該都知道/proc/sys/vm/swappiness這個(gè)文件,是個(gè)可以用來調(diào)整跟swap相關(guān)的參數(shù)。這個(gè)文件的默認(rèn)值是60,可以的取值范圍是0-100。

這很容易給大家一個(gè)暗示:我是個(gè)百分比哦!

那么這個(gè)文件具體到底代表什么意思呢?我們先來看一下說明:

======

swappiness

This control is used to define how aggressive the kernel will swap memory pages. Higher values will increase agressiveness, lower values decrease the amount of swap.

A value of 0 instructs the kernel not to initiate swap until the amount of free and file-backed pages is less than the high water mark in a zone.

The default value is 60.

======

這個(gè)文件的值用來定義內(nèi)核使用swap的積極程度:

值越高,內(nèi)核就會(huì)越積極的使用swap;

值越低,就會(huì)降低對(duì)swap的使用積極性。

如果這個(gè)值為0,那么內(nèi)存在free和file-backed使用的頁面總量小于高水位標(biāo)記(high water mark)之前,不會(huì)發(fā)生交換。

在這里我們可以理解file-backed這個(gè)詞的含義了,實(shí)際上就是上文所說的文件映射頁的大小。

那么這個(gè)swappiness到底起到了什么作用呢?

我們換個(gè)思路考慮這個(gè)事情。假設(shè)讓我們?cè)O(shè)計(jì)一個(gè)內(nèi)存回收機(jī)制,要去考慮將一部分內(nèi)存寫到swap分區(qū)上,將一部分file-backed的內(nèi)存寫回并清空,剩余部分內(nèi)存出來,我們將怎么設(shè)計(jì)?

我想應(yīng)該主要考慮這樣幾個(gè)問題:

如果回收內(nèi)存可以有兩種途徑(匿名頁交換和file緩存清空),那么我應(yīng)該考慮在本次回收的時(shí)候,什么情況下多進(jìn)行file寫回,什么情況下應(yīng)該多進(jìn)行swap交換。說白了就是平衡兩種回收手段的使用,以達(dá)到最優(yōu)。

如果符合交換條件的內(nèi)存較長(zhǎng),是不是可以不用全部交換出去?比如可以交換的內(nèi)存有100M,但是目前只需要50M內(nèi)存,實(shí)際只要交換50M就可以了,不用把能交換的都交換出去。

分析代碼會(huì)發(fā)現(xiàn),Linux內(nèi)核對(duì)這部分邏輯的實(shí)現(xiàn)代碼在get_scan_count()這個(gè)方法中,這個(gè)方法被shrink_lruvec()調(diào)用。

get_sacn_count()就是處理上述邏輯的,swappiness是它所需要的一個(gè)參數(shù),這個(gè)參數(shù)實(shí)際上是指導(dǎo)內(nèi)核在清空內(nèi)存的時(shí)候,是更傾向于清空file-backed內(nèi)存還是更傾向于進(jìn)行匿名頁的交換的。

當(dāng)然,這只是個(gè)傾向性,是指在兩個(gè)都?jí)蛴玫那闆r下,更愿意用哪個(gè),如果不夠用了,那么該交換還是要交換。

簡(jiǎn)單看一下get_sacn_count()函數(shù)的處理部分代碼,其中關(guān)于swappiness的第一個(gè)處理是:

這里注釋的很清楚:

如果swappiness設(shè)置為100,那么匿名頁和文件將用同樣的優(yōu)先級(jí)進(jìn)行回收。

很明顯,使用清空文件的方式將有利于減輕內(nèi)存回收時(shí)可能造成的IO壓力。

因?yàn)槿绻鹒ile-backed中的數(shù)據(jù)不是臟數(shù)據(jù)的話,那么可以不用寫回,這樣就沒有IO發(fā)生,而一旦進(jìn)行交換,就一定會(huì)造成IO。

所以系統(tǒng)默認(rèn)將swappiness的值設(shè)置為60,這樣回收內(nèi)存時(shí),對(duì)file-backed的文件cache內(nèi)存的清空比例會(huì)更大,內(nèi)核將會(huì)更傾向于進(jìn)行緩存清空而不是交換。

這里的swappiness值如果是60,那么是不是說內(nèi)核回收的時(shí)候,會(huì)按照60:140的比例去做相應(yīng)的swap和清空file-backed的空間呢?并不是。

在做這個(gè)比例計(jì)算的時(shí)候,內(nèi)核還要參考當(dāng)前內(nèi)存使用的其他信息。對(duì)這里具體是怎么處理感興趣的人,可以自己詳細(xì)看get_sacn_count()的實(shí)現(xiàn),本文就不多解釋了。

我們?cè)诖艘鞔_的概念是:?swappiness的值是用來控制內(nèi)存回收時(shí),回收的匿名頁更多一些還是回收的file cache更多一些?。

swappiness設(shè)置為0的話,是不是內(nèi)核就根本不會(huì)進(jìn)行swap了呢?這個(gè)答案也是否定的。

首先是內(nèi)存真的不夠用的時(shí)候,該swap的話還是要swap。

其次在內(nèi)核中還有一個(gè)邏輯會(huì)導(dǎo)致直接使用swap,內(nèi)核代碼是這樣處理的:

這里的邏輯是說,如果觸發(fā)的是全局回收,并且zonefile + zonefree <= high_wmark_pages(zone)條件成立時(shí),就將scan_balance這個(gè)標(biāo)記置為SCAN_ANON。

后續(xù)處理scan_balance的時(shí)候,如果它的值是SCAN_ANON,則一定會(huì)進(jìn)行針對(duì)匿名頁的swap操作。

要理解這個(gè)行為,我們首先要搞清楚什么是高水位標(biāo)記(high_wmark_pages)。

3、kswapd什么時(shí)候會(huì)進(jìn)行swap操作?

我們回到kswapd周期檢查和直接內(nèi)存回收的兩種內(nèi)存回收機(jī)制。

直接內(nèi)存回收比較好理解,當(dāng)申請(qǐng)的內(nèi)存大于剩余內(nèi)存的時(shí)候,就會(huì)觸發(fā)直接回收。

那么kswapd進(jìn)程在周期檢查的時(shí)候觸發(fā)回收的條件是什么呢?

還是從設(shè)計(jì)角度來看,kswapd進(jìn)程要周期對(duì)內(nèi)存進(jìn)行檢測(cè),達(dá)到一定閾值的時(shí)候開始進(jìn)行內(nèi)存回收。

這個(gè)所謂的閾值可以理解為內(nèi)存目前的使用壓力,就是說,雖然我們還有剩余內(nèi)存,但是當(dāng)剩余內(nèi)存比較小的時(shí)候,就是內(nèi)存壓力較大的時(shí)候,就應(yīng)該開始試圖回收些內(nèi)存了,這樣才能保證系統(tǒng)盡可能的有足夠的內(nèi)存給突發(fā)的內(nèi)存申請(qǐng)所使用。

4、什么是內(nèi)存水位標(biāo)記?(watermark)

那么如何描述內(nèi)存使用的壓力呢?

Linux內(nèi)核使用水位標(biāo)記(watermark)的概念來描述這個(gè)壓力情況。

Linux為內(nèi)存的使用設(shè)置了三種內(nèi)存水位標(biāo)記:high、low、min。他們所標(biāo)記的含義分別為:

剩余內(nèi)存在high以上表示內(nèi)存剩余較多,目前內(nèi)存使用壓力不大;

high-low的范圍表示目前剩余內(nèi)存存在一定壓力;

low-min表示內(nèi)存開始有較大使用壓力,剩余內(nèi)存不多了;

min是最小的水位標(biāo)記,當(dāng)剩余內(nèi)存達(dá)到這個(gè)狀態(tài)時(shí),就說明內(nèi)存面臨很大壓力。

小于min這部分內(nèi)存,內(nèi)核是保留給特定情況下使用的,一般不會(huì)分配。

內(nèi)存回收行為就是基于剩余內(nèi)存的水位標(biāo)記進(jìn)行決策的:

當(dāng)系統(tǒng)剩余內(nèi)存低于watermark[low]的時(shí)候,內(nèi)核的kswapd開始起作用,進(jìn)行內(nèi)存回收。直到剩余內(nèi)存達(dá)到watermark[high]的時(shí)候停止。

如果內(nèi)存消耗導(dǎo)致剩余內(nèi)存達(dá)到了或超過了watermark[min]時(shí),就會(huì)觸發(fā)直接回收(direct reclaim)。

明白了水位標(biāo)記的概念之后,zonefile + zonefree <= high_wmark_pages(zone)這個(gè)公式就能理解了。

這里的zonefile相當(dāng)于內(nèi)存中文件映射的總量,zonefree相當(dāng)于剩余內(nèi)存的總量。

內(nèi)核一般認(rèn)為,如果zonefile還有的話,就可以盡量通過清空文件緩存獲得部分內(nèi)存,而不必只使用swap方式對(duì)anon的內(nèi)存進(jìn)行交換。

整個(gè)判斷的概念是說,在全局回收的狀態(tài)下(有g(shù)lobal_reclaim(sc)標(biāo)記),如果當(dāng)前的文件映射內(nèi)存總量+剩余內(nèi)存總量的值評(píng)估小于等于watermark[high]標(biāo)記的時(shí)候,就可以進(jìn)行直接swap了。

這樣是為了防止進(jìn)入cache陷阱,具體描述可以見代碼注釋。

這個(gè)判斷對(duì)系統(tǒng)的影響是,?swappiness設(shè)置為0時(shí),有剩余內(nèi)存的情況下也可能發(fā)生交換。

那么watermark相關(guān)值是如何計(jì)算的呢?

所有的內(nèi)存watermark標(biāo)記都是根據(jù)當(dāng)前內(nèi)存總大小和一個(gè)可調(diào)參數(shù)進(jìn)行運(yùn)算得來的,這個(gè)參數(shù)是:/proc/sys/vm/min_free_kbytes

首先這個(gè)參數(shù)本身決定了系統(tǒng)中每個(gè)zone的watermark[min]的值大小。

然后內(nèi)核根據(jù)min的大小并參考每個(gè)zone的內(nèi)存大小分別算出每個(gè)zone的low水位和high水位值。

想了解具體邏輯可以參見源代碼目錄下的該文件:

mm/page_alloc.c

在系統(tǒng)中可以從/proc/zoneinfo文件中查看當(dāng)前系統(tǒng)的相關(guān)的信息和使用情況。

我們會(huì)發(fā)現(xiàn)以上內(nèi)存管理的相關(guān)邏輯都是以zone為單位的,這里zone的含義是指內(nèi)存的分區(qū)管理。

Linux將內(nèi)存分成多個(gè)區(qū),主要有:

直接訪問區(qū)(DMA)

一般區(qū)(Normal)

高端內(nèi)存區(qū)(HighMemory)

內(nèi)核對(duì)內(nèi)存不同區(qū)域的訪問因?yàn)橛布Y(jié)構(gòu)因素會(huì)有尋址和效率上的差別。如果在NUMA架構(gòu)上,不同CPU所管理的內(nèi)存也是不同的zone。

相關(guān)參數(shù)設(shè)置

zone_reclaim_mode:

zone_reclaim_mode模式是在2.6版本后期開始加入內(nèi)核的一種模式,可以用來管理當(dāng)一個(gè)內(nèi)存區(qū)域(zone)內(nèi)部的內(nèi)存耗盡時(shí),是從其內(nèi)部進(jìn)行內(nèi)存回收還是可以從其他zone進(jìn)行回收的選項(xiàng),我們可以通過/proc/sys/vm/zone_reclaim_mode文件對(duì)這個(gè)參數(shù)進(jìn)行調(diào)整。

在申請(qǐng)內(nèi)存時(shí)(內(nèi)核的get_page_from_freelist()方法中),內(nèi)核在當(dāng)前zone內(nèi)沒有足夠內(nèi)存可用的情況下,會(huì)根據(jù)zone_reclaim_mode的設(shè)置來決策是從下一個(gè)zone找空閑內(nèi)存還是在zone內(nèi)部進(jìn)行回收。這個(gè)值為0時(shí)表示可以從下一個(gè)zone找可用內(nèi)存,非0表示在本地回收。

這個(gè)文件可以設(shè)置的值及其含義如下:

echo 0 > /proc/sys/vm/zone_reclaim_mode:意味著關(guān)閉zone_reclaim模式,可以從其他zone或NUMA節(jié)點(diǎn)回收內(nèi)存。

echo 1 > /proc/sys/vm/zone_reclaim_mode:表示打開zone_reclaim模式,這樣內(nèi)存回收只會(huì)發(fā)生在本地節(jié)點(diǎn)內(nèi)。

echo 2 > /proc/sys/vm/zone_reclaim_mode:在本地回收內(nèi)存時(shí),可以將cache中的臟數(shù)據(jù)寫回硬盤,以回收內(nèi)存。

echo 4 > /proc/sys/vm/zone_reclaim_mode:可以用swap方式回收內(nèi)存。

不同的參數(shù)配置會(huì)在NUMA環(huán)境中對(duì)其他內(nèi)存節(jié)點(diǎn)的內(nèi)存使用產(chǎn)生不同的影響,大家可以根據(jù)自己的情況進(jìn)行設(shè)置以優(yōu)化你的應(yīng)用。

默認(rèn)情況下,zone_reclaim模式是關(guān)閉的。這在很多應(yīng)用場(chǎng)景下可以提高效率,比如文件服務(wù)器,或者依賴內(nèi)存中cache比較多的應(yīng)用場(chǎng)景。

這樣的場(chǎng)景對(duì)內(nèi)存cache速度的依賴要高于進(jìn)程進(jìn)程本身對(duì)內(nèi)存速度的依賴,所以我們寧可讓內(nèi)存從其他zone申請(qǐng)使用,也不愿意清本地cache。

如果確定應(yīng)用場(chǎng)景是內(nèi)存需求大于緩存,而且盡量要避免內(nèi)存訪問跨越NUMA節(jié)點(diǎn)造成的性能下降的話,則可以打開zone_reclaim模式。

此時(shí)頁分配器會(huì)優(yōu)先回收容易回收的可回收內(nèi)存(主要是當(dāng)前不用的page cache頁),然后再回收其他內(nèi)存。

打開本地回收模式的寫回可能會(huì)引發(fā)其他內(nèi)存節(jié)點(diǎn)上的大量的臟數(shù)據(jù)寫回處理。如果一個(gè)內(nèi)存zone已經(jīng)滿了,那么臟數(shù)據(jù)的寫回也會(huì)導(dǎo)致進(jìn)程處理速度收到影響,產(chǎn)生處理瓶頸。

這會(huì)降低某個(gè)內(nèi)存節(jié)點(diǎn)相關(guān)的進(jìn)程的性能,因?yàn)檫M(jìn)程不再能夠使用其他節(jié)點(diǎn)上的內(nèi)存。但是會(huì)增加節(jié)點(diǎn)之間的隔離性,其他節(jié)點(diǎn)的相關(guān)進(jìn)程運(yùn)行將不會(huì)因?yàn)榱硪粋€(gè)節(jié)點(diǎn)上的內(nèi)存回收導(dǎo)致性能下降。

除非針對(duì)本地節(jié)點(diǎn)的內(nèi)存限制策略或者cpuset配置有變化,對(duì)swap的限制會(huì)有效約束交換只發(fā)生在本地內(nèi)存節(jié)點(diǎn)所管理的區(qū)域上。

min_unmapped_ratio:

這個(gè)參數(shù)只在NUMA架構(gòu)的內(nèi)核上生效。這個(gè)值表示NUMA上每個(gè)內(nèi)存區(qū)域的pages總數(shù)的百分比。

在zone_reclaim_mode模式下,只有當(dāng)相關(guān)區(qū)域的內(nèi)存使用達(dá)到這個(gè)百分比,才會(huì)發(fā)生區(qū)域內(nèi)存回收。

在zone_reclaim_mode設(shè)置為4的時(shí)候,內(nèi)核會(huì)比較所有的file-backed和匿名映射頁,包括swapcache占用的頁以及tmpfs文件的總內(nèi)存使用是否超過這個(gè)百分比。

其他設(shè)置的情況下,只比較基于一般文件的未映射頁,不考慮其他相關(guān)頁。

page-cluster:

page-cluster是用來控制從swap空間換入數(shù)據(jù)的時(shí)候,一次連續(xù)讀取的頁數(shù),這相當(dāng)于對(duì)交換空間的預(yù)讀。這里的連續(xù)是指在swap空間上的連續(xù),而不是在內(nèi)存地址上的連續(xù)。

因?yàn)閟wap空間一般是在硬盤上,對(duì)硬盤設(shè)備的連續(xù)讀取將減少磁頭的尋址,提高讀取效率。

這個(gè)文件中設(shè)置的值是2的指數(shù)。就是說,如果設(shè)置為0,預(yù)讀的swap頁數(shù)是2的0次方,等于1頁。如果設(shè)置為3,就是2的3次方,等于8頁。

同時(shí),設(shè)置為0也意味著關(guān)閉預(yù)讀功能。文件默認(rèn)值為3。我們可以根據(jù)我們的系統(tǒng)負(fù)載狀態(tài)來設(shè)置預(yù)讀的頁數(shù)大小。

swap的相關(guān)操縱命令

可以使用mkswap將一個(gè)分區(qū)或者文件創(chuàng)建成swap空間。swapon可以查看當(dāng)前的swap空間和啟用一個(gè)swap分區(qū)或者文件。swapoff可以關(guān)閉swap空間。

我們使用一個(gè)文件的例子來演示一下整個(gè)操作過程:

制作swap文件:

啟用swap文件:

關(guān)閉swap空間:

5、swap分區(qū)的優(yōu)先級(jí)(priority)有啥用?

在使用多個(gè)swap分區(qū)或者文件的時(shí)候,還有一個(gè)優(yōu)先級(jí)的概念(Priority)。

在swapon的時(shí)候,我們可以使用-p參數(shù)指定相關(guān)swap空間的優(yōu)先級(jí),值越大優(yōu)先級(jí)越高,可以指定的數(shù)字范圍是-1到32767。

內(nèi)核在使用swap空間的時(shí)候總是先使用優(yōu)先級(jí)高的空間,后使用優(yōu)先級(jí)低的

當(dāng)然如果把多個(gè)swap空間的優(yōu)先級(jí)設(shè)置成一樣的,那么兩個(gè)swap空間將會(huì)以輪詢方式并行進(jìn)行使用。

如果兩個(gè)swap放在兩個(gè)不同的硬盤上,相同的優(yōu)先級(jí)可以起到類似RAID0的效果,增大swap的讀寫效率。

另外,編程時(shí)使用mlock()也可以將指定的內(nèi)存標(biāo)記為不會(huì)換出,具體幫助可以參考man 2 mlock。

最后

關(guān)于swap的使用建議,針對(duì)不同負(fù)載狀態(tài)的系統(tǒng)是不一樣的。有時(shí)我們希望swap大一些,可以在內(nèi)存不夠用的時(shí)候不至于觸發(fā)oom-killer導(dǎo)致某些關(guān)鍵進(jìn)程被殺掉,比如數(shù)據(jù)庫業(yè)務(wù)。

也有時(shí)候我們希望不要swap,因?yàn)楫?dāng)大量進(jìn)程爆發(fā)增長(zhǎng)導(dǎo)致內(nèi)存爆掉之后,會(huì)因?yàn)?b>swap導(dǎo)致IO跑死,整個(gè)系統(tǒng)都卡住,無法登錄,無法處理。

這時(shí)候我們就希望不要swap,即使出現(xiàn)oom-killer也造成不了太大影響,但是不能允許服務(wù)器因?yàn)镮O卡死像多米諾骨牌一樣全部死機(jī),而且無法登陸。跑cpu運(yùn)算的無狀態(tài)的apache就是類似這樣的進(jìn)程池架構(gòu)的程序。


swap到底怎么用?

要還是不要?

設(shè)置大還是???

相關(guān)參數(shù)應(yīng)該如何配置?

是要根據(jù)我們自己的生產(chǎn)環(huán)境的情況而定的。

閱讀完本文后希望大家可以明白一些swap的深層次知識(shí)。

Q&A:

一個(gè)內(nèi)存剩余還比較大的系統(tǒng)中,是否有可能使用swap?

A: 有可能,如果運(yùn)行中的某個(gè)階段出發(fā)了這個(gè)條件”zonefile+zonefree<=high_wmark_pages(zone)“,就可能會(huì)swap。

swappiness設(shè)置為0就相當(dāng)于關(guān)閉swap么?

A: 不是的,關(guān)閉swap要使用swapoff命令。swappiness只是在內(nèi)存發(fā)生回收操作的時(shí)候用來平衡cache回收和swap交換的一個(gè)參數(shù),調(diào)整為0意味著,盡量通過清緩存來回收內(nèi)存。

A: swappiness設(shè)置為100代表系統(tǒng)會(huì)盡量少用剩余內(nèi)存而多使用swap么?

不是的,這個(gè)值設(shè)置為100表示內(nèi)存發(fā)生回收時(shí),從cache回收內(nèi)存和swap交換的優(yōu)先級(jí)一樣。就是說,如果目前需求100M內(nèi)存,那么較大機(jī)率會(huì)從cache中清除50M內(nèi)存,再將匿名頁換出50M,把回收到的內(nèi)存給應(yīng)用程序使用。但是這還要看cache中是否能有空間,以及swap是否可以交換50m。內(nèi)核只是試圖對(duì)它們平衡一些而已。

kswapd進(jìn)程什么時(shí)候開始內(nèi)存回收?

A: kswapd根據(jù)內(nèi)存水位標(biāo)記決定是否開始回收內(nèi)存,如果標(biāo)記達(dá)到low就開始回收,回收到剩余內(nèi)存達(dá)到high標(biāo)記為止。

如何查看當(dāng)前系統(tǒng)的內(nèi)存水位標(biāo)記?

A: cat /proc/zoneinfo。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 操作系統(tǒng)概論 操作系統(tǒng)的概念 操作系統(tǒng)是指控制和管理計(jì)算機(jī)的軟硬件資源,并合理的組織調(diào)度計(jì)算機(jī)的工作和資源的分配,...
    野狗子嗷嗷嗷閱讀 12,450評(píng)論 3 34
  • 從三月份找實(shí)習(xí)到現(xiàn)在,面了一些公司,掛了不少,但最終還是拿到小米、百度、阿里、京東、新浪、CVTE、樂視家的研發(fā)崗...
    時(shí)芥藍(lán)閱讀 42,753評(píng)論 11 349
  • 操作系統(tǒng)對(duì)內(nèi)存的管理 沒有內(nèi)存抽象的年代 在早些的操作系統(tǒng)中,并沒有引入內(nèi)存抽象的概念。程序直接訪問和操作的都是物...
    Mr槑閱讀 16,952評(píng)論 3 24
  • d79f0366336c閱讀 188評(píng)論 0 0
  • 前言: 不能陪孩子一輩子,就要學(xué)會(huì)在適當(dāng)?shù)臅r(shí)候放手讓孩子學(xué)會(huì)獨(dú)立。 當(dāng)孩子蹣跚學(xué)步時(shí),鼓勵(lì)他們勇敢跨出第一步,當(dāng)...
    子蘭_時(shí)空閱讀 409評(píng)論 0 1

友情鏈接更多精彩內(nèi)容