Dynamo: Facebook’s Data Center-Wide Power Management System

針對問題:數(shù)據(jù)中心能耗利用率低——數(shù)據(jù)中心電力傳輸層次結(jié)構(gòu)過載和使斷路器跳閘的代價非常高,有可能導(dǎo)致長期服務(wù)中斷。

本文貢獻(xiàn):1.表征數(shù)據(jù)中心各種工作負(fù)載的能耗變化。量化不同層級(機(jī)架->主配電板MSB)和不同粒度(幾秒->幾十分鐘)的能耗變化。-- 為防止現(xiàn)實中電源故障,控制器的功率讀取周期controller power reading cycle快到幾秒鐘。

2.設(shè)計Dynamo一種數(shù)據(jù)中心范圍的電源管理系統(tǒng),該系統(tǒng)監(jiān)視整個電源層次結(jié)構(gòu)并做出協(xié)調(diào)的控制決策,以安全有效地使用已配置的數(shù)據(jù)中心電源。控制器的功率讀取周期應(yīng)該快-幾秒鐘-而不是先前工作所建議的幾分鐘。

2.我們描述了在實際生產(chǎn)環(huán)境中數(shù)據(jù)中心范圍內(nèi)的電源管理系統(tǒng)的設(shè)計。 解決了基于仿真的研究未解決的幾個關(guān)鍵問題,(1)控制器和控件之間的可擴(kuò)展通信,(2)應(yīng)用程序感知和服務(wù)感知的封頂操作,(3)多個控制器實例和異構(gòu)負(fù)載、數(shù)據(jù)依賴的協(xié)調(diào)。

3.提出的技術(shù)和設(shè)計已經(jīng)在為數(shù)十億用戶服務(wù)的大型數(shù)據(jù)中心中進(jìn)行了部署和評估。


背景:

當(dāng)?shù)氐碾娏緸閿?shù)據(jù)中心提供30兆瓦的電力?,F(xiàn)場變電站將公用電源饋入主配電板(MSB)。每個MSB的IT設(shè)備功率額定為2.5 MW,并具有備用發(fā)電機(jī),可在公用事業(yè)中斷時供電。

數(shù)據(jù)中心通??缢膫€房間,稱為套房suites,其中服務(wù)器機(jī)架排排列。每個suites最多有四個MSB。每個MSB可提供最多四個1.25 MW開關(guān)板(SB)。電源從每個SB饋送到每排機(jī)架末端的190 KW無功功率面板(RPP)。

每個RPP為(1)每行的機(jī)架和(2)一組直流不間斷電源(DCUPS)供電。每個DCUPS可以為六個機(jī)架提供90 s的備用電源。機(jī)架電源架的額定功率為12.6 KW。根據(jù)服務(wù)器規(guī)格,每機(jī)架有9到42臺服務(wù)器。( 傳統(tǒng)模型使用配電單元(PDU)和PDU斷路器代替SB和RPP)。

Facebook數(shù)據(jù)中心中的電力傳輸層次結(jié)構(gòu)。

斷路器的跳閘時間隨功率消耗而變化。因此,功率上限技術(shù)的設(shè)計因素是對功率消耗的響應(yīng)速度,以確保免受斷路器跳閘的影響。

問題:在實際的生產(chǎn)數(shù)據(jù)中心中,功耗的變化速度有多快?

測量功率變化并推斷到超額訂購的方案中。細(xì)粒度--3s一次,3w臺服務(wù)器,每個服務(wù)器收集6個月以上。粗粒度-- 1min一次,近三年來所有數(shù)據(jù)中心(約幾十萬)中所有服務(wù)器的粗粒度功率值。

功率斜率:測量能耗在不同層級,特定時間窗口(從3秒到600秒)的增加速率。圖4說明了如何計算指標(biāo)。對于每個時間窗口,我們將最壞情況下的功率變化計算為該時間窗口中最大和最小功率值的差。

各層級細(xì)粒度能耗變化匯總圖(x軸-歸一能耗變化率,y軸-累計變化函數(shù))

1.窗口越大,變化越大。

2.由于負(fù)載多路傳輸,層級越高,能耗變化越小。

3.能耗變化與應(yīng)用程序有關(guān)。


功率上限決定:計算功率設(shè)備的總功耗后,與功率斷路器的極限值進(jìn)行比較。

葉片能耗控制器使用三頻帶算法決定是否設(shè)定上/下限。一個上限閾值capping threshold(最高頻帶):為斷路器極限的99%。當(dāng)合計功率超過上限閾值時,功率上限會嘗試將能耗降低到閾值目標(biāo)caaping target(中頻帶)的水平:比斷路器極限低5%。為避免振蕩,較低的解封閾值uncapping threshold(底帶),僅當(dāng)總功率低于此閾值時才會觸發(fā)功率解封。

三頻帶算法可有效消除控制振蕩,同時使capping響應(yīng)時間足夠快,以應(yīng)對數(shù)據(jù)中心的突然電涌。該算法也很靈活–我們可以在每個控制器的基礎(chǔ)上配置上限和下限閾值,從而可以在不同功率輸出層次的功率效率和性能之間進(jìn)行可定制的折衷。

將服務(wù)分優(yōu)先級,能耗對服務(wù)影響越大,該服務(wù)優(yōu)先級越高。

葉片功率控制器限制功率時,1.計算總能耗削減total-power-cut:當(dāng)前總能耗與限制目標(biāo)的差。2.將total-power-cut分給服務(wù)最低優(yōu)先級的服務(wù)器。 3.如果最低優(yōu)先級組中的服務(wù)器不能吸收所有的總功率削減,則從屬于第二低優(yōu)先級的選擇服務(wù)器,依此類推。

三頻帶算法(total-cut= capping -uncapping threshold)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 選擇題部分 1.(),只有在發(fā)生短路事故時或者在負(fù)荷電流較大時,變流器中才會有足夠的二次電流作為繼電保護(hù)跳閘之用。...
    skystarwuwei閱讀 14,354評論 0 7
  • 針對問題:整合工作負(fù)載來降低能耗。有效利用整合技術(shù),表征characterize應(yīng)用程序的能耗。這種表征對于有效預(yù)...
    你爻閱讀 557評論 0 0
  • 針對問題:CPU利用率可以建模平均能耗,但是對于預(yù)測峰值粒度過粗。 提出模型:表征服務(wù)器利用率和電源行為之間的關(guān)系...
    你爻閱讀 603評論 0 0
  • A. 問答題 1. 簡述運(yùn)維工作中專業(yè)巡視的內(nèi)容及周期。 答:運(yùn)維工作中專業(yè)巡視的內(nèi)容及周期如下: 1) 專業(yè)巡視...
    tomding閱讀 3,747評論 0 2
  • Guide to BluetoothSecurity原文 本出版物可免費(fèi)從以下網(wǎng)址獲得:https://doi.o...
    公子小水閱讀 8,746評論 0 6

友情鏈接更多精彩內(nèi)容