一、前言
? ? ? 服務(wù)器虛擬化技術(shù)作為成熟的技術(shù)已廣泛應(yīng)用于各行各業(yè)的生產(chǎn)、辦公、測試系統(tǒng),其快速交付服務(wù)器、減少機(jī)房使用空間、節(jié)省硬件采購成本、降低電力消耗、簡化服務(wù)器管理等方面的優(yōu)點(diǎn)非常突顯,規(guī)模較大的企業(yè)已部署超過5000臺虛擬服務(wù)器。
? ? ? 筆者被邀請對一家已部署200臺虛擬服務(wù)器的企業(yè)服務(wù)器虛擬化平臺進(jìn)行分析和診斷,發(fā)現(xiàn)較多有待改進(jìn)的管理實(shí)踐,現(xiàn)分享部分供各位參考,助力各企業(yè)實(shí)現(xiàn)安全高效應(yīng)用服務(wù)器虛擬化技術(shù)。
本公眾號發(fā)表的內(nèi)容不包含企業(yè)秘密,僅代表個(gè)人言論,僅供各位參考。
二、管理實(shí)踐
1、最佳系統(tǒng)架構(gòu)
? ? ? 分析該企業(yè)的虛擬化系統(tǒng)之前,先介紹筆者認(rèn)為的服務(wù)器虛擬化最佳系統(tǒng)架構(gòu)。
? ? ? 上圖為某企業(yè)安全運(yùn)行超過六年的系統(tǒng)架構(gòu)示意圖,支撐投資交易、估值、TA、官網(wǎng)、網(wǎng)上交易、OA、郵箱、投研、風(fēng)控、反洗錢、客服等生產(chǎn)系統(tǒng)。采用全冗余架構(gòu),任何單一的控制器、交換機(jī)、硬盤、網(wǎng)卡、光纖線、網(wǎng)線故障均實(shí)現(xiàn)數(shù)秒內(nèi)切換,虛擬服務(wù)器在Ping測試中僅丟1~2個(gè)包或不丟包,已實(shí)現(xiàn)對上層應(yīng)用系統(tǒng)的無感支持。
上圖為同城雙中心系統(tǒng)架構(gòu),機(jī)房1的虛擬服務(wù)器每24小時(shí)同步一次到機(jī)房2,當(dāng)機(jī)房1的單臺或多臺虛擬服務(wù)器出現(xiàn)任意故障時(shí),機(jī)房2的虛擬服務(wù)器副本可以在1分鐘內(nèi)實(shí)現(xiàn)開機(jī)和恢復(fù)業(yè)務(wù)運(yùn)行,保障業(yè)務(wù)的連續(xù)性。
2、管理實(shí)踐:冗余前端網(wǎng)絡(luò)
? ? ?在分析該企業(yè)的虛擬化平臺前端網(wǎng)絡(luò)時(shí),筆者發(fā)現(xiàn)多處有待改進(jìn)的地方,部分是影響系統(tǒng)運(yùn)維效率、部分是直接威脅虛擬服務(wù)器的安全運(yùn)行,以下仔細(xì)展開講解。
? ? ? 參照左圖系統(tǒng)架構(gòu)圖,右圖系統(tǒng)架構(gòu)圖的宿主機(jī)A存在遷移網(wǎng)絡(luò)帶寬不足問題,由于遷移網(wǎng)絡(luò)和管理網(wǎng)絡(luò)復(fù)用,且?guī)拑H有100M,當(dāng)從宿主機(jī)A上遷移一臺300G的虛擬服務(wù)器到宿主機(jī)B,實(shí)測需要超過24小的時(shí)間,建議遷移網(wǎng)絡(luò)需1G或以上帶寬。
? ? ??同時(shí)宿主機(jī)A的虛擬機(jī)網(wǎng)絡(luò)僅有一塊1G網(wǎng)卡,如發(fā)生網(wǎng)線或網(wǎng)卡故障時(shí),宿主機(jī)A上的虛擬服務(wù)器將全部中斷網(wǎng)絡(luò),影響業(yè)務(wù)系統(tǒng)運(yùn)行,建議實(shí)施網(wǎng)絡(luò)冗余。
?宿主機(jī)B具有冗余的網(wǎng)線連接,但虛擬機(jī)網(wǎng)絡(luò)使用100M網(wǎng)口或連接交換機(jī)100M端口,在同時(shí)運(yùn)行多臺虛擬服務(wù)器時(shí)會出現(xiàn)網(wǎng)絡(luò)瓶頸,建議虛擬機(jī)網(wǎng)絡(luò)使用1G或10G網(wǎng)絡(luò)。
? ? ??宿主機(jī)C具有冗余的網(wǎng)線連接,但虛擬機(jī)網(wǎng)絡(luò)連接到同一臺非堆疊交換機(jī)上,當(dāng)此交換機(jī)故障時(shí),宿主機(jī)C上的虛擬服務(wù)器將全部中斷網(wǎng)絡(luò),影響業(yè)務(wù)系統(tǒng)運(yùn)行,建議連接到相同級別的不同交換機(jī)。
3、管理實(shí)踐:冗余后端存儲
在分析該企業(yè)的虛擬化平臺后端存儲時(shí),筆者發(fā)現(xiàn)兩處較嚴(yán)重的安全隱患,直接威脅虛擬服務(wù)器的安全運(yùn)行及可能出現(xiàn)數(shù)據(jù)丟失,以下仔細(xì)展開講解。
參照左圖正常后端存儲架構(gòu)圖,右圖中的宿主機(jī)A存在單HBA連接存儲網(wǎng)絡(luò)的問題,如發(fā)生光纖線或HBA故障時(shí),宿主機(jī)A上的虛擬服務(wù)器將無法讀取或?qū)懭氪疟P,將引起系統(tǒng)崩潰及數(shù)據(jù)丟失,后果非常嚴(yán)重。
右圖中的宿主機(jī)C配置2塊HBA而且同時(shí)處于工作狀態(tài),但磁盤陣列與存儲交換機(jī)之間沒有全冗余連接,當(dāng)存儲控制器出現(xiàn)切換時(shí),宿主機(jī)C上的虛擬服務(wù)器將無法讀取或?qū)懭氪疟P,將引起系統(tǒng)崩潰及數(shù)據(jù)丟失,后果非常嚴(yán)重。
后端存儲是虛擬服務(wù)器安全運(yùn)行的基礎(chǔ),建議進(jìn)行全冗余部署,防止系統(tǒng)崩潰或數(shù)據(jù)丟失。
4、管理實(shí)踐:統(tǒng)一虛擬機(jī)網(wǎng)絡(luò)
?上圖為該企業(yè)的虛擬機(jī)網(wǎng)絡(luò)配置情況,多數(shù)網(wǎng)絡(luò)僅配置于單臺宿主機(jī)中,如需要遷移虛擬服務(wù)器,重啟后的虛擬服務(wù)器將丟失網(wǎng)絡(luò)連接,需進(jìn)行網(wǎng)絡(luò)配置后方能連網(wǎng)。建議統(tǒng)一虛擬化平臺的網(wǎng)絡(luò)配置,采用相同的網(wǎng)絡(luò)名稱,實(shí)現(xiàn)虛擬服務(wù)器遷移后可自動(dòng)連接原有網(wǎng)絡(luò)。
? ? ? 網(wǎng)絡(luò)名稱建議采用網(wǎng)絡(luò)規(guī)劃功能名稱,不建議使用已分配虛擬服務(wù)器的名稱,避免后期需要修改。
5、管理實(shí)踐:使用精簡置備磁盤
? ? ??上圖為該企業(yè)的虛擬機(jī)的磁盤配置和已用情況,采用不同的磁盤配置模式在空間占用方面有很大的區(qū)別。例如同樣配置200G的服務(wù)器,磁盤采用“厚置備延遲置零”的服務(wù)器實(shí)際占用空間為200G,磁盤采用“精簡置備”的服務(wù)器實(shí)際占用空間僅為10GB,相差近20倍。“精簡置備”非常適合后期磁盤空間要求較大和對磁盤讀寫性能要求不高的服務(wù)器使用,對于磁盤空間固定且對磁盤讀寫性能要求較高的服務(wù)器,磁盤需配置為“厚置備快速置零”。
? ? ? 上圖為虛擬機(jī)的磁盤采用“精簡置備”的數(shù)據(jù)信息,單臺物理服務(wù)器磁盤空間為9.81T,實(shí)現(xiàn)對虛擬機(jī)的磁盤分配能力已達(dá)27.84T,虛擬機(jī)實(shí)際占用空間為1.69T,完成對業(yè)務(wù)系統(tǒng)的大容量磁盤支持,助力業(yè)務(wù)系統(tǒng)快速部署和上線運(yùn)行。
這里要特別強(qiáng)調(diào)一下,“精簡置備”模式是屬于預(yù)分配磁盤模式,預(yù)分配空間多數(shù)超過實(shí)際可用空間,需定期檢查磁盤空間使用情況,防止磁盤出現(xiàn)“爆表”的情況。
6、管理實(shí)踐:加強(qiáng)平臺自身安全性
? ? ??上圖為該企業(yè)的遠(yuǎn)程登陸到宿主機(jī)執(zhí)行命令的情況,筆者建議非必要時(shí)不要開啟遠(yuǎn)程命令功能,保持關(guān)閉可以減少宿主機(jī)的風(fēng)險(xiǎn)暴露面。安全圈有出現(xiàn)企業(yè)的數(shù)百臺虛擬化服務(wù)器被加密的勒索事件,突破口可能是宿主機(jī)或控制中心沒有進(jìn)行有效安全管理。
? ? ? 對于虛擬化平臺的軟件版本,筆者建議使用穩(wěn)定的版本和對低版本進(jìn)行升級,生產(chǎn)環(huán)境使用6.7版本,測試環(huán)境使用7.0版本,對于6.0及以下版本需盡快進(jìn)行升級。
7、管理實(shí)踐:與網(wǎng)絡(luò)管理崗的協(xié)同工作
? ? ??服務(wù)器虛擬化平臺的網(wǎng)絡(luò)是否屬于企業(yè)網(wǎng)絡(luò)的組成部分?筆者認(rèn)為是的,因此不能缺少與網(wǎng)絡(luò)管理崗的協(xié)同,剛才講了很多服務(wù)器虛擬化平臺的網(wǎng)絡(luò)問題就是沒有與網(wǎng)絡(luò)管理崗進(jìn)行良好協(xié)同的結(jié)果。
對于虛擬化管理崗,可以對網(wǎng)絡(luò)管理崗提出具體的要求,例如高帶寬連接同級別的不同交換機(jī)、與虛擬化服務(wù)器網(wǎng)卡連接的交換機(jī)端口要關(guān)閉生成樹協(xié)議、對虛擬化平臺宿主機(jī)進(jìn)行安全隔離等,通過測試驗(yàn)證網(wǎng)絡(luò)冗余就緒。
8、管理實(shí)踐:與存儲管理崗的協(xié)同工作
? ? ??存儲系統(tǒng)異常將導(dǎo)致虛擬服務(wù)器出現(xiàn)業(yè)務(wù)中斷或數(shù)據(jù)丟失,虛擬化管理崗是可以發(fā)現(xiàn)存儲系統(tǒng)的異常情況的,如上圖所示,如出現(xiàn)存儲控制器、存儲交換機(jī)、HBA、光纖線故障時(shí),路徑的數(shù)量會減少,要及時(shí)報(bào)給存儲系統(tǒng)崗進(jìn)行處置,盡快消除存儲安全隱患。
對于不同的虛擬服務(wù)器,分配硬盤的類型是不一樣的,讀寫性能要求高的優(yōu)先分配SSD存儲,其他的分配非SSD存儲,特殊虛擬服務(wù)器可能需要直通訪問存儲陣列。
9、管理實(shí)踐:與業(yè)務(wù)管理崗的協(xié)同工作
?服務(wù)器虛擬化采用資源池共用的方式進(jìn)行資源分配,服務(wù)器虛擬化管理崗要了解虛擬化服務(wù)器的內(nèi)部運(yùn)行軟件情況,以最優(yōu)的策略進(jìn)行CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)的調(diào)配,實(shí)現(xiàn)運(yùn)行效率和資源利用的最大化。
10、管理實(shí)踐:與上級領(lǐng)導(dǎo)的協(xié)同工作
??????上級領(lǐng)導(dǎo)是方向的引導(dǎo)者,也是資源的提供者,企業(yè)的服務(wù)器虛擬化規(guī)范大小與上級領(lǐng)導(dǎo)的關(guān)注與支持密切相關(guān)。管理崗要在保障安全運(yùn)行的基礎(chǔ)上,持續(xù)加強(qiáng)上級領(lǐng)導(dǎo)對服務(wù)器虛擬化的信心,持續(xù)向上級領(lǐng)導(dǎo)輸出服務(wù)器虛擬化的價(jià)值,持續(xù)爭取上級領(lǐng)導(dǎo)對虛擬化系統(tǒng)的投入。
如果上級領(lǐng)導(dǎo)暫時(shí)對服務(wù)器虛擬化缺乏信心,可以從測試環(huán)境做起,交給漂亮答卷后再部署生產(chǎn)服務(wù)虛擬化環(huán)境。
三、結(jié)束語
服務(wù)器虛擬化平臺是企業(yè)基礎(chǔ)架構(gòu)的重要組成部分,辦公類和測試類建議全面采用虛擬服務(wù)器,對于證券、期貨實(shí)時(shí)交易系統(tǒng)等特別重要的生產(chǎn)服務(wù)器,建議采用物理服務(wù)器。
服務(wù)器虛擬化平臺管理是具有一定專業(yè)性要求的工作,筆者作為技術(shù)愛好者對服務(wù)器虛擬化管理了解非常有限,不當(dāng)之處望各位專家指正。