云南農(nóng)信×云日志:金融機(jī)構(gòu)日志大數(shù)據(jù)分析平臺(tái)實(shí)踐

今天聊案例之前,我們先來(lái)聊另外一個(gè)話題:“黑匣子”。

沒(méi)錯(cuò),就是飛機(jī)的“黑匣子”。黑匣子是記載飛行數(shù)據(jù)和駕駛艙通話的設(shè)備,它可以記載飛機(jī)停止作業(yè)前25小時(shí)的飛行數(shù)據(jù)以及30分鐘到2小時(shí)不等的通訊錄音。

世界上所有的空難發(fā)生原因都是經(jīng)過(guò)黑匣子分析出來(lái)的,埃塞俄比亞航空墜機(jī)事件,黑匣子的數(shù)據(jù)目前已在法國(guó)被下載,用于研究此次墜機(jī)事件的成因。

因而它就成了空難事故的見(jiàn)證和“前車之鑒”,黑匣子雖然在平常不起眼,可是卻是飛機(jī)上一個(gè)非常重要的部件,也是飛機(jī)出事后唯一重要的部件。

在互聯(lián)網(wǎng)領(lǐng)域也有和“黑匣子”一樣,看起來(lái)不起眼,但是卻非常重要的一種數(shù)據(jù)。

網(wǎng)絡(luò)設(shè)備、系統(tǒng)及服務(wù)程序等,在運(yùn)作時(shí)都會(huì)產(chǎn)生一種叫?log?的事件記錄;每一行日志都記載著日期、時(shí)間、使用者及動(dòng)作等相關(guān)操作的描述。

和黑匣子一樣,通過(guò)對(duì)日志數(shù)據(jù)的分析,我們可以對(duì)系統(tǒng)設(shè)備進(jìn)行故障定位、了解APP和電商網(wǎng)站上的用戶行為習(xí)慣和消費(fèi)偏好、對(duì)員工的IT操作行為進(jìn)行內(nèi)部審計(jì),像之前程序員離職為了泄憤刪除公司寶貴數(shù)據(jù)的行為,可以進(jìn)行溯源查詢...

日志數(shù)據(jù)價(jià)值巨大,而且不同于只能做記錄的黑匣子一樣,日志數(shù)據(jù)可以進(jìn)行實(shí)時(shí)分析,及時(shí)止損,故障預(yù)測(cè)等保障整體業(yè)務(wù)穩(wěn)定運(yùn)行。

云南農(nóng)信×云日志EasyLog共同打造日志運(yùn)維數(shù)據(jù)分析平臺(tái)

云南省農(nóng)村信用社(以下簡(jiǎn)稱云南農(nóng)信),目前該農(nóng)信社已經(jīng)穩(wěn)居全省金融機(jī)構(gòu)首位,營(yíng)業(yè)網(wǎng)點(diǎn)達(dá)到2335個(gè),自助設(shè)備有13800余臺(tái),同時(shí)也有不斷推進(jìn)ATM機(jī)具、pos機(jī)、自助警銀亭,惠農(nóng)支付服務(wù)店等等自助渠道,讓客戶隨時(shí)隨地享受金融化服務(wù)。

隨著業(yè)務(wù)系統(tǒng)的迅速發(fā)展,極大地提升省聯(lián)社業(yè)務(wù)運(yùn)營(yíng)能力的同時(shí),本身的復(fù)雜性也大大增加,系統(tǒng)產(chǎn)生的事件及問(wèn)題不斷增多,各項(xiàng)事件和問(wèn)題的都存在很強(qiáng)的關(guān)聯(lián)性、依賴性。

但是各系統(tǒng)數(shù)據(jù)孤島的狀態(tài)直接導(dǎo)致了運(yùn)維數(shù)據(jù)難以關(guān)聯(lián)分析,拉長(zhǎng)了解決問(wèn)題的時(shí)間周期,對(duì)云南農(nóng)信自身的運(yùn)維能力帶來(lái)新的挑戰(zhàn)。

2016年9月,中國(guó)銀監(jiān)會(huì)印發(fā)《銀行業(yè)金融機(jī)構(gòu)全面風(fēng)險(xiǎn)管理指引》指出:

第四十三條?銀行業(yè)金融機(jī)構(gòu)應(yīng)當(dāng)建立與業(yè)務(wù)規(guī)模、風(fēng)險(xiǎn)狀況等相匹配的信息科技基礎(chǔ)設(shè)施。

第四十四條?銀行業(yè)金融機(jī)構(gòu)應(yīng)當(dāng)建立健全數(shù)據(jù)質(zhì)量控制機(jī)制,積累真實(shí)、準(zhǔn)確、連續(xù)、完整的內(nèi)部和外部數(shù)據(jù),用于風(fēng)險(xiǎn)識(shí)別、計(jì)量、評(píng)估、監(jiān)測(cè)、報(bào)告,以及資本和流動(dòng)性充足情況的評(píng)估。

在這樣的背景下,云南農(nóng)信經(jīng)過(guò)了長(zhǎng)期的考察和商討,最終選擇了為多家知名企業(yè)搭建運(yùn)維數(shù)據(jù)分析平臺(tái)的智能運(yùn)維專家——云日志EasyLog團(tuán)隊(duì)

從客戶的實(shí)際情況出發(fā),云掣日志團(tuán)隊(duì)為客戶構(gòu)建了完整的日志平臺(tái)建設(shè)方案,并一起打造運(yùn)維數(shù)據(jù)分析平臺(tái)。

1. 方案設(shè)計(jì)


在與云南農(nóng)信深入的溝通和交流中,我們發(fā)現(xiàn)當(dāng)前的運(yùn)維建設(shè)還是比較傳統(tǒng)的:主要以IT資源(包括硬件、軟件和網(wǎng)絡(luò)設(shè)備等)的管理為核心,資源的信息非常完備,但是對(duì)于資源上面支撐的業(yè)務(wù)應(yīng)用運(yùn)行狀況的采集和分析相對(duì)缺乏。

在銀行的業(yè)務(wù)應(yīng)用系統(tǒng)中,大量的交易流水、業(yè)務(wù)流水和交易日志中包含了對(duì)于業(yè)務(wù)運(yùn)行狀況最細(xì)節(jié)的描述,如果將這些數(shù)據(jù)收集起來(lái),合理地加以處理和分析,就能實(shí)時(shí)、準(zhǔn)確地反映當(dāng)前業(yè)務(wù)執(zhí)行狀況。同時(shí),將該業(yè)務(wù)涉及的IT資源使用狀態(tài)也一并收集,并進(jìn)行關(guān)聯(lián)分析,從而真正了解 IT 資源如何對(duì)業(yè)務(wù)做出貢獻(xiàn), 并能迅速地根據(jù)業(yè)務(wù)問(wèn)題定位 IT 資源問(wèn)題。


根據(jù)上述深入的調(diào)研收獲,云日志團(tuán)隊(duì)提出了6個(gè)建設(shè)目標(biāo),希望幫助該金融機(jī)構(gòu)搭建自己的集中化運(yùn)維數(shù)據(jù)分析平臺(tái):


支持多源數(shù)據(jù)采集的日志數(shù)據(jù)統(tǒng)一管理中心:整合數(shù)據(jù),建設(shè)統(tǒng)一采集管理平臺(tái),進(jìn)行數(shù)據(jù)采集和管理,包括監(jiān)控系統(tǒng)數(shù)(例如網(wǎng)絡(luò)鏡像數(shù)據(jù)、Tivoli數(shù)據(jù)等)、日志數(shù)據(jù)、數(shù)據(jù)庫(kù)數(shù)據(jù)等。

基于流式計(jì)算的數(shù)據(jù)處理分析平臺(tái):云日志平臺(tái)自帶高效數(shù)據(jù)分析能力,挖掘數(shù)據(jù)中有效信息進(jìn)行關(guān)聯(lián)分析。

數(shù)據(jù)可視化:通過(guò)可視化大屏,讓用戶可以實(shí)時(shí)知悉數(shù)據(jù)動(dòng)態(tài)變化,提高整體運(yùn)維速度和質(zhì)量。

智能報(bào)警機(jī)制:通過(guò)對(duì)預(yù)警閾值自定義,實(shí)現(xiàn)圖形、短信、微信等多種方式預(yù)警,快速響應(yīng)。

可擴(kuò)展、易于管理:運(yùn)維數(shù)據(jù)分析平臺(tái)應(yīng)具備高效、可擴(kuò)展、易于管理、維護(hù)等特性。

節(jié)省運(yùn)營(yíng)成本:通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)的實(shí)時(shí)監(jiān)控管理,降低業(yè)務(wù)運(yùn)營(yíng)成本,提高業(yè)務(wù)運(yùn)維效率,達(dá)到自動(dòng)化運(yùn)維效果。

整個(gè)運(yùn)維數(shù)據(jù)分析平臺(tái)建設(shè)的核心思想在于通過(guò)實(shí)時(shí)采集業(yè)務(wù)運(yùn)行數(shù)據(jù)(如客戶交易流水、業(yè)務(wù)執(zhí)行流水、日志等),以及實(shí)時(shí)系統(tǒng)運(yùn)行數(shù)據(jù)(包括應(yīng)用服務(wù)器、中間件、數(shù)據(jù)庫(kù)和主機(jī)等),然后通過(guò)一定的數(shù)據(jù)模型將這些數(shù)據(jù)關(guān)聯(lián)起來(lái),以業(yè)務(wù)的角度動(dòng)態(tài)展示,并使用一系列算法進(jìn)行在線和離線分析,并使系統(tǒng)根據(jù)分析結(jié)果進(jìn)行自動(dòng)化處理,從而達(dá)到將企業(yè)業(yè)務(wù)運(yùn)行狀況和IT資源協(xié)同監(jiān)控和管理的目的。


從圖中我們可以看到整個(gè)系統(tǒng)工作的邏輯過(guò)程。


首先是數(shù)據(jù)采集服務(wù)器從業(yè)務(wù)系統(tǒng)和其對(duì)應(yīng)的IT資源中,實(shí)時(shí)獲取相應(yīng)的運(yùn)行狀態(tài)數(shù)據(jù),經(jīng)過(guò)預(yù)處理之后,向兩個(gè)方向發(fā)送:

一個(gè)方向是監(jiān)控分析服務(wù)器,在其中對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,主要是報(bào)表引擎對(duì)數(shù)據(jù)進(jìn)行格式化之后,產(chǎn)生動(dòng)態(tài)報(bào)表,業(yè)務(wù)規(guī)則引擎判斷數(shù)據(jù)是否具有某種特點(diǎn)從而激活對(duì)應(yīng)的業(yè)務(wù)規(guī)則;

另一個(gè)方向是將這些原始數(shù)據(jù)存儲(chǔ)在適合流式數(shù)據(jù)的數(shù)據(jù)庫(kù)中,并結(jié)合相應(yīng)的管理數(shù)據(jù),由數(shù)據(jù)分析引擎進(jìn)行更為全面和復(fù)雜的數(shù)據(jù)分析。系統(tǒng)提供一個(gè) web 應(yīng)用界面,使得監(jiān)控人員、管理人員和數(shù)據(jù)分析人員能夠通過(guò)標(biāo)準(zhǔn)的IE 瀏覽器訪問(wèn)應(yīng)用。

2. 方案效果

及時(shí)掌握業(yè)務(wù)運(yùn)轉(zhuǎn)狀況,避免誤操作

通過(guò)實(shí)時(shí)動(dòng)態(tài)展示業(yè)務(wù)的運(yùn)行狀況和關(guān)鍵信息,幫助管理人員及時(shí)掌握當(dāng)前業(yè)務(wù)運(yùn)行狀態(tài),觀察業(yè)務(wù)運(yùn)行的變化趨勢(shì),并快速判斷業(yè)務(wù)是否正常,做好提前應(yīng)對(duì)措施。

?IT運(yùn)行狀況可視化

直觀地展現(xiàn)為實(shí)現(xiàn)某個(gè)業(yè)務(wù)功能/能力,IT資源以何種方式運(yùn)轉(zhuǎn)。通過(guò)以拓?fù)鋱D展現(xiàn)業(yè)務(wù)服務(wù)、應(yīng)用和底層IT系統(tǒng)構(gòu)架部件之間的動(dòng)態(tài)關(guān)系,增進(jìn)對(duì)各種IT 元素的掌控和理解,并及時(shí)發(fā)現(xiàn)業(yè)務(wù)瓶頸。

?從業(yè)務(wù)角度管理IT資源

幫助IT部門(mén)實(shí)時(shí)了解、掌控業(yè)務(wù)部門(mén)對(duì)IT服務(wù)的使用體驗(yàn),方便IT部門(mén)根據(jù)業(yè)務(wù)影響和 SLA(Service Level Agreement)來(lái)對(duì)IT服務(wù)進(jìn)行管理,并及時(shí)進(jìn)行 IT 資源的優(yōu)化配置。

加快問(wèn)題解決

主動(dòng)地幫助你在第一時(shí)間發(fā)現(xiàn)問(wèn)題,以便在問(wèn)題對(duì)用戶造成不利影響之前,及時(shí)得到隔離、診斷和修復(fù),把它們對(duì)業(yè)務(wù)的干擾降到最低。同時(shí)支持自動(dòng)處理能力,提高管理人員效率的同時(shí)降低人為操作的風(fēng)險(xiǎn)。

實(shí)現(xiàn)業(yè)務(wù)-服務(wù)-資源相互依賴關(guān)系的深入分析

通過(guò)系統(tǒng)內(nèi)部的依賴關(guān)系,結(jié)合業(yè)務(wù)和IT 資源等大數(shù)據(jù),挖掘內(nèi)部的相互關(guān)系,深入分析業(yè)務(wù)問(wèn)題的根源,從而實(shí)現(xiàn)IT 和業(yè)務(wù)的全面融合。

3、客戶體驗(yàn)

通過(guò)為IT 運(yùn)營(yíng)部門(mén)提供可以全面了解業(yè)務(wù)/IT運(yùn)形狀況的儀表板和數(shù)據(jù)可視化大屏,幫助用戶主動(dòng)根據(jù)業(yè)務(wù)影響對(duì)IT服務(wù)進(jìn)行管理。

例如,儀表板通過(guò)顏色來(lái)顯示業(yè)務(wù)/IT資源的健康狀況和繁忙層度,當(dāng)某個(gè)業(yè)務(wù)出現(xiàn)了問(wèn)題,其狀態(tài)就會(huì)顯示紅色,對(duì)應(yīng)的健康度指標(biāo)就會(huì)指向相應(yīng)的區(qū)間。

大屏數(shù)據(jù)指標(biāo):現(xiàn)金流向、交易情況、轉(zhuǎn)賬情況、交易金額、響應(yīng)速度、成功率、ATM機(jī)交易排名、信貸監(jiān)控

可以在一個(gè)窗口中觀察到該業(yè)務(wù)相關(guān)的IT資源的狀況,如果對(duì)哪個(gè)部分感到疑慮,就可以立即點(diǎn)擊該資源向下逐層鉆取,最終發(fā)現(xiàn)問(wèn)題,然后及時(shí)地進(jìn)行修復(fù),以免問(wèn)題進(jìn)一步惡化,而造成服務(wù)中斷。

整個(gè)運(yùn)維數(shù)據(jù)的集中,尤其是對(duì)日志的整合處理,把以前無(wú)序雜亂的日志整合解析,形成完整的交易事件,解決了業(yè)務(wù)排障的大問(wèn)題,通過(guò)平臺(tái)提供的搜索功能,業(yè)務(wù)排障從以前的幾個(gè)小時(shí)縮短到幾分鐘。

以前由于主機(jī)資源的限制,主機(jī)上只能保留最近交易日志,其他日志備份到帶庫(kù)。給后續(xù)查詢帶來(lái)很大麻煩,如需要恢復(fù)環(huán)境準(zhǔn)備,恢復(fù)效率低,查詢多日的需要恢復(fù)多次,同時(shí)數(shù)據(jù)量大,導(dǎo)致恢復(fù)時(shí)間長(zhǎng),限制有了大數(shù)據(jù)存儲(chǔ)平臺(tái),日志可以長(zhǎng)期保留,滿足了對(duì)柜員操作的審計(jì)和對(duì)業(yè)務(wù)分析的回溯。


后續(xù),云掣日志團(tuán)隊(duì)將會(huì)為云南農(nóng)信進(jìn)一步提供智能運(yùn)維服務(wù),保障金融業(yè)務(wù)的高效運(yùn)行和IT運(yùn)維的智能化進(jìn)程。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容