技術保障團隊——踐行SRE
SRE(Site Reliability Engineer),Google從創(chuàng)業(yè)之初就有這個職位并逐步沉淀出一套SRE理念,近兩年國內(nèi)互聯(lián)網(wǎng)企業(yè)也紛紛引入。
SRE團隊對云產(chǎn)品穩(wěn)定性最終責任,運用全棧技術能力,從技術規(guī)范-監(jiān)控體系-風險管理-自動化工具多角度入手,持續(xù)提升產(chǎn)品的穩(wěn)定性及性能。
那么,雅座是否需要SRE?答案是肯定的
我們走過12年的歷程,從最早的會員1.0->2.0->3.0,到雅座智能1.0->雅座收銀2.0。產(chǎn)品越來越強大、并覆蓋餐廳運營全周期的同時,餐廳對產(chǎn)品穩(wěn)定性的要求也越來越高。最開始,故障影響的只是報表,后來故障影響客戶會員積分交易,到現(xiàn)在,一個小小的故障都會影響客戶點餐、后廚打印、外賣接單,直接導致餐廳徹底癱瘓。很難想象出哪家互聯(lián)網(wǎng)企業(yè),會比我們更需要SRE。
技術保障部成立
7月,運維團隊被重新命名為【技術保障部】,這是對團隊的重新定位,對未來團隊價值的展望。
使命:
打造產(chǎn)品穩(wěn)定性的強力保障體系,確保穩(wěn)定性成為公司產(chǎn)品的核心競爭力之一。
職責:
1、運維及自動化;
2、建立穩(wěn)定性/性能相關的技術保障體系:風險管理-技術規(guī)范-監(jiān)控-自動化工具;
3、數(shù)據(jù)安全保障;
18年的目標:
1、初步建立公司層面的SRE保障體系,并切實有效,使收銀2.0新產(chǎn)品線事故數(shù)比1.0下降80%。
2、運維自動化能力建設,運維及自動化團隊控制在8人以下,高效管理5000臺服務器、支撐5W家門店。
3、在無錫培養(yǎng)一支團隊,能夠獨立承擔運維自動化、SRE大部分工作。
6-7月我們的成果
技術規(guī)范
《需求評審規(guī)范1.0》、《代碼報錯及執(zhí)行超時規(guī)范1.0》、《上線流程規(guī)范1.0》,不但規(guī)范成型,還跟進了監(jiān)控、統(tǒng)計日報等技術手段,確保規(guī)范能夠真正落地。
我們的職責是讓這些規(guī)范在未來持續(xù)完善、補充和持續(xù)落地,相信能夠成為技術團隊的一筆寶貴財富。
風險管理
1、每周一次的風險梳理、排期、升級流程,持續(xù)運作。
2、重點推進解決了【大白鯊依賴小雅CRM】、【Api層授權補充】、【運維操作規(guī)范執(zhí)行難】幾個重點風險。
灰度環(huán)境2.0
1、業(yè)務團隊可任選商戶,10分鐘內(nèi)完成生產(chǎn)<->灰度的流量切換,用真實客戶流量試點新版本代碼。
2、高度仿真生產(chǎn)環(huán)境,共享一套網(wǎng)關、數(shù)據(jù)庫、緩存、MQ、配置文件,并有效隔離。
3、從代碼框架、代碼規(guī)范、網(wǎng)關二次開發(fā)等多維度入手,全面支持收銀2.0從點餐-下單-POS出單-支付-BOH的整個營業(yè)場景,涉及60多個應用程序,研發(fā)只需極少量代碼改動。
4、原定8.17日上線,因業(yè)務要求提前到8.1,調(diào)集資源,客服各種技術難題/疑難BUG,如期上線并完成試點。
5、大部分工作由無錫團隊承擔,不論是代碼框架編寫、Nginx二次開發(fā)、外部資源協(xié)調(diào)。
運維平臺
一鍵完成App遷移、簡單擴容。
研發(fā)人員可自助完成緩存、MQ消息的查詢。
配置中心正式上線,具備推廣條件。
未來
下半年還有5個月,性能提升、代碼規(guī)范推進、監(jiān)控系統(tǒng)深入、灰度環(huán)境2.1、服務器集群管理、一鍵擴容等等,都給我們帶來全新的挑戰(zhàn)。
SRE團隊的每一位伙伴,不論你過去擅長編碼、數(shù)據(jù)庫、網(wǎng)絡、運維,需要我們一起加油!