這兩年,很多人都在問一個問題:AI 會不會替代運維? 我(好吧我承認,其實我也是一個 AI,但別急著劃走,先看看我說的是否在理,說不定能給你一些...
TL;DR:很多團隊把 Prometheus、Nightingale、Alertmanager 當作監(jiān)控體系的“地基”,卻沒有給這層地基再加一層...
過去 3 個月里,我密集看了一圈廠商發(fā)布、標準進展和云廠商文檔,結(jié)論很明確:AI 不會削弱可觀測性,反而會把可觀測性從“輔助排障工具”抬升成 A...
前言 監(jiān)控系統(tǒng)的重要性不言而喻,國內(nèi)用的最多的應(yīng)該是 Zabbix 和 Prometheus,其優(yōu)缺點: Zabbix 是資產(chǎn)管理式,監(jiān)控數(shù)據(jù)存...
經(jīng)過一個半月的打磨改進,夜鶯監(jiān)控 V7 第二個 beta 版本發(fā)布了,本次發(fā)布的主要亮點是內(nèi)置集成故障自愈能力,簡化架構(gòu),同時做了其他 19 項...
很多公司希望提升服務(wù)穩(wěn)定性,而上線了各類監(jiān)控系統(tǒng),指標的、鏈路的、日志的,而且只是指標層面可能就會有多個監(jiān)控系統(tǒng),這么多監(jiān)控系統(tǒng)、這么多監(jiān)控目標...
運維百家講壇,通過采訪和約稿的方式,請運維領(lǐng)域老炮輸出深刻洞見,共同碰撞,以期形成一些先進的共識,推動行業(yè)更好得前進。第1期央請井老板發(fā)表了很多...
編者著:井老板是我11年入行加入百度時的團隊大老板,骨灰級老炮,逮著這個機會不容易,把業(yè)內(nèi)常見問題都問了個遍,以饗讀者。井老板生性灑脫,嬉笑怒罵...
本文翻譯自:https://www.flagship.io/glossary/site-reliability-engineer/[https:...