青青草原综合网,国产日韩欧美精品,亚洲色播久久五月

前言介紹

監(jiān)控是整個(gè)運(yùn)維乃至整個(gè)產(chǎn)品生命周期中最重要的一環(huán)，事前及時(shí)預(yù)警發(fā)現(xiàn)故障，事后提供詳實(shí)的數(shù)據(jù)用于追查定位問題。

目前業(yè)界有很多不錯(cuò)的開源產(chǎn)品可供選擇。選擇一款開源的監(jiān)控系統(tǒng)，是一個(gè)省時(shí)省力，效率最高的方案。當(dāng)然對(duì)監(jiān)控不是很明白的朋友們，看了以下文章可能會(huì)對(duì)監(jiān)控整個(gè)體系有比較深刻的認(rèn)識(shí)。

ps:本文內(nèi)容較多，文章篇幅很長，可以先收藏，后續(xù)慢慢閱讀。

作者介紹

徐亮偉，江湖人稱標(biāo)桿徐，曾負(fù)責(zé)大規(guī)模集群架構(gòu)自動(dòng)化運(yùn)維工作。擅長自動(dòng)化運(yùn)維，并且在分布式、Python自動(dòng)化、云計(jì)算虛擬化等領(lǐng)域有較深入研究。個(gè)人博客：徐亮偉架構(gòu)師之路

筆者Q:552408925、572891887 ? 架構(gòu)師群:471443208

0 監(jiān)控目標(biāo)

我們先來了解什么是監(jiān)控，監(jiān)控的重要性以及監(jiān)控的目標(biāo)，當(dāng)然每個(gè)人所在的行業(yè)不同、公司不同、業(yè)務(wù)不同、崗位不同、對(duì)監(jiān)控的理解也不同，但是我們需要注意，監(jiān)控是需要站在公司的業(yè)務(wù)角度去考慮，而不是針對(duì)某個(gè)監(jiān)控技術(shù)的使用。

監(jiān)控目標(biāo)

1.對(duì)系統(tǒng)不間斷實(shí)時(shí)監(jiān)控:實(shí)際上是對(duì)系統(tǒng)不間斷的實(shí)時(shí)監(jiān)控(這就是監(jiān)控)

2.實(shí)時(shí)反饋系統(tǒng)當(dāng)前狀態(tài):我們監(jiān)控某個(gè)硬件、或者某個(gè)系統(tǒng)，都是需要能實(shí)時(shí)看到當(dāng)前系統(tǒng)的狀態(tài)，是正常、異常、或者故障

3.保證服務(wù)可靠性安全性:我們監(jiān)控的目的就是要保證系統(tǒng)、服務(wù)、業(yè)務(wù)正常運(yùn)行

4.保證業(yè)務(wù)持續(xù)穩(wěn)定運(yùn)行:如果我們的監(jiān)控做得很完善，即使出現(xiàn)故障，能第一時(shí)間接收到故障報(bào)警，在第一時(shí)間處理解決，從而保證業(yè)務(wù)持續(xù)性的穩(wěn)定運(yùn)行。

1 監(jiān)控方法

既然我們了解到了監(jiān)控的重要性、以及監(jiān)控的目的，那么下面我們需要了解下監(jiān)控有哪些方法。

監(jiān)控方法

1.了解監(jiān)控對(duì)象:我們要監(jiān)控的對(duì)象你是否了解呢？比如CPU到底是如何工作的？

2.性能基準(zhǔn)指標(biāo):我們要監(jiān)控這個(gè)東西的什么屬性？比如CPU的使用率、負(fù)載、用戶態(tài)、內(nèi)核態(tài)、上下文切換。

3.報(bào)警閾值定義:怎么樣才算是故障，要報(bào)警呢？比如CPU的負(fù)載到底多少算高，用戶態(tài)、內(nèi)核態(tài)分別跑多少算高？

4.故障處理流程:收到了故障報(bào)警，那么我們?cè)趺刺幚砟?？有什么更高效的處理流程嗎?/p>

2 監(jiān)控核心

我們了解了監(jiān)控的方法、監(jiān)控對(duì)象、性能指標(biāo)、報(bào)警閾值定義、以及故障處理流程幾步驟，當(dāng)然我們更需要知道監(jiān)控的核心是什么？

監(jiān)控核心

1.發(fā)現(xiàn)問題:當(dāng)系統(tǒng)發(fā)生故障報(bào)警，我們會(huì)收到故障報(bào)警的信息

2.定位問題:故障郵件一般都會(huì)寫某某主機(jī)故障、具體故障的內(nèi)容，我們需要對(duì)報(bào)警內(nèi)容進(jìn)行分析，比如一臺(tái)服務(wù)器連不上:我們就需要考慮是網(wǎng)絡(luò)問題、還是負(fù)載太高導(dǎo)致長時(shí)間無法連接，又或者某開發(fā)觸發(fā)了防火墻禁止的相關(guān)策略等等，我們就需要去分析故障具體原因。

3.解決問題:當(dāng)然我們了解到故障的原因后，就需要通過故障解決的優(yōu)先級(jí)去解決該故障。

4.總結(jié)問題:當(dāng)我們解決完重大故障后，需要對(duì)故障原因以及防范進(jìn)行總結(jié)歸納，避免以后重復(fù)出現(xiàn)。

3 監(jiān)控工具

下面我們需要選擇一款合適公司業(yè)務(wù)的監(jiān)控工具進(jìn)行監(jiān)控,這里我對(duì)監(jiān)控工具進(jìn)行了簡(jiǎn)單的分類

監(jiān)控工具

老牌監(jiān)控:

MRTG（Multi Route Trffic Grapher）是一套可用來繪制網(wǎng)絡(luò)流量圖的軟件，由瑞士奧爾滕的Tobias? Oetiker與Dave Rand所開發(fā)，以GPL授權(quán)。

MRTG最好的版本是1995年推出的，用perl語言寫成，可跨平臺(tái)使用，數(shù)據(jù)采集用SNMP協(xié)議，MRTG將手機(jī)到的數(shù)據(jù)通過Web頁面以GIF或者PNG格式繪制出圖像。

Grnglia是一個(gè)跨平臺(tái)的、可擴(kuò)展的、高性能的分布式監(jiān)控系統(tǒng)，如集群和網(wǎng)格。它基于分層設(shè)計(jì)，使用廣泛的技術(shù)，用RRDtool存儲(chǔ)數(shù)據(jù)。具有可視化界面，適合對(duì)集群系統(tǒng)的自動(dòng)化監(jiān)控。其精心設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)和算法使得監(jiān)控端到被監(jiān)控端的連接開銷非常低。目前已經(jīng)有成千上萬的集群正在使用這個(gè)監(jiān)控系統(tǒng)，可以輕松的處理2000個(gè)節(jié)點(diǎn)的集群環(huán)境。

Cacti（英文含義為仙人掌）是一套基于PHP、MySQL、SNMP和RRDtool開發(fā)的網(wǎng)絡(luò)流量監(jiān)測(cè)圖形分析工具，它通過snmpget來獲取數(shù)據(jù)使用RRDtool繪圖，但使用者無須了解RRDtool復(fù)雜的參數(shù)。提供了非常強(qiáng)大的數(shù)據(jù)和用戶管理功能，可以指定每一個(gè)用戶能查看樹狀結(jié)構(gòu)、主機(jī)設(shè)備以及任何一張圖，還可以與LDAP結(jié)合進(jìn)行用戶認(rèn)證，同時(shí)也能自定義模板。在歷史數(shù)據(jù)展示監(jiān)控方面，其功能相當(dāng)不錯(cuò)。

Cacti通過添加模板，使不同設(shè)備的監(jiān)控添加具有可復(fù)用性，并且具備可自定義繪圖的功能，具有強(qiáng)大的運(yùn)算能力（數(shù)據(jù)的疊加功能）

Nagios是一個(gè)企業(yè)級(jí)監(jiān)控系統(tǒng)，可監(jiān)控服務(wù)的運(yùn)行狀態(tài)和網(wǎng)絡(luò)信息等，并能監(jiān)視所指定的本地或遠(yuǎn)程主機(jī)狀態(tài)以及服務(wù)，同時(shí)提供異常告警通知功能等。

Nagios可運(yùn)行在Linux和UNIX平臺(tái)上。同時(shí)提供Web界面，以方便系統(tǒng)管理人員查看網(wǎng)絡(luò)狀態(tài)、各種系統(tǒng)問題、以及系統(tǒng)相關(guān)日志等

Nagios的功能側(cè)重于監(jiān)控服務(wù)的可用性，能根據(jù)監(jiān)控指標(biāo)狀態(tài)觸發(fā)告警。

目前Nagios也占領(lǐng)了一定的市場(chǎng)份額，不過Nagios并沒有與時(shí)俱進(jìn)，已經(jīng)不能滿足于多變的監(jiān)控需求，架構(gòu)的擴(kuò)展性和使用的便捷性有待增強(qiáng)，其高級(jí)功能集成在商業(yè)版Nagios XI中。

Smokeping主要用于監(jiān)視網(wǎng)絡(luò)性能，包括常規(guī)的ping、www服務(wù)器性能、DNS查詢性能、SSH性能等。底層也是用RRDtool做支持，特點(diǎn)是繪制圖非常漂亮，網(wǎng)絡(luò)丟包和延遲用顏色和陰影來標(biāo)示，支持將多張圖疊放在一起，其作者還開發(fā)了MRTG和RRDtll等工具。

Smokeping的站點(diǎn)為：http://tobi.oetiker.cn/hp

開源監(jiān)控系統(tǒng)OpenTSDB用Hbase存儲(chǔ)所有時(shí)序（無須采樣）的數(shù)據(jù)，來構(gòu)建一個(gè)分布式、可伸縮的時(shí)間序列數(shù)據(jù)庫。它支持秒級(jí)數(shù)據(jù)采集，支持永久存儲(chǔ)，可以做容量規(guī)劃，并很容易地接入到現(xiàn)有的告警系統(tǒng)里。

OpenTSDB可以從大規(guī)模的集群（包括集群中的網(wǎng)絡(luò)設(shè)備、操作系統(tǒng)、應(yīng)用程序）中獲取相應(yīng)的采集指標(biāo)，并進(jìn)行存儲(chǔ)、索引和服務(wù)，從而使這些數(shù)據(jù)更容易讓人理解，如Web化、圖形化等。

王牌監(jiān)控

Zabbix是一個(gè)分布式監(jiān)控系統(tǒng)，支持多種采集方式和采集客戶端，有專用的Agent代理，也支持SNMP、IPMI、JMX、Telnet、SSH等多種協(xié)議，它將采集到的數(shù)據(jù)存放到數(shù)據(jù)庫，然后對(duì)其進(jìn)行分析整理，達(dá)到條件觸發(fā)告警。其靈活的擴(kuò)展性和豐富的功能是其他監(jiān)控系統(tǒng)所不能比的。相對(duì)來說，它的總體功能做的非常優(yōu)秀。

從以上各種監(jiān)控系統(tǒng)的對(duì)比來看，Zabbix都是具有優(yōu)勢(shì)的，其豐富的功能、可擴(kuò)展的能力、二次開發(fā)的能力和簡(jiǎn)單易用的特點(diǎn)，讀者只要稍加學(xué)習(xí)，即可構(gòu)建自己的監(jiān)控系統(tǒng)。

小米的監(jiān)控系統(tǒng)：open-falcon。open-falcon的目標(biāo)是做最開放、最好用的互聯(lián)網(wǎng)企業(yè)級(jí)監(jiān)控產(chǎn)品。

OWL是TalkingData公司推出的一款開源分布式監(jiān)控系統(tǒng)OWLgithub地址

三方監(jiān)控:

現(xiàn)在市場(chǎng)上有很多不錯(cuò)的第三方監(jiān)控，比如：監(jiān)控寶、監(jiān)控易、聽云、還有很多云廠商自帶監(jiān)控，但是在這里我們不打算著重介紹，如果想了解三方監(jiān)控可自行上官網(wǎng)咨詢。（避免說廣告植入）

4 監(jiān)控流程

上面介紹了這么多，那么到底選擇什么監(jiān)控工具最合適呢，我這里推薦幾款開源監(jiān)控工具:zabbix、Open-Falcon、LEPUS天兔(專用于監(jiān)控?cái)?shù)據(jù)庫)。

但是本文還是基于zabbix來構(gòu)建整個(gè)監(jiān)控體系生態(tài)圈。

那么下面我們就來聊聊，zabbix的整個(gè)監(jiān)控流程：

監(jiān)控流程

1.數(shù)據(jù)采集:Zabbix通過SNMP、Agent、ICMP、SSH、IPMI等對(duì)系統(tǒng)進(jìn)行數(shù)據(jù)采集

2.數(shù)據(jù)存儲(chǔ):Zabbix存儲(chǔ)在MySQL上，也可以存儲(chǔ)在其他數(shù)據(jù)庫服務(wù)

3.數(shù)據(jù)分析:當(dāng)我們事后需要復(fù)盤分析故障時(shí)，zabbix能給我們提供圖形以及時(shí)間等相關(guān)信息，方面我們確定故障所在。

4.數(shù)據(jù)展示:web界面展示、(移動(dòng)APP、java_php開發(fā)一個(gè)web界面也可以)

5.監(jiān)控報(bào)警:電話報(bào)警、郵件報(bào)警、微信報(bào)警、短信報(bào)警、報(bào)警升級(jí)機(jī)制等（無論什么報(bào)警都可以）

6.報(bào)警處理:當(dāng)接收到報(bào)警，我們需要根據(jù)故障的級(jí)別進(jìn)行處理，比如:重要緊急、重要不緊急，等。根據(jù)故障的級(jí)別，配合相關(guān)的人員進(jìn)行快速處理。

5 監(jiān)控指標(biāo)

我們上面了解了監(jiān)控方法、目標(biāo)、流程、也了解了監(jiān)控有哪些工具，可能有人會(huì)疑惑，我們具體要監(jiān)控寫什么東西，那么我在這里進(jìn)行了分類整理:

硬件監(jiān)控

系統(tǒng)監(jiān)控

應(yīng)用監(jiān)控

網(wǎng)絡(luò)監(jiān)控

流量分析

日志監(jiān)控

安全監(jiān)控

API監(jiān)控

性能監(jiān)控

業(yè)務(wù)監(jiān)控

5.1 硬件監(jiān)控

早期我們通過機(jī)房巡檢的方式，查看硬件設(shè)備燈光閃爍情況判斷是否故障，這樣非常浪費(fèi)人力，并且是重復(fù)性無技術(shù)含量的工作，大家懂得。

硬件監(jiān)控

當(dāng)然我們現(xiàn)在可以通過IPMI對(duì)硬件詳細(xì)情況進(jìn)行監(jiān)控，并對(duì)CPU、內(nèi)存、磁盤、溫度、風(fēng)扇、電壓等設(shè)置報(bào)警設(shè)置報(bào)警閾值(自行對(duì)監(jiān)控報(bào)警內(nèi)容編寫合理的報(bào)警范圍)

IPMI監(jiān)控硬件服務(wù)參考資料

IPMI

IPMI工具無法獲取到硬件的狀態(tài)，可以借助MegaCli工具探測(cè)Raid磁盤隊(duì)列狀態(tài)

zabbix提供IPMI監(jiān)控模板：Zabbix IPMI Interface

系統(tǒng)自帶的IPMI模板只能監(jiān)控，風(fēng)扇，電源，和部分溫度

5.2 系統(tǒng)監(jiān)控

中小型企業(yè)基本全是Linux服務(wù)器，那么我們肯定是要監(jiān)控起系統(tǒng)資源的使用情況，系統(tǒng)監(jiān)控是監(jiān)控體系的基礎(chǔ)。

監(jiān)控主要對(duì)象:

系統(tǒng)監(jiān)控

CPU有幾個(gè)重要的概念:上下文切換、運(yùn)行隊(duì)列和使用率。

這也是我們CPU監(jiān)控的幾個(gè)重點(diǎn)指標(biāo)。

通常情況，每個(gè)處理器的運(yùn)行隊(duì)列不要高于3，CPU 利用率中用“戶態(tài)/內(nèi)核態(tài)”比例維持在70/30，空閑狀態(tài)維持在50%，上下文切換要根據(jù)系統(tǒng)繁忙程度來綜合考量。

針對(duì)CPU常用的工具有:htop、top、vmstat、mpstat、dstat、glances

zabbix提供系統(tǒng)監(jiān)控模板：Zabbix Agent Interface

CPU整體狀態(tài)

上下文切換

負(fù)載狀態(tài)

內(nèi)存：通常我們需要監(jiān)控內(nèi)存的使用率、SWAP使用率、同時(shí)可以通過zabbix描繪內(nèi)存使用率的曲線圖形發(fā)現(xiàn)某服務(wù)內(nèi)存溢出等。

針對(duì)內(nèi)存常用的工具有: free、top、vmstat、glances

內(nèi)存使用率

IO分為磁盤IO和網(wǎng)絡(luò)IO。除了在做性能調(diào)優(yōu)我們要監(jiān)控更詳細(xì)的數(shù)據(jù)外，那么日常監(jiān)控，只關(guān)注磁盤使用率、磁盤吞吐量、磁盤寫入繁忙程度，網(wǎng)絡(luò)也是監(jiān)控網(wǎng)卡流量即可。

常用工具有：iostat、iotop、df、iftop、sar、glances

磁盤使用率

磁盤讀/寫吞吐

磁盤讀/寫次數(shù)

網(wǎng)卡進(jìn)出口流量

TCP11種狀態(tài)信息

其它的系統(tǒng)監(jiān)控還有運(yùn)行的進(jìn)程端口、進(jìn)程數(shù)、登陸用戶、Open File等（詳細(xì)查看zabbix自帶OS Linux模板）

其他相關(guān)監(jiān)控

5.3 應(yīng)用監(jiān)控

把硬件監(jiān)控和系統(tǒng)監(jiān)控研究明白后，我們進(jìn)一步操作是需要登陸到服務(wù)器上查看服務(wù)器運(yùn)行了哪些服務(wù)，都需要監(jiān)控起來。

應(yīng)用服務(wù)監(jiān)控也是監(jiān)控體系中比較重要的內(nèi)容，例如：

LVS、Haproxy、Docker、Nginx、PHP、Memcached、Redis、MySQL、Rabbitmq等等，相關(guān)的服務(wù)都需要使用zabbix監(jiān)控起來。

nginx_status

PHP-FPM_status

Redis_status

JVM監(jiān)控

筆者之前寫過服務(wù)監(jiān)控詳細(xì)的操作過程，這里就不一一展示，詳情訪問：zabbix監(jiān)控各種應(yīng)用服務(wù)

zabbix提供應(yīng)用服務(wù)監(jiān)控：Zabbix Agent UserParameter

zabbix提供的Java監(jiān)控：Zabbix JMX Interface

percona提供MySQL數(shù)據(jù)庫監(jiān)控：percona-monitoring-plulgins

5.4 網(wǎng)絡(luò)監(jiān)控

作為一個(gè)針對(duì)全國用戶的電商網(wǎng)站，時(shí)刻掌握各地到機(jī)房的網(wǎng)絡(luò)狀態(tài)也是必須的。

網(wǎng)絡(luò)監(jiān)控是我們構(gòu)建監(jiān)控平臺(tái)是必須要考慮的，尤其是針對(duì)有多個(gè)機(jī)房的場(chǎng)景，各個(gè)機(jī)房之間的網(wǎng)絡(luò)狀態(tài)，機(jī)房和全國各地的網(wǎng)絡(luò)狀態(tài)都是我們需要重點(diǎn)關(guān)注的對(duì)象，那么如何掌握這些狀態(tài)信息呢？我們需要借助于網(wǎng)絡(luò)監(jiān)控工具Smokeping。

Smokeping 是rrdtool的作者Tobi Oetiker的作品，是用Perl寫的，主要是監(jiān)視網(wǎng)絡(luò)性能，www 服務(wù)器性能，dns查詢性能等，使用rrdtool繪圖，而且支持分布式，直接從多個(gè)agent進(jìn)行數(shù)據(jù)的匯總。

同時(shí)，由于自己監(jiān)控點(diǎn)比較少，還可以借助很多商業(yè)的監(jiān)控工具，比如監(jiān)控寶、聽云、基調(diào)、博瑞等。同時(shí)這些服務(wù)提供商還可以幫助你監(jiān)控CDN的狀態(tài)。

smokeping

監(jiān)控寶

5.5 流量分析

網(wǎng)站流量分析對(duì)于運(yùn)維人員來說，更是一門必須掌握的知識(shí)了。比如對(duì)于一家電商公司來說：

通過對(duì)訂單來源的統(tǒng)計(jì)和分析，可以了解我們?cè)谀硞€(gè)網(wǎng)站上的廣告投入有沒有收到預(yù)期的效果。

可以區(qū)分不同地區(qū)的訪問人數(shù)、甚至商品交易額等。

百度統(tǒng)計(jì)、google分析、站長工具等等，只需要在頁面嵌入一個(gè)js即可。

但是，數(shù)據(jù)始終是在對(duì)方手中，個(gè)性化定制不方便，于是google出一個(gè)叫piwik的開源分析工具

piwik

百度統(tǒng)計(jì)

5.6 日志監(jiān)控

通常情況下，隨著系統(tǒng)的運(yùn)行，操作系統(tǒng)會(huì)產(chǎn)生系統(tǒng)日志，應(yīng)用程序會(huì)產(chǎn)生應(yīng)用程序的訪問日志、錯(cuò)誤日志，運(yùn)行日志，網(wǎng)絡(luò)日志，我們可以使用ELK來進(jìn)行日志監(jiān)控。

對(duì)于日志監(jiān)控來說，最見的需求就是收集、存儲(chǔ)、查詢、展示，開源社區(qū)正好有相對(duì)應(yīng)的開源項(xiàng)目：

logstash（收集） + elasticsearch（存儲(chǔ)+搜索） + kibana（展示）

我們將這三個(gè)組合起來的技術(shù)稱之為ELK Stack，所以說ELK Stack指的是Elasticsearch、Logstash、Kibana技術(shù)棧的結(jié)合。

如果收集了日志信息，那么如果部署更新有異常出現(xiàn)，可以立即在kibana上看到。

Elk日志展示

當(dāng)然也可以通過Zabbix過濾錯(cuò)誤日志來進(jìn)行告警。

zabbix日志展示

5.7 安全監(jiān)控

雖然Linux開源的安全產(chǎn)品不少，比如四層iptables，七層WEB防護(hù)nginx+lua實(shí)現(xiàn)WAF，最后將相關(guān)的日志都收至Elkstack，通過圖形化進(jìn)行不同的攻擊類型展示。但是始終是一件比較耗費(fèi)時(shí)間，并且個(gè)人效果并不是很好。這個(gè)時(shí)候我們可以選擇接入第三方服務(wù)廠商。

某某三方安全

三方廠商提供全面的漏洞庫，涵蓋服務(wù)、后門、數(shù)據(jù)庫、配置檢測(cè)、CGI、SMTP等多種類型

全面檢測(cè)主機(jī)、Web應(yīng)用漏洞自主挖掘和行業(yè)共享相結(jié)合第一時(shí)間更新0day漏洞，杜絕最新安全隱患

5.8 API監(jiān)控

由于API變得越來越重要，很顯然我們也需要這樣的數(shù)據(jù)來分辨我們提供的 API是否能夠正常運(yùn)作。

監(jiān)控API接口GET、POST、PUT、DELETE、HEAD、OPTIONS的請(qǐng)求

可用性、正確性、響應(yīng)時(shí)間為三大重性能指標(biāo)

API監(jiān)控

三方API監(jiān)控

響應(yīng)時(shí)間

5.9 性能監(jiān)控

全面監(jiān)控網(wǎng)頁性能，DNS響應(yīng)時(shí)間、HTTP建立連接時(shí)間、頁面性能指數(shù)、響應(yīng)時(shí)間、可用率、元素大小等

zabbix提供URL監(jiān)控：Zabbix Web 監(jiān)控

Zabbix站點(diǎn)監(jiān)控

終端響應(yīng)時(shí)間

第三方監(jiān)控監(jiān)控大盤。各類圖表一目了然，全面體現(xiàn)網(wǎng)頁性能健康狀況。

5.10 業(yè)務(wù)監(jiān)控

沒有業(yè)務(wù)指標(biāo)監(jiān)控的監(jiān)控平臺(tái)，不是一個(gè)完善的監(jiān)控平臺(tái)，通常在我們的監(jiān)控系統(tǒng)中，必須將我們重要的業(yè)務(wù)指標(biāo)進(jìn)行監(jiān)控，并設(shè)置閾值進(jìn)行告警通知。比如電商行業(yè)：

每分鐘產(chǎn)生多少訂單，

每分鐘注冊(cè)多少用戶，

每天有多少活躍用戶，

每天有多少推廣活動(dòng)，

推廣活動(dòng)引入多少用戶，

推廣活動(dòng)引入多少流量，

推廣活動(dòng)引入多少利潤，

今天商品打包出庫多少，

今天退貨商品有多少，

等等? 重要指標(biāo)都可以加入zabbix上，然后通過screen展示。

注：由于業(yè)務(wù)監(jiān)控圖表，涉及到隱私的數(shù)據(jù)太多，就不截圖。

6 監(jiān)控報(bào)警

故障報(bào)警通知的方式有很多種，當(dāng)然我們最常用的還是短信，郵件

短信報(bào)警

郵件報(bào)警

7 報(bào)警處理

一般報(bào)警后我們故障如何處理，首先，我們可以通過告警升級(jí)機(jī)制先自動(dòng)處理，比如nginx服務(wù)down了，可以設(shè)置告警升級(jí)自動(dòng)啟動(dòng)nginx。

但是如果一般業(yè)務(wù)出現(xiàn)了嚴(yán)重故障，我們通常根據(jù)故障的級(jí)別，故障的業(yè)務(wù)，來指派不同的運(yùn)維人員進(jìn)行處理。

當(dāng)然不同業(yè)務(wù)形態(tài)、不同架構(gòu)、不同服務(wù)可能采用的方式都不同，這個(gè)沒有一個(gè)固定的模式套用。

8 面試監(jiān)控

在運(yùn)維面試中，常常會(huì)被問題監(jiān)控相關(guān)的問題，那么這個(gè)問題到底該如何來回答，我針對(duì)本文給大家提供了一個(gè)簡(jiǎn)單的回答思路。

1.硬件監(jiān)控。

通過SNMP來進(jìn)行路由器交換機(jī)的監(jiān)控(這些可以跟一些廠商溝通來了解如何做)、服務(wù)器的溫度以及其他，可以通過IPMI來實(shí)現(xiàn)。當(dāng)然如果沒有硬件全都是云，直接跳過這一步驟。

2.系統(tǒng)監(jiān)控。

如CPU的負(fù)載，上下文切換、內(nèi)存使用率、磁盤讀寫、磁盤使用率、磁盤inode使用率。當(dāng)然這些都是需要配置觸發(fā)器，因?yàn)槟J(rèn)太低會(huì)頻繁報(bào)警。

3.服務(wù)監(jiān)控。

比如公司用的LNMP架構(gòu)，nginx自帶Status模塊、PHP也有相關(guān)的Status、MySQL的話可以通過percona官方工具來進(jìn)行監(jiān)控。Redis這些通過自身的info獲取信息進(jìn)行過濾等。方法都類似。要么服務(wù)自帶。要么通過腳本來實(shí)現(xiàn)想監(jiān)控的內(nèi)容，以及報(bào)警和圖形功能。

4.網(wǎng)絡(luò)監(jiān)控。

如果是云主機(jī)又不是跨機(jī)房，那么可以選擇不監(jiān)控網(wǎng)絡(luò)。當(dāng)然你說我們是跨機(jī)房以及如何如何。推薦使用smokeping來做網(wǎng)絡(luò)相關(guān)的監(jiān)控。或者直接交給你們的網(wǎng)絡(luò)工程師來做，因?yàn)樾g(shù)業(yè)有專攻。

5.安全監(jiān)控。

如果是云主機(jī)可以考慮使用自帶的安全防護(hù)。當(dāng)然也可以使用iptables。如果是硬件，那么推薦使用硬件防火墻。使用云可以購買防DDOS，避免出現(xiàn)故障導(dǎo)致down機(jī)一天。如果是系統(tǒng)，那么權(quán)限、密碼、備份、恢復(fù)等基礎(chǔ)方案要做好。web同時(shí)也可以使用Nginx+Lua來實(shí)現(xiàn)一個(gè)web層面的防火墻。當(dāng)然也可以使用集成好的openresty。

6.Web監(jiān)控。

web監(jiān)控的話題其實(shí)還是很多。比如可以使用自帶的web監(jiān)控來監(jiān)控頁面相關(guān)的延遲、js響應(yīng)時(shí)間、下載時(shí)間、等等。這里我推薦使用專業(yè)的商業(yè)軟件,監(jiān)控寶或聽云來實(shí)現(xiàn)。畢竟人家全國各地都有機(jī)房。（如果本身是多機(jī)房那就另說了）

7.日志監(jiān)控。

如果是web的話可以使用監(jiān)控Nginx的50x、40x的錯(cuò)誤日志，PHP的ERROR日志。其實(shí)這些需求無非是，收集、存儲(chǔ)、查詢、展示，我們其實(shí)可以使用開源的ELKstack來實(shí)現(xiàn)。Logstash（收集）、elasticsearch（存儲(chǔ)+搜索）、kibana（展示）

8.業(yè)務(wù)監(jiān)控。

我們上面做了那么多，其實(shí)最終還是保證業(yè)務(wù)的運(yùn)行。這樣我們做的監(jiān)控才有意義。所以業(yè)務(wù)層面這塊的監(jiān)控需要和開發(fā)以及總監(jiān)開會(huì)討論，監(jiān)控比較重要的業(yè)務(wù)指標(biāo)，（需要開會(huì)確認(rèn)）然后通過簡(jiǎn)單的腳本就可以實(shí)現(xiàn)，最后設(shè)置觸發(fā)器即可

9.流量分析。

平時(shí)我們分析日志都是拿awk sed? xxx一堆工具來實(shí)現(xiàn)。這樣對(duì)我們統(tǒng)計(jì)ip、pv、uv不是很方便。那么可以使用百度統(tǒng)計(jì)、google統(tǒng)計(jì)、商業(yè)，讓開發(fā)嵌入代碼即可。為了避免隱私也可以使用piwik來做相關(guān)的流量分析。

10.可視化。

通過screen以及引入一些第三方的庫來美化界面，同時(shí)我們也需要知道，訂單量突然增加、突然減少。或者說突然來了一大波流量，這流量從哪兒來，是不是推廣了，還是被攻擊了?？梢越Y(jié)合監(jiān)控平來梳理各個(gè)系統(tǒng)之間的業(yè)務(wù)關(guān)系。

11.自動(dòng)化監(jiān)控。

如上我們做了那么多的工作，當(dāng)然不能是一臺(tái)一臺(tái)的來加key實(shí)現(xiàn)。可以通過Zabbix的主動(dòng)模式以及被動(dòng)模式來實(shí)現(xiàn)。當(dāng)然最好還是通過API來實(shí)現(xiàn)。

12.分布式監(jiān)控

9 監(jiān)控總結(jié)

真正想做到更完整的監(jiān)控體系，目前的開源軟件，確實(shí)無法很好的滿足，有條件的公司都開始自己開發(fā)自己的監(jiān)控系統(tǒng)，比如小米開源的Open-Falcon。

也有比較好的開源的監(jiān)控框架如Sensu等，再加上influxdb、grafana可以用來定制符合自己企業(yè)的監(jiān)控平臺(tái)。

當(dāng)然我說的還是很簡(jiǎn)單，經(jīng)驗(yàn)有限、思路也僅能提供這么多。

以上就是我分享對(duì)監(jiān)控的一些方法和心得。（老鳥勿噴）

如果覺得本文不錯(cuò)，可以對(duì)筆者進(jìn)行贊賞。（你的贊賞就是我的動(dòng)力）

致謝

感謝我的老師趙班長的中小企業(yè)監(jiān)控體系構(gòu)建實(shí)戰(zhàn)才有了此篇文章的誕生。

感謝為本供圖小伙伴：周玉強(qiáng)、顧云、陳榮華。

感謝為本文校對(duì)指正的小伙伴：萬永振、周玉強(qiáng)、陳榮華。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一篇文章全面了解監(jiān)控知識(shí)體系