綜合來講,zabbix是一個非常強大的監(jiān)控平臺,簡單拿來完成監(jiān)控一些Hosts,沒有什么問題,而且,目前國內(nèi)大部分客戶都是這么做的,基本上是安裝完后,網(wǎng)上找到一些相關(guān)模板,配置后把Hosts監(jiān)控起來就差不多了,當然也不乏像PPTV、攜程、唯品會等這樣優(yōu)秀的互聯(lián)網(wǎng)公司,做了深度定制和改造。
?
一個剝離的工具平臺
?
zabbix的所有監(jiān)控對象都被認為是Host,包括主機、網(wǎng)絡(luò)設(shè)備、中件間和數(shù)據(jù)庫等等,這樣除了做監(jiān)控之后的運維管理工作就很不方便了,比如說配置管理、統(tǒng)計報表、權(quán)限、知識庫、業(yè)務(wù)服務(wù)管理、CFIA等都會受影響。所以,原生的zabbix仍然是一個原生的高度剝離的工具平臺。?
?
?
其他問題
?
1. 性能瓶頸,監(jiān)控系統(tǒng)沒有低估高峰期,具有持續(xù)性和周期性,機器量越大,數(shù)據(jù)的增大會使數(shù)據(jù)庫的寫入成為一定的瓶頸,每秒1萬個指標,據(jù)說4.0每秒40萬個指標;
?
2. 項目二次開發(fā),需要分析MySQL表結(jié)構(gòu),表結(jié)構(gòu)非常復雜,對開發(fā)能力有較高要;
?
3. 內(nèi)置housekeeping在執(zhí)行過程中會對數(shù)據(jù)庫增加壓力,需要對數(shù)據(jù)庫進行優(yōu)化;
?
4. 圖形功能較為單一、簡陋;
?
5. 使用有難度,要求操作人員的技術(shù)水平很豐富且全面, 需要熟悉被監(jiān)控對象, 已經(jīng)具備相當?shù)拈_發(fā)能力;
?
6. API介紹比較粗糙,如果數(shù)據(jù)庫表結(jié)構(gòu)更改可能會影響api調(diào)用;
?
7. zabbix 監(jiān)控的模板比較復雜,沒有一個比較簡潔易懂監(jiān)控模板創(chuàng)建的向?qū)?,使得模板配置比較困難;
?
8. zabbix 的用戶權(quán)限控制粒度不夠;
?
9. zabbix的交互界面還不美觀,操作不人性化。
?
當然,還有那些你沒有深入使用,永遠也發(fā)現(xiàn)不了的坑。
?
顯性化的需求
?
在界面展示上,目前使用較多的Grafana+zabbix,能達到一定的展示效果,實施效果如下圖:?
?
?
也有58同城運維團隊開源的Zatree插件,實施效果如下:
?
?
如果要求再高一些,就有些困難了,經(jīng)常可以看到希望可以用ECharts展示zabbix數(shù)據(jù)的需求,甚至可以看到不少zabbix數(shù)據(jù)與第三方商業(yè)顯示插件的集成需求。
?
深度集成的需求
?
監(jiān)控軟件于信息化體系不是孤立存在的,把監(jiān)控平臺獨立成一個信息孤島,是不符合信息化的初衷,可能存在的集成系統(tǒng)列舉如下:
?
1. 其他運維工具:ITSM(也可能是獨立的工單系統(tǒng)、服務(wù)臺系統(tǒng)、CMDB或資產(chǎn)管理系統(tǒng))、動環(huán)管理系統(tǒng)、APM系統(tǒng)、DevOps系統(tǒng)、自動化運維工具平臺、日志平臺、端對端撥測系統(tǒng)、安全系統(tǒng)、4A系統(tǒng)、審計系統(tǒng)私有云平臺等;
?
2. 消息通知:短信、微信、郵件、釘釘、內(nèi)部IM系統(tǒng)等;
?
3. 組織架構(gòu)系統(tǒng):組織架構(gòu)、人員同步、權(quán)限系統(tǒng)、單點登錄系統(tǒng)等;
?
4. 統(tǒng)一展示:Portal系統(tǒng)、投屏、OA系統(tǒng)、微信公眾號、業(yè)務(wù)數(shù)據(jù)統(tǒng)一呈現(xiàn)等;
?
5. 其他:組織APP、企業(yè)知識庫、音視頻交互平臺、大數(shù)據(jù)平臺等
?
信息系統(tǒng)的集成是信息化建設(shè)非常困難的一環(huán),數(shù)據(jù)信任、源數(shù)據(jù)穩(wěn)定、接口對接、例外處理,考驗著信息化整合架構(gòu)能力和信息系統(tǒng)質(zhì)量。
?
業(yè)務(wù)保障的需要
?
監(jiān)控的核心意義在于保障業(yè)務(wù)系統(tǒng)高可用性,尤其是核心業(yè)務(wù)系統(tǒng)的高可用性,而不只是監(jiān)控那些Hosts,完成那些Host的監(jiān)控只是完成了第一步,還需要做好兩道必選題:
?
1. Hosts和業(yè)務(wù)系統(tǒng)存在怎樣的關(guān)系?
?
2. 業(yè)務(wù)系統(tǒng)出現(xiàn)故障時,哪些Hosts的狀態(tài)和性能存在什么直接或間接影響3. 當前Hosts的告警,到底對哪些其他Hosts或業(yè)務(wù)系統(tǒng)存在怎樣的影響?
?
更多zabbix相關(guān)技術(shù)分享,可以關(guān)注尊龍時凱社區(qū):http://forum.ydcanyin.com/