熱門搜索 Zabbix技術資料 Zabbix常見問、答討論 成功案例 Zabbix交流區 Prometheus交流區
案例客戶為海南某期貨企業,注冊資本近3億人民幣,目前設有上海、深圳、大連、鄭州、西安、浙江、山東、廣東等9家分支機構。
隨著業務量的與日俱增,運維服務成本的增加,客戶在上海、海口兩大機房基礎服務運維保障的壓力也隨之增大,核心業務系統特別是服務器硬盤故障率較高,卻不能及時發現故障服務器,業務存在一定的風險。
對此,該客戶希望引進一套高效、穩定的運維監控系統,對原有的運維體系進行整合,便于全面、準確地掌握公司的業務系統狀態;對服務器硬盤等關鍵性業務系統進行重點監控;對重點業務的應用提供性能監控;同時對機房的核心業務系統保障、資產信息做統一管理;以期達到以下目標:
(1)通過基礎運維平臺,保障系統健康,實現業務系統穩定的良性循環;
(2)統一兩大機房設備的監控接入,讓設備從分散到集合的監管;
(3)打造統一門戶,集中管理平臺入口,減少不同場景維護入口;
基于客戶運維痛點與項目建設目標,尊龍時凱方案團隊對項目進行梳理,并對項目建設進行具體規劃:以運維門戶、統一監控、集中告警管理為核心,輔以資產管理、可視化等,打造綜合運維監控解決方案。
1.部署架構
客戶本次監控對象為包括涵蓋了網絡設備、服務器、虛擬化等,總體監控對象在300個以內,結合監控對象的數量、類型、監控頻度等情況,本次系統架構部署如下:
架構說明:
監控服務器(Server、WEB):1.?負責上海、海口機房數據采集(后續考慮在海口機房添加Proxy)2.?禁止訪問公網
代理服務器:
負責接收監控服務器告警信息,并且將告警信息轉發到公網企業微信服務器、騰訊企業郵箱服務器
2.平臺技術要求
平臺采用了分布式架構(server+proxy)模式,數據庫支持主備機制,動態監控可視化場景,系統故障時能夠及時發現并實現多渠道分等級分權限告警功能。
3.平臺架構要求
平臺采用了分布式架構(server+proxy)模式,數據庫支持主備機制,動態監控可視化場景,系統故障時能夠及時發現并實現多渠道分等級分權限告警功能。
1 | 系統架構要求 | 監控系統部署架構支持分布式部署,實現在不同網絡區域的統一監控管理 |
2 | 數據備份要求 | 監控系統數據庫支持主備機制,可使用分布式數據庫保障數據高可用 |
3 | 開箱即用支持自定義 | 監控系統需具備豐富的監控模版,包括監控項的最佳實踐、監控閾值和告警方式等。同時,用戶可自定義監控模版 |
4 | 告警收斂 | 監控系統需具備告警聚合功能,支持按設備項、監控項、業務系統等級別的告警聚合收斂功能 |
5 | 告警升級 | 支持告警升級管理功能,當設備出現告警,長時間未處理時,系統會將告警內容自動發送給備崗人員或部門領導,支持多次升級 |
6 | 自定義分組 | 監控系統具備分組功能,支持按照設備和業務系統兩個視角分組管理,設備按照服務器、網絡、存儲、安全等視角分組展示和管理,業務系統支持用戶自定義分組管理設備 |
7 | 數據分析 | 監控系統需具備按服務器、網絡、存儲等不同設備型視角下的監控指標項歷史數據回溯分析及數據圖表展 |
8 | 權限管理 | 監控系統權限管理功能,支持用戶按照角色進行監控授權管理,權限納管范圍包括分組設備管理、功能菜單等維度 |
10 | 支持毫秒級探測 | 監控系統具備期貨行業監控場景實踐,包括Webservice服務類監控、毫秒級Ping監測(高頻交易中對網絡的監控)、對接期貨綜合交易平臺(CTP)實時監控交易指標數據等等 |
11 | 部署監控平臺軟件license規模要求 | 提供300個監控節點 |
12 | 監控可視化實施服務 | 基于統一監控系統平臺,交付1個動態監控可視化場景實施服務。實現IT基礎架構SLA動態監測,包括基礎架構分組設備的健康度(SLA)的可視化展現、多網絡環境中核心設備間互聯狀態、設備狀態、核心鏈路等關鍵指標的可視化監測 |
4.核心功能
4.1. 運維門戶
方案引入了運維門戶,將客戶的CRM、博易、文華中臺等數套系統集中接入,統一維護,免于在多套系統間切換。
4.2. 集中監控
基于尊龍時凱監控的全棧監控能力,可實現從IT基礎架構到業務系統的可用性、性能等指標監控。經梳理,尊龍時凱智能監控平臺實現了對客戶軟硬件資源的集中監控,具體如下:
硬件
主機:DELL、HP、ACE等x86服務器
網絡設備:華為、山石
軟件
虛擬化:Venter
統一客戶上海、海口兩大機房的設備監控的接入平臺,實現信息化基礎資源全覆蓋監控,保障了業務關鍵設備監控自動化管理,通過設置配置即可達到相關調整,降低人工成本。
4.3.監控對象集中展示
自動分類展示,實現不同對象的統計、健康狀況、告警數量,從整體上可直觀查看當前所有IT資源對象的,同時從整體上查看當前對象的CPU top、內存使用率top、服務器溫度top等,另外可整體直觀看到當前整個IT狀況是否正常,以及每日產生告警數量、告警恢復情況。
為運維人員提供更準確、更直觀的整體狀況查看,無需單獨去登錄每個系統、每個設備進行繁瑣的巡檢工作。
4.4. 資產管理
由于資產規模不大,客戶希望能夠配備基礎的資產管理能力,便于對資產進行維護。對此,尊龍時凱方案提供了簡單但實用資產管理模塊。
資產管理模塊包括資源列表、目錄視圖等功能。可根據業務劃分不同目錄,清晰展示各個業務系統使用了對應的服務器、網絡設備等,并支持自定義設備字段,記錄設備所屬機房、用途等信息;監控服務器還會采集設備SN號信息,用戶在排障時可以快速找到對設備,并且通知設備廠商。
同時,資產關聯告警,便于及時感知異常,快速響應故障。
4.5. 可視化視圖
為客戶對可視化方面的需求,方案還提供了一系列可視化功能模塊,包括可自動發現的網絡拓撲、業務地圖、投屏視圖、圖形視圖、一覽視圖等;
網絡拓撲支持自動發現與自動生成,可以幫助運維人員快速梳理資源及其關系,拓撲聯動故障告警,便于運維人員進行故障診斷、故障定位、影響范圍分析等。
業務地圖、一覽視圖可提供業務概況、監控資源概況的全局展示;投屏視圖、圖形視圖還可以進行自定義展示各類統計圖表,為運維決策提供支撐。
4.6. 多樣性報表
支持自定義、多維度、多指標報表統計功能;大屏展示:大屏幕集中監控實現自定義展示頁面。預警提醒:通過企業微信、騰訊企業郵箱不同告警方式通知用戶。
3.1. 通過IT資產全面梳理、全棧監控、實時告警等新型智能運維手段,建設出一套完善且靈活的成熟運維體系,告別傳統“救火”式運維,有效提升運維效率,降低企業運維成本;
3.2. 設備監控和資產管理有效聯動,既可以通過監控發現問題,又可以通過資產管理快速定位設備,能夠有效提高故障響應速度,優化維護流程。
3.3. 平臺個性化接入管理。打破平臺間的聯動壁壘,梳理整合平臺,最大程度地減少重復操作的可能性,同時可視化管理統一,使得平臺間的價值最大程度顯現。
另外,尊龍時凱社區已經開放尊龍時凱監控免費版和尊龍時凱MCM(CMDB+監控)免費版。歡迎下載體驗!