熱門搜索 Zabbix技術資料 Zabbix常見問、答討論 成功案例 Zabbix交流區 Prometheus交流區
北京某產業園-數字化大屏展示
北京某產業園2000年在海淀分局登記成立,公司經營范圍包括住宿、物業管理、餐飲服務(含涼菜)等,于2019年入選年度國家中小企業公共服務示范平臺名單。
隨著機房設備的逐步增多,該產業園的運維管理工作產生了較大壓力,無法及時得知機房所屬設備的運行狀態,沒有一套統一的運維監控平臺,直接導致了:
首先,IT運維部門不能提前預知故障隱患,提前排除可能發生故障的隱患;
其次,當故障發生時,IT人員不能第一時間發現故障;
再次,IT人員分析處理故障,沒有一個從IT基礎架構到業務可用性的全棧監控工具,靠人工逐層分析,效率低下;
最后,排查故障之后,下次再出現類似的故障時,沒有有效的、可持續消費的知識記錄。
綜上,為了解決業務支撐系統全方位的保障,建設一套統一、開放、自主、可持續發展全鏈路運維監控平臺已成為必要。
為完善該產業園信息化系統,向運維人員提供有效幫助,更高效率開展運維工作。在現有信息化相關維護前提下,有必要建立一套針對信息化的監控平臺,做到及早發現故障、提早判斷預知故障并及時處理,以及合理利用信息化基礎資源,達到最大化資源使用,同時為信息化建設提供未來建設提供合理依據,使得信息化建設健康發展。
結合該產業園現有信息化建設架構,建設統一監控平臺部署內容如下:
1. 集中監控:包括從IT基礎架構到業務系統的可用性、性能、日志等指標監控
2. 集中告警:集中告警展示、告警分發、告警處理等全生命周期管理
3. 可視化視圖:可自動發現的網絡拓撲、投屏視圖等可視化功能
4. 多樣性報表:支持自定義、多維度、多指標報表統計功能
5. 大屏展示:大屏幕集中監控實現自定義展示頁面
該項目主要監控網絡設備,基于網絡拓撲圖實現核心鏈路的集中監控。
前期監控對象搜集,通過和客戶交流、溝通,搜集相關需求及本次需要納入監控的相關對象。
主機系統:IP地址,系統類型、業務名稱等
網絡設備:設備名稱、設備類型、設備團體名、管理IP
完成相關對象搜集后,結合本次監控對象的數量、類型、監控頻度,綜合判定本次架構設計,制定詳細實施計劃。
該產業園本次監控對象為網絡設備30臺。
本次系統架構說明:
本次監控通過Vcenter虛擬化平臺進行監控系統部署,基于Vcenter虛擬化平臺的故障遷移策略保障監控系統的可用性, ITIM系統部署在一臺服務器上,采用單機部署,主要進行交換機設備監控并實現所需監控告警及大屏展示功能。
完成監控系統部署后,根據搜集表進行分批次添加監控對象。
由于操作系統需要安裝agent用于數據采集,結合現場部署環境、調整好安裝腳本,配置好serverIP地址、采集方式后,實現快速一鍵安裝agent。
Linux 首次安裝需要通過root權限,完成首次安裝后,后續可以通過創建的zabbix用戶實現數據采集agent開啟或關閉,另外通過配置定時任務計劃,判定agent進程是否正常,每五分鐘檢查一次,若檢查到agent進程異常,即調用自動開啟腳本將agent開啟,省去后續agent維護工作,實現自動化。
Windows首次安裝也需要通過管理員權限,完成后實現服務自動啟動。
根據搜集的產業園網絡設備信息發現其主要為華為交換機設備,與現有華為監控模匹配后,結合前期信息搜集時的管理IP地址、團體名,實現快速添加監控對象。
完成監控對象納管后,通過和客戶溝通、培訓,進一步確認相關監控閾值配置,即根據客戶實際情況配置告警閾值,當監控指標達到閾值設置后,即觸發告警。同時將不同閾值對應到不同告警級別,分別為嚴重、一般、次要這幾個常用級別。
嚴重故障:(示例)
一般告警:(示例)
次要故障:(示例)
投屏展示通常可直觀、簡潔地查看整個IT資源或某個業務的實際情況,經過和客戶交流溝通后,確定本次創建的投屏展示,分別如下:
實現信息化基礎資源全覆蓋監控,保障了監控自動化管理,通過設置配置即可達到相關調整。降低人工成本,使運維人員去做對業務更有價值的工作。
系統提供監控對象分類展示功能,實現不同對象的統計、健康狀況、告警數量,從整體上可直觀查看當前所有IT資源對象的,同時從整體上查看當前對象的CPU top、內存使用率top等,另外可整體直觀看到當前整個IT狀況是否正常,以及每日產生告警數量、告警恢復情況。
為運維人員提供更準確、更直觀的整體狀況查看。無需單獨去登錄每個系統、每個設備進行繁瑣的巡檢工作。
運維人員可查看最近6小時、最近12小時及最近24小時告警,可了解整個資源運行狀況,避免信息化資源出現告警隱患而人員未關注到時告警遺漏,更加準確的反饋了整體健康狀況,分別從不同等級、告警事件、告警時長直觀的呈現,讓運維人員心中有數。
另外,對于以往的告警也可有跡可循,當一個告警反復出現,或在每日某一個時間段出現時,可根據全部告警,進行綜合查看,如一個一般級別告警,但是反復出現也需要引起關注。
集中告警功能包含了實時告警、全部告警、告警統計等多個維度,匹配運維人員使用習慣,做到告警無遺漏、告警分等級,告警可追溯。從整體上減輕了運維人員工作,且真正做到7* 24小時實時監控,為運維管理工作代理了直觀的價值。
運維管理通常需要直觀呈現,重點關注的對象,通過配置網絡拓撲、業務拓撲,并通過投屏配置方式呈現,及時反映重點關注的如網絡健康狀況、專線鏈路狀況等。當出現異常時,可快速定位故障,大大縮短故障定位、排查時間,為解決故障提供了有效依據,將前端業務影響降至最低,為整個運維工作帶來了最大的便利。
運維工作除了對日常信息化健康運行關注外,還需要對整體資源使用情況做到合理分配,當資源需要進行調整時,可有效進行整改、達到資源最大化利用率。也可為單個業務系統創建報表,提供日報、周報,展現趨勢數據提供性能分析。
另外,對于整個信息化基礎架構運行狀況,也可通過報表的告警統計,不同維度查看告警統計,操作系統告警統計、網絡設備告警統計,以不同類別、不同等級分別展示,為信息化建設可持續發展提供了有效幫助。
1. 通過IT資產全面梳理、全棧監控、實時告警等新型智能運維手段,建設出一套完善且靈活的成熟運維體系,告別傳統“救火”式運維,運維效率提升10倍,企業運維成本降低超過50%。
2. 提供更堅實的后勤保障,更加有效的保障工作人員日常工作,使得工作人員更加順心的工作,進一步增強工作幸福感。
3. 提供更有效的數據依據,推進企業信息化建設可持續發展,讓信息化資源更合理的應用、最大化應用,為信息化建設提供導向。
4. 通過大屏進行展示,使運維工作者清晰直觀的了解到所關注信息,美觀、簡潔、富有科技信息化的大屏畫面賞心悅目,增加企業展示面,也提升了運維人員的工作體驗。
更多客戶案例請持續關注尊龍時凱官網或關注下方尊龍時凱社區公眾號。
綜合運維管理平臺的落地,實現了統一門戶、統一監控、統一資產管理、統一運維、統一存儲等目標,為客戶解決了運維數據孤島、人力運維等問題。
View details針對客戶企業運維痛點與具體需求,尊龍時凱為其量身定制了一套綜合運維監控解決方案,打造智能化監控平臺。平臺系統集成了統一監控、集中告警、報表管理、權限管...
View details尊龍時凱一站式智能監控+網管平臺,對運維管理流程體系進行重構,提升信息系統監控能力、網絡管理能力以及運維人員工作效率。
View details