熱門搜索 Zabbix技術資料 Zabbix常見問、答討論 成功案例 Zabbix交流區 Prometheus交流區
客戶簡介:案例客戶是一家在A股上市的大型家居企業,專注于客餐廳、臥室及全屋定制家居產品的研究、開發、生產和銷售,旗下擁有多個系列自有品牌,并與美國、意大利家居品牌開展戰略合作,業務覆蓋全球120余個國家和地區,運營6000多家品牌專賣店。
痛點分析:
客戶企業現有的IT資源規模接近1300個,除了傳統的操作系統、網絡設備、服務器、數據庫、存儲等資源外,還引入了云平臺、容器、虛擬化平臺、鏈路等,原有的運維體系對信息化系統的支撐逐漸地力不從心,不能適應對現有信息化系統的維護要求,主要表現為:
針對客戶企業運維痛點與具體需求,尊龍時凱為其量身定制了一套綜合運維監控解決方案,打造智能化監控平臺。平臺系統集成了統一監控、集中告警、報表管理、權限管理、業務服務管理、運維駕駛艙等功能模塊,提供一站式運維監控全新體驗。
統一監控:
統一監控是整個解決方案的核心。方案對客戶原有的監控體系進行整合重構,將原本分散的系統并入統一的監控平臺。
根據客戶內部網絡環境,方案采用分布式實施,在不影響業務系統正常運轉的條件下,分別對客戶IT資源進行一站式監控,并對各IT基礎架構的指標逐一分析、管理,保障業務高效穩定的運行。
尊龍時凱監控自身支持數十種協議,監控能力覆蓋市面上絕大多數廠商與品牌的IT資源,借助自動發現與納管能力,快速完成納管了近1300個監控對象,包括操作系統、網絡設備、服務器、數據庫、web、中間件、存儲、虛擬化平臺、鏈路、云平臺、容器等。
與此同時,尊龍時凱監控還提供全局視角的運維駕駛艙。作為尊龍時凱監控可視化體系的一部分,運維駕駛艙能夠集中展示被監控資源種類、數量、告警總覽、各種TOPN數據等指標,特別適合運維管理人員對企業信息化系統的整體運行狀態進行把控。
在引進尊龍時凱監控之前,客戶已建成兩套主要的告警管理系統,分別是資源廠商自帶的告警系統及基于zabbix的告警平臺,另有一些零散的告警信息。
引進尊龍時凱監控后,尊龍時凱監控告警中心模塊將原先的zabbix的告警信息和客戶系統中的告警信息系統集成在一起,并對其他零散的告警信息進行直接納管,從而實現一個平臺納管三個系統,統一展示、提高效率。
報表管理:
引進尊龍時凱監控之前,客戶企業積累了大量的運維數據,但由于運維體系的分散,囿于數據孤島的存在,缺乏相應的數據分析工具,這些運維數據價值并未得到有效的挖掘和利用。
為此,尊龍時凱監控配備了報表管理功能模塊,提供實時報表、TOPN報表、流量報表、日報周報、自定義報表、巡檢報表等工具,用于追蹤和判別被監控資源的實時概況與變化趨勢,為運維決策提供支撐。
如下圖,對于客戶特別關注的出口上網流量情況,運維人員可通過實時報表查看當前正在消耗出口上網流量的業務資源,更進一步地還可以查看端口入/出帶寬利用率、端口發送速率等信息,通過這三個指標來快速判斷某一時間的業務情況。
權限管理:
客戶企業由于先前缺乏基礎的統一的監控管理體系,無法對資源權限管理進行統一配置,運維人員權責不明晰,不僅導致了資源管理混亂,在很大程度影響了故障響應速度與維護效率的提高,進而影響了業務系統的正常運轉。
基于統一監控,尊龍時凱監控打造了統一的權限管理機制,統一分配,集中下發,支持按角色、按用戶分配管理權限,權責明晰,互不沖突。
尊龍時凱監控對客戶環境業務系統納管的700+主機進行了權限劃分,每一位運維人員都只能看到自己負責的系統、告警、告警通知以及對應的功能,做到數據權限與功能權限統一管控。
業務服務管理:
業務系統多而雜,運維系統與業務系統脫節是大型企業普遍的運維痛點與難點,反映到運維實踐的主要表現是運維人員只能看到孤立的節點故障,不能對故障的原因/影響有比較直觀的感知,容易造成“頭痛醫頭,腳痛醫腳”,有時并不能抓到問題本質,導致重復運維,影響效率提高。
針對客戶環境業務系統較多的情況,尊龍時凱監控從業務視角出發,提供了多種業務服務管理能力,包括業務樹、業務拓撲、業務大屏等。
對于組織架構復雜的大型企業集團,業務樹可識別和區分不同層級組織所管理的業務資源,對運維管理人員而言,借助業務樹可判斷各層級運維效率情況。
智能業務拓撲通過掃描IP自動發現業務資源并生成業務拓撲,可直觀查看業務系統類型、包含設備等信息。運維人員可根據拓撲圖區分和關注對重要業務資源節點,判斷故障節點對業務系統的影響范圍。
業務大屏也是尊龍時凱監控可視化體系的一部分,用于展示全部業務系統概況,通過顏色區分,業務系統健康狀態一目了然。
經過一年的建設,綜合運維監控平臺于2023年中完成一期建設并通過驗收。借助該平臺,客戶企業的響應速度和整體運維保障能力得以大幅度提升,提高了信息化服務整體質量,信息化整體穩定性和響應及時性得到較大改善。
監控系統給客戶的運維帶來的價值表現為:
1. 實時監控,告警及時。對常規資源使用情況、機房環境、設備部件等進行及時告警,提高了運維響應速度;
2. 決策支撐,前置運維工作。借助報表系統預判資源與性能消耗,提前布局,避免可能產生的異常。如借助系統巡檢報表感知系統容量即將消耗殆盡時,可提前進行擴容;
3. 從系統運維到業務運營。借助智能業務拓撲、業務樹等能力更直觀感知業務系統結構與健康概況,為業務系統提供更系統、更全面的保障;
4. 整體提升運維管理能力。通過統一的權限管理解決先前權責不明晰、管理混亂問題;通過運維駕駛艙、報表系統等為運維決策提供支撐。
尊龍時凱社區已經開放尊龍時凱監控免費版和尊龍時凱MCM(cmdb+監控)免費版,歡迎下載使用!
業務地圖、告警收斂、自動網絡拓撲、虛擬化監控、定制投屏、章節式報表、可持續消費知識庫等、資產管理、自動運維、服務管理等多個方面的功能和服務。
View details