熱門搜索 Zabbix技術資料 Zabbix常見問、答討論 成功案例 Zabbix交流區 Prometheus交流區
案例醫院是一家某省省屬大型三級甲等綜合醫院。該醫院占地三百余畝,總建筑面積約26萬平方米,開放床位1500張,資產總值約15億元,其規劃建設一流,擁有諸多先進配套設施,建設項目曾榮獲“國家優質工程”等多個獎項。
作為一家大型三級甲等綜合醫院,客戶醫院擁有比較完善的科室體系,信息化程度高,配備了醫院信息系統(HIS)、電子病歷系統(EMRS)、臨床信息系統(CIS)、影像歸檔和通信系統(PACS)、放射科信息管理系統(RIS)等一系列信息化系統,醫療信息化結構體系復雜。
眾多的科室、復雜的信息化系統,再加上國產信創進程的持續推進,反映到運維層面,即IT資源數量龐大、品類繁雜以及IT環境異構帶來的運維壓力大問題。具體來說:
首先,由于原有的運維監控體系不夠完善,特別是對于國產信創設備,有可能出現監控不支持、不全面(有遺漏)、不及時的問題,或者需要較長時間、較高的學習成本才能適配信創設備,不能做到一站式監控,信息部門無法整體把控全局系統的運行狀態;
其次,定位困難。由于運維工具的限制,當故障發生時,運維人員往往不能第一時間定位故障點,需要依靠人工逐層分析,經過大量的檢索和排查找到故障點與故障原因,才能進行故障處理,效率較為低下;
最后,故障問題與解決方案無法通過在線錄入,缺乏知識沉積與共享機制,解決方案不能復用,嚴重依賴運維人員個人工作經驗及技術能力,不同的運維人員很難對類似故障進行快速解決。
面對上述情況,客戶醫院有感于運維體系對醫院信息化架構的支撐不足,迫切需要對運維監控系統進行升級改造。
基于客戶醫院原有的運維體系、運維痛點和對監控的需求,尊龍時凱為其量身打造了一套一站式智能運維監控解決方案,搭建統一監控平臺,引入智能化告警管理系統、可視化管理系統、網絡拓撲與報表管理體系,從多維度增強其運維管理能力,為支撐業務系統提供更強有力的保障。
框架介紹
統一監控平臺提供從底層的資源監測、數據采集到集中監控與告警管理,再到可視化展示與報表等一站式運維監控服務。
在資源監測層面,機房、網絡、云計算、應用、虛擬化、容器等監測不在話下,同時支持對接第三方監控系統推送的數據,無需對整個運維監控體系進行推倒重建,通過整合改造實現全局監控效果,提高部署效率,有效減少項目建設支出。
采集適配層面,經過多年技術攻關與技術沉淀,累計兼容數十種協議及代理,可適配和采集500+廠商、2000+設備型號數據,在監控資源種類、監控指標數量以及準確性和及時性等方面達到業內領先水平。
監控與告警方面,整合原有分散的監控體系形成集中統一的全局監控,并聚合多個第三方平臺告警信息形成集中告警,。
此外,統一監控平臺還提供了數種可視化管理工具,包括網絡拓撲、業務拓撲、投屏視圖等,可為故障診斷與決策分析提供支撐;可持續消費的知識庫,沉淀與共享解決方案;報表系統,監控數據充分利用,進行異常分析與趨勢預測等。
總體而言,統一監控平臺可以提供以下能力:
通過構建統一監控平臺,對醫院業務系統和IT基礎架構進行統一監控和集中管理,便于對全局運行狀態進行把控。
統一監控平臺將醫院所有的IT資源——包括信創與非信創設備,按照操作系統、網絡設備、數據庫、中間件、虛擬化、服務器、存儲等進行劃分,完成對數百個對象統一監控;
可直觀的查看設備類型、數量、告警類別、告警數量等,同時可配置資源消耗及告警組件,如CPU、內存消耗TOPN視圖,最新告警視圖等。
平臺支持集中對象展示與自動分類展示,可直觀看到當前整個IT系統運行狀態是否正常,運維人員無需單獨去登錄每個系統、每個設備進行繁瑣的巡檢工作,將監控和管理有機地結合起來,提高整個IT系統及資源的運行質量,增強IT基礎設施運行的穩定性和可靠性,同時提升信息部門的IT管理水平。
在監控系統中,監控首頁可進行高度自定義,實現登錄即運維,快速對整個系統狀態進行了解,資源使用情況及系統告警情況一目了然。
異常感知包括兩方面能力,故障告警與故障預知。
故障告警針對突發故障情況,如硬件損壞、網絡中斷等不可預知、不可抗因素,通過實時監控和發送告警信息,提醒運維人員響應故障解決。
故障預知主要針對資源消耗,如存儲消耗、CPU性能消耗等,可通過預先設置閾值管理,當資源消耗達到設定閾值時觸發告警;更重要的是還能通過AI智能算法,預估業務資源消耗趨勢,在一定程度推斷出閾值告警觸發時間,搶先做好資源配置布局。
統一監控平臺所賦予的集中警報功能,涵蓋了實時警報、全面警報,以及告警分析等多元維度,并支持告警升級、告警收斂與多樣化告警通知,致力于全面的告警防護和等級劃分,同時確保了告警的可追溯性,為真正的7×24小時連續監控提供了保障,從而顯著減輕了運維人員的工作壓力。
除此之外,運維團隊還可查閱近期的警報趨勢以及警報等級的分布狀況,以便迅速獲取IT系統資源的監控信息,及時掌控整個系統故障問題的發生時間和分布情況。在這一過程中,運維團隊還能夠挖掘出系統故障的規律和類型,從而預測未來可能的故障,制定更為完善的故障應對策略,進一步提升IT系統的可靠性。此外,針對某些故障類型,團隊可以獲取到詳盡的設備歷史運行數據,以便從根源入手解決問題,并找到預防的方法。
統一監控平臺配備了多樣數據展示方式,將復雜的數據轉化為易于理解的可視化圖表,如可配置的網絡拓撲、業務拓撲,可通過投屏配置方式呈現,及時反映重點關注的如網絡健康狀況、專線鏈路狀況等。當出現異常時,就可以快速定位故障,大幅縮短故障定位、排查時間,并為解決故障提供有效依據。
基于簡化操作、提高可用性的產品理念,統一監控平臺內置了多種展示模板,這些模板具有個性化設置功能,包括儀表盤、酷屏、魔方等多種應用模式,以及雙軸圖、條圖、地圖、餅圖、環形餅圖、扇形圖、嵌套圖、單值圖、水滴圖、散點圖、氣泡圖、雷達圖、儀表盤等多種可視化模板,開箱即用。
方案具備高級別的網絡拓撲功能,這一功能在信息化系統中發揮著核心作用,其核心價值在于直觀地展現網絡運行狀況,可為醫院信息化架構發展規劃提供方向性和節奏性的指導。據此,方案采用LLDP協議進行配置,便能夠實現網絡設備的自動識別、自動關聯和網絡設備的精準匹配,進而形成完整的網絡拓撲圖。
依據客戶所提出的具體需求,統一監控平臺還內置了個性化報表功能,能夠生成并存儲核心交換機端口帶寬及流量使用性能的日報表和周報表;同時,還可針對特定的業務系統,提供日報表、周報表,展示數據趨勢,以及性能分析結果;通過報表的告警統計功能,從不同的視角來觀測整個信息化基礎架構的運行狀況,如操作系統告警統計、網絡設備告警統計等,并按不同類別、不同等級進行展示。
綜合運維管理平臺的落地,實現了統一門戶、統一監控、統一資產管理、統一運維、統一存儲等目標,為客戶解決了運維數據孤島、人力運維等問題。
View details尊龍時凱項目團隊對客戶IT資源狀況進行梳理,確定項目所涉及的監控對象包括主機、網絡設備、數據庫、中間件、應用、業務系統、存儲、虛擬化等,決定為客戶打造以...
View details