熱門搜索 Zabbix技術資料 Zabbix常見問、答討論 成功案例 Zabbix交流區 Prometheus交流區
1.?項目名稱
武漢市某醫院統一監控平臺建設
武漢某醫院始建于1956年,1997年獲批成為湖北省首家“三級甲等”醫院,2018年成功復評。歷經六十余年的建設發展,現已成為融醫療、教學、科研、預防、康復于一體的現代化醫院。先后獲得“第一批國家特色醫院文化醫院”、“湖北省首批醫務社工試點醫院”、“全市百佳法治建設示范單位”、“市級文明單位”等稱號。
中心現有兩個院區,出院患者數達萬余人次。連續舉辦具有國際影響力的中美、中法等精神分析培訓項目,積極承辦世界衛生組織(WHO)、國際精神分析協會(IPA)等國際組織的學術交流活動,獲廣泛關注,影響深遠。
隨著設備的逐年老化,故障率逐漸提高,對業務支撐系統的風險逐年加劇,沒有一套統一的運維監控平臺。首先,IT運維部門不能提前預知故障隱患,提前排除可能發生故障的隱患,避免形成故障;其次,當故障發生時,IT人員不能第一時間發現故障;再次,IT人員分析處理故障,沒有一個從IT基礎架構到業務可用性的全棧監控工具,靠人工逐層分析,效率低下;最后,排查故障之后,下次再出現類似的故障時,沒有有效的、可持續消費的知識記錄。
綜上,為了解決業務支撐系統全方位的保障,基于zabbix開源平臺建設一套統一的、開放的、自主的,可持續發展全鏈路運維監控平臺已成為必要。
該醫院兩個院區,通過內網互聯,另外醫院與醫保局、衛生局有專網連接,保障衛生審計和醫保數據對接。
內部信息化建設,搭建了VMWare虛擬化私有云,保障其信息基礎設施高可用性,通過配置一臺宏杉存儲、兩臺華為存儲提供存儲資源,上層采用了華三X86服務器提供計算資源。兩個院區通過匯聚交換機與核心交換機進行互聯,另外接入層交換機保障了門診、行政、住院區進行三級互聯。
同其他醫院一樣,該醫院核心系統為HIS,HIS系統采用單獨服務器部署,數據庫搭建Oracle11g?rac,分布于兩臺物理服務器上。另外虛擬化系統搭建一臺備機,通過Oracle?dataguard技術實現數據同步。另外pacs系統部署在虛擬化上,通過VMWare?datastore提供大容量存儲,進行文件服務支持。
醫院系統作為社會建設重要部門,歷來高度重視信息化基礎建設,為保障信息化高可用性,重點保障his?系統可用。該醫院由專業維護團隊進行日常健康巡檢、系統維護、故障處理。在相關運維人員精心維護中,還是出現了不同等級的故障事件,如出現專網中斷時,等到患者就醫處理時才發現。夜間系統出現資源使用緊張時,等到白天工作期間高峰時出現緊急故障事件,以及急診時出現系統異常,需單獨處理等等。不確定性的故障風險,為醫院運行帶來了不便,加大了醫護人員工作程度,也對社會造成了不好的影響。
為保障該醫院信息化系統更加完善,為醫護人員提供有效幫助、更高效率實現醫護工作,同時更好的為社會提供服務,緩解醫患關系。在現有信息化相關維護前提下,有必要建立一套針對信息化的監控平臺,做到及早發現故障、提早判斷預知故障及時處理,以及合理利用信息化基礎資源,達到最大化資源使用,同時為信息化建設提供未來建設提供合理依據,使得醫院系統信息化建設健康發展。
???結合武現有信息化建設架構,建設統一監控平臺部署內容如下:
1、集中監控:包括從IT基礎架構到業務系統的可用性、性能、日志等指標監控;
2、集中告警:集中告警展示、告警分發、告警處理等全生命周期管理;
3、可視化視圖:可自動發現的網絡拓撲、業務地圖、投屏視圖、圖形視圖、一覽視圖等可視化功能;
4、多樣性報表:支持自定義、多維度、多指標報表統計功能;
5、大屏展示:大屏幕集中監控實現自定義展示頁面;
本項目倡導的是從硬件、主機、網絡設備、數據庫、中間件、應用、業務系統、存儲、虛擬化的一站式運維管理平臺,可以實現整個業務系統和IT 基礎架構的統一集中管理。
前期監控對象搜集,通過和客戶交流、溝通,搜集相關需求及本次需要納入監控的相關對象分類,包括操作系統、網絡設備、數據庫、中間件、虛擬化、服務器、存儲設備。
主機系統:IP地址,系統類型、業務名稱等
網絡設備:設備名稱、設備類型、設備團體名、管理IP
數據庫:數據庫類型、數據庫版本、監聽端口、實例名
中間件:中間件類型、中間件版本、部署路徑、IP地址,服務端口
虛擬化:虛擬化類型、型號、管理IP地址,用于監控的賬號密碼
服務器:服務器品牌、型號、帶外管理地址、團體名
存儲:存儲品牌、型號、管理口地址、團體名、用于監控的賬號密碼
完成相關對象搜集后,結合本次監控對象的數量、類型、監控頻度,綜合判定本次架構設計,制定詳細實施計劃。
該醫院本次監控對象為包括涵蓋了操作系統、網絡設備、數據庫、中間件、虛擬化、服務器、存儲,總體監控對象在200個以內。
定義本次系統架構部署如下:
架構說明:
兩臺服務器,分別部署MySQL數據庫,采用MySQL?master-slave實現主備方式實現數據庫高可用,監控平臺服務器部署在服務器1,主要功能為采集監控對象數據存放在主數據庫,web部署在服務器2上,用于提供上層集中訪問。
角色 | 操作系統 | 磁盤大小 | CPU | 內存 | IP地址 | 主機個數 | 備注 |
監控系統 | CentOS7 | 300G | 8核 | 8G | 一個IP 地址 | 1 | 守護進程 |
Web | CentOS7 | 300G | 8核 | 8G | 一個IP 地址 | 1 | 守護進程 |
完成監控平軟件部署后,根據搜集表進行分批次添加監控對象。
由于操作系統需要安裝agent用于數據采集,結合現場部署環境、調整好安裝腳本,配置好serverIP地址,采集方式后,實現快速一鍵安裝agent。
Linux?首次安裝需要通過root權限,完成首次安裝后后續可以通過創建的zabbix用戶實現數據采集aget開啟或關閉,另外通過配置定時任務計劃,判定agent進程是否正常,每五分鐘檢查一次,若檢查到agent進程異常,即調用自動開啟腳本將agent開啟,省去后續agent維護工作,實現自動化。
Windows首次安裝也需要通過管理員權限,完成后實現服務自動啟動。
由于服務器不同廠商、不同型號存在內部mib庫不一致情況,前期搜集時即核對模板樣例,現有模板可直接準備,導入備用。本次監控服務器、存儲基本屬于常規型號,現有模板基本涵蓋,宏杉存儲模板沒現有模板,通過客戶協調獲取到存儲mib庫,快速制作模板,體現了zabbix?快速定義模板的靈活性。
根據搜集該醫院網絡設備,主要為華為網絡設備、華三網絡設備,核對了為模板庫,都有現有模板,結合前期信息搜集時的管理IP地址、團體名,實現快速添加監控對象。
該醫院虛擬化使用的時VMWare?,并搭建了vcenter統一管理。結合尊龍時凱模板監控即采集python腳本,實現對象添加后,自動發現出宿主機、虛擬機、datastor三個主要對象并自動發現出其層級對應關系。
該醫院數據庫主要為Oracle?。監控Oracle數據需要在數據庫創建用于監控的用戶,并完成授權,保障用于監控的用戶可select數據庫相關性能視圖,獲取整個數據庫運行狀況。其操作存在對數據庫變更,通過和客戶反饋、溝通并確認風險等級及對應措施后,完成Oracle數據庫納入監控,查看監控平臺數據庫運行狀況正常。
該醫院屬于醫療行業,其網絡結構與醫保局、衛生局存在關聯、且這兩條線路的通訊狀態對于醫院運行至關重要,因此單獨使用監控平臺鏈路添加,且這兩條網絡對端設備不在本地,不能實現監控那關,通過與醫保、衛生專網接入的交換機,配置NQA,實現本段設備探測對端網絡的鏈路監控,獲取鏈路健康狀況、帶寬利用率、鏈路丟包率等信息。
???網絡拓撲是整個信息化的交通樞紐,網絡的影響通常都是區域性影響,因此網絡拓撲的展示可直觀的看到當前網絡健康狀況,監控平臺網絡拓撲配置lldp?實現網絡拓撲自動發現、自動關聯網絡設備生成拓撲圖
完成監控對象納管后,通過和客戶溝通、培訓,進一步確認相關監控閾值配置,即根據客戶實際情況配置告警閾值,當監控指標達到閾值設置后,即觸發告警。同時將不同閾值對應到不同告警級別,分別為緊急、嚴重、一般這幾個常用級別。
緊急故障:?
嚴重故障:
1、各區域網絡故障,影響較多人辦公的故障。主要為門診樓和辦公樓網絡出現故障
2、服務器發生重啟或者宕機。
服務器告警指標:ping?、cpu使用率達到80%以上、內存使用率95%、磁盤空間使用率達到98%
3、數據庫重點規則
數據庫連通性、表空間使用率95%、數據庫文件系統使用率95%
一般告警
1、網絡設備一般告警
2、主機系統相關資源使用情況。
IT運維通常會有相應統計信息,包括日產產生的告警信息,及相關業務性能分析,本次根據該醫院建設需求,創建應用系統基礎資源使用性能報表,并自定義設定成周報模式,每周會自動生成報表。
實現信息化基礎資源全覆蓋監控,保障了監控自動化管理,通過設置配置即可達到相關調整。降低人工成本,使用運維人員去做對業務更有價值的工作。
監控對象集中展示
自動分類展示,實現不同對象的統計、健康狀況、告警數量,從整體上可直觀查看當前所有IT資源對象的,同時從整體上查看當前對象的CPU?top、內存使用率top等,另外可整體直觀看到當前整個IT狀況是否正常,以及每日產生告警數量、告警恢復情況。
為運維人員提供更準確、更直觀的整體狀況查看。無需單獨去登錄每個系統、每個設備進行繁瑣的巡檢工作。
運維人員可查看最近6小時、最近12小時及最近24小時告警,可了解整個資源運行狀況,避免信息化資源出現告警隱患而人員未關注到時告警遺漏,更加準確的反饋了整體健康狀況,分別從不同等級、告警事件、告警時長直觀的呈現,讓運維人員心中有數。
另外,對于以往的告警也可有跡可循,當一個告警反復出現,或在每日某一個時間段出現時,可根據全部告警,進行綜合查看,如一個一般級別告警,但是反復出現也需要引起關注。
集中告警功能包含了實時告警、全部告警、告警統計等多個維度,匹配運維人員使用習慣,做到告警無遺漏、告警分等級,告警可追溯。從整體上減輕了運維人員工作,且真正做到7*?24小時實時監控,為運維管理工作代理了直觀的價值。
運維管理通常需要直觀呈現,重點關注的對象,通過配置網絡拓撲、業務拓撲,并通過投屏配置方式呈現,及時反映重點關注的如網絡健康狀況、專線鏈路狀況等。當出現異常時,可快速定位故障,大大縮短故障定位、排查時間,為解決故障提供了有效依據。將前端業務影響降至最低。為整個醫護工作帶來了最大的便利。
運維工作除了對日常信息化健康運行關注外,還需要對整體資源使用情況做到合理分配,當資源需要進行調整時,可有效進行整改、達到資源最大化利用率。也可為單個業務系統創建報表,提供日報、周報,展現趨勢數據提供性能分析。
另外,對于整個信息化基礎架構運行狀況,也可通過報表的告警統計,不同維度查看告警統計,操作系統告警統計、網絡設備告警統計,以不同類別、不同等級分別展示。為信息化建設可持續發展提供了有效幫助。
1.?通過IT資產全面梳理、全棧監控、實時告警等新型智能運維手段,建設出一套完善且靈活的成熟運維體系,告別傳統“救火”式運維,運維效率提升10倍,企業運維成本降低超過50%。
2.?為醫院提供更堅實的后勤保障,更加有效的保障醫護人員日常工作,使得醫護人員更加順心的工作,進一步拉近醫患關系,為社會提供更好的服務。
3.?提供更有效的數據依據,推進醫院信息化建設可持續發展,讓信息化資源更合理的應用、最大化應用,為信息化建設提供導向。
加入我們,享受技術樂趣
數字政務在全國范圍內加速推進,不斷提升政府部門的政務服務水平與效率。針對數字政府建設帶來的運維層面問題,尊龍時凱打造集監控、日志管理、資產管理于一體的...
View details尊龍時凱項目團隊對客戶IT資源狀況進行梳理,確定項目所涉及的監控對象包括主機、網絡設備、數據庫、中間件、應用、業務系統、存儲、虛擬化等,決定為客戶打造以...
View details