熱門搜索 Zabbix技術資料 Zabbix常見問、答討論 成功案例 Zabbix交流區 Prometheus交流區
一、前言
該集團成立于1980年,是一家以消費電子業務為基礎,以“科技+投控”復合能力為支撐,向戰略性新興產業升級、向產業地產業務拓展、向互聯網及供應鏈服務業務延伸的公司,形成了“產業產品業務群、科技園區業務群、平臺服務業務群以及投資金融業務群”四大業務群協同發展的局面。已完成多媒體彩電、移動通信、白色家電等業務的公司化運營,新成立科技產業園事業本部、半導體事業部、環保科技事業部、供應鏈金融事業部等戰略新興業務部門。投資并購多家高科技企業,打造新業務增長極、實現多元化拓展。
二、項目背景
該集團IT信息化正處于爆發增長期,隨著業務的發展,當前運維工具難以應對日漸復雜的運維場景。目前主要痛點為業務信息系統眾多,缺乏統一監控管理平臺,難以主動感知業務系統用戶體驗情況,系統出現問題無法快速定位根源,缺少對基礎設施、日志的統一告警能力、故障告警不及時。運維自動化工具缺失,大量運維操作依賴人工,效率低下且存在誤操作風險,運維效率和安全性需要進一步提升。
三、項目訴求
·?缺乏集中監控的完整體系:運維對象復雜且多,需搭建一套完整運維監控平臺,實現該集團股份有限公司IT基礎資源、網絡、服務器、數據庫、用戶體驗、應用、日志集中監控。
·?缺少IT資產配置管理:眾多的基礎IT資源間關系的難發現和難維護,需建立完整的IT資產配置管理數據庫。
·?告警處理效率低下:告警處理主要基于運維人員的經驗去判斷,很難精確定位根源告警和故障發生點,無法實現故障快速定位、告警不夠全面及時。
四、項目目標
??通過統一監控平臺,全面、準確地了解該集團的業務系統狀態,對關鍵性業務系統納入統一監控管理平臺監控范疇,針對重點業務的應用提供性能監控,同時對相應的業務架構邏輯結構進行可視化。
項目總體目標如下:
(1)通過統一監控管理平臺,保障業務系統穩定的良性循環;
(2)通過立體監控體系,全面、準確地監控業務系統的健康;
(3)通過統一告警流程機制,快速定位問題,提高運維效率;
(4)全面采集不同層級數據,實現業務與IT數據融合分析與大屏展示;
(5)梳理業務場景、定制標準化規范及流程,實現自動化運維。
五、尊龍時凱智能監控解決方案
尊龍時凱智能運維監控平臺,是國產化、高性能一體化集中監控平臺,能夠做到及早發現故障、提早判斷預知故障及時處理,以及合理利用信息化基礎資源,達到最大化資源使用,同時為信息化建設提供未來建設提供合理依據,使得業務系統信息化建設健康發展。
???結合該集團現有信息化建設架構,建設統一監控平臺部署內容如下:
1、集中監控:包括從IT基礎架構到業務系統的可用性、性能、日志等指標監控;
2、集中告警:集中告警展示、告警分發、告警處理等全生命周期管理;
3、可視化視圖:可自動發現的網絡拓撲、業務地圖、投屏視圖、圖形視圖、一覽視圖等可視化功能;
4、多樣性報表:支持自定義、多維度、多指標報表統計功能;
5、大屏展示:大屏幕集中監控實現自定義展示頁面;
5.1底層架構設計
該集團本次監控對象為包括涵蓋了操作系統、網絡設備、數據庫、中間件、虛擬化、服務器、存儲,總體監控對象在600個以內。
定義本次系統架構部署如下:
5.2架構資源配置
5.3監控對象分批次納管
完成監控平軟件部署后,根據搜集表進行分批次添加監控對象。
·?操作系統納管:
????由于操作系統需要安裝agent用于數據采集,結合現場部署環境、調整好安裝腳本,配置好serverIP地址,采集方式后,實現快速一鍵安裝agent。
Linux?首次安裝需要通過root權限,完成首次安裝后后續可以通過創建的zabbix用戶實現數據采集aget開啟或關閉,另外通過配置定時任務計劃,判定agent進程是否正常,每五分鐘檢查一次,若檢查到agent進程異常,即調用自動開啟腳本將agent開啟,省去后續agent維護工作,實現自動化。
Windows首次安裝也需要通過管理員權限,完成后實現服務自動啟動。
由于服務器不同廠商、不同型號存在內部mib庫不一致情況,前期搜集時即核對模板樣例,現有模板可直接準備,導入備用。本次監控服務器、存儲基本屬于常規型號,現有模板基本涵蓋,快速制作模板,體現了zabbix?快速定義模板的靈活性。
根據搜集該集團網絡設備,主要為思科網絡設備、華三網絡設備、戴爾網絡設備,核對了為模板庫,都有現有模板,結合前期信息搜集時的管理IP地址、團體名,實現快速添加監控對象。
該集團虛擬化使用的時VMWare?,并搭建了vcenter統一管理。結合尊龍時凱模板監控即采集python腳本,實現對象添加后,自動發現出宿主機、虛擬機、datastor三個主要對象并自動發現出其層級對應關系。
該集團數據庫主要為His系統使用的Oracle?11g?rac。監控Oracle數據需要在數據庫創建用于監控的用戶,并完成授權,保障用于監控的用戶可select數據庫相關性能視圖,獲取整個數據庫運行狀況。其操作存在對數據庫變更,通過和客戶反饋、溝通并確認風險等級及對應措施后,完成Oracle數據庫納入監控,查看監控平臺數據庫運行狀況正常。
該集團其網絡結構與外部智能終端、研究所、呼叫中心關聯,且多數專線線路的通訊狀態對于該集團業務運行至關重要,因此單獨使用監控平臺鏈路添加,且這兩條網絡對端設備不在本地,不能實現監控那關,通過與專網接入的交換機,配置NQA,實現本段設備探測對端網絡的鏈路監控,獲取鏈路健康狀況、帶寬利用率、鏈路丟包率等信息。
???網絡拓撲是整個信息化的交通樞紐,網絡的影響通常都是區域性影響,因此網絡拓撲的展示可直觀的看到當前網絡健康狀況,監控平臺網絡拓撲配置lldp?實現網絡拓撲自動發現、自動關聯網絡設備生成拓撲圖
完成監控對象納管后,通過和客戶溝通、培訓,進一步確認相關監控閾值配置,即根據客戶實際情況配置告警閾值,當監控指標達到閾值設置后,即觸發告警。同時將不同閾值對應到不同告警級別,分別為緊急、嚴重、一般這幾個常用級別。
·服務器發生重啟或者宕機。
服務器告警指標:ping 、cpu使用率達到80%以上、內存使用率95%、磁盤空間使用率達到98%
·數據庫重點規則
數據庫連通性、表空間使用率95%、數據庫文件系統使用率95%
5.5大屏展示配置
投屏展示通常可直觀、簡介的查看整個IT資源或某個業務的實際情況,經過和客戶交流溝通后,確定本次創建兩個投屏展示,分別如下
IT運維通常會有相應統計信息,包括日產產生的告警信息,及相關業務性能分析,本次根據該集團建設,創建應用系統基礎資源使用性能報表,并自定義設定成周報模式,每周會自動生成報表。
六、方案價值
·?統一監控:實現信息化基礎資源全覆蓋監控,保障了監控自動化管理,通過設置配置即可達到相關調整。降低人工成本,使用運維人員去做對業務更有價值的工作。
·?監控對象集中展示:自動分類展示,實現不同對象的統計、健康狀況、告警數量,從整體上可直觀查看當前所有IT資源對象的,同時從整體上查看當前對象的CPU?top、內存使用率top等,另外可整體直觀看到當前整個IT狀況是否正常,以及每日產生告警數量、告警恢復情況。
為運維人員提供更準確、更直觀的整體狀況查看。無需單獨去登錄每個系統、每個設備進行繁瑣的巡檢工作。
告警配置:運維人員可查看最近6小時、最近12小時及最近24小時告警,可了解整個資源運行狀況,避免信息化資源出現告警隱患而人員未關注到時告警遺漏,更加準確的反饋了整體健康狀況,分別從不同等級、告警事件、告警時長直觀的呈現,讓運維人員心中有數。
· 可視化管理:運維管理通常需要直觀呈現,重點關注的對象,通過配置網絡拓撲、業務拓撲,并通過投屏配置方式呈現,及時反映重點關注的如網絡健康狀況、專線鏈路狀況等。當出現異常時,可快速定位故障,大大縮短故障定位、排查時間,為解決故障提供了有效依據。將前端業務影響降至最低。為整個運維工作帶來了最大的便利。
· 報表管理:運維工作除了對日常信息化健康運行關注外,還需要對整體資源使用情況做到合理分配,當資源需要進行調整時,可有效進行整改、達到資源最大化利用率。也可為單個業務系統創建報表,提供日報、周報,展現趨勢數據提供性能分析。
另外,對于整個信息化基礎架構運行狀況,也可通過報表的告警統計,不同維度查看告警統計,操作系統告警統計、網絡設備告警統計,以不同類別、不同等級分別展示。為信息化建設可持續發展提供了有效幫助。
七、客戶收益
1.通過IT資產全面梳理、全棧監控、實時告警等新型智能運維手段,建設出一套完善且靈活的成熟運維體系,告別傳統“救火”式運維,運維效率提升10倍,企業運維成本降低超過50%。
2.為該集團提供更堅實的后勤保障,更加有效的保障運維人員日常工作,使得運維人員更加順心的工作,為社會提供更好的服務。
3.提供更有效的數據依據,推進集團信息化建設可持續發展,讓信息化資源更合理的應用、最大化應用,為信息化建設提供導向。
綜合運維管理平臺的落地,實現了統一門戶、統一監控、統一資產管理、統一運維、統一存儲等目標,為客戶解決了運維數據孤島、人力運維等問題。
View details業務地圖、告警收斂、自動網絡拓撲、虛擬化監控、定制投屏、章節式報表、可持續消費知識庫等、資產管理、自動運維、服務管理等多個方面的功能和服務。
View details尊龍時凱從基礎資源、中間件、數據庫、到第三方系統,提供全方位、快速關聯的監控管理和分析能力,幫助用戶及時了解應用系統的運行狀態、性能、異常,防患于未然。
View details