熱門搜索 Zabbix技術資料 Zabbix常見問、答討論 成功案例 Zabbix交流區 Prometheus交流區
>>>>前言
根據《期貨業信息安全事件報告與調查處理辦法》(證監會公告[2012]46號,簡稱《46號公告》),將信息安全事件分為特別重大事件、重大事件、較大事件、一般事件四類。根據證監會網站發布的《公司分類監管規定(2017修訂)》,公司風險管理能力評價指標與標準。主要包括資本充足、公司治理與合規管理、全面風險管理、信息系統安全、客戶權益保護、信息披露等6類。其中信息系統安全主要包括 IT 治理完善,信息系統管理機制獨立有效;信息系統功能齊備,有效滿足客戶委托、交易、清算、開戶、查詢等需求,客戶電子資料等信息安全;信息系統安全穩定運行,能夠避免頻繁信息安全事故或重大事故;信息系統應急預案有效,能夠及時應對信息安全事故等四類。一次較大信息安全事件對公司就是一場災難,影響公司的分類級別,進而影響投資者保護基金的繳納金額,還可能影響新業務資質的申請,銀行貸款授信、券商債券業務、投保基金上交額、新業務申請、質押等現有業務展業、并且面臨更嚴格的合規檢查。
基于以上的風險和考慮,上海某國際公司選擇與尊龍時凱合作,希望我們幫助其設計完整的智能運維架構,本項目是整個項目的基礎監控部分。
>>>>項目名稱
XX國際(上海)有限公司基礎監控項目
>>>>客戶簡介
XX國際(上海)有限公司是中國證監會首批獲準設立的外資控股公司。公司注冊資金200000萬元,經營范圍主要包括:經紀、投資咨詢、自營、資產管理等。
>>>>項目背景
隨著該公司業務的日益增長,底層IT基礎設施也在不斷擴張,各種硬件、信息系統故障亦隨之而來?,F有監控系統功能較為簡單,且無有效的告警通知手段,導致故障發生時,人員響應速度較慢,無法及時定位問題所在。日常監控只能靠運維人員不停地盯著屏幕進行監視,無疑增強了IT人員的管理難度。
為解決業務支撐系統全方位的保障,一套功能完善的監控體系,已成為公司發展中的必要因素。
>>>>客戶痛點
IT資產管理混亂、梳理難度大、信息缺失嚴重。
公司機房多、網絡區域劃分復雜、設備難以集中管理。
業務專線鏈路繁多,頻繁傳輸大文件,穩定性難以保障。
公司重要門戶缺少人員維護,每日手動進行撥測。
故障發現不及時,往往由業務人員提前發現問題。
>>>>解決方案
資產梳理:依據嚴謹的命名規則、遵守科學合理的分組規范,對資產進行納管;
大屏視圖:展示完整網絡拓撲架構、IDC間重要鏈路的時時狀態;
門戶監測:模擬登錄、多步驟監測門戶服務狀態,可視化展示WEB訪問速度、響應時間的變化趨勢;
告警中心:結合該公司已有短信、郵件系統,開啟雙通道告警推送模式,支持短信、郵件消息自定義推送,支持告警分析、告警歷史查詢等功能。
>>>>項目目標
建立XX國際的基礎運維管理體系;
結合XX國際運維現狀、推進基礎轉型建設工作;
推進XX國際業務監控指標體系搭建方法論的實踐落地;
初步制定XX國際基礎監控能力體系;
建立統一的基礎監控中心;
建立統一的基礎告警中心;
建立統一的基礎業務故障管理平臺;
>>>>實施方案
系統架構
架構圖
該項目首次采用了基于PostgreSQL流復制+Pgpool-II HA作為監控底層數據庫的分布式部署方案。通過Corosync和Pacemaker使用Pcs實現zabbix、Web、Proxy節點的高可用集群架構;災難狀態下雙節點實現自動切換,極大保障了基礎監控體系自身的可靠性。
>>>>
資源需求
監控系統由主采集、Web門戶、數據庫、代理采集四個角色組成,其中主采集、Web門戶、數據庫都是雙節點;代理采集分為兩組,每組各有兩個節點。
角色 | 配置 | IP地址 | 節點數量 |
主采集 | 8C?16G?200G | 三個IP地址 | 2 |
WEB門戶 | 4C?8G?200G | 三個IP地址 | 2 |
數據庫 | 8C?16G?2.2T | 三個IP地址 | 2 |
代理采集一組 | 8C?8G?200G | 三個IP地址 | 2 |
代理采集二組 | 8C?8G?200G | 三個IP地址 | 2 |
>>>>服務器分布
主采集、Web門戶、數據庫、代理采集一組分布在機房A-XX區域,監控覆蓋范圍包括:機房A-XX區、機房C-XX區,覆蓋率100%;
代理采集二組分布在機房B-XX區,監控覆蓋范圍包括:機房A-XXX區、機房B-XX區、XX區、機房C-XX區,覆蓋率100%。
角色 | 數量 | 位置分布 | 監控覆蓋范圍 |
主采集服務器WEB門戶數據庫代理采集服務器 | 8臺 | 機房A-XX區 | 機房A-XX區機房C-XX區 |
代理采集服務器 | 2臺 | 機房B-XX區 | 機房A-XX區機房B-XX區、XX區機房C-XX區 |
>>>>監控對象
類型 | 品牌 |
網絡設備 | 思科、華三、山石、飛塔、Palo Alto、F5、深信服 |
安全設備 | 深信服、綠盟、山石、飛塔 |
服務器 | 惠普、戴爾、聯想、華三 |
存儲 | 戴爾、昆騰 |
操作系統 | Windows、CentOS、Redhat |
虛擬化 | VMware |
數據庫 | Oracle、MySQL、SQLServer |
中間件 | Tomcat、Nginx |
>>>>方案價值
該方案深度剖析了客戶在基礎信息管理維護方面的痛點,針對客戶著重提出的問題進行解決,摒棄了運維人員以往“盯屏”式的工作模式。建立起一套由監控中心、告警中心、資產管理中心為一體的智能監控體系。實現了信息化基礎設施全覆蓋監控,降低了人工維護成本,亦成為公司業務穩定運行的強有力支撐。
>>>>網絡投屏
網絡投屏清晰展示了機房A、B、C、D之間的互聯關系,以及各機房內的子網區域組成,通過設備、線路顏色可以很直觀看出網絡成員的運行狀態,如下:
>>>>專線鏈路
鏈路監控可直觀看出重要業務專線的實時帶寬利用率,在利用率達到專線自身的百分比閾值后即會出發告警;亦可進一步查看某條專線的延遲、抖動情況,如下:?
>>>>門戶網站
與客戶溝通得知,早期該公司門戶偶爾會出現無法訪問的情況,影響較大,公司領導基本每天早上上班前都會手動挨個進行訪問檢查;目前處于監控狀態,Web會實時撥測,也可以詳細查看門戶網頁的響應速度,有效避免了往日重復的人為檢測,如下:
>>>>短信通知
該公司采用了短信告警通知方式,系統故障時,運維人員能夠第一時間獲取到事件通知,打破以往業務人員提前發現信息系統故障的窘境,如下:
>>>>客戶收益
通過詳細的設計與規劃,建立起一套性能優越、功能強大,監控覆蓋范圍廣且靈活的運維監控管理體系,極大保障了業務系統的穩定運行;
面臨突發狀況,為運維人員提供及時、可靠的告警通知,準確定位事件爆發點,使80%故障處理速度壓縮在半小時以內,有效降低了運維人員的工作復雜度,縮減日常維護成本30%以上。
加入我們,享受技術樂趣
業務地圖、告警收斂、自動網絡拓撲、虛擬化監控、定制投屏、章節式報表、可持續消費知識庫等、資產管理、自動運維、服務管理等多個方面的功能和服務。
View details尊龍時凱監控實現對城建學院復雜網絡環境的直觀、透明式展示和管理,實時、準確了解整個網絡的動態運行情況,給信息部門的決策提供依據。
View details