熱門搜索 Zabbix技術資料 Zabbix常見問、答討論 成功案例 Zabbix交流區 Prometheus交流區
中國電信X省級IDC業務網管系統項目
中國電信集團有限公司(英文名稱“China Telecom”、簡稱“中國電信”)成立于2000年9月,是中國特大型國有通信企業、上海世博會全球合作伙伴,連續多年入選”世界500強企業”,主要經營固定電話、移動通信、衛星通信、互聯網接入及應用等綜合信息服務。
截至2019年12月,擁有固定電話用戶1.10億戶,移動電話用戶3.35億戶,寬帶用戶?1.5億戶;集團公司總資產7109.64億元,員工總數40余萬人。
2019年6月6日,工信部正式向中國電信發放5G商用牌照。2020年5月13日,作為第一批倡議方,與國家發展改革委等部門發起“數字化轉型伙伴行動”倡議。
面對日趨快速增長的大數據、智能化、云業務平臺等應用系統,電信集團隨著各項業務系統的未來趨勢發展,對網絡規模需求也越來越大,網絡環境安全維度需求上升,不同業務架構設計日趨復雜,電信集團在全國各地園區的資源池IT?設施也越來越多;同時為保障旗下所有的業務日常正常運營,對信息系統及網絡系統的健狀性越發依賴,業務系統的穩定性、可靠性要求也越來越高。因此,迫切需要建設一套統一且高效靈活的IT基礎綜合統一監控平臺,在提高各類信息系統日常運維的運作同時,也能達到實時化、可視化效果,量化運行質量,提高IT基礎系統的可持續運行效率,可隨著設備的增加靈活拓展,準確的智能化告警推送平臺,保障業務能穩定的7*24不間斷運行。
項目的核心技術要求主要是監控對象的覆蓋率、告警的準確率、監控指標的完整性以及監控信息的可擴展性
1、?設備數量龐大、設備型號多、園區機房多、工作量大
2、?采集采集延時問題
3、?采集數據標準化
4、?分布式架構如何保證告警觸發器一致性、方便維護
5、?鏈路關系如何進行自動發現以及呈現
1、?采用分布式架構:多server +?多?proxy?架構,服務器優化、增加表分區、采集方式優化
2、?使用kafka實時同步數據到大數平臺
3、?模板開發找原廠家提供支持解決疑難問題、采集程序規劃好方便擴展
4、?建立一套模板開發標準,鍵值命名符合規范
5、?配合并提供告警配置經驗,上層系統統一配置告警觸發器
1、?網絡設備
品牌:華為、華三、思科、中興、F5、博科、易安信、邁絡思、迪普、IBM、A10、銳捷等
采集方式:SNMP?
重要指標:CPU使用率、內存使用率、板卡狀態、電源狀態、風扇狀態、端口狀態、光衰、端口流量、Trap告警
2、?安全設備
品牌:華為、華三、知道創宇、天融信、深信服、山石、綠盟科技、啟明星辰、飛塔、迪普、安恒等
采集方式:SNMP?
重要指標:會話情況、CPU使用率、內存使用率、板卡狀態、電源狀態、風扇狀態、端口狀態、統計惡意攻擊次數,Trap告警
3、?服務器設備
品牌:中興、曙光、浪潮、惠普、華為、烽火科技、戴爾、IBM、聯想、華三等
采集方式:SNMP?、SSH、爬蟲等連接方式查詢數據
重要指標:CPU狀態、內存狀態、磁盤信息、固態硬盤使用壽命、風扇狀態、電源狀態、電池狀態、PCIE卡狀態、緩存模塊狀態、邏輯盤狀態、網卡狀態,Trap告警
4、?存儲設備
品牌:日立、惠普、華為、富士通、戴爾、NetApp、IBM、中興、浪潮等
采集方式:SNMP?、SSH、SMI-S等連接查詢數據
重要指標:RAID狀態、LUN狀態、磁盤框狀態、電源狀態、風扇狀態、CPU狀態、端口狀態、內存狀態、存儲池狀態、電池狀態、節點狀態、控制器狀態、Trap告警
5、?操作系統
品牌:Redhat、Centos、windows、Aix等
采集方式:ansible
重要指標:CPU使用率、內存使用率、磁盤使用率、磁盤IO、系統日志、關鍵業務進程等
6、?數據庫
品牌:Oracle
采集方式:?ODBC?
重要指標:緩存命中率、會話情況、慢查詢、表空間、鎖情況、連接數、共享池、數據庫用戶、ASM卷
1、及時定時向領導匯報當前進度,有困難及時提出。集團設備數量龐大、設備型號多、園區機房多、工作量大,我們每個月會針對當前的納管情況以及客戶的需求,制定下個月的模板研發計劃,并在每周、每月進行匯報,使得客戶能夠清晰得了解整體的以及每個月的納管情況,能夠對我們的工作進行更加有針對性的,更有力的支持。
2、制定完備的方案針對可能出現的數據采集延時的情況,制定分析流程與工具,從監控端、中間網絡以及被監控端這三個角度去分析,節省排查問題的時間,定位延時的根因。
3、模板的鍵值標準化,在使用kafka消息隊列將數據匯總到統一管理監測平臺之后,進行頁面數據展示時,針對可能會出現無法精準匹配到需要展示的內容的問題。對此,我們對模板鍵值進行了深度改造,統一規劃鍵值的命名方式以及指定每個鍵值對應的用途,從根本上解決了這個問題。
4、模板觸發器統一性方案,觸發器調整各地市都需要到調整一遍保持同步,工作繁鎖并容易出錯。因此,我們將觸發器的配置轉移到統一管理監測平臺上,由專人管理以及維護,減少了這種不必要的重復性工作,減輕維護人員的負擔,
5、鏈路解決方案自動發現與呈現,我們通過采集wwpn號、lldp協議、mac地址轉發的方式,順利實現了服務器——服務器、網絡設備——網絡設備、服務器——網絡設備——存儲,這幾者之間的關系發現。
在未采用我方監控系統時,客戶采用多套監控系統,主要包括zabbix監控告警、太陽風監控告警、ITSM短信告警、vmware及華為、華三CAS虛擬化平臺遠程巡檢發現告警、存儲管理平臺遠程巡檢發現告警,但還是存在部分告警未被發現的情況。在部署我方監控系統的初期時,有效而準確的告警占比達到了21%。
而在項目建成的后期,我方監控系統有效告警占比達到了96%。
由此可見,本次項目監控系統方案對于客戶的收益如下:
1、?設備發生嚴重告警時,能夠及時通知維護人員,使得維護人員無需時刻擔心有告警但無法監測到的情況;
2、?維護人員將設備都錄入監控系統,能夠數據化、圖形化展示各個園區的設備資源使用情況,方便進行統計;
3、?極大節省了人力物力開支成本,無需使用多套運維系統,人工巡檢的頻次也可以降低;
4、?提前預警,在設備因異常的故障變得不可用之前,能夠進行提前預知高警通知,讓維護人員能夠提前聯系廠家進行技術維護,使得在減少技術人員的維護工作同時,也能讓維護人員把更多的精力投在關鍵業務上
尊龍時凱監控實現對城建學院復雜網絡環境的直觀、透明式展示和管理,實時、準確了解整個網絡的動態運行情況,給信息部門的決策提供依據。
View details