熱門搜索 Zabbix技術(shù)資料 Zabbix常見(jiàn)問(wèn)、答討論 成功案例 Zabbix交流區(qū) Prometheus交流區(qū)
中國(guó)電信X省級(jí)IDC業(yè)務(wù)網(wǎng)管系統(tǒng)項(xiàng)目
中國(guó)電信集團(tuán)有限公司(英文名稱“China Telecom”、簡(jiǎn)稱“中國(guó)電信”)成立于2000年9月,是中國(guó)特大型國(guó)有通信企業(yè)、上海世博會(huì)全球合作伙伴,連續(xù)多年入選”世界500強(qiáng)企業(yè)”,主要經(jīng)營(yíng)固定電話、移動(dòng)通信、衛(wèi)星通信、互聯(lián)網(wǎng)接入及應(yīng)用等綜合信息服務(wù)。
截至2019年12月,擁有固定電話用戶1.10億戶,移動(dòng)電話用戶3.35億戶,寬帶用戶?1.5億戶;集團(tuán)公司總資產(chǎn)7109.64億元,員工總數(shù)40余萬(wàn)人。
2019年6月6日,工信部正式向中國(guó)電信發(fā)放5G商用牌照。2020年5月13日,作為第一批倡議方,與國(guó)家發(fā)展改革委等部門發(fā)起“數(shù)字化轉(zhuǎn)型伙伴行動(dòng)”倡議。
面對(duì)日趨快速增長(zhǎng)的大數(shù)據(jù)、智能化、云業(yè)務(wù)平臺(tái)等應(yīng)用系統(tǒng),電信集團(tuán)隨著各項(xiàng)業(yè)務(wù)系統(tǒng)的未來(lái)趨勢(shì)發(fā)展,對(duì)網(wǎng)絡(luò)規(guī)模需求也越來(lái)越大,網(wǎng)絡(luò)環(huán)境安全維度需求上升,不同業(yè)務(wù)架構(gòu)設(shè)計(jì)日趨復(fù)雜,電信集團(tuán)在全國(guó)各地園區(qū)的資源池IT?設(shè)施也越來(lái)越多;同時(shí)為保障旗下所有的業(yè)務(wù)日常正常運(yùn)營(yíng),對(duì)信息系統(tǒng)及網(wǎng)絡(luò)系統(tǒng)的健狀性越發(fā)依賴,業(yè)務(wù)系統(tǒng)的穩(wěn)定性、可靠性要求也越來(lái)越高。因此,迫切需要建設(shè)一套統(tǒng)一且高效靈活的IT基礎(chǔ)綜合統(tǒng)一監(jiān)控平臺(tái),在提高各類信息系統(tǒng)日常運(yùn)維的運(yùn)作同時(shí),也能達(dá)到實(shí)時(shí)化、可視化效果,量化運(yùn)行質(zhì)量,提高IT基礎(chǔ)系統(tǒng)的可持續(xù)運(yùn)行效率,可隨著設(shè)備的增加靈活拓展,準(zhǔn)確的智能化告警推送平臺(tái),保障業(yè)務(wù)能穩(wěn)定的7*24不間斷運(yùn)行。
項(xiàng)目的核心技術(shù)要求主要是監(jiān)控對(duì)象的覆蓋率、告警的準(zhǔn)確率、監(jiān)控指標(biāo)的完整性以及監(jiān)控信息的可擴(kuò)展性
1、?設(shè)備數(shù)量龐大、設(shè)備型號(hào)多、園區(qū)機(jī)房多、工作量大
2、?采集采集延時(shí)問(wèn)題
3、?采集數(shù)據(jù)標(biāo)準(zhǔn)化
4、?分布式架構(gòu)如何保證告警觸發(fā)器一致性、方便維護(hù)
5、?鏈路關(guān)系如何進(jìn)行自動(dòng)發(fā)現(xiàn)以及呈現(xiàn)
1、?采用分布式架構(gòu):多server +?多?proxy?架構(gòu),服務(wù)器優(yōu)化、增加表分區(qū)、采集方式優(yōu)化
2、?使用kafka實(shí)時(shí)同步數(shù)據(jù)到大數(shù)平臺(tái)
3、?模板開(kāi)發(fā)找原廠家提供支持解決疑難問(wèn)題、采集程序規(guī)劃好方便擴(kuò)展
4、?建立一套模板開(kāi)發(fā)標(biāo)準(zhǔn),鍵值命名符合規(guī)范
5、?配合并提供告警配置經(jīng)驗(yàn),上層系統(tǒng)統(tǒng)一配置告警觸發(fā)器
1、?網(wǎng)絡(luò)設(shè)備
品牌:華為、華三、思科、中興、F5、博科、易安信、邁絡(luò)思、迪普、IBM、A10、銳捷等
采集方式:SNMP?
重要指標(biāo):CPU使用率、內(nèi)存使用率、板卡狀態(tài)、電源狀態(tài)、風(fēng)扇狀態(tài)、端口狀態(tài)、光衰、端口流量、Trap告警
2、?安全設(shè)備
品牌:華為、華三、知道創(chuàng)宇、天融信、深信服、山石、綠盟科技、啟明星辰、飛塔、迪普、安恒等
采集方式:SNMP?
重要指標(biāo):會(huì)話情況、CPU使用率、內(nèi)存使用率、板卡狀態(tài)、電源狀態(tài)、風(fēng)扇狀態(tài)、端口狀態(tài)、統(tǒng)計(jì)惡意攻擊次數(shù),Trap告警
3、?服務(wù)器設(shè)備
品牌:中興、曙光、浪潮、惠普、華為、烽火科技、戴爾、IBM、聯(lián)想、華三等
采集方式:SNMP?、SSH、爬蟲(chóng)等連接方式查詢數(shù)據(jù)
重要指標(biāo):CPU狀態(tài)、內(nèi)存狀態(tài)、磁盤信息、固態(tài)硬盤使用壽命、風(fēng)扇狀態(tài)、電源狀態(tài)、電池狀態(tài)、PCIE卡狀態(tài)、緩存模塊狀態(tài)、邏輯盤狀態(tài)、網(wǎng)卡狀態(tài),Trap告警
4、?存儲(chǔ)設(shè)備
品牌:日立、惠普、華為、富士通、戴爾、NetApp、IBM、中興、浪潮等
采集方式:SNMP?、SSH、SMI-S等連接查詢數(shù)據(jù)
重要指標(biāo):RAID狀態(tài)、LUN狀態(tài)、磁盤框狀態(tài)、電源狀態(tài)、風(fēng)扇狀態(tài)、CPU狀態(tài)、端口狀態(tài)、內(nèi)存狀態(tài)、存儲(chǔ)池狀態(tài)、電池狀態(tài)、節(jié)點(diǎn)狀態(tài)、控制器狀態(tài)、Trap告警
5、?操作系統(tǒng)
品牌:Redhat、Centos、windows、Aix等
采集方式:ansible
重要指標(biāo):CPU使用率、內(nèi)存使用率、磁盤使用率、磁盤IO、系統(tǒng)日志、關(guān)鍵業(yè)務(wù)進(jìn)程等
6、?數(shù)據(jù)庫(kù)
品牌:Oracle
采集方式:?ODBC?
重要指標(biāo):緩存命中率、會(huì)話情況、慢查詢、表空間、鎖情況、連接數(shù)、共享池、數(shù)據(jù)庫(kù)用戶、ASM卷
1、及時(shí)定時(shí)向領(lǐng)導(dǎo)匯報(bào)當(dāng)前進(jìn)度,有困難及時(shí)提出。集團(tuán)設(shè)備數(shù)量龐大、設(shè)備型號(hào)多、園區(qū)機(jī)房多、工作量大,我們每個(gè)月會(huì)針對(duì)當(dāng)前的納管情況以及客戶的需求,制定下個(gè)月的模板研發(fā)計(jì)劃,并在每周、每月進(jìn)行匯報(bào),使得客戶能夠清晰得了解整體的以及每個(gè)月的納管情況,能夠?qū)ξ覀兊墓ぷ鬟M(jìn)行更加有針對(duì)性的,更有力的支持。
2、制定完備的方案針對(duì)可能出現(xiàn)的數(shù)據(jù)采集延時(shí)的情況,制定分析流程與工具,從監(jiān)控端、中間網(wǎng)絡(luò)以及被監(jiān)控端這三個(gè)角度去分析,節(jié)省排查問(wèn)題的時(shí)間,定位延時(shí)的根因。
3、模板的鍵值標(biāo)準(zhǔn)化,在使用kafka消息隊(duì)列將數(shù)據(jù)匯總到統(tǒng)一管理監(jiān)測(cè)平臺(tái)之后,進(jìn)行頁(yè)面數(shù)據(jù)展示時(shí),針對(duì)可能會(huì)出現(xiàn)無(wú)法精準(zhǔn)匹配到需要展示的內(nèi)容的問(wèn)題。對(duì)此,我們對(duì)模板鍵值進(jìn)行了深度改造,統(tǒng)一規(guī)劃鍵值的命名方式以及指定每個(gè)鍵值對(duì)應(yīng)的用途,從根本上解決了這個(gè)問(wèn)題。
4、模板觸發(fā)器統(tǒng)一性方案,觸發(fā)器調(diào)整各地市都需要到調(diào)整一遍保持同步,工作繁鎖并容易出錯(cuò)。因此,我們將觸發(fā)器的配置轉(zhuǎn)移到統(tǒng)一管理監(jiān)測(cè)平臺(tái)上,由專人管理以及維護(hù),減少了這種不必要的重復(fù)性工作,減輕維護(hù)人員的負(fù)擔(dān),
5、鏈路解決方案自動(dòng)發(fā)現(xiàn)與呈現(xiàn),我們通過(guò)采集wwpn號(hào)、lldp協(xié)議、mac地址轉(zhuǎn)發(fā)的方式,順利實(shí)現(xiàn)了服務(wù)器——服務(wù)器、網(wǎng)絡(luò)設(shè)備——網(wǎng)絡(luò)設(shè)備、服務(wù)器——網(wǎng)絡(luò)設(shè)備——存儲(chǔ),這幾者之間的關(guān)系發(fā)現(xiàn)。
在未采用我方監(jiān)控系統(tǒng)時(shí),客戶采用多套監(jiān)控系統(tǒng),主要包括zabbix監(jiān)控告警、太陽(yáng)風(fēng)監(jiān)控告警、ITSM短信告警、vmware及華為、華三CAS虛擬化平臺(tái)遠(yuǎn)程巡檢發(fā)現(xiàn)告警、存儲(chǔ)管理平臺(tái)遠(yuǎn)程巡檢發(fā)現(xiàn)告警,但還是存在部分告警未被發(fā)現(xiàn)的情況。在部署我方監(jiān)控系統(tǒng)的初期時(shí),有效而準(zhǔn)確的告警占比達(dá)到了21%。
而在項(xiàng)目建成的后期,我方監(jiān)控系統(tǒng)有效告警占比達(dá)到了96%。
由此可見(jiàn),本次項(xiàng)目監(jiān)控系統(tǒng)方案對(duì)于客戶的收益如下:
1、?設(shè)備發(fā)生嚴(yán)重告警時(shí),能夠及時(shí)通知維護(hù)人員,使得維護(hù)人員無(wú)需時(shí)刻擔(dān)心有告警但無(wú)法監(jiān)測(cè)到的情況;
2、?維護(hù)人員將設(shè)備都錄入監(jiān)控系統(tǒng),能夠數(shù)據(jù)化、圖形化展示各個(gè)園區(qū)的設(shè)備資源使用情況,方便進(jìn)行統(tǒng)計(jì);
3、?極大節(jié)省了人力物力開(kāi)支成本,無(wú)需使用多套運(yùn)維系統(tǒng),人工巡檢的頻次也可以降低;
4、?提前預(yù)警,在設(shè)備因異常的故障變得不可用之前,能夠進(jìn)行提前預(yù)知高警通知,讓維護(hù)人員能夠提前聯(lián)系廠家進(jìn)行技術(shù)維護(hù),使得在減少技術(shù)人員的維護(hù)工作同時(shí),也能讓維護(hù)人員把更多的精力投在關(guān)鍵業(yè)務(wù)上
尊龍時(shí)凱采用分布式實(shí)施,分別對(duì)主機(jī)、網(wǎng)絡(luò)、存儲(chǔ)、數(shù)據(jù)庫(kù)、中間件、應(yīng)用、硬件和虛擬化等實(shí)施一站式監(jiān)控。
View details尊龍時(shí)凱以運(yùn)維監(jiān)控起家,具有十多年運(yùn)維產(chǎn)品經(jīng)驗(yàn),形成了非常成熟的運(yùn)維監(jiān)控解決方案。同時(shí),尊龍時(shí)凱緊跟信創(chuàng)國(guó)產(chǎn)化浪潮,積極推動(dòng)信創(chuàng)產(chǎn)品適配,融入信創(chuàng)生態(tài),能...
View details尊龍時(shí)凱基于zabbix實(shí)現(xiàn),支持二次開(kāi)發(fā),采用分布式部署,集中告警,一覽視圖、網(wǎng)絡(luò)拓?fù)?、業(yè)務(wù)地圖、投屏視圖、圖形視圖各類視圖等。
View details尊龍時(shí)凱監(jiān)控實(shí)現(xiàn)對(duì)城建學(xué)院復(fù)雜網(wǎng)絡(luò)環(huán)境的直觀、透明式展示和管理,實(shí)時(shí)、準(zhǔn)確了解整個(gè)網(wǎng)絡(luò)的動(dòng)態(tài)運(yùn)行情況,給信息部門的決策提供依據(jù)。
View details尊龍時(shí)凱采用分布式實(shí)施,分別對(duì)主機(jī)、網(wǎng)絡(luò)、存儲(chǔ)、數(shù)據(jù)庫(kù)、中間件、應(yīng)用、硬件和虛擬化等實(shí)施一站式監(jiān)控。
View details基于企業(yè)IT系統(tǒng)結(jié)構(gòu)特點(diǎn),結(jié)合客戶運(yùn)維痛點(diǎn)與實(shí)際需求,尊龍時(shí)凱為該客戶打造了涵蓋全局監(jiān)控、資產(chǎn)梳理、大屏視圖、專線鏈路、管理門戶、告警中心等于一...
View details尊龍時(shí)凱為該公司部署了集中監(jiān)控、告警系統(tǒng),并配置了可視化視圖和多樣性報(bào)表。
View details