熱門搜索 Zabbix技術資料 Zabbix常見問、答討論 成功案例 Zabbix交流區 Prometheus交流區
客戶簡介
案例客戶為某央企下屬研究院。
隨著信創國產化持續推進,案例客戶已完成部分IT核心系統的替代,部署了一系列國產軟硬件設施,如Kylinv10操作系統、融智通網絡設備等。由于信創生態不夠成熟,缺乏整合,各資源廠商只能提供滿足自身產品的運維工具與服務。
當前該單位的IT基礎設施處于信創產品與非信創共存狀態,這種共存狀態使得原有的運維體系無法滿足現有需求,打造具備信創整合能力,安全、自主可控的運維體系變得越來越迫切。
尊龍時凱以運維監控起家,具有十多年運維產品經驗,形成了非常成熟的運維監控解決方案。同時,尊龍時凱緊跟信創國產化浪潮,積極推動信創產品適配,融入信創生態,能夠滿足當前主流信創產品的兼容與監控需求。
根據客戶需求,尊龍時凱打造了全面兼容信創國產化,且滿足一站式監控與告警的智能運維監控解決方案。
項目的重點之一是將監控系統部署到客戶的Kylinv10操作系統,完成對操作系統及其他信創產品的監控納管。
尊龍時凱智能監控平臺對國產化軟硬件部署安裝已支持包括:鯤鵬、飛騰、海光、龍芯、寶德、麒麟、統信、歐拉、達夢數據庫、人大金倉數據庫、高斯數據庫、海量數據庫等,成功部署在客戶的Kylinv10操作系統。
環境信息
主機名 | IP地址 | 角色 | CPU | 內存 | 系統盤 | 數據盤 | 操作系統 |
xy-master | – | 主控節點(master) | 8核 | 16G | 200G | – | Kylinv10 |
xy-slave1 | – | 系統節點(slave) | 8核 | 16G | 200G | 200G | Kylinv10 |
xy-slave2 | – | 系統節點(slave) | 8核 | 16G | 200G | 200G | Kylinv10 |
xy-slave3 | – | 系統節點(slave) | 8核 | 16G | 200G | 200G | Kylinv10 |
xy-harbor | – | harbor節點(Harbor) | 8核 | 16G | 200G | – | Kylinv10 |
xy-build | – | 構建節點(build) | 8核 | 16G | 200G | – | Kylinv10 |
xy-share1 | – | 工作節點(share1) | 8核 | 16G | 200G | – | Kylinv10 |
xy-share2 | – | 工作節點(share2) | 8核 | 16G | 200G | – | Kylinv10 |
xy-share3 | – | 工作節點(share3) | 8核 | 16G | 200G | – | Kylinv10 |
xy-share4 | – | 工作節點(share4) | 8核 | 16G | 200G | – | Kylinv10 |
xy-share5 | – | 工作節點(share5) | 8核 | 16G | 200G | – | Kylinv10 |
xy-share6 | – | 工作節點(share6) | 8核 | 16G | 200G | – | Kylinv10 |
xy-share7 | – | 工作節點(share7) | 8核 | 16G | 200G | – | Kylinv10 |
xy-share8 | – | 工作節點(share8) | 8核 | 16G | 200G | – | Kylinv10 |
yunwei | – | 運維軟件節點 | 16核 | 32G | 200G |
統一監控
之于原有運維監控系統無法實現信創基礎設施與非信創基礎設施全棧兼容問題,基于尊龍時凱監控的多協議支持與強大的整合能力,實現了對客戶探測、數據庫、操作系統、中間件、網絡設備、服務器、存儲、容器(K8S)等信創及非信創資源的統一監控納管。
序號 | 對象類型 | 關鍵性能指標 | 正常范圍 |
1 | WEB探測 | 網頁響應代碼 | 響應代碼為200或302 |
2 | WEB探測 | 網頁響應時間 | 響應時間不為零 |
3 | TCP探測 | 端口狀態 | 端口狀態正常 |
序號 | 對象類型 | 關鍵性能指標 | 正常范圍 |
1 | Kylin操作系統 | CPU使用率 | CPU使用率小于95% |
2 | Kylin操作系統 | 內存使用率 | 內存使用率小于95% |
3 | Kylin操作系統 | 磁盤使用率 | 磁盤使用率小于95% |
4 | Kylin操作系統 | inode分區磁盤使用率 | 磁盤使用率小于95% |
5 | Kylin操作系統 | CPU負載 | CPU負載低于3倍CPU核心數 |
序號 | 對象類型 | 關鍵性能指標 | 正常范圍 |
1 | PostgreSQL | 連接數利用率 | 連接數利用率低于80% |
2 | PostgreSQL | 數據采集狀態 | 數據采集狀態正常 |
3 | PostgreSQL | 鎖總數 | 鎖總數低于500 |
序號 | 對象類型 | 關鍵性能指標 | 正常范圍 |
1 | Nginx | 數據采集狀態 | 數據采集狀態正常 |
序號 | 對象類型 | 關鍵性能指標 | 正常范圍 |
1 | 融智通 | 光模塊端口發光功率 | 系統最低閾值<發光功率<系統最高閾值 |
2 | 融智通 | 光模塊端口收光功率 | 系統最低閾值<收光功率<系統最高閾值 |
3 | 融智通 | CPU使用率 | CPU使用率小于90% |
4 | 融智通 | 內存使用率 | 內存使用率小于90% |
5 | 融智通 | 板卡溫度 | 系統最低閾值<板卡溫度<系統最高閾值 |
6 | 融智通 | 槽位在線狀態 | 槽位處于在線狀態 |
7 | 融智通 | 風扇運行狀態 | 風扇運行狀態正常 |
8 | 融智通 | 風扇在位狀態 | 風扇在位狀態正常 |
9 | 融智通 | 端口接收利用率 | 端口接收利用率小于90% |
10 | 融智通 | 端口發送利用率 | 端口發送利用率小于90% |
序號 | 對象類型 | 關鍵性能指標 | 正常范圍 |
1 | 服務器 | CPU使用率 | CPU使用率小于90% |
2 | 服務器 | 內存使用率 | 內存使用率小于90% |
3 | 服務器 | CPU狀態 | CPU狀態正常 |
4 | 服務器 | 電壓模塊狀態 | 電壓模塊狀態正常 |
5 | 服務器 | 溫度模塊狀態 | 溫度模塊狀態正常 |
6 | 服務器 | 電源模塊狀態 | 電源模塊狀態正常 |
7 | 服務器 | 顯卡狀態 | 顯卡狀態正常 |
8 | 服務器 | 磁盤狀態 | 磁盤狀態正常 |
9 | 服務器 | 網卡連接狀態 | 網卡連接狀態正常 |
序號 | 對象類型 | 關鍵性能指標 | 正常范圍 |
1 | ceph | 監視器節點狀態 | 監視器節點狀態正常 |
2 | ceph | OSD in狀態 | OSD in狀態正常 |
3 | ceph | OSD up狀態 | OSD up狀態正常 |
4 | ceph | pool空間使用率 | pool空間使用率低于95% |
序號 | 對象類型 | 關鍵性能指標 | 正常范圍 |
1 | 鏈路或專線 | 端口帶寬接收利用率 | 接收利用率低于90% |
2 | 鏈路或專線 | 端口帶寬發送利用率 | 發送利用率低于90% |
3 | 鏈路或專線 | 端口狀態 | 端口狀態正常 |
序號 | 對象類型 | 關鍵性能指標 | 正常范圍 |
1 | K8S | 節點CPU使用率 | 節點CPU使用率小于90% |
2 | K8S | 節點內存使用率 | 節點內存使用率小于90% |
3 | K8S | 節點狀態 | 節點狀態正常 |
4 | K8S | POD狀態 | POD狀態正常 |
5 | K8S | 集群健康狀態 | 健康狀態正常 |
平臺提供了多維度告警信息統計。如實時告警、全部告警、告警視圖等,借助告警數據與告警視圖,快速判別告警級別的分布情況,并可作為評判系統健康度與運維工作量的重要依據。
觸發器告警TOPN、對象告警TOPN,還可以定位不合理的觸發器和異常的對象,一般超過20次是需要排查觸發器的合理性。
未恢復告警時長TOPN還可以避免潛在的隱患長期無人處理。
檢查是否存在異常的監控對象,狀態異常反應對象數據無法正常采集,需要及時疏通處理
門戶在手,全局在握。方案打造了統一的運維門戶,客戶的各個IT子系統對接門戶實現單點登錄,將分散的運維系統整合成為一個監控與告警中樞,不必對各個系統逐一登錄。
1.安全。基于自主研發、安全可控的尊龍時凱監控,滿足了客戶對于信息系統安全合規性要求。
2.靈活可擴展。尊龍時凱監控具有很強的延續性與連貫性,支持靈活的擴展,在滿足現有監控的同時,通過產品迭代升級就可以實現新的資源設備監控,無需推倒重建整個運維監控系統。
尊龍時凱社區已經開放尊龍時凱監控免費版、尊龍時凱MCM(監控+CMDB)免費版,歡迎下載體驗!
基于客戶醫院原有的運維體系、運維痛點和對監控的需求,尊龍時凱為其量身打造了一套一站式智能運維監控解決方案,搭建統一監控平臺,引入智能化告警管理系統、可...
View details尊龍時凱對主機、網絡、存儲、數據庫、中間件、應用、硬件、虛擬化、攝像頭及其他數據感知設備等實現一站式監控,保障業務高效穩定的運行。
View details