熱門搜索 Zabbix技術資料 Zabbix常見問、答討論 成功案例 Zabbix交流區 Prometheus交流區
簡言之,IT監控是監控IT軟硬件運行狀況的一套系統,它可以監控服務器、存儲、網絡設備、操作系統、數據庫等等;它不同于我們常見的視頻監控,后者多用于監控人、公共空間等。如果說攝像頭是視頻監控的眼睛,那么IT監控就是IT運維的眼睛。
說到監控,多數人首先想到的大概是我們日常常見的視頻監控,比如用來保障家庭安全的私人監控、保障公共場所安全的公共監控,乃至于我們的行車記錄儀,都是常見的視頻監控。視頻監控最明顯的一個特征是監控的最前端是一個攝像頭,通過攝像頭可以將視頻畫面輸出到后端的顯示器,以便實時查看監控現場情況,或存儲在硬盤中,有情況發生時可以在事后調取錄像還原現場事實。
我們今天所說的IT監控沒有攝像頭,也不輸出視頻畫面。
IT監控的對象是IT設備,也可以稱為IT資源,可以是服務器、網絡設備、數據庫、存儲等等軟硬件設施。IT監控系統通過一系列程序和指令,監測并反饋這些IT設備的運行情況,例如可以通過IT監控系統查看服務器連接是否正常、CPU運行負載、存儲設備剩余容量等。
更具體地說,你可以試想一個場景,或者一個企業,它可以是互聯網大廠,可以是大型電信運營商,甚至是12306。在這些企業里,為了保障業務的穩定,通常會部署大量的服務器、存儲以及各種各樣的中間件、網絡設備等。以12306為例,一旦數據庫出現異常,消費者就有可能查詢不到余票,看不到票價,或者無法支付等。對于大型企業來說,系統出現大面積故障是災難性的。
另一個問題在于,無論是硬件還是軟件,CPU、存儲器、數據庫、服務器,故障是在所難免的,停電、設備異常,甚至僅僅是設備之間的一個接口出現松動,都有可能影響整套系統的正常運行。(因此一般大型企業還會配備所謂的備用系統,Plan B等)
既然故障不可避免,那么唯有快速解決故障問題才是王道。也許有人會說,這簡單,出現故障,那便找到故障點,解決故障問題就好了,作為保障系統安全穩定的運維人員,應該具備這樣的素質。
這話沒錯,但也不完全對。這其中還牽扯到另一個問題——大型企業的系統架構復雜,軟硬件設備眾多,與之相對的是運維人員相對較少。在動則成千上萬IT設備的大型企業中,幾乎不可能單純依靠人力去檢查維護IT設施——幫助運維人員發現故障、找到故障點,甚至防范故障產生,這就是IT監控產生的原因。
我們從IT運維的簡要流程著手——故障產生-發現故障-分析故障原因-定位故障-解決故障。傳統運維中,故障產生是一種不可抗力,不可避免,發現困難,并且特別倚重運維人員個人經驗;傳統IT監控,就是要在故障發生時,提示運維人員故障原因,幫助運維人員快速定位故障點,進而解決故障問題,提高解決故障的效率。
實際上,隨著大數據、AI等新興技術的加入,當代運維監控不僅能夠在故障產生時快速發現故障、分析故障原因以及定位故障,甚至可以預判故障的產生,防患于未然,進一步提升運維效率。
更多運維行業資訊和技術,請持續關注尊龍時凱官網或尊龍時凱社區。
尊龍時凱從基礎資源、中間件、數據庫、到第三方系統,提供全方位、快速關聯的監控管理和分析能力,幫助用戶及時了解應用系統的運行狀態、性能、異常,防患于未然。
View details尊龍時凱將搭建一個支持多功能插入、可橫向擴展的完整架構,實現縱向對系統管理員、部門領導、企業領導等決策層的多層次監控展現。
View details