提到服務器宕機檢測,大家會想到,宕機能夠很快知道,這個有什么可做的?實際上,很多時候服務器宕機,并不總是被及時感知。服務器宕機,ping或者ssh這是簡單的做法,但真正的工程實踐,沒這么簡單。
想要獲知服務器宕機怎么辦?可以通過服務器宕機實時檢測:
1)發現宕機
2)提前告警。
3)告知宕機的詳細原因,如硬件故障,內核bug,網絡異常等等。
4)自動報修生成工單。
我們知道,進行全網物理機宕機準確探測與實時發現,可以給宕機分析提供現場,獲取現場的日志。也可以盡早將宕機數據推送給業務或運營感知并處理,如自動報修,業務遷移等,從而盡可能將業務影響降到。
更重要的是,準確的宕機發現數據可以為宕機預測提供準確的標注數據,為后期宕機預測提供數據基礎,并且這些數據提供給運營部門進行整體分析,提升處理效率。
