手把手玩IT!: AWS EC2底層硬體故障

2023年5月4日星期四

最近剛好碰上EC2無預警自動重啟的情況。

點選EC2，查看有異常的機器。

進入EC2後點選左邊的EC2全域檢視。

進入後查看有建立的執行個體有哪些，接著確認要查詢的EC2所在區域並點選。

進入後在搜尋欄位輸入要查詢的資源ID並點選。

進入該主機後點選下方的監控。

於監控頁面內發現在5/2有出現狀態檢查失敗1個的訊息，並且CPU與網路當下都處於失連的狀況。

原廠回覆:此為底層硬體發生不可預期的故障，故系統自動重啟實例轉移至其它底層硬體並恢復，確認於轉移後的底層硬體正常運行。

另外依照過往經驗AWS不會主動發送非預期故障的通知信息，若想針對EC2異常監控進行設定。

建議可針對各台 EC2 的 system health check 進行監控，並在有異常時透過 SNS 寄發通知 [1]。

以下實作方式：

(1) 選取您想要監控非預期故障的 EC2 機器，選擇狀態檢查標籤，然後選擇動作 > 建立狀態檢查警示。

(2) 警示通知可以選取現有 Amazon SNS topic，或是輸入名字以新增 SNS topic

(3) 在 Type of data to sample，可以選擇 Status check failed:system 以只檢查底層硬件故障，或保留 Status check failed:either 以監控所有的檢查失敗。

(4) 若您想在 cloudwatch dashboard 上監控，可以選擇 Add to dashboard (新增至儀表板)

建立完 cloudwatch alarm 之後，您就能透過 cloudwatch alarm 發送通知到 SNS 上。

並將信件寄送至 SNS topic 訂閱的信箱中 [2]。

參考文件：

原廠建議為了減輕未來此類底層硬體故障的影響，可建立CloudWatch告警監控EC2實例，以利及時發現問題並通報處理。

原廠提供的參考連結:

手把手玩IT!