2023年5月4日 星期四

AWS EC2底層硬體故障


最近剛好碰上EC2無預警自動重啟的情況。
點選EC2,查看有異常的機器




進入EC2後點選左邊的EC2全域檢視。


進入後查看有建立的執行個體有哪些,接著確認要查詢的EC2所在區域並點選。


進入後在搜尋欄位輸入要查詢的資源ID並點選。


進入該主機後點選下方的監控。




於監控頁面內發現在5/2有出現狀態檢查失敗1個的訊息,並且CPU與網路當下都處於失連的狀況。


原廠回覆
:此為底層硬體發生不可預期的故障,故系統自動重啟實例轉移至其它底層硬體並恢復,確認於轉移後的底層硬體正常運行。

另外依照過往經驗AWS不會主動發送非預期故障的通知信息,若想針對EC2異常監控進行設定。

建議可針對各台 EC2 system health check 進行監控,並在有異常時透過 SNS 寄發通知 [1]

以下實作方式:

(1) 選取您想要監控非預期故障的 EC2 機器,選擇狀態檢查標籤,然後選擇動作 > 建立狀態檢查警示。

(2) 警示通知可以選取現有 Amazon SNS topic,或是輸入名字以新增 SNS topic

(3) Type of data to sample,可以選擇 Status check failed:system 以只檢查底層硬件故障,或保留 Status check failed:either 以監控所有的檢查失敗。

(4) 若您想在 cloudwatch dashboard 上監控,可以選擇 Add to dashboard (新增至儀表板)

建立完 cloudwatch alarm 之後,您就能透過 cloudwatch alarm 發送通知到 SNS 上。

並將信件寄送至 SNS topic 訂閱的信箱中 [2]

參考文件:

[1] https://docs.aws.amazon.com/zh_tw/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html#using-cloudwatch-new-console2

[2] https://docs.aws.amazon.com/zh_tw/sns/latest/dg/sns-create-subscribe-endpoint-to-topic.html

原廠建議為了減輕未來此類底層硬體故障的影響,可建立CloudWatch告警監控EC2實例,以利及時發現問題並通報處理。

原廠提供的參考連結:

[1] https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html#system-status-checks

[2] https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-instance-recover.html#cloudwatch-recovery

[3] https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/UsingAlarmActions.html#AddingRecoverActions

 

 

沒有留言:

張貼留言

搜尋此網誌