2022年7月17日 星期日

GCP 公有雲-Error Host 導致的業務中斷 ,SLA 服務協議,告警通知及HA設定經驗分享

 

最近使用GCP的主機:EC2 因硬體異常,導致主機有重開的狀況。(雖然時間不長)但影響到服務。所以就特別研究一下GCP的SLA:



1.依官方文件針對 GCE SLA 的定義,
官方保證服務能正常運行於每月分鐘總數的99.5%,
也就是只有當月用戶的 GCE 主機因特殊事件導致停機多於約 3.6 hr 時,
可依 GCE SLA 申請補償,
​詳細可參考下方連結:



2.告警設定:
透過 Cloud Logging 將前述 Error Host 事件紀錄做成 Log-based Metric,
並透過 Cloud Monitoring 將該 Log-based Metric 做成 Alert,
即可在下次事件發生時接收通知。

詳細操作方法文件連結如下:

Log-based Metrics:

Monitoring Alert:



 3.GCP-Error Host 導致的業務中斷,
建議使用 HA 架構,以無狀態的主機搭配 Managed Instance Group,
並將服務建置於 Multiple Zone,以提升服務的可及性。

詳細建議可參考下列官方文件。



沒有留言:

張貼留言

搜尋此網誌