最近使用GCP的主機:EC2 因硬體異常,導致主機有重開的狀況。(雖然時間不長)但影響到服務。所以就特別研究一下GCP的SLA:
1.依官方文件針對 GCE SLA 的定義,
官方保證服務能正常運行於每月分鐘總數的99.5%,
也就是只有當月用戶的 GCE 主機因特殊事件導致停機多於約 3.6 hr 時,
可依 GCE SLA 申請補償,
詳細可參考下方連結:
2.告警設定:
透過 Cloud Logging 將前述 Error Host 事件紀錄做成 Log-based Metric,
並透過 Cloud Monitoring 將該 Log-based Metric 做成 Alert,
即可在下次事件發生時接收通知。
詳細操作方法文件連結如下:
Log-based Metrics:
Monitoring Alert:
3.GCP-Error Host 導致的業務中斷,
建議使用 HA 架構,以無狀態的主機搭配 Managed Instance Group,
並將服務建置於 Multiple Zone,以提升服務的可及性。
詳細建議可參考下列官方文件。
沒有留言:
張貼留言