2024年7月31日 星期三

Azure監控告警設定教學

 Azure監控告警

1.建立 Log Analytics 工作區

主頁選擇「Log Analytics 工作區」

點擊「建立」來建立一個新的工作區

填寫以下資訊:

帳戶:選擇您要使用的 Azure 訂閱。

資源群組:選擇現有的資源群組或建立新的資源群組。

名稱:為您的工作區命名。

區域:選擇工作區所在的地理區域。

點擊「評論及建立」,然後在檢閱頁面中點擊「建立」。


2.設定診斷設定

在資源的左側導航欄中,選擇「診斷設定」

點擊「新增診斷設定」

為診斷設定命名

選擇您要收集的日誌和指標

選擇將資料發送到「Log Analytics 工作區」,並選擇您在步驟 1 中建立的工作區

點擊「儲存」


3.建立警報規則

點選主頁面監視


點選左側警示>警示規則


點選建立>選擇範圍

設置條件(監控CPU、記憶體等參數)

設置動作>通知 選擇信箱 (當條件觸發會直接通知設置的信箱)



設置確認後儲存

即可回主頁查監控設置


4.虛擬機套用警示規則

警示規則設置好可至虛擬機裡套用上述規則











2024年7月29日 星期一

Cloud Interconnect 產生的BGP flap

使用 GCP Cloud Interconnect 連接本地與雲端網路時,服務出現幾次斷線30秒的問題影響使用,詢問後才知道,由於 GCP 會定期維護管理 BGP 軟體,可能會導致 BGP 頻繁啟動和關閉(BGP flap),並顯示 CEASE/ADMINISTRATIVE SHUTDOWN 的錯誤訊息。不過,BGP flap 通常不會影響 Cloud Interconnect 的服務。


想避免 Cloud Router BGP flap影響,會建議設定 graceful restart 功能。如果本地路由器不支持 graceful restart,也可將本地路由器的 hold timer 調整為 60 秒,以確保 BGP 連線的穩定性。

 

參考網址

https://cloud.google.com/network-connectivity/docs/router/concepts/overview#maintenance

https://cloud.google.com/network-connectivity/docs/router/how-to/managing-bgp-timers#graceful_restart_timer

2024年7月28日 星期日

阿里云監控告警教學


阿里雲監控透過Agent收集各項數據,接著配合預設好的Metric及Event觸發Alert,再透過各種不同的通知方式告知異常訊息種類及通知人員


1.登入阿里雲→點選云監控→報警聯繫人


2.設置告警觸發時,通知的人員或群組,可選擇中文或英文通知信



3.點選要設置監控告警的ECS實例


4.選擇創建報警規則或一鍵報警
5.依照個人需求設置報警規則

6.設置通知人員及通知方式,完成後點選創建即可創建完成

7.創建完成
8.完成後至信箱確認是否收到告警通知





騰訊雲監控


利用騰訊雲原生的監控服務,即可監控服務事件並收到告警通知。這邊以《騰訊雲可觀測平台》此服務為例進行說明。

 

情境說明:監控CVM實例的重啟事件

 

步驟1:建立告警策略

步驟2:建立告警通知

 


建立告警策略

1. 監控與維運找到騰訊雲可觀測平台


2. 告警管理-告警配置-告警策略-新建策略

輸入策略名稱及備註(選填)

此例情境為監控CVM,策略類型選雲服務器

所屬項目用DEFAULT即可不用改

告警對象選要監控的實例ID (也可依標籤、實例分組、或全部實例)

觸發條件可依指標告警事件告警。這邊選事件告警,事件選機器重啟



建立告警通知

1. 新建模板

輸入模板名稱

用戶通知選擇接收對象、通知週期、通知時段、通知渠道 (郵件, 短信);接口回調可另外串接其他通訊軟體接收通知

 

2. 模板建立完成後就會出現在列表內


  點進策略後也可看到告警觸發條件(前面2-5步驟觸發條的“指標告警”及”事件告警”可共用並同時判定)


測試環節

1. 將實例進行重啟


2. 告警策略模板內的通知對象即會收到告警通知




參考資料:

騰訊雲可觀測平台>快速入門>告警管理

https://cloud.tencent.com/document/product/248/42449


果核數位-探索騰訊雲可觀測平台的強大功能

https://www.digicentre.com.tw/industry_detail?id=154




2024年7月26日 星期五

騰訊雲"操作審計"功能介紹 附上範例:如何查詢客戶開單工單號? (MCTicket)

騰訊雲的“操作審計”(CloudAudit)功能是一個用於記錄和跟蹤騰訊雲資源操作的服務。以下是該功能的詳細介紹:

主要功能

  1. 操作記錄

    • 記錄用戶在騰訊雲資源上的所有操作,包括通過控制台、API、SDK等方式的操作。
    • 提供詳細的操作日誌,記錄操作時間、操作用戶、資源ID、操作類型、操作結果等信息。

範例: 從操作日誌得出客單號以及創立時間


1.操作紀錄搜尋:CreateMCTicket

2.點選藍色事件名稱查看詳情


3.ctrl+F搜尋:TicketId 即可找到該工單號



原文:https://www.tencentcloud.com/zh/products/cloudaudit











































2024年7月23日 星期二

AWS EC2 state-change notify in telegram

 

AWS EC2 state-change notify in telegram

 

1.      所用服務: Amazon eventbridge Amazon Simple Notification Service Lambda

2.      透過eventbridge 傳送帳號內活動訊息由SNS作為觸發器傳至lambda

lambda 傳輸至 telegram bot 將訊息推送給指定聊天室

首先 創建一個 lambda



1.      函數名稱 : 填寫自訂義函數名

2.      執行時間 : 選擇 python 3.9

點選建立函式

環境變數:

TOKEN : 填入 telegram bot token

USER_ID : 填入聊天室ID

 



於函數的.py文件中貼入

import json

import os

import logging

import urllib3

 

http = urllib3.PoolManager()

 

logger = logging.getLogger()

logger.setLevel(logging.INFO)

TOKEN = os.environ['TOKEN']

USER_ID = os.environ['USER_ID']

TELEGRAM_URL = "https://api.telegram.org/bot{}/sendMessage".format(TOKEN)

 

def process_message(input):

  try:

    raw_json = json.loads(input)

    output = json.dumps(raw_json, indent=4)

  except:

    output = input

  return output

 

def lambda_handler(event, context):

 

  logger.info("event=")

  logger.info(json.dumps(event))

 

  try:

    message = process_message(event['Records'][0]['Sns']['Message'])

 

    payload = {

      "text": message.encode("utf8"),

      "chat_id": USER_ID

    }

 

    http.request('POST', TELEGRAM_URL, payload)

 

  except Exception as e:

    raise e

 

填入後 複製 lambda ARN 下一步 需要

 

 

第二  創建SNS 主題以及 訂閱



1.      類型 :  標準

2.      名稱 :   自訂義名稱



1.      主題ARN : 選擇稍早建立的SNS主題

2.      通訊協定 : AWS Lambda

3.      端點 : 輸入 剛剛複製的 AWS Lambda ARN

第三 創建一個 eventbridge規則



 


1.名稱 :自訂義規則名稱

2.規則類型 : 具有事件模式的規則



1.事件來源: AWS 事件或 EventBridge 合作夥伴事件



建立方法 使用模式表單

事件模式:

1.事件來源 : AWS服務

2.AWS 服務 : EC2

3.事件類型 : EC2 instance State-change Notification

4.事件類型規格(可針對特定state做告警): 任何狀態

5.事件類型規格 2 (可針對特定 instance 做告警) : 任何執行個體



1.      目標類型 : AWS 服務

2.      選取目標 : SNS 主題

3.      主題 : 選擇先前建立的SNS主題

設定標籤的部分可略過 直接跳至 檢閱和建立,確認無誤後 建立規則

 

實際通知如下圖



GCP-監控建立

  建立GCP 監控的流程。

首先,先搜尋並點選 監控

到監控的頁面尋找快訊。

點擊後可以看到一旁的,一樣點選下去。




來到這邊後,點選 選取指標

按照自己的需求設定監控所需的指標。
附圖為參考。
(這裡示範是選擇VM實例>VM日誌>向外傳輸數據量)


選擇完自己所需的指標後,選擇自己的所需的滾動週期與滾動週期函式。
此處會自動選擇,若無需更改,則可以直接點選 NEXT 

圖中Policy configuration mode的兩個選項。

BuilderCode editor(MQL or PromQL)

前者提供圖形化介面與選項,讓使用者方便操作。

後者則可以自定義編碼,較Builder靈活、客制化。需用MQLPromQL 來撰寫。


接著,一樣按照自身需求,去調整 設定與門檻值

再來就是新增通知對象。
這裡假設選擇Email 。




如果通知管道是空的,可以直接點擊旁邊的 MANAGE NOTIFICATION CHANNELS
點選 ADD NEW 新增。

新增完畢後即可刷新,設定通知管道

接著請設定警告政策名稱


最後到這個畫面,確認沒問題就可以 建立政策了。

最後,可以檢查在監控 — 政策檢查是否啟用。 

如果是設定E-mail,便會在信箱收到Google Cloud Alerting 寄的告警信件。




搜尋此網誌