Ceilometer和Monasca 能幫OpenStack實現智能運維
打造開源雲計算中國第一互動社區
內容專註於Linux、Kubernetes、OpenStack、容器、Ceph、Cloud Foundry......
導讀
管理員們繼續尋求更有效的方式來解決OpenStack的故障排除和調試,最近的平台升級以及第三方工具,提供了一些幫助。
正文
對於開發者來說,調試複雜的應用程序一直是件苦差事,而開源代碼尤其如此—— OpenStack 似乎是這個挑戰和痛苦的縮影。
一些 OpenStack 用戶仍然很難調試或解決簡單的錯誤。部分原因在於 OpenStack 故障排除的唯一真實介面是一組日誌文件 —— 每個主要模塊都有一個或多個,這些日誌文件包含簡潔的錯誤消息。正如一位用戶在2017年 OpenStack 用戶調查中寫到的,管理員仍然「 需要查閱一大堆日誌和源代碼」來確定問題原因。
最終,管理員想要的是更多關於問題的信息和更少的數據。短期來看,OpenStack 基金會正在推進的一步是讓管理員將關鍵問題視為系統監視工具中的觸發事件,並能夠深入查看相關日誌數據。
長遠來看,注入AI,並且包含更多的圖形界面(可以標記問題,提供可能的原因並提供糾正措施),會更好。
這似乎是一個遙遠的希望(至少在現在),但圍繞 OpenStack 故障排除和調試的工具已經有了一些進步。
Ceilometer和Monasca
Ceilometer 和 Monasca 是兩個主要的OpenStack項目,已經解決了一部分數據收集問題。
在這兩個項目中,Ceilometer 更具備優勢。它將來自所有 OpenStack 服務的日誌數據轉換為 Gnocchi 資料庫,並使其可以索引。這使得管理員可以將這些數據用於計費和調試。
Monasca 是一個多租戶監控即服務工具,可以幫助IT團隊分析日誌數據並設置警報和通知。最終,它應該在 Gnocchi 資料庫中提供挖掘功能來加速故障分析。
還有兩個子項目著重於擴展 Ceilometer——Aodh 為Ceilometer 生成的數據創建策略驅動的警報,另一個子項目 Panko 在某個時間點捕獲 OpenStack 狀態數據。
第三方工具幫助OpenStack故障排除
雖然上面提到的 OpenStack 項目是朝著正確的方向邁出的一步,但它們還不足以顯著簡化現在的調試。目前,團隊可能需要第三方附加組件來完全分析 OpenStack 數據並響應任何問題。
Datadog 就是這樣一個工具。它使團隊能夠跟蹤、可視化和關聯來自 OpenStack 及其應用程序的指標。這有助於管理員發現並解決他們雲平台上的任何異常情況。開源分析和可視化工具 Grafana 讓管理員可以查看 Ceilometer 時間序列數據中的趨勢,而 Tata Communications 的雲檢查器框架將元數據添加到雲實例以加速日誌搜索。供應商還有一個長期的計劃來整合AI工具,以提供自動發現和糾正措施。
使用AI來監視、調試和採取糾正措施仍處於初期階段。但是壓力不斷增加——必須在 OpenStack 中增加自動化。容器將使 OpenStack 虛擬實例數量增加四倍以上,而微服務和軟體定義的數據中心將進一步擴大管理員需要跟蹤的IT資源數量,以及加快解決性能問題所需的速度。
不久後,我們可能會看到可以指導基礎架構調優和調試的專家聊天機器人,類似的智能調試即服務工具也會越來越多地進入市場。
最終,這些 AI 方法將是管理員對 OpenStack 故障排除以及更通用的響應式監控的最佳選擇。預計2018年也會有更多的供應商進入這個領域。
內容覆蓋主流開源領域
TAG:開源雲中文社區 |