Grafana+Telegraf+Influxdb監控Tomcat集群方案
前言
前一段時間自家養的幾隻貓經常出問題,由於沒有有效的監控預警手段,以至於問題出現或者許久一段時間才會被通知到。凌晨一點這個鍋可誰都不想背,為此基於目前的情況搭建了以下這麼一套監控預警系統。
相關軟體
Nginx:代理訪問 Grafana
Grafana: 可視化面板(Dashboard),有著非常漂亮的圖表和布局展示
Influxdb:開源的時間序列資料庫,適用於記錄度量,事件及執行分析
Telegraf:收集系統和服務的統計數據
Docker:開源的應用容器引擎,讓開發者可以打包他們的應用以及依賴包到一個可移植的容器中
監控架構
GTI監控預警系統,架構流程說明:
第一步:數據採集,Telegraf 採集 Tomcat 相關參數數據
第二步:數據存儲,Influxdb 存儲 Telegraf 採集的數據
第三步:數據可視化,Grafana 配置 Tomcat 監控面板
第四步:預警通知,配置釘釘、郵件等預警
安裝配置
這裡只對Grafana、Telegraf、Influxdb、Tomcat 做相應的安裝說明,Nginx 以及 Docker 請自行查閱資料。
Grafana
Grafana只是一個接入數據源的可視化面板,這裡為了方便,我們選擇Docker安裝。
mkdir grafana ID=$(id -u) docker run -d --user $ID --name=grafana --volume "$PWD/grafana:/var/lib/grafana" -p 3000:3000 grafana/grafana# 如果生產環境配置,最好提前配置好域名docker run -d --user $ID --name=grafana --volume "$PWD/data:/var/lib/grafana" -p 3000:3000 -e "GF_SERVER_ROOT_URL=http://monitor.52itstyle.com" grafana/grafana
執行成功以後,執行以下命令:
docker ps
如果出現grafana運行容器說明安裝成功。
查看容器相關參數:
docker inspect docker.io/grafana/grafana
進入:
docker exec -it grafana /bin/sh
Grafana的默認配置文件grafana.ini位於容器中的/etc/grafana,這個文件是映射不出來的。不過可以先創建並運行一個容器,拷貝出來重新創建運行容器。
參數說明(這裡截取了部分重點參數):
##################### Grafana 幾個重要的參數(參考一下) #####################[paths]# 存放臨時文件、session以及sqlite3資料庫的目錄;data = /var/lib/grafana# 存放日誌的地方;logs = /var/log/grafana# 存放相關插件的地方;plugins = /var/lib/grafana/plugins#################################### Server ####################################[server]# 默認協議 支持(http, https, socket);protocol = http# 默認埠;http_port = 3000# 這裡配置訪問地址,如果使用了反向代理請配置域名,發送告警通知的時候作為訪問地址root_url = http://grafana.52itstyle.com#################################### Database ####################################[database]# 默認使用的資料庫sqlite3,位於/var/lib/grafana目錄下面;path = grafana.db#################################### Session ####################################[session]# session 存儲方式,默認是file即可 Either "memory", "file", "redis", "mysql", "postgres", default is "file";provider = file#################################### SMTP / Emailing ##########################[smtp]# 郵件伺服器配置,自行修改配置enabled = truehost = smtp.mxhichina.com:465user = admin@52itstyle.com# If the password contains # or ; you have to wrap it with trippel quotes. Ex """#password;"""password = 123456;cert_file = ;key_file = ;skip_verify = falsefrom_address = admin@52itstyle.com# 這裡不要設置中文,否則會發送失敗from_name = Grafana
Influxdb
創建並運行容器
docker run -d -p 8083:8083 -p 8086:8086 -e ADMIN_USER="root" -e INFLUXDB_INIT_PWD="root" -e PRE_CREATE_DB="telegraf" --name influxdb tutum/influxdb:latest
各個參數含義:
-d:容器在後台運行--name:容器名稱-e:指定環境變數,容器中可以使用該環境變數 -p:將容器內埠映射到宿主機埠,格式為 宿主機埠:容器內埠;8083是influxdb的web管理工具埠,8086是influxdb的HTTP API埠
執行成功以後,執行以下命令:
docker ps
如果出現influxdb運行容器說明安裝成功。
訪問地址://ip:8083/
Telegraf
docker pull telegraf
把telegraf相關配置拷貝到宿機
docker cp telegraf:/etc/telegraf/telegraf.conf ./telegraf
採集Tomcat數據:
如果想監控多個Tomcat,這裡配置多個[[inputs.tomcat]]即可,但是一定要配置不同的tags標識。
[[inputs.tomcat]]url = "http://192.168.1.190:8080/manager/status/all?XML=true"# Tomcat訪問賬號密碼 必須配置username = "tomcat"password = "tomcat"timeout = "5s"# 標識Tomcat名稱、根據實際項目部署情況而定[inputs.tomcat.tags]host = "blog"[[inputs.tomcat]]url = "http://192.168.1.190:8081/manager/status/all?XML=true"# Tomcat訪問賬號密碼 必須配置username = "tomcat"password = "tomcat"timeout = "5s"# 標識Tomcat名稱、根據實際項目部署情況而定[inputs.tomcat.tags]host = "bbs"
採集數據到influxdb:
[[outputs.influxdb]] # urls = ["udp://localhost:8089"] # UDP endpoint example urls = ["http://localhost:8086"] # required,這個url改成自己host ## The target database for metrics (telegraf will create it if not exists). database = "telegraf" # 這個會在influx庫創建一個庫
把配置文件複製到容器:
docker cp telegraf.conf telegraf:/etc/telegraf/telegraf.conf
重啟telegraf服務:
docker restart docker
Tomcat
由於telegraf收集Tomcat相關數據需要配置訪問許可權,這裡我們選擇Tomcat7做配置說明。
修改位於conf下的tomcat-users.xml文件:
重啟Tomcat容器,訪問以下地址:
//ip:8080/manager/status/all?XML=true
如果出現以上界面,說明配置成功。
監控配置
依次啟動Tomcat、Influxdb、Telegraf、Grafana完成後,我們進入Grafana後台管理進行相關配置。
配置Influxdb數據源:
選擇 datasources/Add datasource
輸入正確的HTTP地址以及資料庫賬號密碼,點擊保存,如果出現綠色提示框,說明配置成功。
配置Tomcat儀錶盤:
選擇 dashboard/import
這裡有三種方式導入面板:
選擇輸入官方面板ID或者URL
直接複製黏貼JSON格式代碼
導入第三方面板JSON格式文件
這裡我們導入事先自己定製保存的Tomcat監控面板,最後點擊導入保存。
如果不出意外,將會是下圖的樣子。
告警配置
前期做了這麼多,我們的最終目的是為了提前預警通知,在系統即將發生災難之前作出相應的準備調整。這裡我們以Tomcat的線程數量閾值作為預警通知。
點擊線程面板-選擇編輯:
配置相關參數:
1、Alert名稱,可以自定義。
2、執行的頻率,這裡我選擇每60s檢測一次。
3、判斷標準,默認是avg,這裡是下拉框,自己按需求選擇。
4、query(A,5m,now),字母A代表選擇的metrics中設置的sql,也可以選擇其它在metrics中設置的,但這裡是單選。5m代表從現在起往之前的五分鐘,即5m之前的那個點為時間的起始點,now為時間的結束點,此外這裡可以自己手動輸入時間。
5、設置的預警臨界點,這裡手動輸入,和6是同樣功能,6可以手動移動,兩種操作是等同的。
配置預警信息以及通知方式:
這裡我們選擇的是郵件預警通知,但是要提前進行配置,詳見一開始grafana.ini中 SMTP / Emailing 相關參數配置。
點擊發送測試,提示成功會發送一份告警Demo到指定郵箱:
總結
講道理,這一套東西還是挺強大的。特別是對於中小公司來說,各種成熟的開源組間一整合完美搭建出一套監控系統,時間成本、人力成本、技術成本可以降到最低。
※迅達控股有限公司分兩次成功發行5億瑞士法郎的國內債券
※6個平凡人的經歷,參悟工程師的成功秘密
TAG:此人很土 |