當前位置:
首頁 > 知識 > 《A君的救贖》,一份IT運維工程師的自救指南

《A君的救贖》,一份IT運維工程師的自救指南

前言

苦!苦!苦!

IT運維的苦,不是兩三把頭髮就能數完的。

要數,怎麼也得四把。

IT運維苦低效久矣。

運維江湖,一口大鍋爐,吞掉了攻城獅們的頭髮、視力和休息。

《A君的救贖》,一份IT運維工程師的自救指南

機械重複+手工操作費時費力?——正常!

24點以後通宵加班,眼紅頭頂禿?——大家都這樣!

忙得腳不沾地,沒時間洗澡?——要習慣!

設備成倍增長,人手原地踏步;公司強勢擴張,運維人加班買單;準點下班就是放假,聽到設備上新就會頭皮發麻——IT運維苦低效久矣

直到一對大俠橫空出世,這種積弊才得到改進。

欲知大俠何許人也,請欣賞短劇《A君的救贖》。

《A君的救贖》,一份IT運維工程師的自救指南

01 第一幕

伺服器監控也可以很輕鬆

《A君的救贖》,一份IT運維工程師的自救指南

這天,A君著手伺服器故障排查,他抱著筆記本在機房裡巡視,穿過一排排機櫃,靠肉眼尋找故障燈,然後連接鍵盤顯示器定位伺服器故障——這個過程相當耗時,而且很容易漏掉目標,由於伺服器故障排查不到位結果釀成大損失的情況發生過不少次。

A君揉揉發紅的雙眼,仰天長嘯:怎麼才能提高伺服器監控效率啊

「嘭」地一聲,大俠來了

《A君的救贖》,一份IT運維工程師的自救指南

  • 戴爾易安信iDRAC

    ,一對一管理單台伺服器;
  • 戴爾易安信OME

    (OpenManageEnterprise),提供多台伺服器監控、(固件)升級、部署等服務以及Restful API介面。

    它可以跟iDRAC協同合作,進行大規模伺服器管理

兩位大俠出手相助之後,情況就此改觀。

《A君的救贖》,一份IT運維工程師的自救指南

使用了iDRAC和OME,A君可以直接在OME的管理界面上看到被監管伺服器的運行狀況。iDRAC提供SupportAssist功能,能夠以帶外方式在iDRAC圖形界面上直接收集被監控伺服器的日誌與配置信息,而不需要對伺服器/操作系統端做任何設置,真正實現免代理監控

《A君的救贖》,一份IT運維工程師的自救指南

此外,要了解某一台伺服器的詳細信息,A君只需點擊某一台伺服器的Name鏈接,便可進入該伺服器詳細管理界面:

《A君的救贖》,一份IT運維工程師的自救指南

還可以快速查詢伺服器大部分備件的詳細信息

《A君的救贖》,一份IT運維工程師的自救指南

這是一台更換過內存條的伺服器,從圖中可以看到該伺服器配置的內存均為單一品牌,沒有出現混插現象。

工作過程中,有感於電腦端監控平台的不便,A君又採用了戴爾易安信基於移動端的軟體OMM(OpenManage? Mobile)

《A君的救贖》,一份IT運維工程師的自救指南

監控伺服器時,iDRAC將產生的告警信息推送到OME平台上,OME平台可以將告警信息繼續推送到下一級平台(比如用戶已有的統一監控平台),或者用戶安裝了OMM軟體的手機、平板等移動平台上

以前,如果有多台伺服器發生故障,A君需要在機房和OME監控平台之間往返多次。

如今,用了戴爾易安信基於移動端的軟體OMM(OpenManage? Mobile),A君可以攜帶移動端進入機房,而不必每次都從機房返回OME平台前查看結果。

利用OMM,A君可以直接在手機上監控伺服器狀態。如果公司策略允許,A君甚至能在家裡或路上接收告警信息,真正做到早發現早處理,避免將小故障拖成大事故,由此大大提高了運維工作的SLA水平。

《A君的救贖》,一份IT運維工程師的自救指南

A君說自己的手機不能加入企業網,倒是可以試著申請個iPAD作為專有伺服器監控工具給自己使用。

02第二幕

摒棄手工操作,(固件)升級自動化

《A君的救贖》,一份IT運維工程師的自救指南

前天晚上,公司接到了戴爾易安信TAM(Technical Account Manager)發來的信息,建議用戶立即將某一批伺服器的固件升級到某個版本之上

這個任務落到了A君頭上。

據統計,要升級的伺服器足足有三四十台之多。升級固件是純手工操作,A君面對巨大工作量只得發揚艱苦奮鬥精神,通宵加班完成工作。

《A君的救贖》,一份IT運維工程師的自救指南

不過還沒完。

手工升級比不得自動化,是否會有升級不成功或遺漏的情況

A君對此表示:「沒有記錄,後半夜實在太累了,來不及統計了。先上線吧,等業務那邊發現問題再說。」

「嘭」地一聲,大俠來了。

通過戴爾易安信提供的OME軟體,A君可以自行定義伺服器固件基線,並通過簡單操作,完成大批量伺服器的固件升級工作

《A君的救贖》,一份IT運維工程師的自救指南

OME配置項下的固件升級界面:

《A君的救贖》,一份IT運維工程師的自救指南

如圖,用戶可以定義固件基線,然後點擊「查看報告」,對被篩選出來並選中的伺服器進行固件升級:

《A君的救贖》,一份IT運維工程師的自救指南

A君抓抓稀疏的頭髮,揉揉眼睛說道:「好是好,不過這是不是也是得等到24:00以後才能操作?」

當然不用了!你可以預約呀!

OME提供「Schedule Update」選項,可以預約升級固件時間

《A君的救贖》,一份IT運維工程師的自救指南

(固件)升級再也不用等到24點了,下班時在OME上簡單點擊幾下,提交job後人就可以走了,OME會在24點自動執行升級工作

第二天,A君通過OME/OMM軟體檢查伺服器升級情況,看看是否有「漏網之魚」。

當然,大部分伺服器應該都能夠正常完成升級工作,不過也不排除有少數升級失敗的情況。對此不必費勁找或者等業務上線後發現,所有升級記錄都會被OME保存下來,若存在失敗情況,A君只需按圖索驥,再進行一次升級即可

《A君的救贖》,一份IT運維工程師的自救指南

這種利用軟體工具實施多台伺服器升級、部署的方式,能夠避免手工部署中的人為差錯,確保伺服器部署的一致性,從而保證伺服器上線前的質量。

《A君的救贖》,一份IT運維工程師的自救指南

03第三幕

人工部署一頭亂麻?試試自動化吧

《A君的救贖》,一份IT運維工程師的自救指南

P.s 儘管戴爾易安信伺服器出廠時已經按照企業的要求對BIOS做了設置,公司的IT領導還是要求運維人員對這些伺服器的BIOS設置做出修改。

這批伺服器數量不少,A君在機房幹了整整一天,才按時完成了任務

終於結束了,A君長吁一口氣,在機房門口又是揉腰,又是「嘎嘣,嘎嘣」扭脖子,「嘭」地一聲,大俠來了。

OME提供部署功能,用戶可以通過OME完成諸如BIOS/iDRAC/NIC等伺服器設置工作

《A君的救贖》,一份IT運維工程師的自救指南

現在,同樣修改伺服器BIOS設置的工作,A君不必在機房「吭哧吭哧」埋頭苦幹一天,而是可以先設置好將一台伺服器的BIOS然後使用OME將該機抓取為模板再將模板部署到所有等待部署的伺服器上去,這樣任務就完成了。

《A君的救贖》,一份IT運維工程師的自救指南

具體操作時,A君只需下班時在OME上簡單點擊幾下,預約部署時間為24點,提交任務即可正點下班。第二天來查看部署情況,對少數「漏網之魚」再次部署即可。

《A君的救贖》,一份IT運維工程師的自救指南

對此,A君給出評價:以前手工改伺服器配置,機器一多就亂了。現在有了OME,真是能解決大問題

《A君的救贖》,一份IT運維工程師的自救指南

04 第四幕

自動化運維,還有很多東西可以學習

這天,A君打開了戴爾易安信的網站,一邊看電腦一邊在本子上記著東西。

同事問道:「你在幹什麼呢?」

A君:「學習呀,我了解到,戴爾易安信目前是提供伺服器Restful API方面最積極的廠商。不論是伺服器管理卡iDRAC還是OME軟體,他們都有提供豐富的Restful API介面。」

《A君的救贖》,一份IT運維工程師的自救指南

同事:「你在學習Restful API?」

A君:「是啊,Restful API採用https協議,輸出格式為JSON,無需轉化即可很方便地被第三方軟體集成。又很多用戶採用戴爾易安信Restful API 與Zabbix軟體集成,打造自己的現代化監控的平台,我也得學習學習。」

筆者:「有資源嗎?」

A君:「要不說戴爾易安信很棒呢,戴爾易安信提供了豐富的Python腳本供用戶調用,來打造自己的現代化監控平台,而且也在網站上放了Restful API知識呢,這就是鏈接。」

1.Python腳本,用戶可移步以下鏈接下載:

https://github.com/dell/OpenManage-Enterprisehttps://github.com/dell/iDRAC-Redfish-Scripting

2.更多戴爾易安信Restful API知識,可至以下鏈接了解更多:

https://www.dell.com/support/article/us/en/19/sln310624/redfish?lang=en

《A君的救贖》,一份IT運維工程師的自救指南

戴爾易安信RestfulAPI知識庫截圖

同事:「哇,這個不錯。」

A君:「是啊,伺服器數量與日俱增,傳統的IT運維人員和IT運維方式壓力山大,咱們這些IT運維工程師要儘快掌握更多IT管理工具,提高自己的技能和IT運維水平,才能更好地適應企業發展,才能不被時代淘汰,而且我們慢慢掌握運維工具,將它們熟練運用到大規模伺服器管理的過程中的同時,也提高了自身的價值。」

同事:「加油,一起努力吧!」

《A君的救贖》,一份IT運維工程師的自救指南

動手指「」它

就可關注我們

《A君的救贖》,一份IT運維工程師的自救指南

點擊▼「了解更多查看數字化轉型方案

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 IT168企業級 的精彩文章:

代表性企業級大容量氦氣硬碟解析:希捷Exos X14
混合雲或成未來主流趨勢

TAG:IT168企業級 |