IT系統災難恢復基本指南,了解一下?
數據中心可能遭遇的災難是各種各樣的。包括災難性的自然事件,如洪災、地震和龍捲風,以及網路攻擊、設備故障等,都可以被歸類為災難。
公司和組織應該通過制定災難恢復計劃,將遇到災難時應有的行動和流程細化,以快速恢復關鍵業務功能,避免造成收入或業務方面的重大損失。
什麼是災難恢復?
在IT領域,災難恢復聚焦於支持關鍵業務功能的IT系統。「業務連續性」通常與災難恢復聯繫在一起,但這兩個術語並不能完全互換。災難恢復是業務連續性的一部分,它更側重於在發生災難時保持業務運行的各個方面。如今,IT系統對業務的成功至關重要,因此災難恢復已成為業務連續性的一個主要支柱。
災難損失
如果一個企業對災難沒有任何應對措施,那麼災難所造成的經濟和運營上的損失會將其完全壓垮。據IT災難恢復計劃(DRP,Disaster Recovery Preparedness)理事會2015年的一份報告顯示,一小時的停機時間,就可能會讓小公司損失高達8000美元,中型企業高達74000美元,大型企業的損失高達70萬美元。而且那還是在三年前,今天可能更高。
某災難恢復服務提供商的另一項調查顯示,超過一半的受訪企業(54%)在過去5年里經歷的停機時間長達8個多小時。這其中有三分之二的受訪者表示,他們的企業因停機造成的損失超過了每天2萬美元。
風險評估,識別漏洞
即便你的公司已經制定了某種災難恢復計劃,可能也仍需更新。如果你的公司沒有相應的計劃,或者正準備進行制定,最好先做一次風險評估,識別IT基礎架構的漏洞,並找到可能出現問題的地方。當然,先決條件你必須清楚地了解公司的IT基礎設施。
在《災難恢復期刊》(the Disaster Recovery Journal)最近的一篇博客文章中,作者湯姆?羅普克(TomRoepke)和史蒂文?戈德曼(Steven Goldman)建議,在保持業務連續性的計劃中,將最壞的情況從其他重大威脅中特意分離出來的做法是非常危險的:
大體上,大家都會去嘗試找出或定義最壞的情況。這是一個致命的缺陷,因為它決定了之後整個計劃的努力,即使是在潛意識層面。因為當我們插入一個特定的場景時——如瘟疫、地震、網路攻擊等,我們就會自動開始思考和計劃響應/恢復措施,以應對這一特定的、潛意識定義下的事件。當這種情況發生時,我們不僅會在規劃中形成一種隧道式的局限視角,而且也可能面臨著增加風險的危險。這是因為在我們將最糟糕的情況特意分離探討的時候,只有一兩個特定的領域會被過度關注,而不是真正的事件。
羅普克和戈德曼建議,在與項目小組溝通時應關注於「管理危機,重建業務關鍵職能並恢復一切。」
什麼是災難恢復計劃?
在搜索引擎中輸入「災難恢復計劃(預案)模板」,會出現幾十甚至上百個計劃書的模板。這些模板對於你的計劃的制定有一定的參考價值。
災難恢復計劃本身應基本包括以下內容:
·計劃的概述和主要目標。
·關鍵人員和災難恢復團隊成員的聯繫信息。
·災難發生後緊急響應行動的描述。
·整個IT網路和恢復站點的圖表。(包括如何到達恢復地點、需要到達的人員說明。)
·識別最關鍵的IT資產,確定最大的停機時間。了解恢復點目標(RPO,Recovery Point Objective)和恢復時間目標(RTO,RecoveryTime Objective)。RPO表示當業務恢復重新上線後,應用可以回到或者它的數據允許恢復過去多久的時間點的數據。如果你選擇一個5小時的RPO,那麼系統必須至少每5小時備份一次。RTO是指災難發生後,從IT系統宕機導致業務停頓到可以恢復支持各部門運作,業務正常運營所需要的時間。
·將用於恢復工作的軟體、許可證密鑰和系統列出一個表格。
·來自供應商的恢復技術系統軟體的技術文檔。
·保險摘要。
·處理財務和法律問題的建議。
·對公措施(如維護性聲明,降低輿論影響)。
建立災難恢復團隊
該計劃應該由負責公司內部關鍵IT基礎設施的IT團隊成員協調。其他需要了解該計劃的人包括首席執行官或委派的高級經理、董事、部門領導、人力資源和公共關係專員。
除本公司之外,應了解與災難恢復工作相關的供應商(例如軟體和數據備份服務提供商)的聯繫信息。設施所有者、物業管理人員、執法人員和應急反應人員也應在計劃內列出(甚至可以周期性地更新姓名或電話號碼)。
在管理層將計劃編寫完成、批准之後,需要對計划進行測試,並在必要時進行更新。安排下一個審查周期,審核災難恢復功能。當事件發生後(無論大小),一定要更新、更新、更新。計劃不是用來收藏的。
災難發生了該怎麼辦?
當災難已經發生時,就該啟動你的事件響應了。確保事件響應團隊(如果它與災難恢復計劃團隊不同屬一支)有一個災難恢復計劃的副本。
事件響應包括,評估情況(知道什麼硬體、軟體、系統受到災難的影響)、系統的恢復和後續工作(哪些有用,哪些無效,哪些可以改進)。
下一個趨勢?雲或DRaaS(災難恢復即服務)
就像許多企業將IT系統遷移到雲端一樣,災難恢復也是如此。雲計算的優勢包括低成本、更容易的部署以及定期測試計劃的能力。然而,這可能會增加帶寬需求,或者降低公司的網路性能,而且需要使用更複雜的系統。
2016年,Gartner的相關調查報告中列舉了超過250家DRaaS產品提供商,災難恢復服務市場形勢一片大好,有很多具有不同特性產品可供企業選擇。限於篇幅,此處不對服務提供商進行過多描述。將災難恢復交給專業的人來解決確實是一個不錯的選擇,但應注意對其產品進行全方位的評估。
※開年再次發生高管變動,這家老牌存儲廠商在醞釀什麼?
※盤點互聯網公司的語音開放平台,你可能從未了解他們的實力!
TAG:IT168企業級 |