防止數據湖變成「沼澤」的四個基本步驟
儘管數據湖有很大的前景,但由於缺乏治理能力和較為成功的先例,近年來,數據湖收到了很多負面評論。
打開今日頭條,查看更多圖片企業管理者和技術人員一直期待著數據湖能為企業創造更大價值,但結果卻令人失望。但是隨著雲計算的可用性越來越高,存儲巨量數據就像創建數據湖一樣容易。然而,最根本的挑戰是:如何運用數據湖分析更多的數據來做出業務決策?
技術的複雜性不再是障礙,但企業仍然需要避免一些非技術性的常見錯誤。以下是企業相關專家和業務人員可以採取的四個步驟,以確保數據湖正常運行:
1. 了解將要用於特定項目的數據
雖然數據湖可以存放大量數據,但是由於缺乏規劃性,有些數據湖從建立之初就有先天性缺陷。有些企業不是根據具體需求創建數據湖,而是將所有數據不加分類就存放其中。雖然數據湖的功能就是彙集多種數據和分析數據,但企業也必須在兩者之間實現平衡,以實現數據湖的最大價值。
2.只載入一次數據
將數據載入到數據湖時,企業必須面對兩個挑戰。第一個是管理大數據文件系統時需要一次性載入整個文件。對於小型表和文件,一次載入並非難題,但在處理大型表和文件時,這會變得更加困難。可以首先載入整個數據集,然後載入增量變化,這樣就可以盡量縮短載入大型源數據集所需的時間。這僅需要識別已更改的源數據行,然後將這些更改與數據湖中的現有表合併和同步。
企業還面臨著另外的挑戰,當兩個人將相同數據源載入到數據湖的不同部分時,會造成數據湖消耗過多的數據載入能力。因此,有些數據湖因中斷用於運行業務的運營資料庫而備受指責。這需要更嚴密的治理流程來確保不會發生這種情況(方法參見步驟4)。
3.將數據進行分類以便搜索和查找
將數據載入到數據湖時,要注意的不僅是方便分析人員搜索該數據,還要避免因數據混亂造成的相同數據源多次重複載入的情況。
載入數據時對其分門別類,這個步驟就算現在不做,以後也一定會做。但是未來進行的數據分類,就不是簡單的對號入座了,這無疑是給未來的自己挖坑跳。通過預先計劃好的數據治理流程,可以更輕鬆地使用數據湖並令其價值最大化,同時還可以消除上述多種問題。
4. 記錄數據操作 實現高效治理
一旦人們開始使用數據湖中的數據,他們可能會清理它或將其與其他數據集集成。通常情況下,這些人會在項目成功時清理掉其他人可能感興趣的數據。但是其他人如果只了解數據湖中的原始數據,而不是別人如何使用它,那麼他們很有可能重複已經完成的工作。通過記錄圍繞數據以往的操作,生成相應的數據操作流程,這些流程記錄了人們在數據湖中對數據進行的載入、移動、轉換等操作,這樣有助於實現高效治理。
除了上述步驟,構建良好的數據湖還有其他要注意的事項。但若想讓數據湖發揮其最大價值,首要的就是要建立結構清晰的數據湖,防止數據湖變成混亂數據的「沼澤」。
※有了這8個Chrome擴展工具,Web開發事半功倍!
※代表性企業級大容量氦氣硬碟解析:希捷Exos X14
TAG:IT168企業級 |