當前位置:
首頁 > 知識 > 防止數據湖變成「沼澤」的四個基本步驟

防止數據湖變成「沼澤」的四個基本步驟

儘管數據湖有很大的前景,但由於缺乏治理能力和較為成功的先例,近年來,數據湖收到了很多負面評論。

防止數據湖變成「沼澤」的四個基本步驟

打開今日頭條,查看更多圖片

企業管理者和技術人員一直期待著數據湖能為企業創造更大價值,但結果卻令人失望。但是隨著雲計算的可用性越來越高,存儲巨量數據就像創建數據湖一樣容易。然而,最根本的挑戰是:如何運用數據湖分析更多的數據來做出業務決策?

技術的複雜性不再是障礙,但企業仍然需要避免一些非技術性的常見錯誤。以下是企業相關專家和業務人員可以採取的四個步驟,以確保數據湖正常運行:

1. 了解將要用於特定項目的數據

雖然數據湖可以存放大量數據,但是由於缺乏規劃性,有些數據湖從建立之初就有先天性缺陷。有些企業不是根據具體需求創建數據湖,而是將所有數據不加分類就存放其中。雖然數據湖的功能就是彙集多種數據和分析數據,但企業也必須在兩者之間實現平衡,以實現數據湖的最大價值。

2.只載入一次數據

將數據載入到數據湖時,企業必須面對兩個挑戰。第一個是管理大數據文件系統時需要一次性載入整個文件。對於小型表和文件,一次載入並非難題,但在處理大型表和文件時,這會變得更加困難。可以首先載入整個數據集,然後載入增量變化,這樣就可以盡量縮短載入大型源數據集所需的時間。這僅需要識別已更改的源數據行,然後將這些更改與數據湖中的現有表合併和同步。

企業還面臨著另外的挑戰,當兩個人將相同數據源載入到數據湖的不同部分時,會造成數據湖消耗過多的數據載入能力。因此,有些數據湖因中斷用於運行業務的運營資料庫而備受指責。這需要更嚴密的治理流程來確保不會發生這種情況(方法參見步驟4)。

3.將數據進行分類以便搜索和查找

將數據載入到數據湖時,要注意的不僅是方便分析人員搜索該數據,還要避免因數據混亂造成的相同數據源多次重複載入的情況。

載入數據時對其分門別類,這個步驟就算現在不做,以後也一定會做。但是未來進行的數據分類,就不是簡單的對號入座了,這無疑是給未來的自己挖坑跳。通過預先計劃好的數據治理流程,可以更輕鬆地使用數據湖並令其價值最大化,同時還可以消除上述多種問題。

4. 記錄數據操作 實現高效治理

一旦人們開始使用數據湖中的數據,他們可能會清理它或將其與其他數據集集成。通常情況下,這些人會在項目成功時清理掉其他人可能感興趣的數據。但是其他人如果只了解數據湖中的原始數據,而不是別人如何使用它,那麼他們很有可能重複已經完成的工作。通過記錄圍繞數據以往的操作,生成相應的數據操作流程,這些流程記錄了人們在數據湖中對數據進行的載入、移動、轉換等操作,這樣有助於實現高效治理。

除了上述步驟,構建良好的數據湖還有其他要注意的事項。但若想讓數據湖發揮其最大價值,首要的就是要建立結構清晰的數據湖,防止數據湖變成混亂數據的「沼澤」。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 IT168企業級 的精彩文章:

有了這8個Chrome擴展工具,Web開發事半功倍!
代表性企業級大容量氦氣硬碟解析:希捷Exos X14

TAG:IT168企業級 |