當前位置:
首頁 > 科技 > 基於新型存儲的大數據存儲管理

基於新型存儲的大數據存儲管理

1 引言

大數據已經成為目前的一個研究熱點。如何改進現有的數據存儲與管理技術或者設計全新的體系結構,以滿足大數據應用中的大數據量和高速數據流實時處理需求,是大數據技術中的核心問題之一。如果採用傳統資料庫管理系統(database management system, DBMS)的集中式數據存儲方式,大數據存取性能就會受到極大的影響。Hadoop技術雖然提供了對大規模數據的快速、低成本存儲和管理,但它是一個離線、批量的數據處理系統,對於實時數據處理與分析的支持較弱,難以滿足許多應用的要求。例如,在城市公共安全中,通常要求能夠對高達每秒幾千幀的高清監控視頻流進行實時處理與分析。但目前在傳統計算體系結構下,單台計算機只能支持每秒150~300幀的低解析度圖像實時異常事件檢測。如果要做進一步的目標識別,根據目前的處理技術,性能將下降到每秒16幀左右,遠遠不能滿足每秒幾千幀高清圖像的實時處理要求。因此,迫切需要研究能夠滿足大數據高效存儲與實時處理的新型體系結構與新方法。

基於新型存儲的大數據存儲管理

針對大數據高效存儲與管理問題,目前除了Hadoop技術之外,學術界和工業界也提出了一些其他的設計,包括以NoSQL資料庫為代表的大規模分散式資料庫系統設計、基於動態隨機存取存儲器(dynamic random access memory, DRAM)的內存資料庫技術等。但現有的NoSQL分散式資料庫技術仍以磁碟存儲或者「磁碟+快閃記憶體(flash memory)」混合存儲的方式存儲數據,本質上還是傳統的「CPU-DRAM-二級存儲」的存儲架構,依然存在著內存和磁碟之間的「存儲牆」問題,難以從本質上解決大數據實時存取的問題。此外,由於DRAM能耗和成本較高,也限制了其在大規模數據處理中的應用。

過去5年來,快閃記憶體作為新型存儲的代表性技術取得了快速發展,對現有的數據管理技術提出了極大的挑戰,同時也帶來了許多新的機遇.但是,快閃記憶體由於其存取方式(按頁)、存取性能(1次存取通常需要約2[17個CPU時鐘周期)的限制,仍適合作為二級存儲器。基於快閃記憶體的數據管理只是優化了I/O延遲,並沒有從本質上改變計算架構。

除了快閃記憶體之外,近年來另一種新型存儲介質——相變存儲器(phase change memory,PCM)引起了學術界和工業界的廣泛關注。與快閃記憶體相比,PCM可以被CPU直接按位存取,而且存取性能更高。因此PCM可以與DRAM一樣與CPU交互。但與DRAM相比,PCM存儲具有非易失性,能夠進行持久的數據存儲。傳統硬碟基於磁性存儲機理存儲數據,快閃記憶體基於微型電容儲存電荷的機理存儲數據,存儲密度都有理論上限,而PCM基於微型相變單元存儲數據的機理使其能夠迅速超越固態盤的存儲密度,並且在未來還有更大的提升空間。IBM公司把PCM這一類具有DRAM的存取性能,同時又具有持久存儲能力的介質稱為存儲級主存(storage class memory,SCM)。PCM等存儲級主存以其非揮發、存儲速度快、易實現高密度等技術特點,在高速與海量存儲方面具有巨大的潛能,已被認為是下一代非易失存儲技術的發展方向。另外,因該技術兼有DRAM的高速隨機訪問和快閃記憶體的非易失特性,模糊了主存和外存的界限,有望突破原有的存儲架構,實現更高性能的存儲。

因此,如果能夠利用PCM等新型存儲器件設計出適合大數據存儲與管理的新型存儲架構(如圖1所示),同時設計新的分散式多節點存儲技術,則可以將大數據存取集中在DRAM和PCM上,充分發揮DRAM和PCM的高性能特性以及PCM的隨機存取和非易失優點,而且可以利用分散式多節點存儲的優勢建立高擴展的大數據存儲系統,從而有望徹底解決大數據存取中的性能與容量問題,為大規模的大數據分析與應用提供有力的支撐。

基於新型存儲的大數據存儲管理

圖1 引入PCM等存儲級主存後的存儲體系結構

目前,公共安全、智能交通、物聯網等許多應用都要求實現大數據的實時存取。但是,現有的Hadoop等技術還很難達到這一目標,主要的困難在於無法提供低延遲、高吞吐的大數據實時存取能力。新型存儲的出現為解決這一難題提供了可能。首先,PCM等非易失內存的出現為實現大規模的內存計算奠定了基礎,使得人們有可能在內存中支持高並發的事務處理,而不需要傳統DRAM導致的大量I/O操作,從而實現低延遲的大數據存取。其次,藉助基於新型存儲的分散式內存文件系統等技術,可以大規模提升外存和內存的寫吞吐速率。

本文綜述了基於新型存儲的大數據存儲管理技術,分析了現有大數據存儲技術的局限性,介紹了新型存儲的特點和發展概況,總結了基於新型存儲的大數據存儲架構、基於新型存儲的大數據存儲管理等方向的研究現狀,在此基礎上給出了基於新型存儲的大數據存儲與管理的若干未來研究方向。

2 大數據存儲技術

2.1 常見的大數據存儲技術

目前,大數據存儲一般採用分散式存儲技術,主要應用在NoSQL資料庫系統中。現有的主流的NoSQL資料庫系統,例如文檔資料庫系統MongoDB、列存儲資料庫系統HBase、內存資料庫系統Redis等,均採用了分散式集群架構實現大數據的存儲。也有一些分散式資料庫系統在存儲架構設計上考慮了異構存儲的特性,例如RAMCloud和RethinkDB,從而有效提升了系統的存取性能。

但是,現有的大數據存儲技術還存在著以下的局限性。

以NoSQL資料庫為代表的大規模分散式資料庫系統設計了基於磁碟存儲的讀寫方式、索引結構、查詢執行、查詢優化、恢復策略,但是磁碟固有的讀寫性能差等弊端限制了大數據存取尤其是大數據分析性能的提升。

在以Hadoop分散式文件系統(Hadoop distributed file system,HDFS)為代表的大規模分散式文件系統中,雖然它們提供了大數據的存儲支持能力,但由於這些文件系統在設計時並沒有考慮對實時、高性能的數據處理的支持,因此無法滿足日益增長的大數據在線分析的需求。此外,隨著數據量的急劇增加,元數據的大小也急劇增加,傳統的元數據架構、元數據備份管理、元數據動態負載均衡等越來越難適應大數據應用需求。

基於DRAM的內存數據管理技術旨在通過海量的內存提高大數據的處理性能。但是,由於DRAM本身能耗高、價格相對昂貴,使得構建基於大內存的大數據存儲集群在環境支持、成本上存在較大的困難。此外,DRAM的掉電易失特性導致的大數據環境下的數據一致性也是一個棘手的問題。

2.2 新型存儲技術

鑒於磁碟存儲、內存存儲在面臨大數據管理與分析時的困難,學術界和工業界開始將目光轉向新型存儲技術。目前,從技術成熟度和應用前景上看,快閃記憶體和相變存儲器最有可能形成大規模應用,因此也吸引了國內外學者的關注。

快閃記憶體是一種可以被電子化擦除和重寫的非易失性存儲設備。基於快閃記憶體的固態盤(solid state drive,SSD)是目前市場上常見的快閃記憶體存儲設備。與傳統的磁存儲介質相比,快閃記憶體具有傳輸速率高、低延遲、低能耗、低噪音、抗震等優良特性。同時也有一些特殊性質:寫前擦除,對快閃記憶體的寫操作不是簡單地改變某個二進位位,而是需要將整個擦除塊的所有二進位位置改為1,這帶來了快閃記憶體的讀寫不對稱性,一般採用異地更新的方式緩解寫前擦除帶來的延遲,減少讀寫不對稱帶來的影響;壽命限制,目前企業級快閃記憶體能耐受3萬次寫循環,消費級快閃記憶體僅為3 000次;讀寫與擦除的單位不一致,一個擦除塊中包含若干個快閃記憶體頁,擦除的單位是一個快閃記憶體擦除塊,讀寫的單位是快閃記憶體頁。

相變存儲器是一種非易失類型的存儲器,由硫系玻璃材質構成。由於這種材質的特質,通過施以電脈衝熱,它可以在非晶態和多晶態這兩種狀態之間進行切換。PCM兼具速度快、耐用、非揮發性和高密度性等多種優勢,其讀寫數據和恢複數據的速度是快閃記憶體的100倍。

隨著雲計算和物聯網等新一代信息技術的湧現,對海量存儲系統的低能耗、高速及高可靠性的需求日益凸顯,以新型存儲取代傳統存儲介質的呼聲越來越高,而PCM有望成為未來新型存儲的主要技術。與DRAM、快閃記憶體等存儲介質相比,PCM具有非易失性、存取速度快、節能、可位元組定址、寫壽命長等優點。韓國三星(Samsung)公司與美國美光(Micron)公司是目前在PCM技術方面較為領先的兩家公司,其中三星公司開發出的65 nm製程、512 MB容量的PCM晶元已投入量產,並應用在三星公司的手機存儲卡中;同時三星公司已經推出了20 nm製程、8GB容量的相變內存顆粒。美光公司已經成功研製了45 nm製程、1GB容量的LPDDR2介面的PCM晶元產品,並已經量產。我國中國科學院上海微系統與信息技術研究所近年來也研製了中國自主知識產權的PCM晶元(8 MB),為研製我國自主產權的新型存儲系統奠定了基礎。此外,華中科技大學自2007年開始研究高密度低功耗的電阻式相變存儲器、相變存儲器功能晶元、相變存儲器晶元的關鍵材料以及相關專用測試設備等,已經自主研製出具有簡單讀、擦、寫功能的相變存儲器功能晶元。

總體而言,傳統的磁碟存儲技術在大數據存儲與管理方面面臨著嚴重的性能瓶頸。內存數據管理技術由於價格、容量以及易失等特點難以作為PB級大數據存儲的最終解決方案,但在大數據存儲與管理中可以借鑒內存數據處理的一些思路。快閃記憶體、PCM等新型存儲器件提供了高性能、非易失的數據存儲支持。從目前的技術發展現狀看,PCM是現有最為成熟,且性能、容量與DRAM最為接近的存儲技術。PCM以其非揮發、存儲速度快、易實現高密度等技術特點以及與CMOS工藝兼容性好、易於與CPU集成形成片上系統(system on chip,SoC)晶元等優點,具有廣泛的應用前景。

3 大數據存儲架構

新型存儲的出現為構建新的大數據存儲架構提供了可能。目前,學術界針對基於新型存儲的大數據存儲架構提出了多種設計,包括基於PCM的主存架構、基於快閃記憶體的主存擴展架構、分散式存儲與緩存架構等。

3.1 基於PCM的主存架構

PCM與快閃記憶體相比,其存取延遲更短,而且可以直接按位存取,因此能夠被CPU直接存取,更適合作為DRAM的擴展。與DRAM相比,PCM具有非易失性特點,因此適合存儲文件等靜態數據。總而言之, PCM可以看作兼有DRAM和快閃記憶體的優點。從存儲架構設計的角度來看,PCM既可以作為主存使用,也可以作為外存使用。但由於PCM的可位元組定址特性(與快閃記憶體不同),目前學術界對基於PCM的主存架構研究相對較多。

在利用PCM替代DRAM方面,理論上可以有兩種架構,即純PCM主存架構和DRAM/PCM混合主存架構。在純PCM主存架構中,PCM完全替代DRAM作為唯一的主存,而在DRAM/PCM混合主存架構中,DRAM和PCM共同作為主存。在後一種架構中,又存在著兩種可能的設計:一是將DRAM作為PCM緩存的層次架構,另一種是DRAM和PCM並列的平等架構。目前,大多數的研究都假設DRAM/PCM的混合主存架構。研究者針對DRAM/PCM的混合主存架構,提出了多種PCM寫操作優化以及負載均衡演算法。由於PCM的寫次數有限制,因此如何在混合主存中減少PCM上的寫操作是目前的研究重點。

基於PCM的主存架構為實現大數據的實時處理提供了可能。首先,PCM的低能耗特性使得在集群系統中使用大量的PCM存儲代替DRAM成為可能,從而降低系統成本。其次,PCM的持久存儲特性可以通過設計有效的演算法提高分散式存儲環境中的數據一致性。第三,PCM的高密度特性可以為內存計算提供有力的支持。

3.2 基於快閃記憶體的主存擴展架構

快閃記憶體是目前相對較成熟的新型存儲技術。基於快閃記憶體的SSD已經大量裝備在伺服器上,成為企業級存儲解決方案中的重要組成。由於快閃記憶體的整體存取性能優於磁碟,因此理論上可以藉助快閃記憶體提升大數據存儲和管理的性能。在早期的一些研究工作中,研究人員往往假設未來存儲系統中快閃記憶體可以完全替代磁碟作為外存,但是,由於快閃記憶體的讀寫不均衡特性以及壽命問題,目前實際的系統中往往是DRAM、快閃記憶體和磁碟共存。

在DRAM、快閃記憶體、磁碟共存的存儲架構下,快閃記憶體通常作為主存的擴展,即作為DRAM和磁碟之間的中間層,提升大數據存取的性能。SSDAlloc是基於快閃記憶體的主存擴展系統,它將快閃記憶體作為磁碟的緩存,實現了系統整體性能的提升。也有一些學者提出了將快閃記憶體作為虛擬內存,在DRAM容量不夠的情況下,將快閃記憶體作為虛擬內存設備進行頁面交換。由於快閃記憶體性能總體優於磁碟,因此這種以快閃記憶體作為虛擬內存的架構理論上在大數據應用場景下性能優於傳統的DRAM+磁碟的架構。

對於大數據處理而言,基於PCM的主存擴展總體上比基於快閃記憶體的主存擴展更具可行性。這是因為大容量的快閃記憶體本身仍然採用按頁存取的方式,與CPU按位存取模式之間存在不一致性,而且在存取性能上PCM也高於快閃記憶體,因此更有望減小與CPU之間的性能差距,構建能夠充分發揮CPU、DRAM和PCM各自優勢的高性能數據處理系統。

3.3 分散式存儲與緩存架構

目前,基於分散式觀點的數據管理是大數據存儲與管理研究中的一個熱點。一種觀點是將快閃記憶體應用於分散式文件系統中進行元數據存儲。元數據對於整個大數據管理系統的性能起著決定性作用,對於大數據解析、大數據統計、大數據操作優化等起著重要作用。基於快閃記憶體的分散式文件系統元數據管理的基本思路是在元數據伺服器(metadata server,MDS)上使用SSD作為存儲設備加速文件系統,如參考文獻在Lustre分散式文件系統架構中的元數據伺服器上使用快閃記憶體作為存儲介質,加速元數據的讀寫速度。此外,基於Memcached的內存分散式緩存技術也被廣泛用來加速大規模數據的訪問,而在更為複雜的大數據環境下,其局限性主要體現在:一方面內存分散式緩存受限於集群內存容量,只能服務容量較小的熱點數據,會造成性能下降;另一方面,如果採取擴大集群內存容量滿足更多數據緩存需求,會帶來高額的成本和巨大的能耗。現階段解決方法是將小容量、高I/O負載的緩存處理與大容量、中低等I/O負載的緩存處理分離,形成「熱緩存」與「冷緩存」的緩存策略,其中在「冷緩存」方面主要採用了快閃記憶體技術。例如,Facebook設計了基於快閃記憶體的鍵—值存儲系統McDipper,代替Memcached為大量訪問頻率較低的圖片提供緩存服務,降低成本和能耗,為了減少快閃記憶體I/O延遲,將快閃記憶體層分成兩個區域,一個區域存放數據,另一個區域配置散列桶存放鍵值數據的指針,並將散列桶元數據放入內存。

分散式存儲技術將是解決大數據存儲與管理問題的主要途徑之一。一方面是由於Hadoop分散式技術已經為現有的大數據管理提供了一種行之有效的存儲方案,而且已經在Google、Facebook等公司的實際應用中得到了驗證,為大數據未來研究提供了有用的借鑒;另一方面也是因為在大數據應用中數據來源、用戶等本身存在天然的分布特性,適合採用分散式存儲技術。

4 大數據存儲管理

快閃記憶體、PCM等新型存儲的物理特性、讀寫特性等均與磁碟有著非常顯著的不同,而目前已有的大數據資料庫,其設計理念均是基於磁碟存儲,在面對快閃記憶體、PCM等新型存儲時,並不能最大限度地發揮新型存儲的性能。目前,在基於新型存儲的大數據存儲管理方面也有一些研究工作。

在基於PCM的存儲管理方面,Ramos L E等人提出了一種針對DRAM/PCM混合主存的硬體驅動的頁面置換策略。該策略依賴一個內存控制器(memory controller,MC)監控內存頁面的使用頻率和寫密集程度。MC在DRAM和PCM之間進行頁面遷移,保證性能攸關的頁面和頻繁寫的頁面保存在DRAM中,而性能不太敏感以及很少寫的頁面存儲在PCM中。Qureshi M K等人提出了一個層次型混合主存系統。他們將DRAM設計為CPU和PCM之間的緩衝區。所有的數據頁都存儲在PCM中,只有當DRAM發生頁面置換或者需要訪問新的頁面時系統才存取PCM。Wu Z L等人在PCM存儲管理方面也提出了動態桶列表(dynamic bucket list)以及寫敏感的混合時鐘存儲管理方法。

索引作為優化數據存取性能的重要技術,是數據存儲管理中的關鍵問題之一。傳統的B+樹索引在資料庫系統和文件系統中被廣泛應用,近年來在雲計算、位置服務等應用中也有一些針對B+樹的優化工作。雖然B+樹具有很好的搜索性能,但它常常導致較高的更新代價。在面向快閃記憶體的資料庫領域,研究人員提出了多種針對B+樹的改進設計,例如μ*-Tree、BF-Tree、LA-Tree、HashTree、BloomTree等。這些方法以減少對快閃記憶體的寫操作為主要目標,採用了利用溢出節點延遲更新、利用額外的緩存節點的更新等方法,最終減少B+樹葉節點的更新次數以及索引的合併和分裂操作。

雖然目前在基於快閃記憶體的索引設計方面已經有了不少的工作,但由於在大數據存儲中引入了PCM等其他類型的新型存儲介質,而且在計算架構上產生了根本性的變化(快閃記憶體定位在二級存儲,而PCM則可以用於直接的內存擴展),因此,近年來研究人員也探討了針對PCM的B+樹索引優化問題。Chen S M等人最早在2011年的國際創新資料庫研究會議(International Conference on Innovative Database Research,CIDR)上測試了B+樹在採用了PCM主存技術的伺服器上的性能。其研究結果表明,當PCM技術應用到資料庫伺服器上後,因其具備高速隨機訪問特性,傳統的索引技術應進行新的設計。他們在後續的工作中繼續研究了針對PCM等非易失內存的B+樹索引結構,類似的工作還有Hu W W等人提出的BP-tree、Chi P等人提出的寫優化B+樹以及Li L等人提出的面向PCM的讀寫趨勢感知的CB+-tree索引。這些工作基本都採用了針對PCM特性優化傳統的B+樹的思路。

5 未來研究展望

5.1 基於新型存儲的大數據存儲架構

以PCM為代表的新型存儲技術進一步提升了非易失存儲的性能極限。PCM類似於DRAM的高速隨機訪問模式使其有機會直接與CPU連接,而其高密度潛力也使它能夠適應大數據時代的容量需求。當存儲靜態數據的非易失存儲允許CPU通過直接定址的方式訪問時,存儲體系的進化不僅僅帶來性能的大幅提升,同時還將改變應用程序訪問數據的方式。由於PCM等存儲級主存能夠直接支持隨機讀寫,因此可以將其與DRAM共同連接於主存控制器上,與DRAM實現統一編址,CPU可直接定址到PCM的任何地址。

由於計算機系統的系統集成度較高、構成複雜,不易完成架構改動,因此基於新型存儲的大數據存儲架構可以採用嵌入式系統方式構建驗證用的硬體平台,在平台上直接實現新存儲架構及相應軟體,從而能夠準確地評估新存儲架構帶來的性能優勢。通過搭建新型嵌入式存儲架構軟硬體驗證平台,實現對存儲系統的硬體級訪問檢測,為驗證軟體系統性能提供準確的數據。

5.2 基於新型存儲的分散式內存文件系統

PCM等存儲級主存的出現及應用打破了傳統的硬碟驅動器(hard disk drive,HDD)/SDD+DRAM的存儲架構,為適應PCM等存儲級主存PCM和DRAM共存的新存儲架構,需研究新型的可支持以內存訪問形式訪問各種文件數據的新型文件系統。同時,由於大數據時代數據一般需要分散式存儲與計算,因此在文件管理上還需要考慮對分散式環境的支持。因此,需要結合新型存儲架構和分散式環境的需求,研究新型的大數據文件系統。該方向的一些研究要點包括以下幾方面。

(1)支持新型存儲架構的單節點文件系統

單節點文件系統是研製分散式隨機訪問內存文件系統的基礎,具體包括新型存儲架構下的文件原位訪問技術、文件系統管理與控制技術、基於新型存儲架構的內存管理機制等。

(2)支持新型存儲架構的分散式文件系統

本地節點的數據訪問僅能夠提升應用程序訪問本地數據時的效率。分散式存儲技術可以基於新型存儲架構搭建支持海量數據存儲的分散式環境,從而滿足大數據存儲的容量需求。因此,將單節點文件系統向多節點擴充,完成支持新型存儲架構的分散式內存文件系統,是實現基於新型存儲的大數據存儲管理的關鍵,研究要點包括分散式文件系統虛擬訪問介面、基於統一定址的分散式文件管理技術、存儲空間的全局劃分和定址技術等。

5.3 基於新型存儲的大數據管理

PCM等存儲級主存給存儲與計算架構帶來了極大的挑戰,包括異構存儲上的數據分配與調整機制、異質緩存管理機制、基於新型存儲的大數據索引技術等。

(1)基於新型存儲架構的數據存儲分配與調整機制

由於DRAM、PCM、SSD/HDD等多種存儲介質同時用於數據存儲,因此需要研究一種自適應的多粒度數據存儲分配機制。具體而言,該機制首先根據數據訪問頻度將數據劃分為3種狀態:熱(hot)、溫(warm)、冷(cold),然後根據數據的狀態進行存儲分配與調整。所謂多粒度是指在存儲分配時,同時採用文件和頁兩種粒度。在PCM與SSD/HDD之間進行數據分配時,PCM作為持久存儲介質,採用文件粒度進行數據分配;在DRAM與SSD/HDD之間進行數據分配時,DRAM作為緩存,採用頁粒度進行數據分配;在DRAM與PCM之間進行數據分配時,以鍵值記錄粒度進行數據遷移和交換。

在數據存儲調整方面,一種可能的方法是基於應用對數據的訪問模式變化,自適應、動態地調整數據存儲策略。訪問模式的度量基於數據的訪問頻度以及存取方式(讀/寫)兩類因素,通過周期性考察的方法確定當前數據訪問模式的變化程度,並基於訪問模式的變化程度確定是否重新執行數據存儲分配。一旦確定了新的數據存儲分配策略,將對相應的數據進行介質之間的遷移操作。

(2)基於新型存儲架構的異質緩存管理

數據緩存是傳統資料庫領域中的核心技術之一,它對於提升系統存取性能有著非常重要的作用。在大數據環境下,由於數據量的急劇增加,數據緩存的重要性尤為突出,因為如果讓每個應用直接在全部的大數據上運行將很難保證訪問性能。目前一種普遍的觀點認為,雖然大數據環境下數據量很大,但對一個具體應用而言,涉及的只是大數據集合中的一部分(小數據)。但是,在新型存儲架構下,數據存儲涉及了DRAM、PCM、SSD等具有完全不同訪問特性的存儲介質,在緩存層也同樣面臨著多種介質共存的局面,例如數據既可以緩存在DRAM中,也可以緩存在PCM中,甚至也可以緩存在SSD中。這類異質緩存管理問題是傳統數據緩存研究中不曾面臨的新問題,也是構建基於新型存儲的高效大數據管理系統的關鍵所在,需要首先分析異質緩存管理中的普遍性問題,闡明異質緩存管理的一些新的準則,在此基礎上研究新的方法。

(3)基於新型存儲架構的大數據索引

在傳統的基於「DRAM+SSD/HDD」的存儲架構下,DRAM與外存之間的I/O是影響系統查詢處理性能的瓶頸。但在基於新型存儲架構的大數據應用系統中,索引的設計不僅要考慮內外存之間的I/O代價,還要考慮異質內存之間的數據遷移代價(從DRAM到PCM以及從PCM到DRAM),此外還要考慮PCM等新型存儲的器件特性(例如晶元寫次數有限制)。另一方面,大數據應用系統往往構建在分散式環境之上,由於數據的分布以及涉及的數據量過大,傳統的單一索引機制不能從根本上解決問題。因此,需要針對新型存儲和分散式查詢處理要求,設計相應的大數據索引結構以及操作演算法。

6 結束語

高效的大數據存儲與管理如果僅從軟體體系結構考慮很難取得本質性突破,因為在大數據環境下內存與外存之間的I/O瓶頸很難克服。以PCM為代表的新型存儲為大數據高效存儲與實時處理提供了可能。研究適合高效大數據存儲和管理的新型存儲架構,藉助創新的系統軟體設計,改變大數據處理過程中對外存I/O的依賴,有望克服目前大數據存儲與管理中的性能瓶頸,並進一步帶動大數據技術的未來發展。本文討論了新型存儲的特點以及現有大數據存儲技術的局限性,在此基礎上綜述了基於新型存儲的大數據存儲管理領域的研究現狀,最後給出了未來研究展望,以期能對新型存儲與大數據管理的未來研究提供有價值的參考。

目前,由於非易失內存技術仍處於研發階段,工業界還沒有推出真正可用的新型存儲系統,因此目前的研究還只能在新型存儲模擬器上展開。隨著非易失內存晶元工藝上的突破,預計幾年內會出現可用的新型存儲系統。屆時,可以基於實際的平台開展理論和實驗,對基於新型存儲的理論研究成果進行驗證。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 中國存儲 的精彩文章:

數據存儲或供應增長是否增加了存儲容量的需求?
RocksDB數據存儲格式分析

TAG:中國存儲 |