三駕馬車已去,再論Hadoop已是涼涼
最近一段時間,關於Hadoop有很多壞消息。在2018年10月,最大的兩個Hadoop發行版廠商Cloudera和Hortonworks宣布合併,抱團取暖,最近由於財報不太好,高層也離職了。還有第三大Hadoop發行版廠商MapR差點破產,幸虧最後被HPE收購。
因此,在自媒體上充滿了各種說Hadoop涼涼的文章,鋪天蓋地。
其實,大家不要恐慌,這個只是Hadoop發展中的正常調整,主要是原來Hadoop太火了,跌落神壇而已。
其實,Hadoop的收入一直保持增長。Gartner說,領先的Hadoop供應商(亞馬遜,Cloudera,Hortonworks 和MapRTechnologies)的2017年收入增長了54%,達到12億美元,佔DBMS市場總量的3.2%。越來越多的客戶每年在Hadoop軟體上花費超過10萬美元 - 甚至超過100萬美元。這證實了Gartner的觀察,即成功部署已經完成,並表明歷史上低的整體增長率開始發生變化。
其實,從Gartner的統計數據看,Cloudera、Hortonworks和MapR去年的收入都在增長,只是增長不太高。大家可以看到,增長最高的基本都是公有雲玩家,還有華為(也有公有雲,但規模較小),MongoDB。
儘管如此,正如「2017年數據管理炒作周期」所述,競爭正在增加,就像Hadoop堆棧正在分解一樣。客戶正在挑選和選擇他們想要的作品。事實上,ApacheSpark(在Databricks擁有自己的商業化版本)在不包含其他Hadoop元素的場景中表現出越來越多的採用,而Apache Kafka在涉及動態數據的情況下蓬勃發展(並且它在Confluent中也有自己的商業化版本)。其他Apache項目越來越多地被使用,有或沒有通常不包含它們的商業發行版。
最大的變革載體仍然是向雲平台遷移,以及來自雲平台提供商的競爭。自2016年增加以來,對基於雲的Hadoop部署在Gartner的調查里一直在穩步增長。在今年的市場指南中包含的供應商中,只有富士通僅在本地提供。降低成本和應對複雜性仍然是基於雲的部署的主要推動因素。
Hadoop的存儲正在轉型:Amazon S3,Azure ADLS和其他產品越來越成為新數據湖的目標。亞馬遜於2016年底宣布Athena進行本地S3查詢,並且看到採用率迅速增長,突出了原生雲平台軟體為所有其他供應商所代表的競爭挑戰的一個方面。這種對原生雲對象存儲的採用繼續增加勢頭,取代了HDFS在許多雲駐留部署中的使用。內部產品,EMC的ECS,Minio和Red Hat的Ceph存儲,與S3兼容,並且引起了人們的興趣。
此外,Hortonworks已將其ApacheHadoop Ozone對象存儲發布為alpha,這表明在公共對象存儲上的混合部署可能是本地玩家用於競爭的未來戰場。
專業供應商的地理擴張使他們遇到了一些令人驚訝的新進入者,特別是在中國,Transwarp Technology(上海),華為等公司已經在他們去年報告的數百名客戶的基礎上進行了建設。Gartner名單裡面的中國公司還有東方金信。
儘管供應商和部署環境各種各樣,以及地理擴展,但基於Hadoop的項目超出試驗階段仍然具有挑戰性。雖然供應商數據顯示六位數和七位數的交易增長,但如果Hadoop仍然是不願意在設計,部署,產品成熟度和技能挑戰上掙扎的組織的相關選擇,那麼還有很多工作要做。
其實,Hadoop狹義來說,是Apache的一個開源項目,包含大家熟知的HDFS、MapReduce和YARN等。
現在對象熱起來,因此又多了一個Ozone的開源對象存儲。以後Hadoop估計對對象存儲支持得得越來越好。不過,現在這個Ozone還沒有GA,不太成熟。用戶最好還是選擇成熟的對象存儲產品。其實,開源的對象存儲很多,Ceph和Minio等都是,不知道為啥Hadoop非要搞一套自己的。估計針對流式數據有優化,像HDFS一樣,雖然都是分散式文件系統,但是還是針對分析流進行了優化的。
HDFS可以理解為一個分散式文件系統的簡化版,它放寬了一些POSIX要求,也加了一些限制,如不能在任意點更新,以實現對文件的流式訪問。
不過,由於HDFS採用集中式的元數據節點,因此其擴展性和可靠性一直被外界所詬病。再加上存儲不能獨立擴展(其實HDFS也可以獨立部署data node,我們叫Remote HDFS,這樣擴展性略好一些),不是數據湖的理想底座。
因此,出現很多代替HDFS的共享存儲,主要是各種分散式文件和對象存儲。
這樣的存儲解決了HDFS的擴展性和不能獨立擴展的問題,但是性能一般來說比HDFS要差些。
由於Hadoop應用在公有雲上很熱,因此,越來越多的企業採用對象存儲來作為Hadoop的後端存儲。企業對象存儲的事實標準是S3,因此基本都採用一種叫S3A的Connector來取代HDFS。但S3A的性能一般,而且不支持追加寫。
也有一些公司推出專用的對象存儲Hadoop HDFS客戶端取代S3A,這樣可以取得更高性能,並且支持追加寫。國外公司,以Dell EMC ECS的HDFS Client最為大家熟知。
國內的號稱對象存儲第一的XSKY,也推出了XSKY HDFS Client高性能客戶端,殺入Hadoop後端存儲市場。
還有其他IBM、NetApp、Pure Strong、MinIO、Redhat廠商,他們怎麼做,性能如何,我將在快閃記憶體峰會上和大家一一分享。
既然是快閃記憶體峰會,我必然也會分享一下Intel最新的全快閃記憶體S3A的測試結果,看看作為Hadoop後端存儲,全閃是否還有優勢,大家不要錯過哦。
總的來說,從目前來看,Hadoop還是數據湖的最佳選擇。
而且,最近的Gartner研究數據表明,Hadoop的部署和需求仍然很大並且正在增長。在最近的一項調查中,有235名受訪者表示,34%的受訪者目前正在使用Hadoop進行數據和分析工作,另有55%的受訪者計劃在未來24個月內進行調查,總計達到89%。這是Gartner2016年研究以來的需求大幅增加。
還有,現在很多現代的大數據/AI應用,如TensorFlow,其實也保留了對HDFS的支持。
因此,如果對象存儲對Hadoop的對接分析性能和本地HDFS相當的話,將為成為企業數據湖的理想底座。
溫馨提示:
※如何通過業務模型,評估系統性能和配置?
※乾貨:五種常見數據複製技術詳解
TAG:架構師技術聯盟 |