Hortonworks Data Platform 3.0.0平台宣布正式GA
HDP 3.0.0 GA
Hortonworks Data Platform 3.0.0版本,基本上集成Hadoop社區生態最新版本的強大功能特性,實現真正混合型數據平台。
如圖,HDP 3.0.0 版本核心功能特性。
我們上篇,其實就介紹了大數據數據平台發展的幾個方向,而HDP做為一個資深玩家,當然引領了一個重要的發展方向,那就是完全基於HDFS和YARN發展整個發行版,我們知道Hortonworks公司一直是一個務實,並且很實在的團隊,一直深耕Hive和Hadoop,貢獻了很多代碼,開發了很多新特性,在社區也有很大的影響力。
隨著,近幾年大數據平台發展日漸穩定,開始更多關注實用、應用層面,也淘汰很多行業內的企業。大多都開始尋求轉型之路。IT行業基本每隔3年就是一個新的革新,新陳代謝超級快,而近兩年比較火的是區塊鏈、AI、Hadoop in Cloud、數據湖、容器等。
Hortonworks公司,做為一家開源軟體公司,一直務實努力耕耘社區,積極貢獻代碼,一直是我等崇拜追趕的對象,趨勢的把握和時機的掌握剛剛好;HDP 3.0.0 的發布,在強調高性能的同時,新增多個新特性:
TensorFlow,Caffe等深度學習框架的支持,預覽版。
企業Data Lake的支持。
一直在勤勤懇懇努力改良的Hive,支持Real-time,ACID。
混合型存儲,融合雲端,支持S3、ADLS、Hadoop糾刪碼等。
Yarn完美支持調度容器,實現長任務的運行和管理,K8S表示不服。
Ambari一直受人病詬的UI以及無法支撐大規模集群管理,支持5000個節點的管理,全新的UI。
基於容器化、GPU等的支持。
這是大數據生態系統的一個巨大的飛躍。
A new start
HDP 3.0是大數據生態系統的一次巨大飛躍,整個堆棧發生了重大變化,擴展了生態系統(支持深度學習和第三方Docker Application)。 HDP 3.0完全支持雲端和本地化部署。HDP 3.0 很多新的功能都是基於Apache Hadoop 3.1,包括容器化、GPU支持、Erasure Coding和Namenode Federation。
因為Apache Hadoop 3.1的重大特性進化,讓Hadoop生態更加開放包容容器、AI、Cloud。Yarn往更加通用的資源管理框架發展,挑戰者K8s。HDFS則往更加實用,穩定的方面發展,目前還是一騎絕塵,私有化部署難逢對手,支持基於HDFS Core的數據Balance,免受新增節點數據不均衡,需要手動均衡的痛點,Erasure Coding降低存儲成本,HDFS可對接多種雲端存儲產品也是一些新的探索方向,我們看到HDFS往更加穩定、實用的方面發展。
HDP 3.0還移除一些臃腫的系統,常年無人使用,社區並未發展。終於是意識到做為一家開源軟體公司,封裝了一堆零散的組件,形成了一個平台產品,但是做為一個技術型產品,門檻是很高的,這是一個商業險話題,我們不討論。HDP很長一段時間,都會是技術人員才能使用的軟體產品,而國人早就基於這樣的基礎數據平台,開發數據中間件,支撐更加上層的應用,離客戶更近,賺的盆滿缽滿,而對自己堅實的基礎支撐系統,並未有任何的正向反饋,國人開源軟體只痛,唏噓一下。還是那句話,只論技術,不討論。
HDP 3.0 刪除了Apache Falcon,Apache Mahout,Apache Flume和Apache Hue等組件,並將Apache Slider功能融合到Apache YARN中。
關於,平台組件選型、維護與控制方面CDH顯然做得更加自然一些,而HDP很長一段時間一直基於社區最新的組件打包,全都整個到一個平台,基本上都在Ambari、以及社區幾個重要的組件上開發核心特性。由於組件眾多,維護顯然成本巨大,對於一些邊緣性組件投入明顯不足,精力分散,產品考慮不夠完備,甚至放棄自己辛辛苦苦設計的軟體,開源之路未順利進行下去。
HDP 3.0.0 我看到了一些全新的變化,這是很好的開始,HDP產品化工作一直不如CDH,還是一個非常技術性的產品,並且對自身組件沒有很強的把控能力,導致產品表現一直弱於CDH,長時間都在堆疊組件的道路上越走越遠,產品組件也越來越臃腫,最明顯的是HDP數據產品,覆蓋的分析場景不夠全面,導致很多安裝了HDP產品的用戶,還要手動維護一個即席分析組件,比如:Presto、Impala、MPPDB、Drill等。
如圖,HDP產品路線圖,希望HDP未來能更加焦距,做好產品,降低數據分析門檻,從一個技術性產品,變成更切合市場的數據平台產品。
總結
企業級大數據產品,日漸成熟,開始分出儘力追趕一些目前主流的技術趨勢,通過平台融合、整合資源,通過強大的計算和存儲數據能力,更好地服務於客戶。HDP 3.0 完全依託Hadoop社區優勢、新特性,發布了更加強大,跨時代的大數據產品。
數據存儲
1、Erasure Coding降低存儲成本,將存儲開銷降低50%,保證3副本的數據可靠性。
2、Namenode Federation,支持多Namespace,同一個集群,邏輯上隔離使用。
3、雲存儲支持,Google、S3、ADLS等存儲連接器。
4、DataNode,內置磁碟數據均衡器。
數據操作系統
Apache Hadoop YARN的突出特點包括:
1、Apache YARN容器化服務支持,運行Docker Spark Job,支持Slider功能
2、Apache YARN支持管理與調度GPU
3、支持隊列內搶佔,支持同一隊列中不同應用程序(批量,實時)之間的負載均衡
4、增強的可靠性,可用性和可維護性,用戶和開發人員友好的Apache YARN UI
5、Timeline server 2.0,基於流式的應用程序性能管理。
實時資料庫
基於Apache Hive最新的強大特性:
1、LLAP融合Hive,提供強大工作負載,基於資源池,用戶用戶組分配資源。
2、默認情況下啟用ACID功能,對數據更新的完全支持。
3、Hive Warehouse Connector,使得Spark更好的連接Hive。
4、物化視圖,加快數據分析效率,提升查詢速度。
5、JDBC存儲連接器,Hive連接查詢支持JDBC的數據源。
機器學習和深度學習平台
Apache Spark,Apache Zeppelin,Livy等項目。
1、支持Apache Spark 2.3.1 GA
2、支持在Docker容器中運行Spark作業
3、TensorFlow 1.8(僅限技術預覽版)
流處理引擎
Apache Kafka和Apache Storm的突出特點包括:
1、支持Kafka 1.0.1 & 支持Storm 1.2.1
最終,所有做大數據產品的公司都會回歸社區。版本的發布已然說明問題,全都回歸,發布全新升級的大數據產品。
更多新功能,可訪問官網了解。
下一篇,我們聊一聊《Cloudera CDH 6.0》產品,有何特性?技術棧選型和發展方向和HDP有何異同?
參考:
[1] https://hortonworks.com/blog/announcing-general-availability-hortonworks-data-platform-3-0-0-ambari-2-7-0-smartsense-1-5-0/
[2] http://www.itweet.cn/2018/07/02/micro-service-architecture-based-on-restful/
※葉之之《兩家理髮店》
※親身實踐:在小區公園,大自然教育可以這樣玩
TAG:全球大搜羅 |