Hadoop真的要死了嗎?
作者 | Alex Woodie
譯者 | 薛命燈
出處丨AI前線公眾號
10 月 3 日,Hortonworks 宣布將與其主要競爭對手 Cloudera 合作創建一家年收入約為 7.3 億美元、擁有 2,500 名客戶、市場估值達 52 億美元的公司,這令很多人感到意外。
Splice Machine 首席執行官 Monte Zweben 表示:「我認為對於我們來說,這是個好消息。我們已經看到了運營由這兩家公司和其他公司部署的所有數據湖的巨大機會,而這樣的機會在兩年前可能連想都不敢想」。
Confluent 的首席執行官兼 Apache Kafka 聯合創始人 Jay Kreps 告訴 ZDNet:「這是一個聰明的舉動。過去,這兩家公司在同一產品上展開競爭,但具有諷刺意味的是,這卻讓競爭變得更加激烈」。
Unravel Data 首席執行官 Kunal Agarwal 說:「我認為這是件好事。我認為這兩家公司在將他們的技術整合在一起,而不是試圖相互攻擊。他們現在可以專註於提供合適的機器學習工具、物聯網平台和 AI 工具」。
但並非所有的反應都是積極正向的。自由科技記者 Virginia Backaitis 在他的一片文章中寫道:「我比較擔心新的 Cloudera(或者可能是單獨的 Cloudera 和 Hortonworks)是否會像管理團隊和投資人所期望的那樣快速增長」。
Bloomberg Opinion 專欄作家 Shira Ovide 同樣不看好,他將這兩家公司的合併說成是「兩家水下公司的航海聯盟」。
Teradata 首席運營官 Oliver Ratzesberger 告訴 Datanami:「這是一種 Sears-K-Mart 式的合併,這是他們唯一能夠生存下來的方式。Hadoop 本身就變得無關緊要了」。
Anaconda 產品和營銷高級副總裁 Mathew Lodge 在 VentureBeat 上發布的一篇文章中指出,大數據的中心已經從 Hadoop 轉移到了雲端,在對象存儲系統(如亞馬遜 S3、微軟 Azure Blob Storage 和 Google Cloud Storage)中存儲數據比在 HDFS 中便宜了五倍。
「領先的雲計算公司並沒有在 Cloudera 和 Hortonworks 上運行大型的 Hadoop/Spark 集群,相反,他們在容器基礎設施上運行分散式雲規模資料庫和應用程序。現在是時候讓 Hadoop 和 Spark 與時俱進了」。
讓 Hadoop 更像雲
事實上,Apache Hadoop 社區一直都在積極應對來自公有雲供應商的威脅,包括像 Databricks 和 Snowflake 這樣的初創公司。它們通過採用對象存儲和容器技術讓雲端的大數據分析變得更便宜和更容易,並在上周獲得了來自風險資本的 4.5 億投資,
但是,對於 Hadoop 社區來說,他們還有很多工作要做。上個月,Cloudera 首席戰略官 Mike Olson 告訴 Datanami,社區還需要 12 到 24 個月才能在開源的 Apache Hadoop 項目中提供 Kubernetes 支持。
Olson 說:「YARN 擅長長期運行的批次作業調度,但要作為通用的集群資源管理框架,它還需要精心的設計和改進。未來 Kubernetes 將會入駐,並接管其中的一大部分內容」。
於是問題來了:當 YARN 被 Kubernetes 取代,並且 HDFS 被替換為任何兼容 S3 的對象存儲系統時,Hadoop 還會是原來的 Hadoop 嗎?如果你認為 Hadoop 只是 40 個開源項目的集合——HBase、Spark、Hive、Impala、Kafka、Flink、MapReduce、Presto、Drill、Pig、Kudu,等等——那麼也許這個問題就問得沒有什麼實際意義……
從實際角度來看,客戶不可能因為兩個最大的 Hadoop 發行商的整合而突然關閉多年來部署的數百萬個 Hadoop 節點。對於已經建立了 Hadoop 數據湖的數千家公司而言,它們的重點將保持不變:從數據中獲取價值。
儘管 Hadoop 可能已經變成了一項傳統技術,但社區仍然有動力去調整它,以便支持新興的需求,就像 IBM 對其大型機平台所做的那樣。問題是它是否能夠以足夠快的速度讓已部署的基礎設施不斷增長。
簡化 Hadoop
自從十多年前第一個 MapReduce 程序上線以來,開發人員一直對 Hadoop 的複雜性頗有微詞。即使像 Facebook 這樣大的公司在使用 Hadoop 時也感到不便,特別是當他們需要通過底層的 Java 編程技能從 Hadoop 中及時獲取信息時。
從那時起的一個發展趨勢,就是消除這種複雜性,但 Hadoop 社區沒能及時取得進展,因此未能阻止雲供應商通過推出更簡單的產品搶走市場份額。
Splice Machine 的 Zweben 表示:「我認為這是 Hadoop 的一次轉型。軟體供應商會使用越來越多的引擎,但從長遠來看,不會有普通的企業會用它們……對於全球 2000 大企業來說,在背負 Hadoop 的重壓之下很難做到這點」。
Unravel Data 公司的 Agarawal 表示,現在 Cloudera 和 Hortonworks 的工程師將齊心協力,以更好地應對構建系統方面的挑戰,這些系統可以以本地、雲端和混合的方式運行。「這是一個巨大的項目,仍然需要大量的工程師投入時間,把它打造成 Kubernetes 之上的一個成功的平台。他們還有很多開發工作要做」。
如果說在隧道盡頭有一盞燈,那它就是:如果新 Cloudera 可以將 Hadoop 重新打造成一個混合的容器化平台,位於 Kubernetes 之上,並且可以將數據存儲在任何與 S3 兼容的對象存儲中,那麼它就有可能實現部分目標,並佔領一部分市場。IDC 認為這是一個價值 650 億美元的機會。
Agarwal 說:「我認為Cloudera 手裡握有一張雲供應商所沒有的王牌,那就是他們的混合策略。根據我們與這些財富 1000 強公司合作的經驗來看,他們不會直接進入雲端。他們想要的是這種混合策略。因此,我認為這將成為為這些客戶創造價值的一條可行之路」。
從幻滅到生產力
從一開始,Hadoop 基本上就是大數據的代名詞。如果你遇到需要用大數據來解決的問題,那麼答案肯定就是 Hadoop。
這當然是不對的,很多人都這麼說——但這卻是 Hadoop 多年來的一個營銷口號。
Teradata 首席技術官史 Steven Brobst 說,為解決複雜問題而尋找銀彈是人類的天性。「人們傾向於相信新技術將解決他們所有的問題,它會為你做所有的事情,甚至包括在早上給你端來一杯咖啡」。
Hadoop 曾經是被過度熱炒的一項技術,而到了今天,這個頭銜被 AI 拿走了。Brobst 說:「當你的期望過度膨脹時,最終結果只會是失敗。當技術被設置了不恰當的預期,就會跌落到幻滅的低谷」。
Brobst 繼續說道:「我們現在所看到的 Hadoop 就正在經歷這樣的一個過程。Hadoop 正處於幻滅的低谷。『放棄它吧,它已經不管用了!』其實它之所以不管用,是因為我們期望它能夠完成所有的事情。對於這樣不切實際的期望,除了失望之外,沒有其他可能性」。
Brobst 說,雖然人們一直在 Hadoop 上掙扎,但這並不意味著 Hadoop 沒有價值。相反,它意味著組織和用戶應該要重新設置他們的期望,並問問自己它應該用在什麼地方會更好。
他說:「Hadoop 和大數據終將走出 Gartner 炒作周期的幻滅低谷,然後進入生產力高原。這不是一個大數據戰略,而是一個數據戰略……它將成為生態系統的一部分,但不會解決所有問題」。
英文原文:
https://www.datanami.com/2018/10/18/is-hadoop-officially-dead/
敲黑板劃重點!
由 InfoQ 中國主辦的 ArchSummit 全球架構師峰會即將於 12 月 7-8 日在北京國際會議中心舉辦,來自 Netflix、LinkedIn、騰訊、阿里、百度、京東等百位知名企業的架構師都將前來分享各自的架構實踐,一線技術大牛將現場與你深入交流。
你們能了解最前沿的國際技術趨勢,也能學習到各互聯網巨頭大浪淘沙後的技術結晶。
※最後1天|送大家75本豆瓣8分以上IT暢銷書
※我剛從技術專家升到管理崗,從何著手開始帶團隊呢?
TAG:InfoQ |