Doug Cutting:AI將為Hadoop的未來帶來挑戰
GIF/329K
欲知預售會員計劃詳情,請點擊以上圖片
7月13日~15日,全球最頂級大數據會議Strata Data Conference在北京召開。在會議上,我們看到了一個熟悉的身影——「Hadoop之父」、Cloudera 首席架構師Doug Cutting。
在本次會議召開之前,DT 君對這位 Hadoop 之父進行了獨家專訪。在採訪中,Cutting 認為 ,Hadoop 的成功證明了開源已是我們身處數字轉型時代的必要條件,但也認為AI 的發展將為 Hadoop 社群帶來整合開發資源的挑戰,並提醒大眾在數據應用與隱私之間找到平衡點。
圖丨Hadoop 之父 Doug Cutting(圖片來自DeepTech駐台灣編輯詹子嫻)
隨著數據量愈加龐大,想要有更高效率的處理方式,就需要有新的工具出現,Hadoop 就是其中的代表。Hadoop技術不僅開啟了大數據時代,更成為孕育大數據技術的搖籃,至今發展也超過十個年頭。
起初,Doug Cutting 希望以開源架構開發出一套搜索技術,類似於現在的 Google Search 或是微軟的 Bing,剛好 2004 年 Google Labs 發布了關於自家大數據分析、MapReduce 演算法的論文。Doug Cutting 利用 Google 公開的技術擴充他已經開發出來的 Lucene 搜索技術,進而打造出了 Hadoop。
Hadoop 是基於開放源代碼所建構,用於分散式處理和分析電腦叢集上的巨量資料集,也可以想成是一個能夠儲存並管理大量資料的雲端平台。它主要有兩個核心技術,分別是分散式檔案系統(Hadoop Distributed File System,HDFS)以及 MapReduce 技術。
當企業儲存大量的資料時,透過 HDFS 技術把大量的資料切割成小份,儲存並備份在多個節點。而當企業需要進行資料分析處理時,就在先各個節點上處理這些小份的資料,之後再把這些結點算出來的片段結果傳回到中央進行歸納整合,這就是 MapReduce。
正因為透過多節點分工來處理巨量資料,解決了檔案儲存的問題,同時也大幅縮短了運作時間,讓 Hadoop 成了大數據的主流技術,知名大企業如Google、Facebook、沃爾瑪、銀聯、聯通、台積電等,都利用了 Hadoop 技術。
不僅如此,還成就了龐大的 Hadoop 生態圈,象是今年剛在紐交所上市的 Cloudera,就是基於 Hadoop 架構開發大數據工具最知名的公司,其他的還有 Hortonworks、New Relic 都是從新創公司走向上市,MapR 也有意申請IPO。
Doug Cutting 表示,Hadoop 的意義不在技術,更大的意義在於「數字轉型」(digital transformation),從 Hadoop 的成功經歷我們可以學到幾件事:首先、開放源代碼已經是必要的,例如在 20 年前他開發出 Hadoop 的前身— Lucene 開源代碼搜尋技術時,並沒有料想到 Lucene 會成功,「因為它並不是最好的技術,也不完美,但它因為是屬於開放源代碼,透過社群的力量,使它成為了最好的搜索技術。」對使用者來說,現在更多想要的是開放源代碼的軟體。
第二件事就是數字轉型需要不同的運算跟儲存架構。在完成 Lucene 之後幾年,Cutting 就開始投入到 Hadoop 的研發之中,「你可以看到整體的應用已經興起,它的成功在於滿足了大家的需求。」在 Hadoop 之前,幾乎所有的資料或應用程序都要被儲存在分開的系統里,但有了 Hadoop 之後,它們可以被存在單一的系統里,在擴充性、處理運算方面有更好的成效。
在這十年間, Hadoop 被大量應用於真實的商業環境中,而且還有很多衍生的工具或專案都是圍繞 Hadoop 為中心發展出來,例如可支援 SQL 語法的 Hive、專門用於 Hadoop 檔案系統上的資料庫系統 HBase 等,Hadoop 生態系統相當多元且十分強大,有 20~30 個開放源代碼程序可以共同運用。
而人類也從未停止對科技的追求,大數據流行了之後,人工智慧成為最新的關鍵字,要發展人工智慧不可缺少的一項關鍵就是數據,Doug Cutting 指出,Hadoop 與機器學習、AI 有高度關聯性,要訓練、測試、評價人工智慧都需要數據,許多開發者在 Hadoop 平台上寫了很多應用程序,可以利用這個平台搜集各種巨量數據,支援 AI 和機器學習的數據也是爆炸性成長,很難有一家公司可以做到提供這麼大量的工具。
圖丨Data Science Workbench 界面
Hadoop 也推出了一項新的 Data Science Workbench 工具,可以讓客戶在 Hadoop 叢集裡面選取符合企業內部安全政策或偏好的工具。他也舉例,Tesla 在發展自動駕駛汽車上,搜集了道路、環境、駕駛行為等諸多數據,將這些數據串流到後台資料中心就是使用 Hadoop 的技術作為支持。
不過,他也坦言,AI 和機器學習領域無疑是 Hadoop 未來面臨的挑戰之一,「目前許多機器學習跟 AI 技術許多都是開放源代碼技術,革命不是由單一組織推動。」但是,從發展歷程來看,現階段 AI 和機器學習方面的社群很分散,各自發展,各立山頭,所以整個社群都應該團結起來才行,讓一些優質的方法走向標準化,全力進一步開發,加速其進步速度,這才會是比較好的方式。」
說到 Hadoop,其實還有一個 Cutting 與他小孩的小象玩具有關的故事,這位 Hadoop 之父只要有公開活動幾乎都會帶著那隻色小象。他指出,給軟體命名不是件太容易的事,要盡量找沒有被使用過、沒有帶有意義的字,否則把它寫進了程序就可能會影響編程。
就是因為這個原因,Doug Cutting 看到他兒子在牙牙學語時,抱著黃色小象,親昵的叫 hadoop,他靈光一閃,就把這技術命名為 Hadoop,而且還用了黃色小象作為標示 Logo,不過,事實上的小象瘦瘦長長,不像 Logo 上呈現的那麼圓胖。「我兒子現在 17 歲了,所以就把小象給我了,有活動時就帶著小象出席,沒活動時,小象就丟在家裡放襪子的抽屜里。」 Doug Cutting 大笑著說。
圖丨Doug Cutting 手拿的黃色小象就是命名 Hadoop 的靈感來源
在 Doug Cutting 接受 DT 君專訪的第二天(7月13日)正是他的生日,身為 Hadoop 之父,令人好奇如果要為 Hadoop 許下一個願望,那會是什麼?他回答的第一個答案居然是「不知道,Hadoop 已經很成功了,很難再幫他許什麼願。」但接著想了一下,他倒是說出了一個有趣的答案,就是「希望大數據的應用能在資料的生產力與隱私間找到平衡。」
他進一步解釋,希望大家能持續找到大數據可以發揮作用的地方,但他對隱私領域特別感興趣,「必須在大數據應用、技術開發與保護隱私之間取得平衡」。這部分是很需要思考的問題。各界在利用大數據時經常會引來爭議,有時太過重視大數據,對個人隱私又會造成威脅,有時太過擔心隱私保護,又會使得大數據工具無法發揮它的最大效用。而且每一個國家對隱私的道德標準跟預期都不同,所以解決方法也會不同。只能互相學習。
而 Doug Cutting 的身份除了是 Hadoop 之父外,也是 Cloudera 的首席架構師。Cloudera 可以說是 Hadoop 生態圈裡最知名的公司,核心產品是為企業客戶搭建基於 Hadoop 的大數據平台,幫助企業安裝、配置、運行 Hadoop 以進行海量數據的處理、分析以及機器學習。
也因為大數據前景看好,2014 年 Cloudera 當時估值 41 億美元時,英特爾就斥資 7.4 億美元收購 Cloudera 約 18% 股份(在今年 1 月英特爾持有 Cloudera 22% 的股份)。Cloudera 在今年四月底正式於紐交所上市,發行價為每股 15 美元。
圖丨Cloudera 上市
不過,頂著光環掛牌的 Cloudera,上市後交出的第一份財報卻不如市場預期,第一財季每股虧損 5.78 美元,比分析師預期的每股虧損 2.45 美元還要多。儘管大數據的市場需求依舊很高,但為何財務表現似乎不符合這樣的趨勢表現?
Doug Cutting 先是表示他不是財務人員,但可以稍微解釋一下,其實 Cloudera 在客戶跟營收方面的成長是很穩定,令大家意外的應該是成本支出部分。企業對於大數據及機器學習的需求增溫,但企業對於新科技的導入不會一步到位,而是採取漸進的方式,因此很多客戶一開始都是小規模引進,但是根據 Cloudera 內部的評估可以發現,每一個客戶在每一年引進或增加 Cloudera 的服務都有 40% 的成長。大數據發展很重要一點是平台會長出越來越多的應用,這就會帶來更多平台的擴充需求,相信之後就能看到業績提升。
※光照也會損害植物?晴朗天氣30%光能就夠了
※谷歌生命科學公司將在加州釋放兩千萬不育雄蚊
※震驚!眼睛內藏了27個隱形眼鏡是一種什麼樣的體驗?
※反黑客攻擊軟體浮出水面,以色列正在成為汽車網路安全創業的熱土
TAG:DeepTech深科技 |
※Image Segmentation:Konica Minolta 的圖像分割異常挑戰賽
※iPhoneX作死挑戰Samsung Galaxy S9 Plus,好尷尬?
※Self-challenging 挑戰自我
※AT&T 收購數字廣告平台 AppNexus,有錢就能挑戰 Google、Facebook 的壟斷么?
※小黑合體變身!ThinkPad X1 Tablet Evo登場挑戰Surface
※性價比,是Anker Soundcore Flare越級挑戰BOSE的資本
※挑戰最具挑戰性的學校?Challenge the challenging schools?
※oppoFindX挑戰iPhoneX,網友:太奢華,iPhoneX輸的太徹底
※朝聖霞慕尼-勃朗峰 Chamonix-Mont Blanc,挑戰 Vallée Blanche
※挑戰HomePod?Spotify或將發智能音箱
※比iPhone X更好:屏下指紋之後 vivo要挑戰蘋果的Face ID
※多Agent 學習 AI 炸彈人遊戲挑戰賽——Playground
※面對Envoy來勢洶洶,Nginx如何應對Service Mesh時代的挑戰?
※OPPO不懼Apple,Find X挑戰iPhone X,你更支持誰?
※影片長度增至 60 分鐘 Instagram 挑戰 YouTube
※Intelligent Robots:挑戰 Kiva,倉儲機器人不應「高大上」,而應「快穩省」
※Intelligent Robots:挑戰Kiva,倉儲機器人不應「高大上」,而應「快穩省」
※整合PyTorch 0.4和Caffe 2,PyTorch 1.0能挑戰TensorFlow嗎?
※Instagram發布新視頻服務挑戰YouTube
※30天口紅挑戰 30 days lipsticks challenge