當前位置:
首頁 > 新聞 > Zilliz 星爵:高維打擊,OLAP 資料庫的下一程

Zilliz 星爵:高維打擊,OLAP 資料庫的下一程

一個月前, OpenPower 高峰論壇之後,IBM Systems OpenPOWER 總經理 Ken King 在媒體溝通會上向記者們再次強調了 Power9 架構的優勢。總之,在性能上,與 X86 相比,就差他說「吊打」二字了。

一定程度上,這數據處理能力上的大幅提升有關,而 Zilliz 這家看上去不怎麼起眼的資料庫公司是「賦能者」之一,它聯合 IBM 發布的是國內首台 GPU 硬體加速 OLAP 資料庫一體機 MEGAWISE。

這對 Power9 的性能到底有多大程度的提升呢?Zilliz 創始人星爵(真名謝超)當時給了一組數據:利用 GPU 的高並發性,數據處理的性能相對 CPU 架構提高了 100 倍,同時,硬體成本降低了 10 倍,數據中心的運維、能耗成本大概降低 20 倍。

這些數據的背後就是 Zilliz 的價值所在,它從星爵極快的語速中結束,記者們看上去似乎還沒反應過來。

但更讓他們感到疑惑的或許是他說的第一句話:基於 GPU 硬體加速的新一代 OLAP 資料庫會是一項全新的顛覆性技術。


歸根結底,算力不夠

這個時代屬於人工智慧,但也別忘了作為其重要基石的大數據。

放眼望去,各行業無論是堆積的歷史數據,還是正產出的數據正在變得愈加龐雜,那些擁有數據的企業希望有更好數據分析服務來調整、掌控自身的業務。

但現有的處理方案,比如,基於 Hadoop 的技術雖然成本低,但分析速度難以滿足企業需求,而有些採集數據的處理還具有一定時效性。

總體而言,資料庫處理主要面臨這兩大瓶頸:一是數據計算速度,這與處理器相關,處理器越強大,算力越好,處理越快;二是數據訪問速度,數據要從磁碟讀取,然後轉到內存進入處理器進行分析。

這兩大問題在資料庫發展中一直是此消彼長的存在,交替阻礙著彼此的發展。比如,通過水平擴展可以增加更多處理器,但這會降低數據訪問速度。而後來出現的 A6,SSD 固態硬碟把數據訪問速度提高了一個數量級,但處理架構不得不做出改變,就像數據不再是放在固態硬碟,而是在內存里。

這樣問題來了,由於內存比固態硬碟又多了一個數量級的訪問速度,那一旦給出更多數據,CPU 計算能力又跟不上了。於是,又只能到處理器那裡做文章,以此陷入新一輪你上我下的死循環之中。

這是當時在 Oracle 做資料庫的星爵一直所思考的問題。

身處在世界上頂尖資料庫專家雲集的系統里,他對這個產業的認知不再只是琢磨具體的技術細節,而是回歸那些基礎問題。

為什麼資料庫發展會變慢?為什麼大數據有這種 Hadoop 的方案出現?為什麼數據分析不可能跟上數據產生量?

歸根到底,星爵告訴雷鋒網,這些都是因為資料庫處理系統的算力不夠。

資料庫的 indexes 加快了數據訪問、分析的速度,它本質上是用空間來換時間,那如果有一個算力快 1 萬倍的 CPU 會不會更好呢?

他想到,加了 indexes 之後數據可能只存 1TB,而現在可能要存 1.5TB 甚至 2TB 的數據。但這樣,數據更新的同時也需要更新索引來維護數據一致性,這會導致插入更新數據的分析速度也會變慢,而演算法也將變得更為複雜。

這又是另一個死胡同,跳出這個思維困境,一個大膽假設是乾脆不要 indexes 了可以嗎?

上世紀 80 年代以後,indexes 就被視為資料庫的標配,但實際上,就像充電寶被看做是手機的「標配」一樣,星爵認為,其實就是算力不夠,「夠的話,indexes 也許就不需要了」。

2012 年,In-Memory Database 系統的出現也解決了一些問題,但他並不認為這能進行高維打擊——有 GPU 處理器的智能手機對功能手機就是高維打擊。

此路不通,他在尋找新的能讓資料庫有所革新的機會。


「提速降本」,高維打擊

基於 GPU 加速的資料庫研究最早於 2006 年就開始了,當時主要是在 GPU 上做資料庫處理演算法。隨後,資料庫處理演算法在不斷擴充和優化中,與之相關的話題在每年的 SIGMOD、VLDB 和 ICDE 三大國際頂級資料庫會議上被業內人士進行探討,

但直到 2013 年,深度學習的崛起將 GPU 市場普及度推向了高潮。基於 GPU 這個新硬體平台的天然優勢,人們對它的認知不再是不務正業的遊戲機,而是可以成為 CPU 一樣的伺服器晶元。

更重要的是,以英偉達的 CUDA 為代表的 GPU 生態也建了起來,開發門檻隨之降低。

「這應該就是高維打擊的臨界點」,星爵覺得,他一直尋找的能讓資料庫從量變到質變的革新終於要來了。

於是,2015 年下半年,在謝超所在的小組完成 Oracle 12c 的多租戶資料庫的研發後,是時候離開這個已經服役 6 年的地方了。

在 Oracle 的那些年,他經歷了最初的項目立項到功能分析、需求分析,設計等整個流程。值得一提的是,2013 年,星爵所在的小組研發出了 Oracle 12c 第一版,「c」即代表「cloud(雲計算)」,這是 Oracle 首個「為雲而生」的資料庫,它奠定了未來 Oracle 資料庫發展的戰略方向。

不過,這家全球最大的資料庫巨頭準備在雲計算市場發力,正是在他碩士畢業進入 Oracle 的第一年,這比 Amazon 在 2005 年第一次提出開發雲計算平台晚了整整四年。也難怪,Oracle CEO Larry Ellison 當時對雲計算根本瞧不上,甚至認為那是一個愚蠢的概念。

與前老闆的態度不同,星爵要去抓住做 GPU 資料庫的機會了,他堅定認為這與資料庫巨頭們競爭時能拉開差距。

因為 GPU 的出現,讓數據提供速度與數據處理速度達到了平衡態。甚至,由於 GPU 處理能力在近幾年以數十倍速度不斷提升,這又遠超於數據供給的速度,同時基於像 IBM 的 NVLink 這種高速互聯技術,尤其 Power9 伺服器使用的 NVLink 2.0,讓 GPU 與 CPU 之間可以建立三個通道,每個通道的速度提高到了 25G,這讓 GPU 訪問內存的速度有了很大提升,而老對手英特爾並沒有解決數據訪問帶寬的問題。

對類似於 Power 系列軟硬一體機而言,基本需求點就是由軟體帶動硬體的銷售,所以在他看來,IBM 在使用了 Zilliz 的資料庫軟體之後,也會促進其硬體的銷量。

數據分析速度問題就解決了,接下來就看能不能降低成本。

星爵告訴雷鋒網,Power9 一體機每套大約 90 萬元,而像 Oracle 的 Exadata 伺服器成本則在幾十萬美元到上百萬美元之間不等,這麼一比,前者是佔優的。

還有更重要的後續維護和能耗成本。以前,在資料庫中心擺上伺服器要佔據半個機房,現在可能需要一台伺服器就已足夠,而節省了資料庫中心的空間,後期運維、能耗也自然隨之降低。

除了搭載在 X86、Power 這樣的軟硬一體機上,Zilliz 的 GPU 資料庫軟體也被互聯網、金融、政府等行業應用,他們正在選擇一些頭部客戶去做 POC,把資料庫系統部署在它們的生產環境,以解決技術落地問題。他們今年預計會服務 30-50 家客戶。

他也看好雲端的 SaaS 資料庫方案,認為這在未來有很大的成長空間,現在他們的客戶就有 AWS、騰訊雲、阿里雲等雲廠商。


成為下一個 Oracle 的機會

市場還處於早期階段。

Zilliz 目前是中國唯一一家做 GPU 資料庫的創業公司,其它拿到大額融資的還有三家,其中兩家在矽谷,一家在以色列。這四家公司在 OLAP 資料庫市場的年收入加起來不過 2000 萬美元左右。

不過,根據 Gartner 的統計數據,在 2017 年,OLAP 資料庫是大約是 183 億美元的市場,到 2020 年,預計會達到 228 億美元。

這個領域會有成為下一個 Oracle 或者安卓的機會,星爵這樣認為。

一個問題是,既然這個市場空間的想像力這麼大,巨頭們難道會坐視不理嗎?理論上講,像英偉達和 IBM 這樣的巨頭既然有硬體,那憑藉這樣的優勢,它們介入基於 GPU 資料庫軟體自然也不奇怪。況且,在資料庫領域還有 Oracle 盤踞一方,那 Zilliz 這樣的創業公司能有多大的機會?

先從技術層面看,資料庫作為底層系統軟體,它的准入門檻不低,但對於做傳統的基於 CPU 資料庫的 Oracle 來說,它一旦選擇切換到以 GPU 為核心這個資料庫上,需要從硬體到軟體包括存儲、優化、執行到整個數據管理和調度上,基本都要重新寫入,而不只是更改一些兼容性內容。這個過程看上去不那麼輕鬆。

「它不像是手機 APP,甚至是 ERP 或者 CRM。」星爵對雷鋒網解釋,這就好比微軟雖然在 PC 操作系統上馳騁了幾十年,但在手機這個硬體平台上的競爭力幾乎忽略不計,「幾乎是一個推倒重來的過程。」

換個角度來看,即便巨頭們雖然有能力進入,它們的共性在於響應速度會緩慢很多。

另一方面,從商業角度來說,如果巨頭做 GPU 資料庫軟體,那必定也會衝擊現有的業務線。比如 Oracle現在賣得最好的是 Exadata,這還是 2010 年把 SUN 收購以後研發而成的。那在它投入了數十億美元的產品線,甚至還沒賺回成本時,它的目標應該是賣出更多的 Exadata,如果轉向 GPU 伺服器它會非常慎重。

所以可以看到,近年來巨頭們的策略選擇也開始有所轉變,一般都是先守住自己擅長的硬體,然後在軟體上找相應的合作夥伴加盟開放平台,不再追求大包大攬。 IBM 成立的 Open Power 基金會就是如此。

因此,星爵並不認為 GPU 資料庫這條路上他們會與 Oracle 們很快碰面。

創業公司機動性要更強,但並不意味著 Zilliz 闖入一個新興領域會比巨頭們容易很多。

公司發展戰略、商務拓展、市場銷售等方面是 CEO 星爵在這兩年裡面臨的挑戰,並且在未來幾年或許還將持續下去。一些挑戰讓這個團隊在這兩年里走了彎路。

最糾結的還是對產品化的判斷,初期如何在產品與市場找出無縫切合點讓他們難以取捨,「最開始要兼容,你不能說完全做一個跟現在市場上所有(系統)都去兼容。選哪家做兼容本身也沒有對錯,但可能要看最終是不是能選出最有價值的客戶,這可能要做大量的工作。」

針對不同方案對應做資料庫,他們很快就做出了產品,但隨著系統增多,這種做法讓以後在技術上做擴展會更加複雜。

他們現在更希望提煉出其中的共性,然後做出統一的方案去兼容多個系統,即使研發進度會相應減緩。對於 OLAP 資料庫軟體來說,其實本質上做的就是一個平台,「ERP、CRM 各種企業級軟體都是建立在資料庫之上的。」

在星爵看來,新一代資料庫技術就是能夠做到把各行業的大數據完全活用起來,包括那些正在死去的數據。

為了這個目標,Zilliz 正在加快市場的拓展,他們已經與包括英偉達、IBM、偉創在內的渠道商、系統整合商進行合作。直銷加渠道銷售是現在的策略,這種方式讓 Zilliz 既有了硬體合作夥伴,後者也成了自己的渠道商,那頭部客戶建立關係也會更加高效,但如果自建一個銷售團隊,效率不一定跟得上。

換句話說,他們今年的重心將偏向產品落地,兼顧技術與產品研發,下半年,他們也會正式在 FPGA 上做資料庫的場景化研發。


「我是一定要創業的」

現在正好是 Zilliz 成立兩周年,回看當初離開 Oracle 的決定,星爵的回答很堅決:沒有任何猶豫。

因為在那裡上班的第一天開始,他就是為創業去積累經驗的——很早他就認定自己一定是要創業的。他說自己本質上比較喜歡去追求冒險、探索未知空間。

創業這件事是充滿了未知,但選擇的領域確實又是他所擅長的。在威斯康星大學麥迪遜分校攻讀計算機科學碩士學位時,他專攻的就是資料庫,而後無論是在 Oracle 還是現在,所做的事都一脈相承。

他把矽谷文化也搬到了 Zilliz,「公司基本上是矽谷極客范兒」。

工程師身份讓他吸引了一批「臭味相投」的人才加入,他希望加入的早期員工有一個共同理念:為了做熱愛且有意義的事情走到一起,順便把錢賺了。

在團隊內部,他推崇個人英雄主義,希望每個人都能獨當一面,這也解釋了他為什麼要選「星爵」——《銀河護衛隊》中保衛銀河系的英雄——作為自己的花名。

星爵在宇宙中探索,卻不知道下個目的地,而他也擁抱創業中的不確定性。「這個過程中有挑戰那也是收穫,這就已經足夠了,」他繼續說,「就算失敗了,那也會成為下一個你去探索的起點。」

有一絲騎士堂·吉訶德的意味,在宇宙中四處飄蕩的星爵在他眼裡也挺失敗的。「但如果人生都可以預知,就少了很多樂趣。」他補充道。

註:題圖來源於 Behance,作者Ilya Tselyutin

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

瞄準家庭數據存儲領域,斐訊智慧家庭布局又有新動作

TAG:雷鋒網 |