GPU+分散式計算,能把數據性能提升100倍嗎?
Zilliz是中國首家將GPU的技術應用在分散式資料庫中的數據處理公司,據星爵透露,Zilliz的處理性能比普通資料庫的性能提高100倍,並且能夠在此基礎上,將硬體成本降低10倍。
本文共計1968字,閱讀時間4分鐘。
記者 | 劉娜
編輯 | 趙力
項目要點:
Zilliz定位於基於GPU硬體加速的新一代OLAP(聯機分析處理)資料庫系統,專註於研發基於GPU的智能數據處理平台,是一家分散式資料庫公司。
Zilliz的應用領域包括了金融、遊戲、電商、物聯網、零售、電信等領域。Zilliz的產品還處於內測階段,產品預計2018年年底正式發布公測版本,未來將在銀行、政府、電信等行業進行重點布局。
目前,Zilliz現在不超過20人,大部分為技術人員,主要來自於甲骨文等公司。
科技發展至今,人類巨大數據量的產生以指數級的速度增長中。在此基礎上,雲計算、大數據、以及需要大數據支撐的AI技術也在不斷蓬勃發展,並在不同垂直領域陸續實現商業化落地。
在競爭加劇的同時,大數據公司在使用場景、目標客戶上更加細分化,形成一定差異化競爭。定位銀行、政府等大型客戶,Zilliz是一家專註於研發基於GPU硬體加速的新一代OLAP的分散式資料庫公司。
創業契機:數據的爆發性增長帶來機遇
「我天生對數據敏感,整個工作生涯似乎都在與數據和計算機打交道。」在美國威斯康星大學計算機專業碩士畢業後,Zilliz的創始人星爵加入甲骨文(Oracle)公司總部。後來在Oracle工作多年,當時他主要負責多租戶資料庫(OracleMultitenant)的核心研發工作,是一個典型的技術研發工程師。
在當時,數據的產生速度每兩年發生一次迭代,基本上是兩年之前的一倍。在星爵看來,各行各業都存在數據產能過剩,數據不能夠得以利用的問題。這是由於現有大數據處理的速度不能夠趕上數據增加迭代的速度,導致大量數據沒有被分析利用。
研究報告表明,人類數據的生產量和存儲量呈指數級增長。過去5年里數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至於ZB (1024EB=1ZB)級別。
而在當時,儘管市面上大多數大數據解決方案能處理海量數據,但並不能完全滿足瞬時、海量的數據處理需求。在數據行業工作數年的星爵發現,GPU性能改進的速度曲線,跟爆炸式數據增長的曲線非常吻合。
儘管海量數據處理的需求已經存在,「但在資料庫軟體的發展長期受到硬體成本、處理速度等方面的種種約束,在當時並不適合投入商業化使用。」星爵說,直至近期硬體廠商能夠提供更加高速的晶元,幫開發者把門檻降低,為分散式資料庫的技術開發提供基礎。
看到創業的時機到來,2016年星爵離開Oracle創辦了Zilliz,Zilliz的名字來源於英文zillion of zillions,直譯為無窮的無窮。Zilliz現在不超過20人,大部分為技術人員,主要來自於甲骨文等公司。
Zilliz創始人兼CEO:星爵
基於GPU的分散式資料庫
Zilliz是中國首家將GPU的技術應用在分散式資料庫中的數據處理公司,據星爵透露,Zilliz的處理性能比普通資料庫的性能提高100倍,並且能夠在此基礎上,將硬體成本降低10倍。
一直以來,CPU在計算機上負責「計算」,CPU的核數越大,運算能力越強。相較於CPU的十幾核來說,GPU上可以承載數千個處理單元。在過去,GPU技術主要被應用於圖像渲染和真實場景模擬。
現在,GPU計算已經在深度學習、高性能計算(HPC)中廣泛應用,越來越像更高性能的CPU。GPU的這種「大規模並行計算」的能力已經開始被挖掘,定位也從之前協處理器向主流處理器做轉移。
「如何運用GPU加速數據處理速度,在2006年的時候就是學術熱點,」星爵說,他表示為了簡單理解GPU分散式資料庫,可以想像為當CPU處理數據時,是一個人在抄寫課文;當GPU處理數據時,是多個分散在各個地方不同的人,同時在抄錄課文,所以效率會高很多。
這就是GPU分散式資料庫,利用GPU處理器上成千上萬個處理單元進行大規模並行數據處理,加速資料庫操作。百度百科將分散式資料庫定義為,利用高速計算機網路將物理上分散的多個數據存儲單元連接起來組成一個邏輯上統一的資料庫。
當數據量的高速增長,瞬時處理數據的需求得以體現,分散式資料庫技術也得到了快速的發展。傳統的關係型資料庫開始從集中式模型向分散式架構發展,基於關係型的分散式資料庫在保留了傳統資料庫的數據模型和基本特徵下,從集中式存儲、計算走向分散式存儲、計算。Zilliz的技術優勢也在於此。
面向銀行政府等布局產品
目前,Zilliz還在測試階段,產品預計2018年年底正式上線,產品應用領域包括金融、遊戲、電商、物聯網、零售、電信等,主要將在銀行、政府、互聯網行業進行重點布局。
值得一提的是,近期火爆的區塊鏈技術跟分散式資料庫技術有相似之處,也是去中心化分散式存儲和計算。區塊鏈可以被看做是一種特殊的分散式資料庫,以一個區塊為單位,可以分散式、去中心化地存儲數據,不可篡改是它的特點。以往的分散式資料庫往往是有中心的,而區塊鏈徹底沒有中心,用來防止被篡改。
競品方面,Zilliz對標美國的Kinetica和美國的MapD,二者都是GPU分散式資料庫,前者已經於2017年6月完成5千萬美元融資,後者於2017年完成2500萬B輪融資。而Zilliz於2017年8月完成由雲啟資本領投,靖亞資本、華岩資本跟投的數千萬元天使輪融資。
在國內,分散式資料庫創業公司還有柏睿數據和PinCAP,其中PinCAP和Zilliz都還處於研發階段。而柏睿數據定位運營商、公安局等政企大客戶已經投入商業化落地,據了解柏睿數據去年簽單總金額約為1億元人民幣。分散式資料庫也屬於大數據公司的一種,區別在於能夠在瞬時處理更大量的數據,所以目標企業往往定位於是銀行、政府、運營商等每秒運算需求到TB級別的大型政企客戶。
本文為尋找中國創客原創
未經授權不得轉載
※趣店羅敏開公號發文:之前接受採訪「回應一切」不夠成熟
※文投控股、阿里巴巴78億入股萬達電影;人民日報談「炒」虛擬貨幣
TAG:尋找中國創客 |