當前位置:
首頁 > 新聞 > 對話ACM傑出科學家、達摩院資料庫負責人李飛飛:阿里如何打好資料庫之戰?

對話ACM傑出科學家、達摩院資料庫負責人李飛飛:阿里如何打好資料庫之戰?

1970 年,關係資料庫之父、IBM研究員E.F.Codd發表了一篇名為《A Relational Modelof Data for Large Shared Data Banks》的論文,首次提出了關係模型的概念,並成為現代資料庫產品的主流,這是資料庫歷史上的一個重要轉折點,今天,我們看到的主流資料庫幾乎都是圍繞這一模型做研究。

對話ACM傑出科學家、達摩院資料庫負責人李飛飛:阿里如何打好資料庫之戰?

1976年,霍尼韋爾公司(Honeywell)開發了Multics Relational Dat a Store,開啟了商用關係資料庫的時代。彼時Larry Ellison(甲骨文創始人)正在一家名為Ampex的軟體公司工作,該公司正為美國中央情報局工作。

1977年,Ellison 與 Bob Miner 和 Ed Oates創辦了一家名為軟體開發實驗室(Software Development Laboratories,SDL)的計算機公司(Oracle前身),並在創辦後的第三年里推出了第一個商用SQL關係資料庫管理系統。

1983年,IBM終於將DB2帶入了商業市場;軟體巨頭微軟在1989年推出了另一個明星產品SQL Server。

自此,傳統商業資料庫幾乎成為這些企業的專利,壟斷了整個資料庫行業市場。

誰來改變資料庫「遊戲規則」?

興起於2000年左右的開源資料庫是一種改變遊戲規則的嘗試,而由雲廠商主導的雲原生資料庫則是將這種「改變」推向了高潮。

對話ACM傑出科學家、達摩院資料庫負責人李飛飛:阿里如何打好資料庫之戰?

2014年,AWS發布了業內首個雲原生的關係型資料庫Aurora;2017年9月,阿里雲在國內率先發布了自主研發的雲原生資料庫POLARDB,在2018年4月正式商用。

作為規則改變者,阿里資料庫的研究本身也是一條艱辛的道路。

如何看待資料庫雲服務的未來?阿里有哪些核心的資料庫產品?在阿里雲十周年北京峰會上,雷鋒網與ACM 傑出科學家得主、達摩院資料庫與存儲實驗室負責人李飛飛展開了對話。

此李飛飛非彼李飛飛,他究竟何許人也?在達摩院的官網上,對李飛飛的介紹是:

對話ACM傑出科學家、達摩院資料庫負責人李飛飛:阿里如何打好資料庫之戰?

猶他大學計算機系終身教授。曾獲ACM、IEEE、Visa、Google、HP、華為等多個獎項,獲IEEE ICDE 2014 10年最有影響力論文獎、ACM SIGMOD 2016最佳論文獎、ACM SIGMOD 2015最佳系統演示獎、IEEE ICDE 2004最佳論文獎、美國NSF Career Award、中國基金委海外重點研發獎,2018年ACM傑出科學家等。擔任多個國際一流學術期刊和學術會議的編委、主席。

據李飛飛介紹,他是2018年5月正式加入阿里巴巴,成為資料庫團隊負責人,併兼任達摩院資料庫首席科學家,帶領團隊投入到具有自主知識產權的資料庫系統研發當中。他的團隊打磨的產品和技術包括新一代分散式資料庫、非結構化數據管理、數據安全、智能化資料庫等。

目前,李飛飛不僅負責雲智能資料庫產業事業部,同時也負責達摩院下面的資料庫與存儲實驗室,覆蓋了阿里巴巴集團資料庫從研發到業務支持再到雲上商業輸出到服務客戶的整條鏈路。

阿里巴巴資料庫三個階段:商用、開源、自研

李飛飛談到,阿里巴巴資料庫發展到今天,並不是一蹴而就的,而是有一段艱難的「破繭成蝶」的摸索期。

第一階段,阿里用的是商用資料庫,來自IBM DB2和甲骨文。

阿里早期是淘寶起家,IBM DB2和甲骨文的資料庫能支持淘寶天貓快速發展,因為那時候核心主航道就是電商,資料庫就是支撐角色出現的,當時阿里集團內部資料庫的團隊主要就是以傳統資料庫廠商的角度來理解問題。這一階段持續到2011年-2012年,彼時電商業務高速發展,對傳統的甲骨文企業級資料庫的解決方案提出很多挑戰,最明顯的挑戰是成本太高,當高並發互聯網電商發展到巨大的規模,那個成本將是天文數字。

第二階段,雙十一誕生後,阿里開始大規模使用開源資料庫。

很多業務邏輯太複雜,而單純使用甲骨文的弊端也開始顯現,例如有些業務場景無法解決,簡單依靠請甲骨文的技術人員到場解決問題的方式一是成本高,二是時效上阿里等不起。這邊出個問題分鐘級就要恢復,不要說一天了,幾個小時幾分鐘都等不起,不可能有些核心問題解決不了給甲骨文打電話,廠商派人來——這個模式是受到挑戰的,所以阿里巴巴集團從2012、2013年後,尤其是雙十一誕生以後,就開始考慮所謂的樸素的業務驅動的邏輯,開始大規模使用開源資料庫——當時就是利用中間件的形式來做分布分表。

第三個階段,阿里雲發展迅猛,自研雲原生資料庫誕生。

到了雲的時代,阿里雲的業務快速發展,加上在集團業務裡面,傳統的分布分表中間件的解決方案,已經不能滿足(簡單業務可以)業務越來越複雜以後的挑戰,內部自研一款雲原生資料庫已經迫在眉睫。POLARDB就順勢而生了。

雲資料庫POLARDB是何新物種?

資料顯示,POLARDB 是阿里雲自研的下一代關係型雲資料庫,100% 兼容 MySQL,存儲容量最高可達100 TB,性能最高提升至MySQL 的 6 倍,單庫最多可擴展到 16 個節點,適用於企業多樣化的資料庫應用場景。POLARDB 採用存儲和計算分離的架構,所有計算節點共享一份數據。

POLARDB基於Cloud Native(雲原生)設計理念,其架構示意圖及特點如下:

對話ACM傑出科學家、達摩院資料庫負責人李飛飛:阿里如何打好資料庫之戰?

POLARDB架構

POLARDB的特點主要包括:

一寫多讀。採用分散式集群架構,一個集群包含一個主節點和最多15個只讀節點(至少一個,用於保障高可用)。主節點處理讀寫請求,只讀節點僅處理讀請求。主節點和只讀節點之間採用Active-Active的Failover方式,提供資料庫的高可用服務。

計算與存儲分離。滿足公有雲環境下用戶業務彈性擴展的剛性需求。資料庫的計算節點(DB Server)僅存儲元數據,而將數據文件、Redo Log等存儲於遠端的存儲節點(Chunk Server)。

此外,POLARDB還具有分鐘級備份恢復、秒級彈性擴容能力,100%兼容MySQL 5.6、MySQL 8.0、Oracle、PG等,還可以為Raft協議提供金融級高可用服務。雷鋒網注意到,目前POLARDB已經在猿輔導、心動網路、百勝軟體、輕鬆籌等平台上應用。

阿里資料庫生態:四大板塊,巨大場景

但實際上,POLARDB只是阿里資料庫生態的其中一個版塊。

外界眼中那個「很龐大很複雜」的阿里資料庫究竟長什麼樣?李飛飛做了簡單的梳理。他指出,從形態上來說,分為四個版塊。如圖。

對話ACM傑出科學家、達摩院資料庫負責人李飛飛:阿里如何打好資料庫之戰?

  • 第一塊:OLTP——關係型交易型資料庫。包括:POLARDB-X(今年即將推出的POLARDB分散式版本):分散式關係型資料庫系統,橫向擴展架構設計,應用於跨IDC多活和雙十一等高並發業務場景;POLARDB——Cloud Native資料庫,基於共享存儲計算分離架構的軟硬體,一體化設計、彈性縮擴容;MySQL/PG/MSSQL/MariaDB/PPAS——開源及第三方商業資料庫。

  • 第二塊:OLAP——在線分析類資料庫。包括:AnalyticDB——海量數據實時高並發在線分析雲服務;Data Lake Analytics——Serverless化的聯邦數據湖互動式分析服務;TSDB——時序時空資料庫,應用於IoT/城市大腦等。

  • 第三塊:NoSQL——非結構化及專有領域。包括:GraphDB——高性能分散式緩存系統及基於此的圖資料庫;Redis/Memcache——開源緩存雲服務;MongoDB——文檔型資料庫等。

  • 第四塊:工具產品。包括:DTS——數據傳輸服務,異構多活數據同步中心;DBS——資料庫雲備份服務等。

前面已經提到,發展成今天這樣的資料庫的生態,阿里經過了漫長的探索。李飛飛覺得,這和阿里與生俱來的一個優勢緊密不可分——巨大豐富的場景。

傳統資料庫廠商的做法是,研發一款資料庫產品,讓客戶使用之後進行反饋,可以縫縫補補;而阿里內部天然具有大量的業務場景,這就形成了一塊巨大的「試驗田」,任何一項新技術都不會急於在公有雲上向客戶輸出,而是經過「內部練兵」的方式來驗證和保證可靠性、安全性,這些工作做完之後才會對公有雲、私有雲、混合雲的客戶進行發布和提供。

這一點是阿里雲、AWS這樣的企業共同具有的優勢,而傳統的資料庫廠商則並不具備。

全球資料庫大戰一觸即發!

今天的阿里資料庫在國內已經屬於領先,但在國際市場怎麼看自己的位置呢?

李飛飛同樣有自己的想法。他以原生分散式資料庫技術為例講了講(雷鋒網註:原生分散式資料庫是分散式資料庫兩大解決方案之一,另一種則是出現地更早的分散式資料庫中間件)。

在世界範圍內,原生分散式資料庫技術最領先的是Google,它最早提出Spanner,可以做到跨數據中心的數據一致性分散式技術(2009年10月25日,Google提出名為Spanner的遠景計劃。該規劃的原理是一旦流量激增、硬體超負荷,數據就會在百萬級的數據中心中自動轉移。Spanner:「扳手」,又有「橋樑的交叉支撐」。寓意為:「橫跨數據中心,自動移動與複製數據。」)Google在Spanner數據中心裡配備了自己的原子鐘和GPS接收器,這些時間協調裝置會連接到特定數量的主伺服器,然後再由主伺服器向整個谷歌網路中運行的其他電腦傳輸時間讀數。

李飛飛覺得Google有一個取巧的過程,即利用了硬體(原子鐘)。他個人認為阿里巴巴在分散式資料庫某些領域、某些維度上可能超過像Google這樣的一些公司在分散式領域的積累。為什麼?


「我覺得任何技術都是業務推動來衍生的,只要你有業務場景,我覺得你的技術一定會逐步發展到領先。而阿里電商雙十一的場景在世界上都是絕無僅有的,規模和並發量是超過Google和亞馬遜的,此前亞馬遜做了一個類似雙十一的活動,結果資料庫直接宕機。」(雷鋒網註:此次宕機事件有可能指的是CNBC報道過的亞馬遜因放棄Oracle資料庫,導致Prime Day宕機 )

值得關注的是,李飛飛還透露了兩個重要的信息:

1、2019年下半年,他們團隊有可能將公布雲原生資料庫POLARDB和分散式關係型資料庫X-DB合併的最新進展,也就是前文提到的POLARDB分散式版本。

2、他們團隊將在2019年的ACM SIGMOD數據管理國際會議(全球資料庫領域具有最高學術地位的國際性學術會議)上分享雙十一場景下的分散式資料庫架構。據了解,谷歌Spanner、AWS Aurora等都是首先在SIDMOD會議上發布的。這實際上意味著中國廠商從技術上與頂級資料庫廠商站在了同一個舞台上。


「從技術和商業角度往前看,我們希望永遠以業務來驅動技術發展,而不是閉門造車,研而不發。我們不說領先世界,但我們希望能夠永遠站在世界的前列,和AWS、甲骨文這些廠商站在技術和商業資料庫第一陣營的位置。」

對於業界極為關注的不同廠商資料庫之間的兼容問題,李飛飛一併做了解答。

他表示,阿里將儘可能去兼容現有生態而不是破壞現在的生態。業務上,阿里會鼓勵支持更多中小開發者以及合作夥伴、生態合作方能夠圍繞阿里現有的體系去開發上層的應用,維護管控一系列的工具和人力投入。商業打法上,阿里會有專門的支持計劃推出,面對金融行業、政府行業、新零售行業重點打造典型案例。當雙方資料庫之間有一個良性循環,生態做的足夠大,就可以獨立發展自己的生態。


「當我這個熱帶雨林也長起來以後,就是一個獨立的熱帶雨林,從你這分叉出去,就是我的目標。不過我們現在還沒有到那一步,這是我們最終的目標。」

對話ACM傑出科學家、達摩院資料庫負責人李飛飛:阿里如何打好資料庫之戰?

在阿里雲北京峰會當天,阿里雲發布了POLARDB v2.0,這是業界首款兼容Oracle的雲原生資料庫。

加入阿里:迎接挑戰,帶領團隊走向更遠

李飛飛坦言,他也面臨著一些挑戰,但雷鋒網認為這也是行業的一些共性挑戰。

第一個挑戰是內外部的壓力。假如把傳統資料庫廠商比喻成汽車製造廠商,專門造車就完事了。而阿里不僅要造車,還要同時支持集團的業務、服務雲上的外部用戶——既是製造商又是4S店,既有研發又有運維。

第二個是混合雲的數據架構帶來的業務上的挑戰。雖然說現在雲計算市場蓬勃發展,無論是國內阿里、騰訊、華為還是海外的AWS、微軟Azure,都面臨一個問題——上雲不是黑和白、0和1的問題,而是有些業務可以上雲,有些業務不上雲(仍舊保持傳統IT架構),如何保障安全穩定高效的混合雲部署是有挑戰的。

第三是數據的安全隱私保護,無論是AWS還是阿里雲,這是一個永恆的話題。

第四是智能化系統的大規模落地應用。現在系統形態複雜、數據量越來越大,運維挑戰越來越高,依靠人力投入不是一個最佳選項,必須利用AI和機器學習的技術儘可能解決問題,提高運維效能。

但這些挑戰是李飛飛加入阿里之前就能想到的。作為橫跨了學術界、科研界、工業界的「全能型」技術人,他深刻洞悉了他在企業和學術圈的不同:


「企業界更多從應用需求出發,先解決問題再看怎麼繼續跑,類似5+5不知道怎麼計算的時候就全部拆成1,用工程化的思維去解決問題;而學術界和科研界會關注一些單點核心技術的突破和優化,甚至進行前沿布局,但離集成到商業系統有一段路程。」

在採訪最後階段,談及加入阿里的原因,李飛飛十分直爽地表示,阿里的業務場景豐富,是一個天然的資料庫的聖地,能支持各種業務練兵,做最牛的技術,同時又能商業化產業化。另外,他坦言,阿里互聯網化程度高,開放式、有合力,他在美國待那麼多年,比較適應這種文化。選擇加入阿里是個很自然的過程。

現在,全球資料庫市場競爭激烈,傳統廠商實力強大,李飛飛還將帶領阿里雲資料庫和達摩院資料庫與存儲實驗室,繼續走向更深更遠處。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

驅動工業互聯網智能化,華為雲以何抓住戰略機會

TAG:雷鋒網 |