偶數科技打造新一代分析型資料庫,可以更好的支持AI應用場景
拓 撲 社
傳 遞 企 業 服 務 價 值
本文是拓撲社對微軟加速器·北京第11期入選項目的專題報道。
微軟加速器·北京第11期的入選企業的重點是人工智慧與產業落地應用結合,以人工智慧底層技術平台作為創業方向。這些校友企業都是企業服務類創業公司,覆蓋大數據、人工智慧、物聯網、區塊鏈等技術,並在醫療、政府、零售、建築等行業中獲得標杆客戶。這些領域也是拓撲社持續關注的方向。
偶數科技創始人 常雷
拓撲社(ID:tobshe)5 月16 日報道
文:竇悅怡
傳統的資料庫都是以Oracle、IBM、SAP為代表的交易型資料庫,這類型資料庫主要是針對基本的、日常的事務處理,例如,銀行傳統的手工記賬便是典型的應用場景。
而進入大數據和人工智慧時代,企業每天產生的數據量正呈爆炸式增長,面臨海量的數據,傳統資料庫的IT架構和處理技術已經逐漸無法適應巨大的數據處理需求。
其次,企業對數據價值越來越重視,數據分析成為了十分重要的一環,但傳統的交易型資料庫難以實現大數據量、複雜性的數據分析需求,可擴展性也不足。這時候,企業亟待尋找新的解決方案,實現由數據驅動的精細化運營,其中分析型資料庫已經成為近年的熱點。
今天,拓撲社(ID:tobshe)介紹的偶數科技,成立於2016年,是一家專註於新一代分析型資料庫的初創企業。2017年10月曾獲得紅杉資本中國、紅點創投中國基金的數千萬A輪融資。
創始人CEO常雷,2008年畢業於北京大學計算機系,曾任EMC高級研究員及EMC/Pivotal研發部總監,同時也是Apache HAWQ 創始人,長期專註於大數據與雲計算領域,對企業級數據管理有很深的理解。
-分析型資料庫,支持多種應用場景-
拓撲社了解到,新一代的資料庫是一種分析型OLAP數據倉庫系統,側重企業決策支持,提供直觀易懂的查詢結果。
相對於傳統的交易型資料庫,分析型資料庫具有以下優勢:首先,分析型資料庫支持複雜的分析操作,存儲的數據時間跨度長,數量級的性能提升,解決了傳統資料庫不能互動式實時處理大數據的問題。
其次,分析資料庫可以對數據進行在線統計、數據在線分析、實時查詢等發掘信息數據價值的工作。第三,存儲與計算分離的鬆散耦合架構,可以原生支持容器雲平台,傳統資料庫的緊耦合架構不適合新型容器雲平台。此外,分析型資料庫能夠更好的支持AI應用場景。
簡單來說,分析型的資料庫中的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入資料庫以後,一般情況下將被長期保留,也就是資料庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、刷新。
同時,分析型資料庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到當前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
「新一代的分析型數據倉庫可擴展性的節點可以達到幾千個,同時支持的應用場景也非常廣泛,包括機器學習、感測器等收集到的數據都可以支持,這些是在傳統資料庫架構下是實現不了的。」
常雷也補充到,人工智慧與分析型資料庫是相輔相成的,人工智慧離不開數據和演算法,分析型數據倉庫的基礎架構,以及高可擴展性、實時性的優勢,使其最貼近數據,具備與人工智慧相結合的優勢。
對於資料庫本身來說,傳統的資料庫都是非自動化的數據處理,通過人工智慧對資料庫改造,會使資料庫更智能,進而可以拓展更多應用場景,指導企業進行更有效的數據分析。
拓撲社認為,傳統資料庫向新型資料庫轉型,無論是對企業還是服務商來說,都存在一定的挑戰,尤其是傳統的資料庫的架構是CPU模式,如果企業要想轉向新一代高性能分析型資料庫,需要把基礎架構調整為利用CPU新指令以及新的硬體模式(包括GPU和FPGA等),調整前需要企業花去大量的時間重新編寫代碼,設計架構、調整代碼。
-新一代數據倉庫引擎
SIMD執行器性能可提升一個數量級-
談到資料庫,肯定離不開Hadoop這種開源技術,同時Hadoop延伸出來很多數據倉庫技術,例如Hive、Impala、Spark SQL、HAWQ等。
常雷介紹道,伴隨著互聯網公司的崛起,新一代數據倉庫也隨之興起。總體來說,新一代的數據倉庫可以分為三大類。第一大類:SQL on Hadoop。如Spark SQL、Hive、HAWQ、Presto,因為它的存儲基本都在HDFS。第二類叫SQL on Object Store。如基於亞馬遜的S3搭建的SQL on Object Store。
第三大類是從前面兩類系統里發現一些缺陷後又演化出來的系統,稱之為SQL on Hybrid Storage,有自己的原生存儲,同時也支持HDFS和S3等其他存儲,代表性系統包括HAWQ和Impala。
其中,HAWQ是Apache開源社區的孵化項目,包括彭博社、阿里等在內的大型企業都在使用並在開源社區為其貢獻代碼,而偶數科技正是依據這個系統進行產品布局的。
目前,偶數科技主要提供兩款產品,開源版的Apache HAWQ和企業版的Oushu Database。據悉,Oushu Database是基於HAWQ打造的新一代數據倉庫引擎,其優勢在於採用了MPP和Hadoop結合的創新MPP++技術架構,高可擴展,遵循ANSI-SQL標準,具有極速執行器,提供PB級數據互動式查詢能力。
同時,Oushu Database提供對主要BI工具的描述性分析支持和高級機器學習功能。兼容Oracle,Greenplum Database和PostgreSQL,可以輕鬆取代傳統數據倉庫和其他SQL-on-Hadoop引擎。
此外,Oushu Database支持原生Kubernetes容器平台,幫助企業無縫遷移到最新的雲計算平台。
常雷解釋道,將簡單的無狀態應用(比如Web伺服器)遷移到容器比較簡單,但將大數據平台遷移到容器卻面臨很多技術挑戰。將Oushu Database和雲平台結合帶來應用和服務一體化,很容易做彈性擴容,自恢復和滾動升級,同時,Oushu Database在資源管理和自動化運維也帶來很多便捷。
去年9月偶數科技發布了Oushu Database 3.0版本產品 。據悉,3.0版本對執行器進行了完全重新設計,充分利用了最新CPU的每一個特性,如SIMD指令等,可以做到性能的極致。其次,支持ORC外部存儲格式,結合新的SIMD執行器,外部存儲的性能可以提升10-50倍。
此外,傳統數據倉庫連接外部數據往往都是使用Connector形式,性能很慢,從而導致用戶需要使用先導入外部數據再查詢的方式,數據需要在多個系統存儲多份,浪費了多倍存儲空間。
結合新一代SIMD執行器,新版本可插拔存儲框架使得資料庫可以直接高性能訪問外部數據,查詢外部數據的性能和查詢內部數據類似。
目前,Oushu Database已經在政府、金融、電信、電力、軍工、製造業、物聯網、互聯網等行業廣泛應用,助力政府機構與大型企業構建了全新的大數據平台。
比如,銀行內各業務的數據孤島效應嚴重、以及外部非結構化數據的整合不力等。金融行業需要高性能的數據倉庫支持,Oushu Database可支持結構化數據的處理和非結構化數據的整合能力,可有效滿足反欺詐等場景的數據處理。
在盈利模式上,偶數科技的產品是根據CPU/節點/容量收取賬號年費,客單價在數十萬到數百萬之間不等。
而獲客方面比較靈活,有從開源社區對接過來的客戶,也有與微軟進行戰略合作,共同切入某垂直領域,還有直銷團隊。企業版客戶已經達到數十家,代表性用戶有國家電網、中興、深圳市國稅等。
-主編點評-
加入微軟加速器後,微軟在技術和產品上給了偶數科技極大的支持。基於微軟Azure雲平台,偶數科技成功開發了Oushu雲數據倉庫服務。其次,微軟針對校友企業的CEO和CTO提供了相應的技術、市場和財務等培訓課程,提升他們在管理等方面的能力。
第三,微軟加速器會把優質的客戶資源輸送給偶數科技,目前已經為偶數對接了霍尼韋爾、太平保險集團以及興業銀行等大型客戶。
另外,微軟加速器還會提供品牌宣傳、媒體採訪、市場活動、融資對接等資源,還會牽線搭橋,與眾多校友建立生態聯繫,互通有無。
END
聲 明
本文為拓撲社(ID:tobshe)原創稿件,轉載須在文章開頭明顯處註明來源拓撲社(ID:tobshe)及作者名字。如不遵守,拓撲社將向其追究法律責任。
拓撲社報道中所涉及的融資金額均由企業方提供,拓撲社不保證其數字真實性,僅供參考。
※新葯頻折戟,雲勢軟體發布AI新葯發現引擎GeniusMED
TAG:拓撲社 |