當前位置:
首頁 > 科技 > 資料庫行業深度研究:國產資料庫百花齊放,崛起正當時

資料庫行業深度研究:國產資料庫百花齊放,崛起正當時

(報告出品方/作者:國信證券,熊莉、朱松、黃浩峻)


1、什麼是資料庫

資料庫是計算機系統的三大核心基礎軟體之一

資料庫是計算機系統的三大核心基礎軟體之一。數據是資料庫中存儲的基本對象,包括數字、圖像、音頻等形式,在進行逐級抽象後存儲在資料庫中,通常由資料庫管理系統 (DBMS) 來控制,DBMS充當資料庫與其用戶或程序之間的介面,允許用戶檢索、更新和管理信息的組織和優化方式。在現實中,數據、DBMS及關聯應用一起被稱為資料庫系統,通常簡稱為資料庫。資料庫管理系統是「按照數據結構來組織、存儲和管理數據的倉庫」,是信息化時代、大數據時代中各行各業不可或缺的重要基礎軟體。

資料庫發展史:資料庫與信息技術的發展相互促進

關係型事務資料庫誕生於1970年。1970年,IBM實驗室的Edgar Frank Codd發布論文奠定關係型資料庫的基石;Ingres原型在1974年誕生,為後續大量基於其源碼開發的PostgreSQL、Sybase、Informix和Tandem等著名產品打下堅實基礎。1977年,Oracle前身SDL成立,並於1978年發布Oracle第一個版本。1986年,美國國家標準局(ANSI)資料庫委員會批准SQL作為資料庫語言的美國標準並公布標準SQL文本。

資料庫分類:不同類別資料庫適用於不同場景

按數據結構,可以分為關係型資料庫和非關係型資料庫

按管理數據的結構,資料庫可分為關係型資料庫和非關係型資料庫:

關係型資料庫是指採用二維表格的關係模型來組織數據的資料庫庫系統。關係型資料庫是由二維表及其之間的聯繫所組成的一個數據組織。直接使用通用的SQL語言,使得操作關係型資料庫非常方便,關係型資料庫遵循ACID規則。

非關係型資料庫是用於非關係模型來組織數據的資料庫系統,如鍵值、列、文檔、圖形等。非關係型資料庫在1998年被首次提出,非關係資料庫試圖去擺脫傳統關係資料庫的約束限制,比如像數據的一致性、合併內存中的數據處理以及簡化數據模型。NoSQL資料庫用非結構化數據的來快速存儲和檢索,不使用為關係資料庫提供支撐的結構化數據圖表,這與關係型資料庫結構化數據是不同的。NoSQL資料庫放寬或取消了一些ACID的規則,以達到更好的性能和更大的靈活性。NoSQL資料庫認為 ACID 屬性的要求過於嚴格,大多數NoSQL資料庫遵循BASE原則來代替。

按應用場景,可以分為OLAP、OLTP和HTAP三類

資料庫按其應用場景可分為OLTP事務型資料庫、OLAP分析型資料庫、HTAP混合型資料庫三類:

OLTP事務型資料庫主要面向事務類場景,實時性要求高,數據量通常不大,面向一線業務人員。OLTP(On-Line TransactionProcessing,聯機事務處理),主要面向事務型應用的場景,OLTP系統主要使用關係模型,保證強一致性,保證事務的ACID特性,面向一線業務人員,支持多並發、實時、快速地增刪查改,例如銀行交易、零售電商、車票預訂等;

OLAP分析型資料庫主要面向分析類場景,歷史數據為主,數據量大,面向分析與管理人員。OLAP(On-Line Analytical Processing,聯機分析處理),主要面向分析型應用的場景。OLAP系統可以高速多維分析來自數據倉庫、數據集市或者數據湖的數據,可使用關係型或者非關係型的資料庫,主要面向分析師和管理者,支持對歷史數據的複雜分析操作,從而賦能企業商業智能決策。

按系統架構,可以分為集中式與分散式資料庫

集中式資料庫:是一種僅在單個位置存儲、定位和維護的資料庫。這種類型的資料庫是從該位置本身修改和管理的。因此,該位置主要是任何資料庫系統或集中式計算機系統。通過互聯網連接(LAN、WAN 等)訪問集中位置。該集中式資料庫主要供機構或組織使用。

分散式資料庫:由多個相互連接並分布在不同物理位置的資料庫組成。因此,分散式資料庫可以獨立於其他物理位置管理存儲在各種物理位置的數據,不同物理位置的資料庫之間的通信是由計算機網路完成的。

按部署模式,可以分為本地資料庫與雲資料庫

雲資料庫主要可以分為雲廠商的傳統資料庫和雲原生資料庫。雲資料庫是在雲計算的大背景下發展起來的一種新興的共享基礎架構的方法,它極大地增強了資料庫的存儲能力,消除了人員、硬體、軟體的重複配置,讓軟、硬體升級變得更加容易。現階段雲資料庫主要包括兩種:一種是託管在雲廠商上的「傳統」資料庫,例如阿里雲、騰訊雲上的MySQL、PostgreSQL、MongoDB、Redis等;一種是基於雲環境的雲原生資料庫,例如AWS的Aurora、阿里雲的Lindorm和PolarDB等。


2、什麼是數據平台

數據平台發展史:從BI到AI,數據時代帶動底層架構持續迭代

數據時代帶動數據平台底層架構從資料庫、數據倉庫、數據湖到湖倉一體。數據平台主要是指數據分析平台,其分析內部和外部其它系統生成的各種原始數據,對這些數據進行各種分析挖掘以生成衍生數據,從而支持企業進行數據驅動的決策。整個數據平台的發展來看,就是隨著企業信息化和數字化的逐漸推進,從資料庫,數據倉庫,數據湖到數據湖倉逐漸演進的。

數據平台分類:從數據倉庫、數據湖到湖倉一體

數據倉庫(Data Warehouse):自上世紀80年代末出現以來,伴隨MPP架構的出現,也使得系統能夠處理更大規模的數據量。但是隨著大量的非結構化、半結構化數據產生,數據倉庫劣勢顯現出來;

數據湖(Data Lake):數據湖自2010年末出現,可以存儲各類格式的原始數據存儲庫,但是企業對數據訪問靈活性、高性能的需求從未降低,因此多系統共存是企業常態,如一個數據湖,加上多個數據倉庫等,架構複雜性也為運維帶來困難;

湖倉一體(Lakehouse):湖倉一體構自2020年出現,其建在數據湖低成本的數據存儲架構之上,又繼承了數據倉庫的數據處理和管理功能。

3、資料庫的市場競爭格局

資料庫市場空間廣闊

國內資料庫市場增速較全球而言較快。根據信通院的統計數據,全球資料庫的市場規模在2020年為671億美元,到2025年有望達到798億美元,年均複合增速3.5%;而相比之下,國內的資料庫市場相對較小,有望從2021年的309.35億元增長到2025年的688.02億美元,年均複合增速約23.4%,增速遠高於全球資料庫市場增速。

國內資料庫市場佔全球市場較小,未來發展空間較大。目前根據信通院的統計數據,2020年國內的資料庫規模為240.9億元,佔全球資料庫市場規模的比例為5.2%,未來到2025年的時候,國內的資料庫規模將佔到全球資料庫規模的12.5%(這一數據基本與中國IT總支出佔全球IT總支出的比例較為接近)。

國內資料庫市場的主要玩家

國內資料庫市場呈現百花齊放態勢。目前國內的資料庫市場主要分為國內廠商和海外廠商兩大類,具體來說:1)國內資料庫廠商,主要包括了傳統資料庫廠商、初創廠商、雲廠商以及跨界廠商,傳統資料庫廠商成立時間較早,初創廠商則大多數是由中大型廠商的核心員工出來創辦的居多,雲廠商則利用自身雲計算的優勢加入行業,跨界廠商則主要依舊自身行業優勢參與研發資料庫;2)海外資料庫廠商,主要分為開源和商業版,其中在商業資料庫中,傳統的Oracle、IBM等廠商依舊佔據較大優勢,新的雲廠商藉助自身雲優勢也獲得較多市場份額,開源資料庫中主要以非關係型資料庫為主,如MongoDB、Redis、MySQL、PostgreSQL等發展勢頭良好。

國內資料庫市場有望走向集中

國產資料庫廠商人員相比海外巨頭較少。目前國產資料庫廠商總體人員數量較少,根據信通院的統計,目前我國對應的國產資料庫廠商約有80家,其中大多數的人員都在100人以內,其中人員在21-50人規模的公司佔比最高,人員在800人以上的僅有3家(信通院數據截止到21年6月)。相比之下,海外的資料庫巨頭人員數量較高,snowflake有3992人,MongoDB有3544人,Cloudera有2728人,Oracle有143000人,雖然這些雲資料庫公司的人員中營銷人員佔比較高,但總體的研發和技術支持人員也遠高於國內資料庫廠商。


4、資料庫的發展趨勢

趨勢一:國產化

國產資料庫的企業主要成立於2000年和2015年前後。根據中國信通院的統計(截止到2021年6月),我國的資料庫公司主要成立時間分別集中在2000年和2014-2017年左右,一方面是因為2000年前後是我國資料庫發展的萌芽階段,當時成立的傳統資料庫廠商有達夢、人大金倉、南大通用、神舟通用等,另一方面在2014-2017年之間,我國由於互聯網時代的到來數據量激增以及去IOE趨勢盛行,所以成立的資料庫國產廠商較多。

趨勢二:開源和商業資料庫並存

全球市場中開源資料庫快速增長,國內排名靠前的資料庫大多為開源資料庫。目前,在全球資料庫市場中,開源資料庫相比於商業資料庫而言進展快速,根據DB-Engines的統計,在2021年的時候開源資料庫的得分就已經超過了商業資料庫的得分,呈現較強的發展趨勢。就國內而言,根據墨天輪2022年11月的資料庫排名,國產資料庫中排名前十的大部分都是開源資料庫,比如說PingCAP的TiDB(2015年開源)、螞蟻金服的Oceanbase(2021年開源)、華為的openGauss(2019年開源),還有PolarDB、TDSQL等,大多數排名靠前的都是開源資料庫,只有達夢、GaussDB、人大金倉等屬於商業資料庫。

趨勢三:資料庫雲化

雲計算改變資料庫市場格局,雲資料庫崛起。根據Gartner對近十年的全球資料庫市場的份額追蹤,最為顯著的變化是雲計算廠商改變了資料庫的市場格局。在2021年,全球資料庫市場的前五名為Oracle、IBM、Microsoft、SAP和Teradata,而到了2021年全球市場的前五名為Microsoft、Amazon、Oracle、Google和IBM。Gartner每年都會做魔力象限,2013年資料庫的領導者象限主要被傳統巨頭佔據(Oracle、微軟、IBM、SAP),到了2020年AWS、谷歌、微軟等雲廠商也進入領導者象限。微軟憑藉SQLServer以及Azure雲資料庫的快速成長實現了對Oracle的反超,這與海外市場雲基礎設施的發展有著密切聯繫。

趨勢四:多模資料庫

全球數據量快速增長,非機構化數據佔比較高。根據IDC的統計數據,目前全球的數據量呈現快速增長態勢,2020年數據量達到60ZB,2021年達到70ZB,而到了2025年基本上會進一步上升到175ZB。在一項IDC面向企業的數據調查中,企業中的數據有80%是非結構化數據,所以對應的數據存儲需求就越來越多樣化,也延伸出了很多非關係型資料庫的需求,比如鍵值資料庫、寬表資料庫、文檔資料庫、圖資料庫、內存資料庫、時序資料庫等。


5、 資料庫相關公司分析

拓爾思:以「語義智能 」為戰略,布局搜索引擎資料庫賽道

拓爾思是國內最早從事自然語言處理的企業之一。公司是國內最早從事自然語言處理(NLP)研發的企業之一,在NLP、知識圖譜、OCR、圖像視頻結構化領域都具備自主可控的底層技術,處於行業領先地位。公司是最早從事中文全文檢索技術研發的企業,具有全球領先的智能檢索技術,現已將領先優勢拓展到數據採集、治理、分析挖掘等大數據核心技術的全生命周期,所有底層技術均自主可控。

星環科技:是國內領先的企業級大數據基礎軟體開發商

星環科技是國內領先的企業級大數據基礎軟體開發商。星環科技是國內領先的企業級大數據基礎軟體開發商,圍繞數據的集成、存儲、治理、建模、分析、挖掘和流通等數據全生命周期提供基礎軟體及服務,已形成大數據與雲基礎平台、分散式關係型資料庫、數據開發與智能分析工具的軟體產品矩陣,支撐客戶及合作夥伴開發數據應用系統和業務應用系統,助力客戶實現數字化轉型。2022年6月,公司多個產品或子產品入選Gartner發布的《中國資料庫管理系統供應商識別指南》,在識別的8類資料庫管理系統產品中,公司入選產品覆蓋其中7類,是覆蓋超過7類或以上產品的四家廠商之一,以及覆蓋多模資料庫的四家廠商之一。

PingCAP:專註於企業級開源分散式資料庫的公司

PingCAP是一家企業級開源分散式資料庫廠商。PingCAP成立於2015年,是一家企業級開源分散式資料庫製造商。它提供開源分散式資料庫產品、解決方案和諮詢、技術支持和培訓認證服務。公司致力於為全球行業用戶提供穩定、高效、安全、可靠、開放、兼容的新數據服務平台,解放企業生產力,加快企業數字化轉型升級。PingCAP以開源社區為依託,正在打造不分國界的全球產業生態,並將在企業數字化轉型中提供更強大的助推力。公司創始人劉奇先後創建了Codis、TiDB、TiKV等知名開源項目,曾任豌豆莢、京東資深系統架構師,同時也是Go語言專家和Redis專家,擅長高並發、大規模、分散式資料庫系統架構設計。2015年,劉奇與黃東旭和崔秋共同創立了PingCAP。

華為GaussDB:基於openGAUSS企業級分散式關係型資料庫

產品簡介:華為GaussDB是一個企業級AI-Native分散式資料庫,將AI能力植入到資料庫內核的架構和演算法中,為用戶提供更高性能、更高可用、更多算力支持的分散式資料庫。GaussDB基於統一架構,支持關係型與非關係型資料庫引擎,滿足政企全場景的數據智能管理需求,開啟資料庫極速與融合時代,加速政企智能升級。


報告節選:

(本文僅供參考,不代表我們的任何投資建議。如需使用相關信息,請參閱報告原文。)

精選報告來源:【未來智庫】。「鏈接」

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 未來智庫 的精彩文章:

鋰電池新技術專題:關注大圓柱、長電芯等創新機會
醫學影像行業研究:掘「芯」核心部件,高端影像國產替代進行時