當前位置:
首頁 > 科技 > AI基礎數據服務行業研究:新場景催化數據采標需求加速釋放

AI基礎數據服務行業研究:新場景催化數據采標需求加速釋放

(報告出品方:國金證券)


1. AI 基礎數據服務脫胎於專業數據標註需求,2025 年國內百億規模可期

1.1 產業圖譜:AI 基礎數據服務脫胎於專業數據采標分工需求

國內 AI 基礎數據服務產業主要包括上游數據產生及產能資源、中游訓練數據生產、下游 AI 演算法研發三大產業環節。其中,部分產業環節重合度較高,AI 基礎數據服務商主要脫 胎於專業數據采標分工需求。

上游主要包括數據生產者和數據生產組織者,主要提供原料數據的採集服務。

中游主要由基礎數據服務商構成,通過數據處理能力和項目管理能力完成訓練數據集 結構設計、數據加工和質量檢測等工作,為下遊客戶提供訓練數據產品和相關服務。 AI 基礎數據服務整體可分為兩大類,一種是具備自有的標註基地或全職標註團隊, 這類企業也參與產業上游部分直接提供產能資源,另一種是依靠眾包或外包模式,專 注於數據產品的開發與項目執行。

下游包括科技公司、行業企業、AI 公司和科研單位等,主要負責演算法研發。部分下 游 AI 公司擁有自主的標註工具,也可通過 AI 中台獲取一些通用標註工具,少數數據 需求大的企業還孵化了自主的數據服務團隊。

1.2 發展歷程:站在人工標註市場出清與機器標註迭代的十字路口

理論層面:數據工程系 AI 工程基礎環節,核心在於高效的數據標註。AI 工程=數據工程 模型工程。其中,數據工程主要包括數據採集與數據標註,約佔 AI 工程時長的 80%;模 型工程主要包括模型訓練與模型部署,約佔 AI 工程時長的 20%。數據工程是 AI 工程的 前置且基礎環節,直接影響到模型的質量與精度。數據工程的核心在於高效的數據標註, Garbage in garbage out 效應顯著。

實踐層面:AI 模型訓練數據需求規模大,訓練數據質量不佳、效率低下情況普遍。據Dimensional Research 全球調研報告,72%的受訪者認為至少使用超過 10 萬條訓練數據 進行模型訓練,才能保證模型有效性和可靠性,96%的受訪者在訓練模型的過程中遇到訓 練數據質量不佳、數量不足、數據標註人員不足等難題。為應對訓練數據所帶來的多方面 挑戰,AI 企業開始從第三方購買原料數據收集、訓練數據生產和數據專家諮詢等服務。


AI 數據工程發軔於 AI 產業落地元年,系 AI 下游應用的基礎且必備環節。目前行業處於市 場格局漸趨清晰,新老技術面臨迭代,下游需求加速釋放的關鍵節點。

產業初生期(2010~2016):2010 年語音識別和計算機視覺領域產生重大突破,國 內開始萌生 AI 概念。後續數年,早期的 AI 基礎數據服務門檻較低,質量參差不齊。

產生成長期(2016~2022):近五年來,供給側高烈度的業內競爭加速市場出清,需 求側對產業落地以及垂直場景的定製化數據采標需求逐漸凸顯。最終引致行業頭部企 業浮出水面,行業格局逐漸清晰。

產業成熟期(2022~至今):2022 年以來,AIGC 產品集中爆發,高 level 自動駕駛 需求加速釋放。傳統人工標註的效率已不能完全滿足演算法需求,行業護城河轉向自動 化機器標註技術,預計產業將進入向技術要市場的新階段。

1.3 市場規模:AI 快速落地疊加數據量指數級躍升,2025 年國內百億規模可期

國內 AI 市場規模超百億美金,約佔全球市場 10%份額。目前,AI 已在金融、醫療、交通、 安防等多個垂直場景深度落地,且應用場景拓展勢能強勁,商業化進程加速。從全球市場 看,據 IDC,2021 年全球 AI 產業規模達 885.7 億美元,預計 2025 年將達到 2,218.7 億 美元,CAGR 高達 25.8%。從國內市場看,據 IDC,2022 年我國 AI 產業規模或達 116 億美元,預計未來數年仍保持兩位數增長。以 2021 年計,國內 AI市場規模約佔全球 10%, 國內市場成長潛力巨大,國內企業出海空間廣闊。

全球數據量呈指數式增長,中國數據量增速跑贏全球。據 IDC,全球每年生產的數據量將 從2018年的33ZB猛增至2025年的175ZB,其中結構化數據僅佔到全部數據量的20%, 其餘 80%都是以文件形式存在的非結構化和半結構化數據,日誌文件、機器數據等占非 結構化數據的 90%,產生了源源不斷的數據清洗與標註需求。相比之下,中國的數據量 增速領跑全球,平均每年增速比全球快 3%。2018 年,中國的數據量為 7.6ZB,佔全球總 量的 23.4%,預計到 2025 年將增至 48.6ZB,佔全球總量的 27.8%,CAGR 高達 30.4%。


中國 AI 基礎數據服務行業市場規模 2025 年有望突破百億。一方面,隨著演算法模型、技 術理論和應用場景的優化和創新,AI 產業對訓練數據的拓展性需求和前瞻性需求均快速 增長;另一方面,隨著業內對訓練數據需求類型的增加以及對服務標準要求的提高,產業 鏈的專業化分工將愈加清晰,專業化的訓練數據服務提供商將扮演更加重要的角色。 據艾瑞諮詢,2019 年中國 AI 基礎數據服務行業市場規模達 30.9 億元,其中圖像類、語 音類、NLP 類數據需求規模佔比分別為 49.7%、39.1%和 11.2%。預計 2025 年國內 AI 基礎數據服務行業市場規模將突破 100 億元,年複合增長率高達 21.8%。

1.4 政策支持:近五年國家政策加持國內 AI 產業發展

近五年國家系列政策推動國內 AI 產業蓬勃發展。《「十四五」規劃》指出要加快數字化發 展,建設數字中國,同時打造數字經濟新優勢,充分發揮海量數據和豐富應用場景優勢, 促進數字技術與實體經濟深度融合,賦能傳統產業轉型升,催生新產業新業態新模式,壯 大經濟發展新引擎。在國家頂層設計的支持下,我國 AI 基礎數據服務行業穩步發展,行 業訓練資源庫等細分應用領域的產業價值逐步凸顯。


2. AI 大模型催生高要求新需求,專業化數據集及 AI 訓練師需求利好優質專業數據提供廠商

2.1 場景特質:AI 大模型時代無監督/半監督訓練成為主流,RLHF 催生新興需求

大模型時代無監督/半監督訓練成為主流。AI 模型的訓練方法主要包括監督學習和無監督 學習兩種典型方式,後隨模型訓練數據量的增加衍生出半監督學習方法。AI 訓練方法的 發展歷經「監督-無監督-監督-無監督/半監督」4 個階段,在目前的大模型階段,無監督/ 半監督訓練再次成為主流。監督學習與無監督學習的主要區別在於是否使用帶有人工標註 的數據集訓練數據,半監督學習則是使用大量未標註數據 少量標註數據進行訓練。


大模型時代「基礎模型 微調」成為 AI 開發新範式,RLHF 微調技術催生更高要求的數據 標註需求。AI 大模型由海量數據通過無監督學習訓練得到,本身並不能直接應用於具體 任務,必須經過微調才可投入應用。微調是指基於大規模基礎模型,在現有訓練得到的模 型參數之上,針對特定任務類型、應用特定場景的數據對模型進行二次訓練。通俗來說, 大規模基礎模型為AI提供了基礎知識,而微調則是讓AI獲特定領域知識,並賦予其組織、 應用知識的能力。以近日備受關注的 ChatGPT 為例,在其微調技術 RLHF(強人工反饋) 系統當中:

第一步,預訓練階段。模型首先需要在標註完備的大數據集上進行預訓練,得到監督 學習模型。

第二步,交互獎勵階段。模型與專業的人工智慧訓練師進行交互,專業標註人員會對 ChatGPT 生成的回答進行標註、評估和反饋,給出一個針對回答的分數或者標籤。 這些標註數據可以作為強化學習過程中的「獎勵函數」來指導 ChatGPT 的參數調整, 得到獎勵模型。

第三步,迭代優化階段。基於獎勵模型的獎勵函數以 PPO(一種使用兩個神經網路 的強化學習演算法)的方式微調監督學習訓練出來的生成模型,基於強化學習 loss 持 續迭代生成模型,最終幫助模型進行強化學習和不斷優化。

2.2 場景需求:預訓練階段高質量專業數據集 交互獎勵階段人工智慧訓練師

伴隨業界大模型市場競爭的白熱化,RLHF 系統也將得到進一步的推廣及迭代使用,從而 帶來兩大類新興數據標註需求。一是預訓練階段催生 AI 廠商對於標註完善、清洗完備的 各類專業化場景數據集的需求;二是交互獎勵階段催生 AI 廠商對於具備專業的事實判斷 與規範的價值判斷的人工智慧訓練師的需求。 目前,上述兩類新興需求尚未得到充分有效的市場供給,利好海天瑞聲這類優質專業數據 解決方案提供商。針對 RLHF 預訓練階段需求,由於傳統數據采標廠商的主流商業模式 以銷售工具系統和標註服務為主,所以普遍缺少自有數據,較少經營出售精準數據集的服 務。針對 RLHF 交互獎勵階段需求,聚焦專業垂類的模型訓練師則更為稀缺,市場藍海 亟待業務開拓。


2.3 場景價值:超大規模預訓練模型推動訓練數據數級躍升,市場需求持續延展

超大規模預訓練模型推動訓練數據指數級躍升。自 OpenAI 於 2020 年推出 GPT-3 以來, 谷歌、華為、智源研究院、中科院、阿里巴巴等企業和研究機構相繼推出超大規模預訓練 模型,包括 Switch Transformer、DALL·EMT-NLG、盤古、悟道 2.0、紫東太初和 M6 等。 目前,預訓練模型參數數量、訓練數據規模按照 300 倍/年的趨勢增長,繼續通過增大模 型和增加訓練數據仍是短期內主流演進方向,RLHF 技術的推廣使用或將推動訓練數據市 場需求持續延展。


3. 自動駕駛領域訓練數據需求方興未艾,海天瑞聲發力布局

3.1 場景特質:自動駕駛客戶需求全棧式閉環數據解決方案

自動駕駛場景對於 AI 數據服務需求較為剛性。自動駕駛基礎數據主要是道路交通圖像、 障礙物圖像、車輛行駛環境圖像等,需求方以科技公司、汽車廠商和高精地圖廠商為主。 L3 級別以上的自動駕駛系統需對雷達、攝像頭等感測器採集的點雲和圖像數據進行抽取、 處理和融合,構建車輛行駛環境,為預測和決策做依據。目前自動駕駛的視覺技術主要應用有監督的深度學習,是基於已知變數和因變數推導函數關係的演算法模型,需要大量的標 注數據對模型進行訓練和調優。近幾年,汽車廠商在 ADAS 和自動駕駛方向的投入明顯, 對於數據的採集和標註需求也逐年增加,汽車廠商有望成為需求主力。

自動駕駛領域對於基礎數據服務商提出更高要求,業內客戶需要全棧式閉環數據解決方案。 數據獲取和處理能力是自動駕駛企業的核心競爭要素之一,自動駕駛能力取決於高效的數 據閉環和數據的利用效率,並能利用大量有效數據訓練智能駕駛演算法。因此,自動駕駛客 戶要求數據服務商能夠提供閉環數據解決方案,以滿足智能駕駛業務數據處理量大、數據 處理需求迭代頻次高等特點,專業知識、服務經驗及准入資質將成為衡量的重要標準。


3.2 場景需求:自動駕駛領域數據標註分為 2D 圖像標註與 3D 點雲標註

自動駕駛領域的數據可分為車載攝像頭採集的 2D 圖像數據和激光雷達採集的 3D 點雲數 據。一般而言,低 level 的自動駕駛技術以 2D 圖像數據為主,3D 點雲標註數據是中高 level 自動駕駛技術的基礎訓練數據,在自動駕駛領域中發揮著愈發重要的作用。3D 點雲標註 數據在自動駕駛領域的應用可以分為兩個方面,一是基於場景理解和目標檢測的實時環境 感和處理,二是 SLAM(即時定位與地圖構建)加強定位。

2D 標註:通過精確理解來自可見光攝像頭的信息,尋找能夠創建用於目標物體的可 擴展邊界框。

3D 點雲標註:通過識別和跟蹤場景中的對象,了解汽車前方和周圍的場景。將點雲 數據和視頻流合併到要標註的場景中。

視頻對象和事件跟蹤 3D 點雲標註:鎖定隨時間移動的對象,並標註時間事件。在多 幀視頻和 LiDar 場景中跟蹤進入和離開本體中的關注區域的對象(如其他汽車和行 人)。在整個視頻中,無論對象進入和離開視線的頻率如何,都會保持對其特性的一 致理解。

3.3 場景價值:自動駕駛訓練數據市場方興未艾,2025 年國內市場規模或達 25 億元

自動駕駛約佔我國 AI 基礎數據服務市場規模的 35%,2025 年市場規模或達 25 億元。自 動駕駛的視覺技術主要應用於有監督的深度學習,需要大量的標註數據對模型進行訓練和 調優。目前該領域的數據採集和標註需求已成為AI基礎數據服務的主要下游之一。據IDC, 2020 年我國自動駕駛領域占 AI 基礎數據服務市場規模的 35%,系第一大下游場景。另 據艾瑞諮詢,2025 年我國自動駕駛 AI 基礎數據服務市場規模或達 24.9 億元,預計 18~25 年 CAGR 高達 23.2%,跑贏 AI 基礎數據服務整體增速 21.8%。


4. 國內市場集中度趨勢性收斂,海天瑞聲具備領先優勢

4.1 發展趨勢:品牌商價值效應凸顯,國內市場集中度持續收斂

品牌數據服務商未來將替代中小型供應商成為市場主要供應力量。我國 AI 基礎數據服務 行業主要市場主體包括需求方自建基礎數據團隊與基礎數據服務商(品牌數據服務商、中 小數據服務商)。截至 2019 年,中小數據供應商是主要供應力量,佔比高達 47%。其中 百度眾包、海天瑞聲分居 top2,佔比分別為 11.0%、8.0%,2019 年行業 CR5 僅為 26.2%。 結合本文 1.2 部分分析可知,近年間需求端垂直場景及專業化需求凸顯,業務門檻提高; 供給端競爭加劇擠壓中低端業務利潤空間,加速市場出清。預計當前我國 AI 基礎數據服 務行業市場主要以品牌數據供應商與需求方自建團隊為主,行業龍頭逐漸浮出水面,中小 供應商份額顯著下降。


業內品牌數據商包括海外巨頭 Appen、國內領軍廠商海天瑞聲、慧聽數據、標貝科技等:

Appen:1996 年成立於澳大利亞,面向機器學習和人工智慧開發的高質量人工標註 數據集,於 2015 年 1 月於澳大利亞證券交易所上市。Appen 在採集並豐富語音、文 字、圖像和視頻等各種數據類型上積累多年經驗,與全球技術、汽車和電子商務公司, 以及政府部門建立了合作。

海天瑞聲:成立於 2005 年,是國內領先的訓練數據提供商。主要從事訓練數據的研 發設計、生產及銷售業務。目前已成為同時具備核心技術、產品資源、優質客戶為一體的本土訓練數據提供企業。核心收入來源為數據資源定製服務。

慧聽科技:成立於 2011 年,業務包括語音識別、語音合成、語音評測、語言文本類、 多媒體類等多領域數據製作,以及語音合成、語音識別、輸入法系統的研發等。公司 提供服務涵蓋語音訓練數據製作、音樂數據製作標註、語音質量評測等,經營模式包 括定製開發和自有訓練數據產品銷售。

標貝科技:成立於 2016 年,主要提供智能語音交互相關服務,包括語音合成整體解 決方案,以及語音合成、語音識別、圖像識別等數據服務,經營模式包括定製開發和 自有訓練數據產品銷售。

4.2 競爭格局:業內主要玩家發展各有側重,Appen 及海天瑞聲具備領先優勢

據 IDC,2021 年海天瑞聲在國內 AI 基礎數據服務行業市佔率高達 12.9%,位居第一。其 技術實力、語種/方言覆蓋能力、專利及軟著數量、成品訓練集數量均位居行業前列。相 比之下,Appen 在覆蓋區域、語種/方言覆蓋能力等方面更具優勢。慧聽科技與標貝科技 則在音樂領域具備差異化業務覆蓋能力。

在語音類數據產品中,海天瑞聲在結構方面的差異主要體現在覆蓋的雜訊類型、錄音通道 數量、錄音文本內容類型等方面。相比之下,海天瑞聲的訓練數據產品結構整體而言可覆 蓋更豐富的錄音文本內容類型、噪音環境類型、錄音通道數量,Appen 則在稀有語言覆 蓋數量上更勝一籌。

在自然語言訓練數據產品中,不同自然語言訓練數據產品的結構差異主要體現在文本來源、 內容、標註屬性等方面。Appen 具備更為豐富的產品數量與更為全面的語言覆蓋能力, 海天瑞聲在上述指標上緊隨其後。


在計算機視覺訓練數據產品中,海天瑞聲在結構方面的差異主要體現在人像識別檢測相關 數據產品領域。主要玩家均可覆蓋不同類型的人臉、姿勢、場景等,因計算機視覺數據產 品個性化特徵較強,各類訓練數據產品在具體的人臉類型、姿勢範圍、場景等方面具備一 定差異。與 Appen 相比,海天瑞聲的 OCR 訓練數據產品可覆蓋更多語種的光學字元識 別需要,具備廣泛性、強適用性特徵。

4.3 他山之石:Appen 發展復盤,全球 AI 基礎數據服務巨頭的崛起之路

Appen 系 AI 基礎數據服務行業全球巨頭,經歷爆髮式成長後收入利潤短期雙雙回落。 Appen 成立於 1996 年,面向機器學習和人工智慧開發的高質量人工標註數據集,於 2015 年於澳大利亞證券交易所上市。2015~2019 年,公司經歷了爆髮式成長期,營收增速一 度沖高至 100%以上,同期凈利率接近 10%。2020~2022 年,受到全球疫情及公司內生 發展階段調整影響,2022 年公司營收規模相較 2021 年回落 13.1%,凈利率由 9.1%回落 至 5.9%。

Appen 業務類型齊全,客戶質量較高。Appen 主要業務類型包括數據採集、數據預處理 與模型評價三大類。其中,數據採集環節基於公司預先標記完備的海量數據集為下遊客戶 提供大量其所需的高質量數據,數據集語種覆蓋範圍領先優勢較大。數據預處理環節,公 司具備全類型數據標註能力。模型評價環節,公司通過用戶測試及針對客戶競爭對手的性 能基準測試,診斷模型潛在問題,並為此提供能夠優化模型的訓練數據。公司主要客戶質 量較高,包括 Google、Amazon、Microsoft 等知名 IT 巨頭。

Appen 位居同業員工量能及數據標註技術前列。全球範圍來看,Appen 位居全球 AI 基礎 數據服務行業收入體量首位。其員工量能(數量及質量)與數據標註技術領先程度均位居 行業頭部,緊隨之後的是 Telus 和 Lionbrigde。以數據堂、海天瑞聲為代表的國內頭部廠 商距離 Appen 等海外大廠仍存在一定差距。

(本文僅供參考,不代表我們的任何投資建議。如需使用相關信息,請參閱報告原文。)

精選報告來源:【未來智庫】。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 未來智庫 的精彩文章:

通用電子測量儀器行業專題報告:厚積薄發,蓄力前行
汽車智能化專題報告:智能化大勢不改,產品快速滲透