BasicFinder CEO杜霖:AI新需求將不斷出現,數據標註訂單暴增
【獵雲網(微信:ilieyun)北京】5月8日報道(文/朱騰飛)
數據是AI的「血液」,無數據,不AI。
阿里巴巴董事局主席馬雲說:在未來3-5年,數據標註行業將會有一個蓬勃發展期,就像股市持續上漲,在這個階段參與的人都能一直賺錢。
眼下,隨著AI行業的縱深發展帶來對數據的新需求,催生出一批AI大數據服務公司,數據標註服務公司根據項目方要求,利用人工為圖片、視頻和語音內容打標籤、做標記。為AI公司用來訓練演算法模型,然後應用到圖像識別、語音識別、動作識別、自動駕駛等不同領域。
每一項 AI 技術的場景應用,背後都需要海量數據的支持。數據標註得越準確、數量越多,演算法模型的效果就越好,高質量的數據標註決定一家AI公司的行業競爭力。
近日,獵雲網對BasicFinder倍賽數據 CEO杜霖進行了採訪,分別從創業初衷、行業現狀、業務差異等多個方面進行了分析解讀。
壹
說起AI數據採集與標註,杜霖和他的團隊一點都不陌生。他目前的創始團隊均來自上海交大,「對AI和數據的研究,我們很早就開始了。」 BasicFinder CEO杜霖告訴獵雲網。
早在13年前,高二的杜霖就帶領衡水中學機器人興趣小組研究機器人視覺,高三時他寫了第一篇關於模式識別的科研論文,對於圖像和模式識別,他一直保持著非常強烈的興趣和研究。
2008年,讀大二的杜霖開始了第一次數據技術的創業。他做了一家基於數據挖掘技術的SEM公司,將來自互聯網的各種數據進行挖掘獲取長尾關鍵詞,用程序做量化競價和轉化率分析,自動去篩選高質量關鍵詞做流量變現。
2010年大學畢業,杜霖以400萬美金的價格把公司賣給了一家土耳其SEM公司,賺了第一桶金。隨後,他跟幾個朋友成立了一家早期TMT行業投資公司,從事了數年創投工作,這為他後來的業務積累了很多資源。
2014年,伴隨著深度學習技術的興起和發展,AI行業開始展露頭角,進一步催生和帶動了數據標註行業。基於多年對數據的理解和對未來趨勢把握,杜霖和團隊認為,未來AI發展只有兩個核心,一個是數據,一個是演算法。
「首先,我們擅長對於數據一系列處理流程的管理,包括所有任務的定義、發布、分發、管理、拆分,生產和質檢;其次,我們強調保證質量、效率和數據安全性。基於這些,我們決定搭建自己的數據平台和工廠。」
正是從那時起,杜霖和團隊開始搭建了一套完善的協同加工數據處理平台,用一部分融資去建立和收購一些工廠。
一方面基於數據需求方發布、定義任務;對於工廠管理人員拆分、分配任務;另一方面,對於操作人員做任務的領取和生產;對於質檢人員質檢,修改,匯總任務;以及最終的數據介面匹配與任務交付。
數據服務除了工廠模式,與專業的數據標註公司業務類似的還有數據眾包平台,其區別在於眾包平台上多為互聯網網民兼職操作,由於沒有受過專業化培訓,在質量和數量都難以滿足數據加工需求。
貳
據了解,深度模型在機器學習很多領域都取得了巨大成功,但也對演算法的原材料訓練數據提出了更多的要求。對於研發高水平的演算法,數據的高質量採集、清洗、處理等等對演算法效果會有直接影響。
杜霖認為,至少在5年內,數據標註行業的增長空間還很大,數據標註的市場才剛打開,數據需求將緊隨人工智慧的大規模落地引來一波爆髮式增長。「當時我們就預測到未來人工智慧對於數據的需求會呈現井噴,所以我們提前布局了。」
「BasicFinder不是單純標註數據的公司,我們是提供協同人力(Human Based Intelligence)的公司。在這個平台上,工廠需要一系列的管理功能。
目前,能被建模量化的數據只佔真實世界中的極少一部分。現有的數據標註業務主要集中在安防和自動駕駛領域,未來,隨著AI深入更多垂直行業,新需求將不斷出現。
杜霖認為,AI行業本質離不開科研,科研其實是其真正的內部動力,就出現一個非常有意思的現象,在學術界如果某種方法或者效果好,工業界就會很快垂直落地,真正能推動需求的是來源於學術界的效果和工業界的落地場景。
眾所周知,數據標記是個重人力的勞動密集型行業,這類公司的關鍵點就在於——人員效率、交付質量,「我們針對不同的市場需求和任務類型,開發了兩個產品。一個是倍賽工廠(BasicFinder Premium),一個是倍賽眾包(BasicFinder Forall)。」 BasicFinder CEO杜霖告訴獵雲網。
叄
AI企業對數據標註的質量要求是非常高的,而AI企業在尋找數據標註服務的過程中,數據標註質量差成為了AI企業最為苦惱的事情。往往在數據清洗、數據標註、數據交付等多個環節出現不及時、不流暢、不合格等情況。那麼數據標註如何把控質量呢?
談到數據標註如何把控其質量,BasicFinder CEO杜霖告訴獵雲網:
首先,數據工廠通過了ISO9001 質量體系認證。「舉一個例子,如果客戶要求95%的正確率,我們就會在最終完成的作業中隨機抽取100份樣本,只要發現錯誤數超過5份,那麼整批作業都將被打回。」
其次,用系統控制質量,內部用AI和質控模型來管理數據標註員。「比如,我們會間隔穿插相同任務給業務員,觀察他們對同一個任務處理的前後一致性,如果偏差較大,系統會自動提示業務員有走神或疲勞行為。從而提高數據標註工作的效率,保證數據交付質量。」
第三,對業務員進行精細化管理,「他們都有歷史正確率,做什麼樣任務,哪些任務錯了,分析出他擅長做的,優先動態分配任務。
由於AI企業對於數據標註是多樣化的,任何場景、任何事物都有可能產生標註需求。BasicFinder從最前期的任務定義、採集數據,到中間的清洗、加工,以及後期的質量檢測、訓練迭代等全部環節分開作業,開發了一套系統用來輔助人工提高效率,精準分析需求,匹配最優方案,縮短項目周期。
與2017年同期相比,BasicFinder倍賽數據今年第一季度訂單量增幅超過260%,預計2018年全年增量穩超去年三倍。
聊到行業現狀,杜霖認為數據標註行業市場潛力巨大,但行業內良莠不齊,甚至亂象橫生。「一方面有人追求控制成本,不同公司對數據精度要求不一樣,價格可能差了一倍都不止,標註的質量是不可控的;另一方面從業人員素質參差不齊、工作環境不正規。」 談及2017年業務量增速驚人,「這是我們優質客戶對倍賽數據服務能力的肯定,也是客戶對數據標註行業充分了解之後做出的選擇。」杜霖對BasicFinder的業務能力信心十足。
肆
據了解,BasicFinder倍賽數據擁有12家下轄專業化數據基地及2000餘名全職數據操作員,BasicFinder 運用自身高效培訓、管理體系以及專業的軟硬體設施為客戶的AI引擎增添強勁數據動力。
在對數據標註從業人員上,BasicFinder進行系統篩選,這是一個大浪淘沙的過程,他堅信市場慢慢會變得更清晰和透明,它會經歷一個從價格敏感到質量敏感,最終必定是質量勝出。
2017年,BasicFinder 倍賽數據推出了倍賽眾包產品,覆蓋120所城市,眾包用戶增速超過55%,價格監控引擎根據人力和需求的匹配情況,實現價格動態管控,降低客戶的服務成本。
值得一提的是,BasicFinder早期還沒有發力市場和營銷,海外客戶和訂單竟紛紛找上門來。外商非常注重質量,不是特別在意價格。「這是長久穩定的合作基礎。」
BasicFinder創始人杜霖告訴獵雲網,BasicFinder工廠採用的是「自營」模式,數據標註師大多是經過培訓的人員,他們技能相對網民標記效率很高。
「第一是對任務需求的充分理解;第二是要有足夠的耐心;第三是要有責任。我們要把每個任務做精細,比如在自動駕駛數據標註方面,我一直講,今天標註的每一個數據都是自動駕駛的一部分,不能漏,不能少,更不能錯,否則你犯的任何一個錯誤,未來很可能會出現巨大的災難。「倍賽數據一直在強調對人的要求。」 BasicFinder CEO杜霖補充說道。
現階段數據標註主要依靠人力來完成,百萬級的數據標註對於標註員來說是一個不小的壓力。尤其是複雜的標註任務,合格率低、時間跨度大等因素對於標註員來說需要有強大的心理承受能力。
問及是否會用機器替代人力進行標記,BasicFinder CEO杜霖表示,AI對數據需求的多樣性會增加AI的范化能力,這樣的多樣性正是來源於人類本身。用機器生產的數據再訓練機器是一個偽命題,會影響AI訓練效果。
採訪末,BasicFinder CEO杜霖告訴獵雲網接下來主要在兩個方面發力:一是紮實的運營平台,加大研發力度,讓任務發布的管理更加高效;二是降低成本,服務多元的客戶需求,提供更高質量的解決方案。
※信天創投合伙人張俊熹:產業互聯網還有很多位置空缺
※Joylux推出羞羞部位家用智能護理器,解決女性生理健康隱患
TAG:獵雲網 |