當前位置:
首頁 > 最新 > 人工智慧數據服務:新技術、新活力,新模式、新動能

人工智慧數據服務:新技術、新活力,新模式、新動能

2019軟體博覽會即將於6月28日至6月30日在北京展覽館舉行。該博覽會由工業和信息化部和北京市人民政府主辦,國家工業信息安全發展研究中心、北京市經濟和信息化局、北京市朝陽區人民政府、北京市西城區人民政府、中國軟體行業協會共同承辦。此次展會主題是「融合網路世界,驅動數字未來」,預計將有30多個國家、100多個地方省市、超過400家企業和機構的院士專家、企業代表和國際友人蔘會。

AI數據服務:新形勢,新要求

作為軟體產業發展的重要組成部分,人工智慧行業及其上下游企業將繼續以蓬勃發展的態勢帶來更多新的體驗。縱觀新的一年,人工智慧核心產業規模急劇增長,這些技術不僅影響了軟體和互聯網行業,還影響了其他如醫療保健、法律、製造業、汽車業等各行各業,引起了全球經濟結構、社會生活和工作方式的深刻變革,多個國家已將人工智慧提升為國家戰略,出台了相關政策和規劃,力爭搶佔科技的制高點。

人工智慧產業的發展離不開數據服務業的支持,目前階段,人工智慧演算法的訓練主要依靠大量數據來完成。數據對於演算法就像汽油對於發動機,從車輛自動化駕駛到AI聊天機器人,從醫學成像與診斷到農作物監測,數據在其中都扮演著不可或缺的角色。數據越多、越精準,演算法訓練後獲得的模型也就越智能、越好用。與人工智慧行業的蓬勃發展和對數據量更大、質更高的要求相適應,近兩年國內湧現出一大批專業從事AI數據採集與標註的服務公司,藉助大量技術投入和近千萬專職、兼職數據採集標註人員,持續為不同行業AI落地輸送新鮮數據血液。國外AI數據服務業也成投資熱門,今年3月份上市公司Appen以高達3億美元的價格收購了同行業另一家數據標註公司Figure Eight。

這一次,作為國內AI數據服務行業頭部公司的龍貓數據也將在軟博會上展示他們對行業的新想法和新探索,除了標註技術上的創新,更有服務模式、服務理念上的新發展,以期為人工智慧產業注入新活力,提供發展新動能。

龍貓數據:精準標註,技術先行

龍貓數據(北京安捷智合科技有限公司)成立於2014年,是一家全球領先的AI數據採集和標註服務商,專註為AI及傳統企業提供安全高效的綜合數據解決方案。團隊彙集行業頂尖技術研發人才,藉助500萬註冊用戶,已累計為200餘家AI明星企業提供了專業定製化數據服務,並與眾多國際知名企業開展長期業務合作。

數據採集與標註的核心是為AI演算法提供大量精準的標註數據集,誰擁有更好用的採集標註工具,誰使用更高效的標註手段,誰就能夠在更短時間內為客戶提供更符合要求的數據集。

龍貓數據在行業興起時入局,佔據先發優勢的他們並沒有滿足於當時的紅利,而是不斷加大技術投入,通過提升技術水平的方式提高生產效率。從標註平台0.1到1.0再到2.0,從單一的網頁採集標註到現在APP、小程序、線上端與本地端聯合部署,一次次迭代升級不僅帶給客戶驚喜,也引領了行業技術提升,給行業帶來更多變革和機遇。

以標註過程中圖像標註技術為例,在傳統的圖像標註方式中,最常用的就是打點連線和PS技術:打點連線是沿著要標註的物體邊沿打上足夠多的點,然後通過連成線標註出對象輪廓。這一方式門檻低但極其繁瑣,只適用於交通線等直線標註,標註效果也不夠理想;而通過PS等畫面處理技術標註,准入門檻較高,只有深度掌握PS等繪圖技術才能夠進行,標註時間和人力成本高,且導出格式單一,達不到客戶要求,成為制約圖像標註時效和質量的一大瓶頸。

面對越來越多、要求越來越高的圖像標註需求,龍貓數據憑藉創新性思維和不斷探索的精神,開發出國內首個圖像簡易標註工具——超像素分割標註:採用超像素分割技術,將數字圖像細分為多個圖像子區域(像素的集合)進行標註。這樣一來,不僅標註精度大大提高,標註對象邊緣更加精確清晰,標註時間也大大壓縮。最重要的是,完成這種精度的標註,完全不需要再藉助PS等圖像處理工具,將有更多標註員有機會參與進來,提升了整體標註效率。

採用了超像素分割標註方法之後,原來那麼多彎折的曲線再也不用挨個打點連線,簡單的塗塗畫畫就標註完了。對於標註員來說,最直觀的提升是工作的趣味性,就像小朋友喜歡玩的塗顏色遊戲一樣,在已有的分割好的框架內簡單塗幾筆就完成了,再也不用打上密密麻麻的點然後連線了。目前國際上擁有這項技術的公司寥寥無幾,龍貓數據公司憑藉自己的基礎和實力,開發出這樣好用實用的工具,直接為部分科技公司節省下一半以上的數據獲取時間。

像這樣的例子還有很多,比如語音標註中可以進行無縫時間戳選取的ASR智能標註,比如物體標記中實現從2維到3維突破的3Dbox標註。除了採集和標註工具技術以外,AI數據服務的核心還在於人:數據採集和標註本身是勞動密集型產業,無論是提供各類文本語音,圖像視頻還是對它們進行標註打標籤,都離不開海量基礎人員的支持。龍貓數據在行業內率先採用眾包的模式,將拆分好的任務分配給三四五線城市人群完成,降低了勞動成本的同時提高了任務完成效率,也直接帶動了大量人員就業。據估計,截止目前,國內專職和兼職從事數據採集標註的人員已經超千萬。

高效管理,完善生態

龍貓數據網站、APP註冊人數超過五百萬,旗下管理的專業渠道(中小型採集標註團隊)超過2000個。面對一個嶄新的行業,並沒有過多經驗可以給他們提供參考,如何對這麼多團隊和個人進行高效管理,如何在不斷發展過程中提升他們的職業素養成了擺在龍貓數據公司前的一道難題。

為此,龍貓數據研製出一整套針對用戶的自動化管理系統,通過這套系統可以實現任務自動分發,根據用戶專業技能實時匹配。在行業內眾多公司都還需要渠道「刷臉」獲取任務的時候,龍貓數據率先砍掉「白名單」制度,將數據需求在全平台分發,根據渠道考核結果匹配合適人選。同時還支持任務多渠道同時完成,按能力分配任務量。藉助經驗評價系統龍貓數據會針對完成任務的人員進行經驗值增減,將數據需求分配給合適經驗值等級人群,極大提升了任務完成效率。

為提升用戶做任務能力,龍貓數據還會對用戶進行不定期現場培訓,實現用戶工作素質提升,與平台共同發展進步。同時他們也十分注重採集標註從業人員的生態建設,在公司旗下「龍貓眾包」APP 中,有著屬於采標人自己的「大本營」——輕量級社區功能模塊「龍貓廣場」,在這裡用戶可以自由發布帖子,同時可以評論、轉發、標記喜歡,使得用戶可以在app內實現信息的共享和傳播。類似於微博熱搜,話題還有TOP10榜單,按照討論熱度排列,TOP10的話題所有用戶可見,榜單內的話題會獲得更高的參與度和熱度。社區的內容審核機制也使得用戶可以通過舉報來維持社區有序、文明的氛圍。他們希望希望藉此打造出有愛、有溫度的AI基礎服務社區。

創新模式,開放共享

面對國內人工智慧產業蓬勃發展、需求旺盛的局面,龍貓數據沒有固步自封,而是積極變革、通過推出不同服務模式滿足行業新變化和新需求。在傳統的AI數據服務過程中,數據定製化一直是行業普遍採取的做法:由數據需求方提出需求,剩下的所有步驟都交由數據服務公司完成。這無疑增加了需要多種類、小批量數據的中小公司、初創企業的試錯成本,而如果能夠擁有自己的採集標註平台,自主完成數據需求投放和滿足,則可以大大降低數據集獲取成本,直接對接用戶也可以提升任務完成準確性。基於此,龍貓數據推出了行業創新性服務模式——龍貓數據採集標註開放平台。

龍貓數據開放平台是完全開放化的,任何進入開放平台的客戶,只要註冊,就能夠使用整套數據採集標註系統,也能夠調用其中百萬級的專業采標人員。平台上實現了全面的通用型標註工具免費使用,包括超像素分割語義處理系統、ASR語音標註系統、NLP自然語言處理系統等,可實現語音波形圖展示、無縫時間戳選取,圖像與自然語言精準標註,滿足各種數據類型需求。

開放平台最大的特點是開放和共享,簡單來說,就是搭建了一個針對供需雙方的發布需求和提供服務的開放的第三方平台,可以最大限度地節省企業的時間成本和開發成本,同時提高工作效率。平台實現了7×24小時極速響應需求,500萬註冊用戶,2000個以上的專業團隊以及諮詢顧問全程跟蹤,可以為企業快速配置個性化任務流。在開放平台上,企業直接發布任務,對需求理解更透徹,數據質量更高;直接對接採集、標註用戶,省去中間環節,企業自主定價,可減少成本支出30%以上。

開放平台一個很好的作用就是降低了人工智慧的入行門檻,平台保證了數據需求方的任務能夠獲得更多樣從業者的關注,專業團隊也能夠迅速響應,這樣一來,就能讓更多的企業參與到人工智慧行業中來。在數據安全方面,開放平台則保證了數據加密環節安全可控,在數據傳輸過程中數據同樣會被加密,以保證數據的安全。同時,在使用開放式平台的過程中,龍貓數據會和客戶簽署一套電子協議,保證客戶在使用數據的過程中要做到合法合規。如果在數據使用過程中出現了問題,平台完全可以根據任務去追溯到應用,追究相關機構或者個人的責任。這樣一來,對於平台使用者而言就有所約束,但更是一種有效地保護。

數據採集與標註是人工智慧落地的重要一步,龍貓數據將在此次軟博會上講述他們對於行業的所思與所做,與更多企業一同探討人工智慧發展的無限可能。我們也期待更多企業能夠像龍貓數據一樣,專註本職而又不限於此,努力奮進不忘創新,藉助新技術釋放新活力,開拓新模式創造新動能,為中國軟體產業乃至整個科技產業的發展做出卓著貢獻。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 i黑馬 的精彩文章:

阿里巴巴宣布新一輪組織升級:重組阿里創新業務事業群,盒馬升級為獨立事業群
微脈完成1億美元新一輪融資 IDG資本領投

TAG:i黑馬 |