當前位置:
首頁 > 最新 > AI Challenger設300萬獎金打造「中國版ImageNet」,國內最大規模深度學習數據集上線

AI Challenger設300萬獎金打造「中國版ImageNet」,國內最大規模深度學習數據集上線

【獵雲網(微信:ilieyun)北京】8月29日報道(文/呂夢)

人工智慧產業中,數據、演算法、計算能力是三大基石,其中,數據更是人工智慧科研的最寶貴資產。對於需要運用機器學習作為其業務核心技術的創業團隊來說,高質量的數據集就是競爭優勢的重要保證。

為了能讓更多AI人才有機會拿到真實的數據,解決真實世界裡的問題,今日,由創新工場、搜狗、美團點評、美圖公司聯合主辦的「2018 AI Challenger全球AI挑戰賽」正式開賽。「AI Challenger全球AI挑戰賽」是面向全球人工智慧人才的開源數據集和編程競賽平台,也是目前國內規模最大的科研數據集平台、以及最大的非商業化競賽平台。

在2017年的首屆大賽中,AI Challenger發布了從百萬到千萬量級的4個數據集、6個兼具學術前沿性和產業應用價值的競賽、以及超過200萬人民幣的獎金,吸引了來自全球65個國家的8892支團隊參賽,成為目前國內規模最大的科研數據集平台、以及最大的非商業化競賽平台。

本屆賽制中,四家主辦方投入千萬元規模以上的資金,同時引入了更多企業、大學、政府機構合作。此外,還新增十餘個全新高質量數據集,和十餘個兼具科研、產業應用、社會意義的競賽,以及超過300萬人民幣的獎金。

創新工場人工智慧工程院執行院長王詠剛

創新工場人工智慧工程院執行院長王詠剛介紹了今年大賽的主題,他表示,今年會突出數據集建設和問題設置方面與產業結合的特點,盡量讓AI Challenger發布的數據能直接滿足科研和產業的一線需求。同時,AI Challenger也會盡量突出人才平台、人才社區、人才網路的建設,利用平台把全世界範圍內的優秀人才聚集在一起。

本屆大賽的主題是「用AI挑戰真實世界的問題」,希望在數據集的建設上,既具有科研和學術上的前瞻性,也希望數據集能緊貼AI商業化、AI落地的實際場景、實際需求,從產業需要出發,為學術研究和AI人才培養提供方向性的建議,也反過來幫助產業界更好地利用最新的科研成果,解決真實世界的最有價值的問題。


主賽道

觀點型問題閱讀理解競賽:機器閱讀理解是讓機器讀懂人類語言、和人類更好交流互動的重要領域。此技術可廣泛應用於智能搜索、智能問答、智能客服、智能音箱、語音控制等場景,用AI實現基於文字、語音的人機智能互動。數據集包含30萬問題、篇章與候選答案,是全球難度最大的中文觀點型問題機器閱讀理解數據集。

細粒度用戶評論情感分析競賽:在線評論的細粒度情感分析對於深刻理解商家和用戶、挖掘用戶情感等方面有至關重要的價值,並且在互聯網行業有極其廣泛的應用,主要用於個性化推薦、智能搜索、產品反饋、業務安全等。數據集包含15萬條餐飲用戶評論、6大類20個細粒度要素標籤,為業界最大。

英中文本機器翻譯競賽:機器翻譯正越來越成為人們跨越語言障礙的重要工具,應用於各種領域。數據集在2017年數據集的基礎上,總量達到1300萬句對,為業界最大;且其中具有上下文情景的中英雙語數據達到300萬句對,為機器翻譯的研究提供了更多探索空間。

短視頻實時分類競賽:近幾年發展極快的短視頻行業具有明顯的娛樂性和流行性,深受人們喜愛;基於短視頻機器分類的技術還可以廣泛用於視頻內容分析、編輯與生產,監控、安防等領域。數據集包含20萬條短視頻、涵蓋63類流行元素,為業內首個多標籤短視頻分類數據集。

無人駕駛視覺感知競賽:自動駕駛技術即將改變我們的出行和生活方式。本次大賽的自動駕駛競賽採用了UC Berkeley DeepDrive(BDD)2018年最新發布的BDD 100K數據集,這是全世界最龐大、最複雜的自動駕駛數據集,包含原始圖片1.2億張、標註圖片10萬張,涵蓋多樣天氣和晝夜光照條件。

除5個主賽道之外,AI Challenger 2018還開放5個實驗賽道競賽和相應的數據集:

實驗賽道:

1.天氣預報競賽:氣象要素的變化深刻影響著人類生活的方方面面。我們帶來北京氣象要素數據集,包含10個站點、3年多逐小時歷史「觀測」和「睿圖」資料,探索以AI提高天氣預報的準確性。

2.農作物病害檢測競賽:2016年農作物病害造成的直接損失占我國農業生產總值的8.48%。我們發起世界上首個農作物病害檢測競賽,標註圖片50,000張、包含10種植物的27種病害,探索「AI植物醫生」。

3.眼底水腫病變區域自動分割競賽:我們發起國內首個眼底病變醫學圖像檢測競賽,建立了目前最大的眼底病變數據集,包含由專業眼科醫生標註了三種類型水腫的、各含128張圖片的100個OCT體數據。

4.商品實例分割遷移學習競賽:以3D虛擬圖像訓練機器「認識」真實世界的物品,能極大降低標註成本、也是新興研究熱點。數據集包含不同場景的100個類日常生活用品的30,000張虛擬圖片和9,000張真實照片。

5.零樣本學習競賽:受人類學習能力的啟發,零樣本學習希望藉助輔助知識學習從未見過的新概念。本此競賽是首個國際性零樣本學習競賽,數據集包含78,017張圖片、230個類別、359種屬性。

作為此次比賽的聯合主辦方,搜狗CEO王小川表示,搜狗帶來的數據集是超過30萬問題和答案標註的數據,由於搜狗每天都有數億用戶在使用,所以有規模最大的帶有觀點的中文數據。翻譯方面,搜狗有1300萬對語料,且進行了很好的標註,準確率超過97%,同時還給出了300萬對具有上下文情景的中英雙語數據,也是歷史最大的語料集。

美團則在今年支持了兩個賽道,美團點評CTO羅道鋒介紹,一個是細粒度用戶評價情感分析,美團今年貢獻了15萬條的用戶評論數據集用來做細粒度情感分析。第二個賽道是無人駕駛視覺感知,目前,美團正在研發無人配送機器人,此次支持的是BDD的無人駕駛的數據集,包括原始圖片1.2億張,標註圖片10萬張。

「在今年的五個主賽道里,有三個是NLP(自然語言處理)領域的,兩個計算機視覺領域的。NLP領域是現在人工智慧方面進展比較慢的領域,讓機器真正理解文字的含義,相比較機器認識貓狗要困難的多,是非常有挑戰性的項目。另外兩個賽道,短視頻理解和無人駕駛也是在視覺領域比較前沿比較困難的任務。所以這五個賽道設置都是瞄準現在AI應用裡面還沒有取得很好突破的技術」。

自今日開賽後,12月18、19日進行競賽的總決賽答辯和頒獎。AI Challenger 2018的競賽主要分為三個階段:

第一階段比賽從2018年8月29日至11月4日,參賽隊基於訓練集、驗證集、測試集A,進行演算法設計、模型訓練及評估,並提交預測結果,系統會按照評測指標實時反饋分數,並更新榜單排名。個別競賽採取參賽隊提交代碼、docker的形式進行比賽。期間進行雙周賽排名和評獎。

第二階段比賽從2018年11月6至8日,開放測試集B;各競賽提交結果的時限不同。結果提交後即進入評分、排名、代碼驗證環節,個別比賽還將考察參賽隊的演算法運行效率。參賽選手在測試集B上的預測結果表現,將作為進入決賽的排名依據。

第三階段於12月18、19日進行競賽的總決賽答辯。

實驗賽道數據集和競賽將持續建設,並不定期開放新內容。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 獵雲網 的精彩文章:

拜騰與中國一汽簽署戰略合作框架協議,「一汽代工」或將坐實
完成數百萬元天使輪融資,大耳猴少兒編程將在武漢落地第一家線下實體店

TAG:獵雲網 |