當前位置:
首頁 > 最新 > 終於!Supervise.ly 發布人像分割數據集啦

終於!Supervise.ly 發布人像分割數據集啦

翻譯 | 郭乃嶠 汪寧 張虎 整理 | 凡江 吳璇

我們非常自豪地在這裡宣布,Supervisely人像數據集正式發布。它是公開的並且免費,僅出於學術的目的。

要讓AI全民共享, 我們不僅需要開源,還要一場強有力的「開放數據」運動。——吳恩達

我們當然同意他的看法,並讓我們擴展一下這個想法。對於語義分割的人物,有很多深層神經網路的研究。但是,大多數情況下,收集數據要比開發和應用演算法去運行數據更困難和昂貴。

這就是為什麼我們需要專門設計的平台,這個平台可以覆蓋全部的機器學習的工作流,從開發訓練數據集到訓練和部署神經網路。

幾個例子來自"Supervisely人像數據集"

我們認為,我們的工作將會幫助開發者、研究者和商人們。為了更快地創建大型訓練數據集,我們的工作不僅可以看作一個公開的數據集,而且可以被視為一套創新的方法和工具。

接下來,我們將介紹關於如何從頭建立這個數據集,讓我來展示一些有趣的事實:

數據集由5711張圖片組成,有6884個高質量的標註的人體實例。下面的所有步驟在Supervisely內部完成的,沒有任何編碼。更重要的是,這些步驟是被我內部的注釋器執行的,沒有任何機器學習專業知識。數據科學家僅僅只是控制和管理這過程。注釋組由兩名成員組成並且這整個過程只花了4天。

Supervisely 是包含數據科學的智慧機器學習平台。它允許數據科學家專註於真正的創新,並將日常工作留給其他人(是的,訓練眾所周知的神經網路架構也是一項常規工作)。

要解決的問題

在許多真實世界的應用中,人像檢測是分析人類圖像中的關鍵任務,在動作識別、自動駕駛汽車、視頻監控、移動應用等方面均有使用。

我們在DeepSystems公司進行了內部研究,這讓我們意識到人體檢測任務缺乏數據。你會問我們:那COCO、Pascal、Mapillary 等公共數據集呢?為了回答這個問題,我會更好地向你展示幾個例子:

幾個來自COCO數據集的人類標註示例幾個來自COCO數據集的人類標註示例

大多數公共數據集中人體檢測數據的質量不符合我們的要求,我們必須創建自己的數據集,並提供高質量的注釋,我會告訴你我們是如何做到的。

步驟0:將公共數據集上傳和準備,作為初始點來訓練初始神經網路

將公共數據集上傳到系統:PascalVoc,Mapillary。我們的「導入」模塊支持大多數公共數據集,並將它們轉換為統一的基於json-based的格式,稱為Supervisely格式 :)

我們執行DTL(「數據轉換語言」)查詢以執行一些操作:合併數據集 - >跳過沒有人物的圖像 - >從圖像裁剪每個人 - >按寬度和高度過濾它們 - >分割為訓練/測試集。

合併,裁剪和過濾公共數據集後的原始數據

似乎有很多公開可用的數據,但我們在前面提到過,存在一些隱藏的問題:注釋質量低,解析度低等等。

因此,我們構建了第一個訓練數據集。

步驟1:訓練神經網路

我們將對 UNet-like 架構進行稍微定製

Unet_v2架構

損失= 二進位損失熵+(1 -隨機數)。

該網路訓練速度快,它非常準確,易於實施和定製。它允許我們進行大量的實驗。Supervisely可以分布在集群中的多個節點上。

因此我們可以同時訓練幾個神經網路。同樣所有的神經網路都支持我們平台上的多GPU訓練。每個訓練試驗的輸入解析度為256 * 256,且都不超過15分鐘。

步驟2:準備數據進行注釋

我們沒有收集未標記的圖像,所以我們決定從網上下載它。我們在github上實現了這個項目,從而可以從優秀的照片庫中下載數據 ,由Pexels完成(感謝他,這真的很酷的工作)。

因此,我們下載了大約15k的圖片,其中包含與我們的任務相關的標籤,並將其上傳到Supervisely並通過DTL查詢執行調整大小操作,因為它們具有超高解析度。

步驟3:將神經網路應用於未標記的圖像

過去的架構不支持實例分段。 因此我們沒有使用Mask-RCNN,因為靠近物體邊緣的分割質量很低。

這就是為什麼我們決定做兩步計劃:應用Faster-RCNN(基於NasNet)來檢測圖像上的所有人,然後為每個人定界框應用分割網路來分割支配對象。 這種方法保證我們既模擬實例分割又準確地分割對象邊緣。

應用模型和手動修正檢測的3分鐘視頻

我們嘗試了不同的解析度:我們傳遞給NN的解析度越高,它產生的結果就越好。 我們並不關心總推理時間,因為Supervisely支持分布在多台機器上的推理。 對於自動預標註任務來說,這已經足夠了。

步驟4:手動驗證和糾錯

所有推斷結果都會實時顯示在儀錶板中。 我們的操作員預覽所有結果並使用幾個標籤標記圖像:不良預測、預測糾正、良好預測。 這個過程是快速的,因為他們需要很少的鍵盤快捷鍵「下一個圖像」和「分配標籤圖像」。

我們如何標記圖像:左 - 不良預測,中 - 預測需要輕度手動校正,右 - 好預測。

標記為「不良預測」的圖像被跳過。進一步的工作繼續是處理我們需要糾正的圖像。

如何校正神經網路預測

手動校正所需的時間比從頭開始的注釋少得多。

步驟5:將結果添加到訓練數據集並轉到第1步

完成!

一些提示:

當我們應用僅對公共數據進行訓練的NN時,「合適」圖像(標記為「良好預測」和「預測正確」)的百分比約為20%。經過樹型快速迭代後,這個數字增加到70%。我們總共完成了6次迭代,最終的NN變得相當準確:-)在訓練之前,我們在物體邊緣添加了小波段以平滑鋸齒狀邊緣並執行多種增強:翻轉,隨機裁剪,隨機角度旋轉和顏色轉換。正如您所看到的,即使您需要在圖像上注釋多個對象類,這種方法也適用於許多計算機視覺任務。

獎勵

這個數據集幫助我們改進AI支持的注釋工具 - 定製化的用它來檢測人類。 在我們的最新版本中,我們添加了在系統內部訓練NN的能力。 以下是基於類別的工具與其定製版本的比較。 它是可用的,你可以試試你的數據。

如何訪問數據集

註冊Supervisely,進入「Import」 tab -> 「Datasets library」。 點擊「Supervisely Person」數據集,為新項目編寫名稱。 然後點擊「three dots」按鈕 - >「下載為json格式」 - >「Start」按鈕。 就這樣, 總下載時間可能需要15分鐘(~7 GB)。

如何下載結果

結論

看看沒有任何ML背景的人如何完成所有這些步驟是非常有趣的。 我們作為深度學習專家節省了大量時間,我們的注釋團隊在注釋速度和質量方面變得更加高效。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 齊魯壹點 的精彩文章:

發哥吳鎮宇孫紅雷…看誰演的黑幫大佬氣場足
3月30 日科技要聞:iOS 11.3 正式發布

TAG:齊魯壹點 |