終於！Supervise.ly 發布人像分割數據集啦

最新 04-13

翻譯 | 郭乃嶠汪寧張虎整理 | 凡江吳璇

我們非常自豪地在這裡宣布，Supervisely人像數據集正式發布。它是公開的並且免費，僅出於學術的目的。

要讓AI全民共享，我們不僅需要開源，還要一場強有力的「開放數據」運動。——吳恩達

我們當然同意他的看法，並讓我們擴展一下這個想法。對於語義分割的人物，有很多深層神經網路的研究。但是，大多數情況下，收集數據要比開發和應用演算法去運行數據更困難和昂貴。

這就是為什麼我們需要專門設計的平台，這個平台可以覆蓋全部的機器學習的工作流，從開發訓練數據集到訓練和部署神經網路。

幾個例子來自"Supervisely人像數據集"

我們認為，我們的工作將會幫助開發者、研究者和商人們。為了更快地創建大型訓練數據集，我們的工作不僅可以看作一個公開的數據集，而且可以被視為一套創新的方法和工具。

接下來，我們將介紹關於如何從頭建立這個數據集，讓我來展示一些有趣的事實：

數據集由5711張圖片組成，有6884個高質量的標註的人體實例。下面的所有步驟在Supervisely內部完成的，沒有任何編碼。更重要的是，這些步驟是被我內部的注釋器執行的，沒有任何機器學習專業知識。數據科學家僅僅只是控制和管理這過程。注釋組由兩名成員組成並且這整個過程只花了4天。

Supervisely 是包含數據科學的智慧機器學習平台。它允許數據科學家專註於真正的創新，並將日常工作留給其他人（是的，訓練眾所周知的神經網路架構也是一項常規工作）。

要解決的問題

在許多真實世界的應用中，人像檢測是分析人類圖像中的關鍵任務，在動作識別、自動駕駛汽車、視頻監控、移動應用等方面均有使用。

我們在DeepSystems公司進行了內部研究，這讓我們意識到人體檢測任務缺乏數據。你會問我們：那COCO、Pascal、Mapillary 等公共數據集呢？為了回答這個問題，我會更好地向你展示幾個例子：

幾個來自COCO數據集的人類標註示例幾個來自COCO數據集的人類標註示例

大多數公共數據集中人體檢測數據的質量不符合我們的要求，我們必須創建自己的數據集，並提供高質量的注釋，我會告訴你我們是如何做到的。

步驟0：將公共數據集上傳和準備，作為初始點來訓練初始神經網路

將公共數據集上傳到系統：PascalVoc，Mapillary。我們的「導入」模塊支持大多數公共數據集，並將它們轉換為統一的基於json-based的格式，稱為Supervisely格式

我們執行DTL（「數據轉換語言」）查詢以執行一些操作：合併數據集 - >跳過沒有人物的圖像 - >從圖像裁剪每個人 - >按寬度和高度過濾它們 - >分割為訓練/測試集。

合併，裁剪和過濾公共數據集後的原始數據

似乎有很多公開可用的數據，但我們在前面提到過，存在一些隱藏的問題：注釋質量低，解析度低等等。

因此，我們構建了第一個訓練數據集。

步驟1：訓練神經網路

我們將對 UNet-like 架構進行稍微定製

Unet_v2架構

損失= 二進位損失熵+(1 -隨機數)。

該網路訓練速度快，它非常準確，易於實施和定製。它允許我們進行大量的實驗。Supervisely可以分布在集群中的多個節點上。

因此我們可以同時訓練幾個神經網路。同樣所有的神經網路都支持我們平台上的多GPU訓練。每個訓練試驗的輸入解析度為256 * 256，且都不超過15分鐘。

步驟2：準備數據進行注釋

我們沒有收集未標記的圖像，所以我們決定從網上下載它。我們在github上實現了這個項目，從而可以從優秀的照片庫中下載數據，由Pexels完成（感謝他，這真的很酷的工作）。

因此，我們下載了大約15k的圖片，其中包含與我們的任務相關的標籤，並將其上傳到Supervisely並通過DTL查詢執行調整大小操作，因為它們具有超高解析度。

步驟3：將神經網路應用於未標記的圖像

過去的架構不支持實例分段。因此我們沒有使用Mask-RCNN，因為靠近物體邊緣的分割質量很低。

這就是為什麼我們決定做兩步計劃：應用Faster-RCNN（基於NasNet）來檢測圖像上的所有人，然後為每個人定界框應用分割網路來分割支配對象。這種方法保證我們既模擬實例分割又準確地分割對象邊緣。

應用模型和手動修正檢測的3分鐘視頻

我們嘗試了不同的解析度：我們傳遞給NN的解析度越高，它產生的結果就越好。我們並不關心總推理時間，因為Supervisely支持分布在多台機器上的推理。對於自動預標註任務來說，這已經足夠了。

步驟4：手動驗證和糾錯

所有推斷結果都會實時顯示在儀錶板中。我們的操作員預覽所有結果並使用幾個標籤標記圖像：不良預測、預測糾正、良好預測。這個過程是快速的，因為他們需要很少的鍵盤快捷鍵「下一個圖像」和「分配標籤圖像」。

我們如何標記圖像：左 - 不良預測，中 - 預測需要輕度手動校正，右 - 好預測。

標記為「不良預測」的圖像被跳過。進一步的工作繼續是處理我們需要糾正的圖像。

如何校正神經網路預測

手動校正所需的時間比從頭開始的注釋少得多。

步驟5：將結果添加到訓練數據集並轉到第1步

完成！

一些提示：

當我們應用僅對公共數據進行訓練的NN時，「合適」圖像（標記為「良好預測」和「預測正確」）的百分比約為20％。經過樹型快速迭代後，這個數字增加到70％。我們總共完成了6次迭代，最終的NN變得相當準確:-)在訓練之前，我們在物體邊緣添加了小波段以平滑鋸齒狀邊緣並執行多種增強：翻轉，隨機裁剪，隨機角度旋轉和顏色轉換。正如您所看到的，即使您需要在圖像上注釋多個對象類，這種方法也適用於許多計算機視覺任務。

獎勵

這個數據集幫助我們改進AI支持的注釋工具 - 定製化的用它來檢測人類。在我們的最新版本中，我們添加了在系統內部訓練NN的能力。以下是基於類別的工具與其定製版本的比較。它是可用的，你可以試試你的數據。

如何訪問數據集

註冊Supervisely，進入「Import」 tab -> 「Datasets library」。點擊「Supervisely Person」數據集，為新項目編寫名稱。然後點擊「three dots」按鈕 - >「下載為json格式」 - >「Start」按鈕。就這樣，總下載時間可能需要15分鐘(~7 GB）。

如何下載結果

結論

看看沒有任何ML背景的人如何完成所有這些步驟是非常有趣的。我們作為深度學習專家節省了大量時間，我們的注釋團隊在注釋速度和質量方面變得更加高效。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 齊魯壹點 的精彩文章:

※發哥吳鎮宇孫紅雷…看誰演的黑幫大佬氣場足
※3月30 日科技要聞：iOS 11.3 正式發布

TAG:齊魯壹點 |