為什麼像素級是圖像標註的未來？

知識 06-02

本文為 AI 研習社編譯的技術博客，原標題：

Why pixel precision is the future of the Image Annotation

作者 |Vahan Petrosyan

翻譯 | Yulian 編輯 | Gerald Durrell、鄧普斯?傑弗

https://medium.com/@vahavp/why-pixel-precision-is-the-future-of-the-image-annotation-12a891367f7b

計算機視覺行業應該繼續使用邊界框注釋嗎？

在這篇文章中，我將分享一些與我在博士研究期間積累的圖像注釋相關的想法。具體來說，我將討論當前最先進的注釋方法，它們的趨勢和未來方向。最後，我將簡要介紹我們正在構建的注釋軟體，並對我們的公司進行一些簡單敘述。

大綱：

圖像標註簡介

主流注釋方法：邊界框

圖像標註中的像素精度

1.圖像標註簡介

圖像注釋是選擇圖像中的對象並按照名稱標記它們的過程。這是人工智慧計算機視覺的支柱，例如為了讓您的自動駕駛汽車軟體準確識別圖像中的任何物體，比如行人，需要數十萬到數百萬注釋行人。其他用例包括無人機/衛星鏡頭分析，安全和監視，醫學成像，電子商務，在線圖像/視頻分析，AR / VR等。

圖像數據和計算機視覺應用的增加需要大量的訓練數據。數據準備和工程任務佔AI和機器學習項目消耗時間的80％以上。因此，在過去幾年中，已經創建了許多數據注釋服務和工具來滿足該市場的需求。因此，數據標籤在2018年變為15億美元市場，預計到2023年將增長到50億。

2.主流注釋方法：邊界框

最常見的注釋技術是邊界框，它是在目標對象周圍擬合緊密矩形的過程。這是最常用的注釋方法，因為邊界框相對簡單，許多對象檢測演算法都是在考慮這種方法的情況下開發的（YOLO，Faster R-CNN等）。因此，所有注釋公司都提供邊界框注釋（服務或軟體）的解決方案。但是，盒子注釋存在主要缺點：

1.一個需要相對較大（通常在100.000s左右）數量的邊界框以達到超過95％的檢測精度。例如，對於自動駕駛行業，人們通常會收集數百萬個汽車，行人，路燈，車道，視錐等的邊界框。

2.無論您使用多少數據，跳動框注釋通常不會達到超人檢測精度。這主要是因為盒子區域中包含的物體周圍的附加雜訊。

3.對於被遮擋的物體，檢測變得極其複雜。在許多情況下，目標物體覆蓋的邊界框區域不到20％，其餘的作為雜訊，使檢測演算法混淆，找到正確的物體（參見示例中的示例，下面的綠框）。

邊界框如何失敗的示例：綠色框 - 高度遮擋的行人的情況。紅色框 - 高雜訊注釋

3.圖像注釋中的像素精度

帶有邊界框的上述問題可以通過像素精確注釋來解決。然而，這種注釋最常用的工具很大程度上依賴於慢速逐點對象選擇工具，其中注釋器必須穿過對象的邊緣。這不僅非常耗時且昂貴，而且對人為錯誤非常敏感。為了進行比較，這樣的注釋任務通常比邊界框注釋花費大約10倍。此外，準確地注釋相同數量的數據像素可能需要多10倍的時間。因此，邊界框仍然是各種應用程序最常用的注釋類型。

然而，深度學習演算法在過去七年中取得了長足的進步。雖然在2012年，最先進的演算法（Alexnet）只能對圖像進行分類，但是當前演算法已經可以在像素級別準確識別對象（參見下圖）。對於這種精確的物體檢測，像素完美注釋是關鍵。

過去7年深度學習的演變。

3.1. 基於AI /分段的方法

已經存在使用基於分段的解決方案（即，SLIC超像素，基於GrabCut的分割）用於像素化注釋的方法。然而，這些方法基於像素顏色執行分割，並且在諸如自動駕駛的現實場景中經常表現出差的性能和不令人滿意的結果。因此，它們通常不用於這種注釋任務。

在過去的3年中，NVIDIA已經與多倫多大學進行了廣泛的研究，以實現像素精確的注釋解決方案。他們的研究主要集中在從給定的邊界框生成像素精確多邊形，並包括以下論文 - Polygon RNN，Polygon RNN ，Curve-GCN - 分別於2017年，2018年，2019年在CVPR上發表。在最好的情況下，使用這些工具生成多邊形需要至少兩次精確的點擊（即生成邊界框），並希望它能準確地捕獲目標對象。但是，建議的多邊形通常不準確，並且可能比預期花費更多的時間（參見下面的示例）。

這種基於多邊形的方法的另一個問題是難以選擇類似物體的「環狀線圈」（拓撲學上），其中需要至少兩個多邊形來描述這樣的對象。

3.2. 一種新的像素化注釋方法

像素化注釋最簡單，最快捷的方法是只需單擊一下即可選擇對象。我在瑞典KTH的博士研究期間專門研究了這個問題。到2018年11月我的博士學位結束時，我們製作了一個簡單的工具原型，只需點擊一下即可選擇對象。我們的初步實驗表明，像素化注釋可以加速10-20倍而不會影響選擇質量。以下是它如何在上面顯示的相同圖像上工作的示例。

與其他AI或基於分段的方法相比，我們還仔細分析了解決方案的優勢：

我們的演算法速度允許實時分割和注釋高達1000萬像素的圖像

與SLIC超像素不同，我們的分割解決方案可準確生成非均勻區域，用戶只需單擊一下即可選擇大小對象

我們的軟體允許我們立即更改段數，從而可以選擇最小的對象。

我們的演算法的自主學習功能甚至進一步提高了分割的準確性。即使有幾百個注釋，也可以觀察到分割精度的顯著變化。這進一步加速了注釋過程。

與上面討論的基於Box-to-Polygon的技術相比，我們的軟體只需點擊一下即可選擇環狀線圈風格的對象。

最重要的是，隨著注釋數據量的增加，我們的軟體允許自動像素精確注釋。

即使與基本邊界框注釋相比，它需要至少2次精確點擊來注釋一個對象，我們在該段中只需要1次近似點擊，這使得它比生成邊界框更快。

通過這種方式，我們將像素注釋的成本同時降低到邊界框的成本水平，從而允許達到超人精確的檢測水平，否則無法通過邊界框到達。

此外，由於像素精度不包括雜訊，因此與邊界框注釋相比，需要至少少10倍的數據才能達到一定的準確度。

完成備註

隨著我們的軟體成為主流（2019年6月推出），我們預計對邊界盒的需求最終會消失。像素精確注釋將成為新的標準。

4. 關於 SuperAnnotate

我們是一支由風險投資支持的團隊，投資者包括Berkeley Skydeck，即Plug and Play 和 SmartGateVC--由Tim Draper支持。我們的團隊由來自美國，歐洲和亞洲頂尖大學的博士研究人員組成，他們聚集在一起，提供圖像和視頻注釋領域的新方法，並使「Human in the loop」任務的效率在更準確水平上提高到了100倍。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI研習社 的精彩文章:

※利用事件相機將模糊視頻還原成高速清晰視頻

TAG:AI研習社 |