當前位置:
首頁 > 新聞 > 何愷明組基礎理論再突破:媲美雙階段方法的單階段實例分割演算法

何愷明組基礎理論再突破:媲美雙階段方法的單階段實例分割演算法

何愷明組基礎理論再突破:媲美雙階段方法的單階段實例分割演算法

TensorMask 密集實例分割效果示例。左圖:示例圖;右圖:局部放大。圖中可以看到,不僅較大和較小的物體都得到了較為完善的勾畫,物體之間相互遮擋的邊緣也能夠正確地處理。

雷鋒網 AI 科技評論按:大家都知道物體檢測演算法中有單階段方法和雙階段方法之爭,前者一般運算量較低、運行速度更快,但後者的準確率一般更高,適合需要精度的場合。

雙階段物體檢測的標杆方法 Faster R-CNN 和 Mask R-CNN都來自 FAIR 研究員何愷明,而他也在單階段方法的研究上做出了突破,提出了RetinaNet。不過何愷明組意識到,目前的單階段方法都僅僅針對了預測邊界框的任務,而在像素級實例分割方面沒有什麼建樹。他們欣然接受了這一挑戰,並帶來了這篇論文《TensorMask: A Foundation for Dense Object Segmentation》(TensorMask,密集物體分割的基礎),arxiv.org/abs/1903.12174。雷鋒網 AI 科技評論把論文主要內容概要介紹如下。

何愷明組基礎理論再突破:媲美雙階段方法的單階段實例分割演算法

「滑動窗口」,在圖像中不同的位置密集放置許多不同的窗口,並分別在這些窗口裡嘗試尋找物體的做法,是計算機視覺領域最早、也最成功的概念之一,我們也自然地在卷積神經網路中見到了這種範式。然而,雖然如今的表現最好的目標檢測系統仍然依靠預測滑動窗口來生成最初的候選區域,緊接著我們會在這些候選區域上進行第二階段的優化過程(重新判別)來達到更高的準確率,比如 Faster R-CNN 和 Mask R-CNN 就都採用了這樣的設計,然後分別在邊界框的物體檢測以及像素級實例分割任務中取得了優秀的表現。在 COCO 數據集的物體檢測競賽中霸榜的正是這類方法。

有一些近期的邊界框物體檢測器拋棄了第二階段的優化過程,完全關注直接預測滑動窗口,比如 SSD、Y YOLO 和 RetinaNet(同樣來自何愷明組,解讀文章見這裡),這些方法不僅重新引發了關注,也帶來了令人期待的結果。相比之下,我們並沒能見到什麼單階段方法在像素級實例分割任務中做出大的改進,達到 SSD、RetinaNet 那樣級別的性能。為什麼邊界框預測中單階段密集檢測方法那麼火熱,但卻沒有怎麼在實例分割中見到呢?這個問題從基礎科研角度非常地令人好奇。這項研究的目標就是解答這個問題,並為單階段密集實例分割的探索做一些基礎工作。

作者們的主要發現是,定義密集遮罩表徵的核心概念,以及這些概念在神經網路中的高效實現方法都是缺乏的。邊界框有固定的、尺度無關的低維表徵,相比之下,分割遮罩可以從更豐富、更結構化的表徵中受益。舉例說明,每個遮罩自己就是一個二維空間映射圖,使用更大的二維空間映射圖也可以讓更大目標的遮罩受益。如果想要讓密集實例分割變得可能,為密集遮罩開發高效的表徵是關鍵的一步。

為了解決這個問題,作者們在這篇論文中定義了一系列用高維張量表徵遮罩的核心概念,接下來也就可以藉助這些概念探索用於密集遮罩預測的新網路架構。為了展示這種新的表徵的優勢,作者們展示了數種可能的網路架構並進行了實驗。作者們把提出的框架稱為「TensorMask」,基於它,作者們建立了第一個表現可以比擬 Mask R-CNN 的基於滑動窗口的單階段密集實例分割系統。

TensorMask 表徵的關鍵思想是使用結構化的四維向量,在中間域中表徵遮罩。DeepMask 和 InstanceFCN 等之前的研究針對的是一個類似的問題,對未知類別的對象位置候選區域進行分割,它們都使用的是非結構化的三維張量,其中把遮罩打包進了第三層的「通道」坐標。與表徵對象位置的坐標不同,通道坐標中沒有明確的圖形含義,也就很難操作。由於這些方法中使用了很基本的通道表徵,他們也就失去了使用結構化的數組把遮罩表示為二維實體、從而獲得改善的機會;這一區別就像是多層感知機和卷積網路中表徵二維圖像的區別一樣。

與之前這些面向通道的方案不同,這篇論文的作者們提出的方法運用了形狀(V,U,H,W)的四維矩陣,其中(H,W)表示對象的位置,(V,U)表示遮罩的相對位置,這四者都是幾何子張量,也就是說,它們都具有定義完善的坐標軸,也都帶有關於圖像的幾何信息。這種做法把用非結構化的坐標編碼遮罩替換為使用結構化的幾何子張量,也就讓定義新的運算和網路結構變得可能。新定義的網路可以直接在(V,U)子張量上運算,利用其中的幾何信息,包括協調變換、上下採樣以及使用尺寸金字塔。

何愷明組基礎理論再突破:媲美雙階段方法的單階段實例分割演算法

左圖:自然表徵。右圖:TensorMask 使用的層間對齊表徵

通過引入 TensorMask 框架,作者們基於一組按大小排列的四維張量開發了一個金字塔結構,並把它稱作張量雙金字塔。傳統的特徵金字塔是一組不同尺寸的特徵圖列表,相比之下,張量雙金字塔包含了一系列四維張量,尺寸從(V,U,H,W)到(2kV,2kU,1/2kH,1/2kW),其中 k 表示尺寸索引。這種結構可以讓(H,W)和(V,U)兩組幾何子張量分別形成金字塔形,不過兩者的縮放方向相反。這是一種很自然的設計,對應了理想中較大的對象需要高解析度的遮罩,但空間位置變化較少(較大的 k 值),以及較小的對象只需要低解析度的遮罩,但空間位置就較為細分(較小的 k 值)。

何愷明組基礎理論再突破:媲美雙階段方法的單階段實例分割演算法

作者們把這些組件融合進參考 RetinaNet 設計的網路主幹和訓練過程中,新提出的密集遮罩預測器也就可以拓展網路中原先的邊界框預測器的功能。作者們仔細設計了多組對照實驗,在其中評估了 TensorMask 框架的有效性,並展示了顯式地捕捉幾何結構這一設定的重要性。最後,作者們也把 TensorMask 和 Mask R-CNN 的結果進行了對比。這些令人欣喜的結果都表明,論文中提出的框架已經為單階段密集滑動窗口實例分割的未來研究鋪平了道路。

何愷明組基礎理論再突破:媲美雙階段方法的單階段實例分割演算法

何愷明組基礎理論再突破:媲美雙階段方法的單階段實例分割演算法

TensorMask 和 Mask R-CNN 的分割結果對比,網路主幹是 ResNet-101-FPN —— 作者們自信地表示,兩者結果定性和定量的相似度都很高,他們邀請大家猜猜哪些結果是 TensorMask 的,哪些是 Mask R-CNN 的。

何愷明組基礎理論再突破:媲美雙階段方法的單階段實例分割演算法

在 COCO 上的定量實驗表明,Mask R-CNN 仍然取得了更高的 mAP 成績,這並不令人意外。不過,TensorMask 目前也並沒有運行速度優勢,ResNet-101-FPN 主幹的 TensorMask 在英偉達 V100 GPU 上的運行速度為 0.38 秒每圖像(Mask R-CNN 只有 0.09 秒每圖像)。作者們的解釋是,TensorMask (作為單階段方法)在密集的滑動窗口中(數量大於 100k)預測遮罩造成了很高的計算開銷,相比之下 Mask R-CNN (作為雙階段方法)只需要在第二階段選擇出的窗口中預測遮罩,需要預測的窗口數量很可能不大於 100 個。作者們表示,加速的辦法自然是有的,不過這篇論文的目的是完善基礎、探路,加速優化的辦法另外再談。

論文原文(更多細緻的對照實驗,大量對比圖)見:https://arxiv.org/abs/1903.12174

雷鋒網 AI 科技評論編譯。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

萬字長文 | 聯合國報告:發展中國家如何創新金融監管?
新發現!DNA計算機證實化學編程指日可待

TAG:雷鋒網 |