商湯及聯合實驗室入選論文重點解讀

科技 09-13

允中發自凹非寺

量子位報道 | 公眾號 QbitAI

9月8日-14日，備受矚目的2018歐洲計算機視覺大會（ECCV 2018）在德國慕尼黑召開， ECCV兩年舉辦一次，與CVPR、ICCV共稱為計算機視覺領域三大頂級學術會議，每年錄用論文約300篇。

今年商湯科技及聯合實驗室共有37篇論文入選，超過微軟、谷歌、Facebook等科技巨頭。而錄取論文在以下領域實現突破：大規模人臉與人體識別、物體檢測與跟蹤、自動駕駛場景理解與分析、視頻分析、3D視覺、底層視覺演算法、視覺與自然語言的綜合理解等。

對於這些論文，商湯及聯合實驗室精選了其中重點論文解讀：

大規模人臉與人體識別

代表性論文：人臉識別的瓶頸在於數據集雜訊（The Devil of Face Recognition is in the Noise）

隨著人臉數據集規模的逐漸擴大，研究者們設計出了各種更快更強的人臉識別網路。但是對於現有人臉數據集中的標籤雜訊問題，學界的理解依然有限。

為了解決這個問題，本文對於人臉識別領域作出以下貢獻：

（1）清理出了現有大規模人臉數據集（包括MegaFace和MS-Celeb-1M）的乾淨子集，並提出了一個新的無雜訊人臉數據集IMDb_Face；

（2）利用原始數據集以及清理後的乾淨子集，對MegaFace和MS-Celeb-1M數據集中的雜訊特性和來源做了全面的分析，發現乾淨子集對於提高人臉識別精度效果顯著；

（3）本文提出了一種用於數據清理的標註流程，大量的用戶調研顯示該流程是高效且可控的。

IMDb-Face數據集已開源在：https://github.com/fwang91/IMDb-Face。

傳送門：https://arxiv.org/abs/1807.11649

代表性論文：基於模型共識的大規模無標註數據標籤傳播方法（Consensus-Driven Propagation in Massive Unlabeled D ata for Face Recognition）

人臉識別中，隨著深度學習模型參數量的增大，所需要訓練數據的人工標註量也越來越多。然而人工標註的錯誤難以避免，當人工標註的可靠性不如模型本身的時候，數據標註所帶來的增益會遠遠低於標註本身耗費的勞動量。

此時，需要使用一種合理的方式來利用無標註數據。該問題與「半監督學習」任務相似，但在人臉識別這類數據量和類別數量都很大的任務中，則存在顯著的不同之處：首先，真實情況下，無標註數據的來源通常沒有限制，因此光照、姿態、遮擋等會有很大的差異，這種情況下基於單模型的半監督方法會產生較大偏差。

其次，傳統的半監督學習通常假設無標註數據的標籤集合和已標註數據的標籤集合是完全重合的，從而標籤可以在無標註數據上進行傳播。然而，在人臉識別任務中，由於無標註數據來源無限制，因此無法保證獲取的無標註數據的標籤在已標註數據中出現過。

這些差異使得傳統的半監督學習無法直接運用在這個問題上。本文工作不僅突破了這些限制，還證明了無標註數據可以達到和有標註數據相接近的效果。

作者用9%的有標註數據和91%的無標註數據，在MegaFace上達到了78.18%的準確性，接近使用了100%的有標註數據的結果78.52%。

傳送門：https://arxiv.org/abs/1809.01407

物體檢測與跟蹤

代表性論文：量化模仿-訓練面向物體檢測的極小CNN模型（Quantization Mimic: Towards Very Tiny CNN for Object Detection）

由於極小CNN模型有限的模型表達能力，訓練針對複雜視覺任務（如物體檢測）的極小CNN通常充滿挑戰。

本文致力於提出一種簡單而通用的框架—量化模仿，來訓練面向物體檢測任務的極小CNN模型。在本文框架中，作者提出聯合模仿與量化的方法來減小物體檢測CNN模型的參數量實現加速。

模仿方法通過轉移教師網路（teacher network）所學習到的物體檢測知識，來增強學生網路（student network）的物體檢測性能；量化方法在不降低模型檢測性能的條件下，將全精度網路的參數進行量化，實現網路加速。如果大型教師網路通過量化實現加速，那麼小型學生網路的搜索空間會大大降低。

本文基於該性質，提出了先量化大型教師網路，然後使用學生網路模仿量化後大型教師網路的方法，實現面向物體檢測的極小型CNN模型的訓練。

本文使用了不同的主幹網路（VGG和ResNet）和不同的檢測框架（Faster R-CNN和R-FCN）充分檢驗了該訓練框架的性能和泛化能力。在有限計算量的限制下，該框架在Pascal VOC和WIDER Face數據集的物體檢測性能超越了當前物體檢測的先進水平。

傳送門：https://arxiv.org/abs/1805.02152

代表性論文：可分解網路—基於子圖表示的高效場景圖生成演算法（Factorizable Net: An Efficient Subgraph-based Framework for Scene Graph Generation）

隨著計算機視覺的發展，場景圖生成得到越來越多業內研究人員的關注。場景圖生成不僅需要檢測出來圖像中的物體，還需要識別物體之間的關係。

與一般的物體檢測任務相比，場景圖因為引入了物體之間的兩兩關係，極大的擴充了輸出結果的語義空間，因而可以蘊含更多圖像的語義信息。但是，由於物體之間可能存在的關係數目和圖像中物體數目的平方成正比，而目前已有的場景圖生成演算法往往對每一個可能存在的關係都用一個特徵向量表示，因此大量的關係特徵向量使模型過於龐大且緩慢，極大限制了物體候選框的數目。

本文針對已有場景圖生成演算法的缺點，通過共享語義相近的關係特徵（稱為子圖特徵），極大簡化了網路在中間階段的特徵表示，並且提高了模型的檢測速度。

此外，本文還提出了「空間加權信息傳遞」模塊和「空間感知關係檢測」模塊，使模型在信息傳遞和最終的物體關係檢測時，能夠更加充分的利用物體之間的空間聯繫，得到更好的物體檢測和關係識別結果。

在目前主流的VRD和Visual Genome上的實驗結果表明，本文提出的基於子圖特徵的高效場景圖生成演算法在識別精度和測試速度上均超過目前業內最好結果。

目前該演算法的PyTorch版本已經開源：https://github.com/yikang-li/FactorizableNet

傳送門：https://arxiv.org/abs/1806.11538

代表論文：基於干擾對象感知的長時單目標跟蹤演算法（Distractor-aware Siamese Networks for Visual Object Tracking）

近年來，孿生網路結構因為性能和速度的平衡性在跟蹤領域受到了極大的關注。但是大多數的孿生網路跟蹤器使用的特徵都只能區分前景和非語義背景。而跟蹤過程中，也有語義的背景帶來的干擾，其通常是限制跟蹤性能的重要因素。

在本文中，作者首先分析了訓練過程中樣本對跟蹤過程的影響，發現正負樣本不均衡是導致跟蹤性能瓶頸的主要原因。

本文從兩個角度解決這個問題，訓練過程中，通過控制採樣方式來控制正負訓練樣本的分布，並且引入含有語義的負樣本；測試過程中提出干擾物感知模塊來調整跟蹤器，使其適應當前的視頻。

除此之外，作者還設計了一種局部到全局的搜索區域增長方法，將演算法擴展到長期跟蹤。在UAV20L、UAV123、VOT2016、VOT2017數據集上，本文提出的方法均可取得目前最好的結果，同時速度可達到160FPS。

本文提出的方法在ECCV2018召開的VOT Challenge Workshop上獲得了實時目標跟蹤比賽的冠軍。

傳送門：https://arxiv.org/abs/1808.06048

視頻分析

代表性論文：基於視覺特徵鏈接和時序鏈接的視頻人物檢索

（Person Search in Videos with One Portrait Through Visual and Temporal Links）

雖然人臉識別和行人再識別已經在學術界取得了非常多的研究成果，但是在複雜龐大的視頻資料庫中(如監控視頻或電影資料庫)，很多時候並不能看到人物清晰的正臉，這時人臉識別就無法發揮作用。

而行人再識別關注的通常是一小段時間內一個比較小的區域的行人匹配，也就是說在行人再識別的問題中，人物的服飾裝扮以及周圍的環境都不會有太大的變化。

該假設大大限制了行人再識別技術在實際場景中的應用。針對這些缺陷，本文提出了一個更加貼近實際應用的研究問題—人物檢索，即給定一張人物正面照，在一個非常大的圖像(視頻)庫中檢索出該人物的所有實例。例如，給定一個犯人的畫像，在一個城市的監控視頻中找出所有他/她出現過的視頻片段，或者給定一個演員的自拍，找出他/她在所有電影和電視劇中的鏡頭。

為了研究這個問題，本文首先建立了一個大規模的數據集—Cast Search in Movies (CSM)，包含了 1218位演員以及他們來自的192 部電影的超過 12 萬個短視頻。

人物檢索問題的主要難點在於，給定的圖像和該人物在資料庫中的實例在視覺觀感上有時有較大差別。為了應對這個難點，本文提出了一種基於基於特徵和時序鏈接的標籤傳播演算法。

並且提出了一種競爭共識機制，來解決標籤傳播中容易受雜訊影響的問題。同時通過漸進式迭代的方式，大大提高標籤傳播的效率。實驗證明，這種傳播演算法在人物檢索中大大優於單純應用人臉識別和行人再識別技術。

傳送門：https://arxiv.org/abs/1807.10510

自動駕駛場景理解與分析

代表性論文：基於逐點空間注意力機制的場景解析網路（PSANet: Point-wise Spatial Attention Network for Scene Parsing）

場景解析（scene parsing）是基於自動駕駛任務中的一個重要問題，能夠廣泛應用於機器人導航、自動駕駛等領域。

場景圖像中的上下文信息（contextual information），尤其是大範圍的上下文信息，對於場景解析有著非常重要的作用。傳統的卷積神經網路因為其結構，信息流動局限在當前像素周圍的局部區域中，對於大範圍的上下文信息獲取和表達能力有限。

在本篇論文中，作者提出了一種逐點的空間注意力機制神經網路模塊（point-wise spatial attention network），來有效獲取圖片中大範圍的上下文信息，顯著改善神經網路的場景解析性能。

針對視覺特徵圖（feature map）中的每一點對，該模塊會預測兩個點之間的上下文依賴，且該預測會同時考慮到兩個點原本的語義信息以及兩個點之間的位置關係。

最終預測出的點與點之間的上下文依賴關係，可以用逐點的注意力機制進行表示。為了充分實現特徵圖中大範圍的信息流通，作者設計了一種雙向信息流動機制，來實現上下文信息的充分融合，提升模型的場景解析性能。

實驗表明，本文提出的逐點空間注意力模型能夠顯著改善基準模型的場景解析性能，在多個場景解析與語義分割數據集上，本文演算法都達到了當前的最優性能。

傳送門：https://hszhao.github.io/projects/psanet/

代表性論文：基於局部相似性的半監督單目深度估計（Monocular Depth Estimation with Affinity, Vertical Pooling, and Label Enhancement）

單目深度估計在基於視覺感測器的自動駕駛和輔助駕駛任務中有著重要的作用。雖然邊緣、紋理等絕對特徵可以被卷積神經網路（CNNs）有效地提取出來，但基於卷積神經網路的方法大多忽略了圖像中相鄰像素之間存在的約束關係，即相對特徵。

為了克服這個缺陷，本文提出了一種結合相對特徵和絕對特徵的端到端網路，對不同圖像位置的關係進行了顯式的建模。

另外，作者利用了深度圖中一個顯著的先驗知識，即深度圖中距離變化主要處於豎直方向上，認為對豎直方向上的特徵進行建模將有利於深度圖的精細化估計。

本文的演算法中使用了豎直方向的池化操作來對圖像在豎直方向上的特徵進行了顯式建模。

此外，由於從激光雷達獲得的真實深度圖中的有效數值非常稀疏，作者採用了已有的立體匹配的演算法生成高質量的深度圖，並用生成的密集深度圖作為輔助數據用於訓練。

本文實驗證明了提出的演算法在KITTI數據集上取得了優異的效果。

傳送門：http://openaccess.thecvf.com/content_ECCV_2018/papers/YuKang_Gan_Monocular_Depth_Estimation_ECCV_2018_paper.pdf

3D視覺

代表性論文：基於參數化卷積的點雲深度學習

（SpiderCNN: Deep Learning on Point Sets with Parameterized Convolutional Filters）

儘管深度學習在大量計算機視覺問題上取得了成功，如何將深度學習應用於非規則數據上依然是一個極富挑戰性的問題。

在這篇文章中，作者提出一種新型的卷積結構SpiderCNN，來有效提取點雲中的幾何特徵。

具體來說，SpiderCNN利用參數化卷積技術，將傳統的卷積操作從規則網格拓展到非規則網格。我們利用階躍函數之積來表徵點雲的局部幾何特徵，然後利用泰勒多項式來保證該結構的表達能力。

SpiderCNN同時繼承了傳統CNN的多尺度特性，從而能夠有效地提取層級化的深度語義信息。SpiderCNN在ModelNet40這個標準測試集上取得92.4%的優異結果。

傳送門：https://arxiv.org/abs/1803.11527

底層視覺演算法

代表性論文：基於生成對抗網路的增強超解析度方法

（ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks）

基於生成對抗網路的圖像超解析度模型SRGAN能夠生成更多的紋理細節。然而，它恢復出來的紋理往往不夠自然，也常伴隨著一些雜訊。

為了進一步增強圖像超解析度的視覺效果，本文深入研究並改進了SRGAN的三個關鍵部分——網路結構、對抗損失函數和感知損失函數，提出了一個增強的ESRGAN模型。

具體地，本文引入了一個新網路結構單元RRDB （Residual-in-Resudal Dense Block）；借鑒了相對生成對抗網路（relativistic GAN）讓判別器預測相對的真實度而不是絕對的值；還使用了激活前的具有更強監督信息的特徵表達來約束感知損失函數。

得益於以上的改進，本文提出的ESRGAN模型能夠恢復更加真實自然的紋理，取得比之前的SRGAN模型更好的視覺效果。

ESRGAN模型同時在ECCV2018的PIRM-SR比賽中獲得了最好的感知評分，取得了第一名。

傳送門：https://arxiv.org/abs/1809.00219

視覺與自然語言的綜合理解

代表性論文：重新研究圖像語言描述中隱變數的表達（Rethinking the Form of Latent States in Image Captioning）

本文重新審視了圖像描述模型中隱變數的表示方式。循環神經網路如LSTM作為解碼器在圖像語言描述中有大量的應用，現有的圖像描述模型通常固定得將解碼器的隱變數表示成一維向量。

這樣帶來兩個問題：（1）為了和隱變數保持一致，圖像也被壓縮成了一維向量，丟失了重要的空間信息，導致描述生成時的條件減弱，模型更多得依賴於多元片語的統計信息，更容易產生出現頻率更高的片語；（2）一維向量的表示，使得對隱變數在解碼過程中的變化，即解碼過程的內部動態，難以進行可視化和分析。

基於以上幾點考慮，本文提出將隱變數表示為多通道二維特徵是更好的選擇。其利用二維特徵的空間性提出一種簡單有效的方式成功的可視化和分析了解碼過程中神經網路的內部動態，以及中間介質的隱變數、作為輸入的圖片、作為輸出的單詞三者之間的聯繫。同時，由於二維特徵保留了更多的圖片信息，對應的描述模型能產生與圖片更匹配的描述。

在擁有同樣的參數數量的情況下，採用二維特徵來表示隱變數的描述模型僅使用最簡單的cell，即RNN，也超過了採用一維向量來表示隱變數的描述模型使用LSTM的效果。

傳送門：https://arxiv.org/abs/1807.09958

代表性論文：面向視覺問答的問題引導混合卷積（Question-Guided Hybrid Convolution for Visual Question Answering）

本文提出了一種面向視覺問答任務的問題引導混合卷積操作，能夠有效的融合輸入問題和輸入圖像的高層語義信息，實現高準確率的視覺問答。

現有的視覺問答系統在融合輸入問題和圖像時，拋棄了圖像中的空間信息。為了解決該問題，本文提出由輸入問題預測卷積核，對圖像特徵圖進行問題引導的卷積操作，得到語言和圖像的融合特徵圖。

雖然這種由問題引導卷積生成的融合特徵圖能夠充分的融合語言和視覺的多模態信息，但是往往也會帶來更多的學習參數。為了降低參數量，作者提出在視覺特徵卷積時使用組卷積（group convolution），僅用問題來引導生成一部分卷積核，而另一部分卷積核與問題解耦，該方案能夠有效的降低模型參數量並且防止模型過擬合。

本文提出的問題引導卷積方法，能夠作為現有多模態特徵整合方法的有效補充，實現高準確率的視覺問答，在多個視覺問答的數據集中的實驗結果證明了該方法的有效性。

傳送門：https://arxiv.org/abs/1808.02632

—完—

加入社群

量子位AI社群28群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「交流群」，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話界面回復關鍵字「專業群」，獲取入群方式。（專業群審核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！