當前位置:
首頁 > 科技 > ICIP2018 | 圖像鑒黃做得好,健康上網少煩惱

ICIP2018 | 圖像鑒黃做得好,健康上網少煩惱


機器之心發布


作者:

Xizi Wang, Feng Cheng, Shilin Wang*, Huanrong Sun, Gongshen Liu, ChengZhou


來源:

上海交大 - 上海嵩恆內容分析技術聯合實驗室




在紛繁複雜的網路世界中,敏感信息識別與處理起著極為重要的作用。而近日研究者在 ICIP 2018 提出 LocoaNet,該網路結合了局部敏感區域檢測網路與全局分類網路,並採用了多任務學習策略以提取敏感圖片高鑒別力的特徵,該網路在 NPD 和 AIC 等數據集取得了很高的分類準確率。




引言




根據中國互聯網路信息中心發布第 42 次《中國互聯網路發展狀況統計報告》,截至 2018 年 6 月底,中國網民數量已達 8.02 億!平均每周上網 27.7 小時,出去每周睡眠時間(以 8 小時 / 天為例),現代人每天有近 1/4 的時間在擁抱網路。




隨著科技的發展進步,互聯網也成為人們日常生活和工作中離不開的工具,它在給人們帶來生活方便、處理事務高效的同時,也會成為一些不法分子的有利工具,利用其傳播和散延一些不良信息,如黃色圖片、影視等,涉黃案件接踵而來,由此一來,「打黃」也顯得尤為重要。




不同於文字鑒黃,圖像鑒黃目前仍大量依賴人類鑒黃師,一方面存在審核標準的主觀誤差,另一方面也不利於鑒黃師這一職業人員的長期心理健康。隨著人工智慧浪潮的涌動,機器鑒黃領域也在不斷呈現出令人耳目一新的碩果。由嵩恆網路與上海交通大學聯合首創 local-context aware network(基於局部上下文感知的深度神經網路)就帶來了一種新的解決方案。



現有解決方案




目前,現有的敏感圖像的鑒別技術方案主要分為兩種。第一種是基於卷積神經網路 CNN(Convolution Neural Network)的敏感圖像分類方法 [1]。作者直接將圖像的像素信息分別輸入到 AlexNet[2] 與 GoogLeNet[3] 中,基本保留了輸入圖像的所有信息,通過卷積、池化等操作對特徵進行提取和高層抽象,並將兩種網路輸出圖像識別的概率值加權求和來分類。CNN 作為一種端到端的學習方法,應用非常廣泛。第二種是 CNN 全局圖像分類與局部圖像目標檢測 Faster RCNN 相結合的敏感圖像分類方法 [4]。在給定的圖片中,Faster RCNN 可以精確地找到物體所在的位置,並標註物體的類別,即進行圖像的識別與定位。作者將局部目標檢測和全局特徵相結合,進一步提升了敏感圖像檢測的正確率。




我們提出的解決方案




目前現有的技術無法解決圖像中存在敏感區域大小各異情況下的分類問題。而且針對圖像的分類沒有把各個語境下的特徵整合起來進行分類,需要分段訓練各個語境的網路再拼接起來,訓練過程繁瑣。在局部敏感區域網路中還需要大量人力進行圖像標註。


本文提供了一種對敏感圖片進行鑒定的方法及其終端,該終端將敏感圖片分為三個等級:色情、性感、正常;該終端主要由一個 ResNet(殘差神經網路)和一個基於特徵金字塔的多目標檢測網路組合成的系統——LocoaNet,其完整結構如圖 1 所示,







圖 1 LocoaNet 的架構圖




LocoaNet 分為三個部分,ResNet 作為骨幹網路(Backbone),敏感身體區域檢測網路 (SpNet) 以及全局分類網路 (GcNet)。選擇 ResNet 作為骨幹網路主要是由於它分類準確率高且計算速度快。其他一些諸如 VGG16,ResNet101 網路也可以作為骨幹網路。



傳統的全局分類網路應用在敏感圖片識別任務的主要缺陷在於全局分類網路比較看重整體圖像,易於在分類時過多的考慮背景圖像。而對於一些有高鑒別力的局部區域(比如裸體,身體敏感區域)不太關注。而這些區域往往對敏感圖像分類起決定性作用。因此,我們設計了敏感身體區域檢測網路(SpNet)來使特徵提取網路更加關注敏感身體區域,學習了具有強語義信息的多尺度特徵表示。




SpNet 的設計使用了特徵金字塔網路(FPN)[6] 與 RetinaNet[7]。在骨幹網路 ResNet 生成的每一個不同解析度的殘差層 feature map 中引入了後一解析度縮放兩倍的 feature map 並做基於元素的相加操作。從而生成新的 feature map。通過這樣的連接操作使生成的 feature map 都融合了不同解析度、不同語義強度的特徵,在不增加額外的計算量的情況下保證了每一層都有合適的解析度以及強語義特徵,提升物體檢測的精度。在的 feature map 上進行核為,步長為的卷積而成。在上進行同樣的卷積操作生成。之間加入了 ReLU 操作層。




對 P3 至 P7 的每一層 feature map,進行四層核為 3*3,filter 數量為 256 的卷積以及一層 ReLU 操作提取 feature map Mi, i∈[3,7]。Mi 上的每一個點為對應九個不同大小的 Anchor(錨點),與輸入圖像上的一個以該點為中心的九種尺寸的區域對應。SpNet 的主要目標為對每一個 Anchor 進行多目標檢測,檢測是否出現敏感身體部位。在此,所謂多目標檢測中檢測的是敏感圖片中人體的一些關鍵部位,分為胸部(色情)、女性性器官(色情)、男性性器官(色情)、臀部(色情)、陰毛(色情)、胸部(性感)、臀部(性感)、背部(性感)、腿(性感)和上半身(性感)等十個特徵部位。對 Mi 進行核為 3*3,filter 數量為 KA(K 為待檢測的目標數量,A 為每個 Anchor 對應的尺寸數量,K=10, A=9)的卷積並進行 Sigmoid 操作,得到的 feature map 即為每個 Anchor 包含各個目標的概率。SpNet 可以對 C3 到 C5 特徵提取層的參數進行調整,使分類網路 LocoaNet 更關注敏感區域,學習到更高鑒別力的特徵。



GcNet 網路起到全局分類的作用,將圖片分為正常、性感、色情三個類別中。GcNet 將骨幹網路的最後一層 feature map 作為輸入,通過五層卷積層生成 feature map。每層卷積後都應用 ReLU 操作進行線性整流。對進行全局均值池化後連接到一個輸出為三單元的全連接層,對圖像進行三分類。




由於包含分類網路和目標檢測網路兩種網路,LocoaNet 的訓練採用多任務學習的方法。LocoaNet 的損失函數為 SpNet 損失函數和 GcNet 損失函數之和。SpNet 的損失函數使用了 focal loss[7],GcNet 的損失函數為交叉熵代價函數 (cross-entropy loss)。骨幹網路採用了在 ImageNet 的預訓練模型上進行 finetune。在實際使用過程中,不運算 SpNet 網路部分,僅計算 GcNet 部分進行圖像分類,減少了計算複雜度。




除此之外,我們還使用了遞進學習的策略使得 LocoaNet 能夠快速的移植到其他數據集上進行訓練,達到遷移學習的目的。目標檢測網路的訓練前期需要大量的樣本目標框標註,消耗大量的人力。遞進學習方法的引入可以讓我們的模型在無樣本框標註的數據集上進行訓練。遞進學習方法的過程如下:






  1. 步驟一: 在有敏感區域標註的數據集上訓練 LocoaNet,同時更新骨幹網路,SpNet 和 GcNet 的參數



  2. 步驟二: 在僅有類別標註的數據集上訓練,固定 SpNet 的參數,僅更新骨幹網路和 GcNet 的參數,最小化分類損失。



  3. 步驟三: 在上訓練,固定 GcNet 參數,僅更新骨幹網路和 SpNet 的參數,最小化目標檢測損失。



  4. 重複步驟二和步驟三直到網路收斂。




在本文中,我們設計了 LocoaNet,把局部敏感區域檢測網路與全局分類網路相結合,採用了多任務學習策略,對敏感圖片提取高鑒別力的特徵,達到了很高的分類準確率。同時提出了遞進學習策略提升網路對其他數據集的泛化能力。不僅如此,計算複雜度相比於現有設計更小。本發明在公開數據集 NPDI[8] 上達到了 92.2% 的三分類準確率,在 AIC(包含有類別標註的 150000 張圖像和有敏感區域標註的 14000 張色情圖像)上達到了 95.8% 的三分類準確率。




論文:Adult Image Classification by a Local-Context Aware Network







論文地址:https://ieeexplore.ieee.org/document/8451366




摘要:在打造一個健康有序的網路環境的過程中,「鑒黃」已經成為一個重要命題。近年來,基於深度學習基礎提出的解決方案已經幫助該領域取得了一定的突破,當在識別精準度等方面還有待進一步提升。本發明專利結合深度學習,建立了鑒定敏感圖片的模型及其終端,一方面,為類似於鑒黃師等職位的人提高工作效率,另外一方面,通過自動化的手段在第一時間有效的制止了敏感圖片在有些網站的流傳。




參考文獻:




[1] Moustafa, Mohamed. "Applying deep learning to classify pornographic images and videos." arXiv preprint arXiv:1511.08899 (2015).


[2] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012.


[3] Szegedy, Christian, et al. "Going deeper with convolutions." Cvpr, 2015.


[4] Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.


[5] Ou, Xinyu, et al. "Adult Image and Video Recognition by a Deep Multicontext Network and Fine-to-Coarse Strategy." ACM Transactions on Intelligent Systems and Technology (TIST) 8.5 (2017): 68.


[6] Lin, Tsung-Yi, et al. "Feature pyramid networks for object detection." CVPR. Vol. 1. No. 2. 2017.


[7] Lin, Tsung-Yi, et al. "Focal loss for dense object detection." arXiv preprint arXiv:1708.02002 (2017).


[8] Sandra Avila, Nicolas Thome, Matthieu Cord, Eduardo Valle, Arnaldo de A. Araújo. Pooling in Image Representation: the Visual Codeword Point of View. Computer Vision and Image Understanding (CVIU), volume 117, issue 5, p. 453-465, 2013.






本文為機器之心發布,

轉載請聯繫本公眾號獲得授權



?------------------------------------------------


加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com


投稿或尋求報道:

content

@jiqizhixin.com


廣告 & 商務合作:bd@jiqizhixin.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

學界 | 史上最強GAN圖像生成器,Inception分數提高兩倍
嘿嘿,想用 DanceNet 變成會跳舞的小哥哥或小姐姐嗎?超簡單!

TAG:機器之心 |