當前位置:
首頁 > 新聞 > 神經網路決策過程可視化:AI眼中馬雲馬化騰李彥宏誰最有魅力?

神經網路決策過程可視化:AI眼中馬雲馬化騰李彥宏誰最有魅力?

【新智元導讀】神經網路在進行圖像分類時如何做決策?The Hive的機器學習工程師利用開源的grad-cam項目,預測神經網路決策和圖像分析時的焦點,發現神經網路關注的部分實際上與人十分類似。但是,也是有意外的地方。

神經網路決策過程可視化:AI眼中馬雲馬化騰李彥宏誰最有魅力?

神經網路所學會的「吸引力」是什麼?

在判斷一張圖片是否安全時,神經網路看的是哪些部分?

使用grad-cam,我們探索了模型的預測過程,對於不同類型的圖片,包括動作/靜態、暴力、吸引力、年齡、種族等等。

神經網路決策過程可視化:AI眼中馬雲馬化騰李彥宏誰最有魅力?

很顯然,在上面展示的圖片中,吸引力模型關注的是身體而非面部。有趣的是,模型在訓練過程中沒有接觸任何明確定義的邊界框,但即使如此,仍然學會了定位人體

這個模型使用200k圖像做訓練,標記由Hive團隊完成,一共分為3個類別:有吸引力(hot)、中立(neutral)、沒有吸引力。

然後,所有得分會綜合在一起,創建一個從0到10的評分等級。分類器地址:https://thehive.ai/demo/attractiveness

舉個例子,如果讓模型來判斷BAT各家掌門人的吸引力得分,將會是這個樣子:

關鍵的想法是,在全局池化前將logit層應用到最後一個卷積層。這會創建一個map,顯示網路決策過程中每個像素的重要性。

一個穿西裝的人位於圖片正中(上圖右),表明這是電視節目,而不是商業廣告。電視節目/商業廣告模型,很好地展示了grad-CAM發現的模型決策背後的意外原因。另一方面,模型也能證實了我們的預期,比如左邊那幅單板滑雪的例子(上圖左)。

上面是動畫節目分類器的結果。很有意思的是,在Bart & Morty中,最重要的部分是邊緣(上圖左)和背景(上圖右),令人頗為意外。

CAM & GradCam:分類時,神經網路正在看什麼

類別激活地圖(CAM)由Zhou[2]首先開發,能夠顯示網路正在看什麼。對於每個類別,CAM能表明這個類別中最重要的部分。

後來,Ramprasaath對CAM做了擴展,讓它在不需要做任何更改的情況下,能夠適用於更廣泛的架構。具體說,grad-CAM可以處理全連接層和更複雜的問題,如問題回答。幸運的是,我們完全不需要修改網路來計算grad-CAM。

最近,grad-CAM++ Chattopadhyay[4]進一步擴展了這種方法,提高輸出熱圖的精度。Grad-CAM++能夠更好地處理類別的多個實例,並突出顯示整個類別,而不僅僅是最顯著的部分。Grad-CAM++使用正偏導數的加權組合來實現這一點。

TensorFlow實現及代碼

這隻返回一個num_classes元素的數組,其中只有預測類別的logit非零。這定義了損失。

然後,計算相對於網路的最後一個卷積層的損失的導數,並對這些梯度進行正則化。

運行圖,計算我們輸入的最後一個卷積層。

計算權重作為每個10x10網格的梯度值的均值(假設輸入大小為299x299)。有2048個權重,因為我們使用的網路在10x10的最終卷積層上有2048個輸出通道。

創建cam 10x10粗略輸出,作為平均梯度值和最終卷積層的加權和。

將cam輸入一個RELU,只接收這個類別的正向建議。然後,將粗略cam輸出調整為輸入大小並混合顯示。

最後,主要函數獲取TensorFlow Slim模型的定義和預處理函數。用這些演算法計算grad-CAM輸出,並將其與輸入照片混合。在下面的代碼中,我們使用softmax概率最大的類別作為grad_cam的輸入。例如:

神經網路決策過程可視化:AI眼中馬雲馬化騰李彥宏誰最有魅力?

該模型首選預測酒精為99%,賭博只有0.4%。不過,通過將預測類別從酒類轉為賭博,我們可以看到,儘管類別概率很低,但模型仍然可以清楚地指出圖像中的賭博元素(見右圖)。

參考資料

  1. Our attractiveness classifier: https://thehive.ai/demo/attractiveness

  2. Bolei Zhou, Aditya Khosla, àgata Lapedriza, Aude Oliva, and Antonio Torralba. Learning deep features for discriminative localization. CoRR, abs/1512.04150, 2015

  3. Ramprasaath R. Selvaraju, Abhishek Das, Ramakrishna Vedantam, Michael Cogswell, Devi Parikh, and Dhruv Batra. Grad-cam: Why did you say that? visual explanations from deep networks via gradient-based localization. CoRR, abs/1610.02391, 2016

  4. Aditya Chattopadhyay, Anirban Sarkar, Prantik Howlader, and Vineeth N. Balasubramanian. Grad-cam++: Generalized gradient-based visual explanations for deep convolutional networks. CoRR, abs/1710.11063, 2017

  5. Tensorflow Slim: https://github.com/tensorflow/models/tree/master/research/slim

  6. Our grad-cam github: https://github.com/hiveml/tensorflow-grad-cam

  7. Original grad-cam repo https://github.com/Ankush96/grad-cam.tensorflow

新智元AI技術+產業社群招募中,歡迎對AI技術+產業落地感興趣的同學,加小助手微信號: aiera2015_1 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名-公司-職位;專業群審核較嚴,敬請諒解)。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

TAG:新智元 |