標題黨太嚇人?這篇文章會告訴你DeepMind關係推理網路的真實面貌
每當DeepMind發表一篇新論文時,媒體都會狂熱的跟蹤報道,而且會使用很多誤導人的短語。比如關於該關係推理網路的報道:
DeepMind開發了一種神經網路,能夠感知其周圍的物體。
實際上這種報導不僅僅是誤導性的,而且使得很多不明真相的吃瓜群眾感到恐慌:AI真的已經強到如此地步了嗎?在這篇文章中,將介紹DeepMind論文:A simple neural network modulefor relational reasoning,試著通過最簡單的方式介紹這個最新的架構。
什麼是關係推理?
從最簡單的角度來說,關係推理就是學著去理解不同物體之間的關係(思想)。這種能力被認為是智能的一個基本特徵。作者使用了一個圖來解釋什麼是關係推理:
圖1,模型需要關注一個不同形狀、大小、顏色的物體,並能夠回答關於多個物體之間關係的問題
推理網路
作者提出了一種神經網路,其本質是為了捕捉關係(就像卷積神經網路是為了捕捉圖像的特徵)。他們提出了一個如下定義的架構:
等式1:推理網路的定義
解釋:
對O的關係網路是函數fΦ,其中O是想要學習關係的一組物體。
gθ是關於兩個物體:oi, oj的方程。輸出為我們所關心的「關係」。
Σ表示計算所有可能的物體對,計算他們的關係並加和。
神經網路與函數
在學習神經網路,反向傳播等的時候,我們很容易忘記這點,但實際上,神經網路就是一個數學函數!因此,上面等式1描述的就是一個神經網路,更準確的說是兩個神經網路:
1. gθ,計算了一對物體之間的關係
2. fΦ,計算了所有g的加和,並計算了整個模型的最終輸出
gθ和fΦ在最簡單的情況下都是多層感知機。
關係神經網路的靈活性
作者提出了關係神經網路作為組件。他們可以接受編碼過的物體作為輸入,並從中學習關係,更重要的是,他們可以很容易的插入到卷積神經網路,以及長短期記憶網路(LSTM)中。
卷積網路可以通過圖像學習到物體。這對於實際應用有很大幫助,因為從圖像中推理遠比用戶手工定義物體數組更實用。
LSTM和單詞嵌入何以用來理解問題的含義。這同樣更有實際意義,目前模型已經可以接受英文句子作為輸入,而不是編碼的數組。
作者提出了一種方法將關係網路、卷積網路、LSTM網路結合到一起,構建了一種端到端的神經網路,以學習物體之間的關係。
圖2:端到端關係推理神經網路
圖2的解釋
圖像會通過一個標準卷積神經網路(CNN),在這個過程中卷積神經網路會通過k個濾波器提取圖像特徵。推理網路中的「物體」即是圖中網格每點的特徵向量。例如,途中黃色的向量就代表一個「物體」。
問題會通過一個LSTM網路,這會產生該問題的特徵性向量。可以粗略地表示這個問題的「含義」。
對於等式1,這裡有一個輕微的修正,加入了一個額外的項:
額外的一項q,表示LSTM的最終狀態。
在這之後,從CNN網路中得到的「物體「以及從LSTM網路中得到的向量被用來訓練關係網路。每個物體對,以及從LSTM中得到的問題向量都被用作gθ(一個神經網路)的輸入。
將gθ的輸出求和,作為fΦ(另一個神經網路)的輸入。然後優化fΦ以回答問題。
Benchmarks
作者在幾個數據集上展示了該模型的有效性。這裡只介紹一個最重要的數據集中的結果—CLEVR數據集。
CLEVR數據集包括不同形狀、大小和顏色的物體的圖像。模型會被問到如下圖的問題:
這個立方體的材質與這個圓柱體的材質一樣嗎?
圖3:物體的類型(上),位置組合(中&下)
作者表示,在準確度方面,其他系統都遠遠落後於他們的模型。這是由於關係網路就是為捕捉關係而設計的。他們的模型達到了前所未有的96%+的準確度,相比之下,使用stacked attention模型的準確度只有75%。
圖3.1 CLEVR數據集上不同方法的比較
結論
關係網路機器適合於學習關係。該方法可以高效地使用數據。同時該方法也足夠靈活,可以與CNN,LSTM一起作為一個混合解決方案。
本文也想通過正確的解讀,來打破許多大型媒體關於「AI將會接管一切」的宣傳,讓大家正確的了解目前最好的方法能夠做到什麼程度。
※BAIR論文:通過「元學習」和「一次性學習」演算法,讓機器人快速掌握新技能
※Geffory Hinton:深度學習進入平台期?不,深度學習需要的是「推倒重來」
※Python趕超R語言,成為數據科學、機器學習平台中最熱門語言?
※清華崔鵬團隊KDD論文一作解讀:在大數據背景下進行因果效應評估
TAG:AI科技評論 |