Hinton大神對反向傳播「深表懷疑」，BP演算法難道要慘遭「摒棄」嗎？

科技 09-19

GIF/1.7M

圖：pixabay

原文來源：IntuitionMachine

作者：Carlos E. Perez

「機器人圈」編譯：嗯~阿童木呀、多啦A亮

Geoffrey Hinton終於公開闡述了他對那些早已令許多人惶恐不安的事物的看法。在最近的一次AI大會上，Hinton表示，他對反向傳播「深表懷疑」，並認為：「我的觀點是將它完全摒棄，然後重新開始」。

現如今，反向傳播已成為深度學習的「麵包和黃油」機制。研究人員發現，可以在解決方案中使用任何計算層，唯一的要求就是層必須是可微的。換句話說，我們要能夠計算出層的梯度。

關於反向傳播有這麼幾個問題值得思考。第一個是經過計算的梯度是否始終是學習的正確方向？直觀感覺這個是有問題的。人們總能發現問題，其中向著最明顯的方向移動並不總是能夠找到解決方案。因此忽略梯度也可能產生一個解決方案，這也沒什麼可意外的。關於適應性觀點與優化性觀點之間的區別，我在之前的文章里闡述過，有興趣的可以查閱。

我們來回顧一下，並試圖以歷史的視角來了解這種反向傳播思想的來源。從歷史上看，機器學習源於曲線擬合的一般理解。在線性回歸的具體示例下（即用直線進行預測），計算梯度是求解最小二乘問題的方法。在優化問題中，除了使用梯度求解最佳解決方案之外，還有許多其他可供選擇的方法。事實上，隨機梯度下降可能是最基本的優化方法之一，所以人們可能認為它是一個非常出色的，最簡單的演算法之一，而實際上它的性能確實是非常棒的。

大多數優化專家一直認為，深度學習的高維空間將需要一個非凸（non-convex）的解決方案，因此難以優化。然而，由於一些無法解釋的原因，深度學習使用隨機梯度下降（SGD）的運行效果非常好。許多研究人員後來提出了許多不同的觀點，以解釋為什麼使用SGD時深度學習的優化效果如此好。一個更具說服力的觀點是，在高維空間中，人們更有可能找到一個鞍點（saddle point）而不是local valley。總會有足夠的維度和梯度，指向一條逃逸路線。

指南（點擊圖片放大）

合成梯度（Synthetic Gradients），一種使層分離的方法，從而使得反向傳播並不總是必不可少，或者使得梯度計算可以被延遲，而這樣方法也同樣被證明是有效的。這個發現可能是一個暗示，即其他更為通用的事情正在發生。這就好像任何一種趨向於增量的更新，無論方向如何（在合成梯度的情況下都是隨機的）同樣有效。

還有一個關於所使用的典型目標函數的問題。相對於對象函數計算反向傳播。通常，目標函數是預測分布與實際分布之間差異的量度。通常，有些東西導出Kullback-Liebler散度或者像Wassertsein這樣的其他相似性分布測量。然而，在這些相似性計算中，在監督訓練中存在「標籤」。在同一次採訪中，Hinton對無監督的學習表示：「我懷疑這意味著擺脫反向傳播。」他進一步說，「我們顯然不需要所有的標籤數據。」

簡而言之，如果你沒有目標函數，則不能進行反向傳播。如果你沒有預測值和標記（實際或訓練數據）值之間的度量，則無法得到目標函數。所以要實現「無監督學習」，你可能會拋棄計算梯度的能力。

讓我們從更廣泛的視角來檢驗目標函數的目的。目標函數是衡量內部模型在預測其環境方面的準確程度。任何智能自動化過程的目的是制定精確的內部模型。然而，沒有任何東西需要在任何時候或不斷地進行模型與環境之間的測量。也就是說，自動化過程不需要執行反向傳播來學習。自動化過程可能是做一些其他事情以改進其內部模型。

其他一些東西，我們稱之為「想像或夢想」，不需要直接的現實驗證。我們目前最典型的就是生成對抗網路（GAN）。GAN由兩個網路組成，一個生成器和一個鑒別器。可以將鑒別器視為與目標函數一致的神經網路。也就是說，它使內部生成器網路得到現實驗證。生成器是一種重現不斷趨近現實的自動化過程。GAN使用反向傳播工作，它執行無監督學習。所以也許無監督的學習不需要目標函數，但是它仍然可能需要反向傳播。

另一種觀察無監督學習的方法是一種元學習（meta-learning）。系統不需要監督訓練數據的一種可能性是，學習演算法已經開發了自己的內部模型，以便最好地進行。換句話說，仍然有一些監督，它恰好隱含在學習演算法中。學習演算法如何賦予這種能力是一個很大的未知數。

總而言之，現在說我們是否可以擺脫反向傳播還為時尚早。我們當然可以使用一個不太嚴格的版本（即合成梯度或其他啟發式演算法）。然而，漸近學習（gradual learning）或者說爬山演算法（hill climbing）似乎仍然是一個必要條件。我當然會很有興趣找到任何使漸近學習或爬山演算法無效的研究。事實上，這類似於宇宙的行為，更具體地說就是熱力學第二定律。更具體地說，該熵始終增加。信息引擎將降低自己的熵，以換取環境中的熵增加。因此，沒有辦法完全避免梯度。這樣做將需要一些「信息永動機」（perpetual motion information machine）。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器人圈 的精彩文章:

※手勢識別如何搞定？我們需要基於大型視頻資料庫的端到端的學習
※圖像分類、目標檢測、圖像分割、圖像生成……一文「計算機視覺」全分析
※TensorFlow 1.3的Dataset和Estimator？谷歌大神來解答
※如何更好地理解神經網路的正向傳播？我們需要從「矩陣乘法」入手

TAG:機器人圈 |