AI先驅Sejnowski稱：梯度是深度學習的「秘訣」！

科技 04-22

作者：Tiernan Ray是IT外媒ZDNet的撰稿人。

對於機器學習先驅Terry Sejnowski來說，隨機梯度下降（SGD）這種數學技術是深度學習的「秘訣」，而大多數人沒有真正明白它的真正意義。

在加利福尼亞州拉霍亞建成索爾克研究所（Salk Institute）庭院的混凝土廣場的盡頭，有一個離太平洋僅數百英尺的陡坡。

有時人們會駕乘滑翔傘從高處觀賞這個陡坡。如果不那麼冒險，他們可以沿著一條蜿蜒的小道走下去，一直通到底部。

在這裡很適合思考「隨機梯度下降」這個數學工具，這種技術可謂是當今AI界機器學習這一分支的核心。

幾十年來，Terry Sejnowski一直在探索梯度下降。Sejnowski領導索爾克研究所的一個團隊研究所謂的計算神經科學，他曾是效力谷歌的Geoffrey Hinton的導師，Hinton是今年因在機器學習計算領域的傑出貢獻而獲得ACM圖靈獎的三位獲獎者之一。他常與Facebook的Yann LeCun和蒙特利爾大學機器學習研究所（MILA）的Yoshua Bengio交流想法，他倆與Hinton一同獲得了圖靈獎。

Terry Sejnowski在位於加利福尼亞州拉霍亞的索爾克研究所的辦公室。「數學家們發現，人們在隨機梯度下降方面的所有想法都是錯誤的。」

本周，我與Sejnowski在他那間書快堆到天花板的辦公室圍繞AI作了一次深入廣泛的探討。一個有趣的主題脫穎而出，那就是整個AI界剛剛開始了解梯度下降這個影響深遠的現象。

Sejnowski說：「數學家們發現，人們在隨機梯度下降方面的所有直覺認識都是錯誤的。」

想明白個中原委，有必要Sejnowski給我們上一堂簡史課。他非常適合這項任務，撰寫了一本關於這個主題的著作：《深度學習革命》，這本書一半是回憶錄，一半是科學課程。

Sejnowski回憶起AI從20世紀50年代誕生後至今取得了多大的進展。AI界「基於規則」的研究人員（這些人採用基於邏輯和符號處理的方法）幾十年來一直努力使他們的方法奏效，但以失敗告終。他們的失敗卻為八九十年代另一種學派：聯結學派（connectionists）悄然取得進展提供了機會，這個學派的領軍人物包括Sejnowski、Hinton、LeCun和Bengio。聯結主義在Naughts取得了驚人的成功，後被重新命名為深度學習。

加利福尼亞州拉霍亞索爾克研究所的Louis Kahn』s廣場俯瞰數百英尺的陡坡

失敗的邏輯系統與深度學習之間的區別在於規模。不像基於規則、基於邏輯的方法，隨著計算機的功能越來越強大、數據越來越豐富，聯結學派的神經網路能夠擴展，以處理越來越龐大的問題。規則無法擴展，而從數據中學習可以擴展。餘下的就是歷史，至少對Sejnowski而言是這樣。

「瞧，那些追求邏輯的人有50年的時間來證明這種方法無法擴展。而現在，我們有30年（從80年代到今天）來證明它[聯結主義]確實可以擴展。」

「在這裡，至少對於一些模式、對於模式識別、對於強化學習等而言，我們擁有可擴展的東西。」

雖然大數據和不斷增加的計算資源使這一切成為可能，但要不是漸變那神秘的底層原理，一切都無法擴展。

他說：「事實證明，隨機梯度下降就似乎如同秘訣。」

「它有一些特別的地方。」

神經網路的誤差可以視作人們試圖找到最低點的山谷，如該圖中所示。沿著這條山谷尋找那個最低點在機器學習中名為隨機梯度下降。在下降中發現趨於較小誤差的幾個點後，人們可能困在虛假的成功點、局部最小值或所謂的鞍點（saddle point）。（圖片來源：https://arxiv.org/pdf/1712.09913.pdf）

梯度下降是神經網路的一種優化方法。神經網路有所謂的權重，權重決定了神經網路的任何一個部分對網路生成的最終答案有多大的貢獻。

為了找到合適的權重組合，神經網路通過搜索類似於山谷的幾何坐標構成的曲面（landscape）來調整那些權重。神經網路響應數據、重複調整權重，以便找到一條從山谷頂部（表示最大誤差）到山谷最低點（表示神經網路所能實現的最小誤差量）的路徑。

如果像從拉霍亞的懸崖跳下一樣容易，這個過程對於計算機來說很簡單。相反，隨機梯度下降就像穿行於一片未經探索的山坡，試圖找到最快捷的下山路徑。

Sejnowski認為，由於梯度下降只是一個數學構件，表明搜索解決方案時所發生情況的幾何模型，整個AI界剛開始了解這種搜索的神秘機理。

上世紀80年代，麻省理工學院（MIT）的科學家Marvin Minsky嘲笑穿行於這個梯度只不過是「爬坡」。（梯度下降倒過來就像是爬升到準確度最高的頂峰。）在Minsky看來，這是一種不起眼的搜索，根本不像真正的學習，根本代表不了真正的智能。時至今日，深度學習遭到類似的抨擊。

Sejnowski認為，不過，隨著越來越強大的計算能力揭示梯度的方方面面，這種抨擊並沒有未明白什麼在慢慢地受到關注。

他說：「這是我們發現的，Minksy可能永遠也想不到，因為他沉浸於小問題組成的低維度世界；如果有一個龐大的空間裡面有數十億個參數，你就無法真正探索發生了什麼。」

已經發現的是，人們對於梯度下降的認識通常是錯誤的。

在簡單的神經網路搜索中，在只有兩三個維度的幾何圖形中，尋找山谷底部的那個最低點一路上到處是錯誤的轉彎，名為虛假局部最小值（spurious local minima），就像是實際上是谷底的山脊。

深度學習能夠通過結合更大的數據集、更多的網路層和「drop out」等技術來克服那些局部最小值，drop out是指從網路中修剪權重。

然而Sejnowski的觀點是，局部最小值這個陷阱內部是可能非常強大的東西。隨著數學因更強大的計算機模型而變得更複雜，所有那些錯誤的轉彎開始形成更有意義的東西。

Sejnowski解釋道：「如果你有100萬個維度，你在下降，來到一個山脊或之類的地方，即使一半維度在上升，另一半維度卻在下降！所以你總能找到離開的路子。你永遠不會困于山脊」，至少不會永久困于山脊。

按這個觀點，經典的統計陷阱「過擬合」數據（導致局部最小值）實際上看似壞事實為好事。

Sejnowski說：「事實證明，過參數化並不是高維空間的錯誤。實際上，它為你提供了可用於學習的自由度。」

Sejnowski說，就連像線性回歸這麼簡單的東西也呈現一種奇怪的新形式，可能是無限規模的梯度。線性回歸本身並不是機器學習，而只是一種基本的統計法。

梯度正引領那些研究深度學習的數學家發掘寶貴知識，這些寶貴知識有一天會組成機器學習理論，Sejnowski對此充滿信心。

「梯度是這些高維度空間的幾何形狀，關鍵是它們是如何組織的以及你從空間中的一個地方到達另一個地方的方式。」

對於當前的機器學習研究，有一個直接的影響：更精確的東西不太可取，而不是更可取。

他說：「如果你使用一種處理起來更精確的更高級的優化技術，效果反而不是一樣好。」

「因此，一種干擾性的優化技術有其特殊之處，你拿來小批量任務，它並不沿著完美的梯度下降，而是沿著近似下坡的方向下降。」

Sejnowski說，AI界「剛開始探索」梯度下降的奧秘。「我們有管用的技術，但實際上不知道它為什麼管用。」

「一旦我們知道它為什麼管用，就能夠製造出還要高效、功能強大得多的機器。」

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雲頭條 的精彩文章:

※智能語音與人工收聽：竊聽和隱私界限在哪
※GitLab、Elastic的CEO 炮轟 AWS 新的開源方法：「分叉並商品化」

TAG:雲頭條 |