當前位置:
首頁 > 科技 > 神經網路簡史:BP演算法後的又一突破—信念網路

神經網路簡史:BP演算法後的又一突破—信念網路

隨著訓練多層神經網路的謎題被揭開,這個話題再一次變得空前熱門,羅森布拉特的崇高雄心似乎也將得以實現。直到1989年另一個關鍵發現被公布,現在仍廣為教科書及各大講座引用。

多層前饋神經網路是普適模擬器( universal approximators)。」本質上,可以從數學證明多層結構使得神經網路能夠在理論上執行任何函數表達,當然包括XOR(異或)問題。

然而,這是數學,你可以在數學中暢想自己擁有無限內存和所需計算能力——反向傳播可以讓神經網路被用於世界任何角落嗎?噢,當然。也是在1989年,Yann LeCunn在AT&T Bell實驗室驗證了一個反向傳播在現實世界中的傑出應用,即「反向傳播應用於手寫郵編識別(Backpropagation Applied to Handwritten Zip Code Recognition)」。

你或許會認為,讓計算機能夠正確理解手寫數字並沒有那麼了不起,而且今天看來,這還會顯得你太過大驚小怪,但事實上,在這個應用公開發布之前,人類書寫混亂,筆畫也不連貫,對計算機整齊劃一的思維方式構成了巨大挑戰。這篇研究使用了美國郵政的大量數據資料,結果證明神經網路完全能夠勝任識別任務。更重要的是,這份研究首次強調了超越普通(plain)反向傳播 、邁向現代深度學習這一關鍵轉變的實踐需求。

傳統的視覺模式識別工作已經證明,抽取局部特徵並且將它們結合起來組成更高級的特徵是有優勢的。通過迫使隱藏單元結合局部信息來源,很容易將這樣的知識搭建成網路。一個事物的本質特徵可以出現在輸入圖片的不同位置。因此,擁有一套特徵探測器,可以探測到位於輸入環節任何地方的某個具體特徵實例,非常明智。既然一個特徵的精準定位於分類無關,那麼,我們可以在處理過程中適當捨棄一些位置信息。不過,近似的位置信息必須被保留,從而允許下面網路層能夠探測到更加高級更加複雜的特徵。(Fukushima1980,Mozer,1987)

一個神經網路工作原理的可視化過程

或者,更具體的:神經網路的第一個隱層是卷積層——不同於傳統網路層,每個神經元對應的一個圖片像素都相應有一個不同的權值(40*60=2400個權值),神經元只有很少一部分權值(5*5=25)以同樣的大小應用於圖像的一小個完整子空間。所以,比如替換了用四種不同的神經元來學習整個輸入圖片4個角的45度對角線探測,一個單獨的神經元能通過在圖片的子空間上學習探測45度對角線,並且照著這樣的方法對整張圖片進行學習。每層的第一道程序都以相類似的方式進行,但是,接收的是在前一隱藏層找到的「局部」特徵位置而不是圖片像素值,而且,既然它們正在結合有關日益增大的圖片子集的信息,那麼,它們也能「看到」其餘更大的圖片部分。最後,倒數的兩個網路層利用了前面卷積抽象出來的更加高級更加明顯的特徵來判斷輸入的圖像究竟該歸類到哪裡。這個在1989年的論文里提出的方法繼續成為舉國採用的支票讀取系統的基礎。

這很管用,為什麼?原因很直觀,如果數學表述上不是那麼清楚的話:沒有這些約束條件,網路就必須學習同樣的簡單事情(比如,檢測45°角的直線和小圓圈等),要花大把時間學習圖像的每一部分。但是,有些約束條件,每一個簡單特徵只需要一個神經元來學習——而且,由於整體權值大量減少,整個過程完成起來更快。而且,既然這些特徵的像素確切位置無關緊要,那麼,基本上可以跳過圖像相鄰子集——子集抽樣,一種共享池手段(a type of pooling)——當應用權值時,進一步減少了訓練時間。多加了這兩層——(卷積層和彙集層)——是卷積神經網路(CNNs/ConvNets)和普通舊神經網路的主要區別。

卷積神經網路(CNN)的操作過程

那時,卷積的思想被稱作「權值共享」,也在1986年Rumelhart、Hinton和Williams關於反向傳播的延伸分析中得到了切實討論。顯然,Minsky和Papert在1969年《感知機》中的分析完全可以提出激發這一研究想法的問題。但是,和之前一樣,其他人已經獨立地對其進行了研究——比如,Kunihiko Fukushima在1980年提出的 Neurocognitron。而且,和之前一樣,這一思想從大腦研究汲取了靈感:

根據Hubel和Wiesel的層級模型,視覺皮層中的神經網路具有一個層級結構:LGB(外側膝狀體)樣品細胞複雜細胞低階超複雜細胞->高階超複雜細胞。低階超複雜細胞和高階超複雜細胞之間的神經網路具有一個和簡單細胞與複雜細胞之間的網路類似的結構。在這種層狀結構中,較高級別的細胞通常會有這樣的傾向,即對刺激模式的更複雜的特徵進行選擇性響應,同時也具有一個更大的接收域,而且對刺激模式位置的移動更不敏感。因此,在我們的模型中就引入了類似於層級模型的結構。

LeCun也在貝爾實驗室繼續支持卷積神經網路,其相應的研究成果也最終在上世紀90年代中期成功應用於支票讀取——他的談話和採訪通常都介紹了這一事實:「在上世紀90年代後期,這些系統當中的一個讀取了全美大約10%到20%的支票。」

神經網路進入無監督學習時期

將死記硬背,完全無趣的支票讀取工作自動化,就是機器學習大展拳腳的例子。也許有一個預測性小的應用? 壓縮。即指找到一種更小體量的數據表示模式,並從其可以恢複數據原有的表示形態,通過機器學習找到的壓縮方法有可能會超越所有現有的壓縮模式。當然,意思是在一些數據中找到一個更小的數據表徵,原始數據可以從中加以重構。學會壓縮這一方案遠勝於常規壓縮演算法,在這種情況下,學習演算法可以找到在常規壓縮演算法下可能錯失的數據特徵。而且,這也很容易做到——僅用訓練帶有一個小隱藏層的神經網路就可以對輸入進行輸出。

自編碼神經網路

這是一個自編碼神經網路,也是一種學習壓縮的方法——有效地將數據轉換為壓縮格式,並且自動返回到本身。我們可以看到,輸出層會計算其輸出結果。由於隱藏層的輸出比輸入層少,因此,隱藏層的輸出是輸入數據的一個壓縮表達,可以在輸出層進行重建。

更明確地了解自編碼壓縮

注意一件奇妙的事情:我們訓練所需的唯一東西就是一些輸入數據。這與監督式機器學習的要求形成鮮明的對比,監督式機器學習需要的訓練集是輸入-輸出對(標記數據),來近似地生成能從這些輸入得到對應輸出的函數。確實,自編碼器並不是一種監督式學習;它們實際上是一種非監督式學習,只需要一組輸入數據(未標記的數據),目的是找到這些數據中某些隱藏的結構。換句話說,非監督式學習對函數的近似程度不如它從輸入數據中生成另一個有用的表徵那麼多。這樣一來,這個表徵比原始數據能重構的表徵更小,但它也能被用來尋找相似的數據組(聚類)或者潛在變數的其他推論(某些從數據看來已知存在但數值未知的方面)。

聚類,一種很常用的非監督式學習應用

在反向傳播演算法發現之前和之後,神經網路都還有其他的非監督式應用,最著名的是自組織映射神經網路(SOM,Self Organizing Maps)和自適應共振理論(ART,Adapative Resonance Theory)。SOM能生成低維度的數據表徵,便於可視化,而ART能夠在不被告知正確分類的情況下,學習對任意輸入數據進行分類。如果你想一想就會發現,從未標記數據中能學到很多東西是符合直覺的。假設你有一個數據集,其中有一堆手寫數字的數據集,並沒有標記每張圖片對應著哪個數字。那麼,如果一張圖片上有數據集中的某個數字,那它看起來與其他大多數擁有同樣數字的圖片很相似,所以,儘管計算機可能並不知道這些圖片對應著哪個數字,但它應該能夠發現它們都對應著同一個數字。這樣,模式識別就是大多數機器學習要解決的任務,也有可能是人腦強大能力的基礎。但是,讓我們不要偏離我們的深度學習之旅,回到自編碼器上。

自組織映射神經網路:將輸入的一個大向量映射到一個神經輸出的網格中,在其中,每個輸出都是一個聚類。相鄰的神經元表示同樣的聚類。

正如權重共享一樣,關於自編碼器最早的討論是在前面提到過的1986年的反向傳播分析中所進行。有了權重共享,它在接下來幾年中的更多研究中重新浮出了水面,包括Hinton自己。這篇論文,有一個有趣的標題:《自編碼器,最小描述長度和亥姆霍茲自由能》(Autoencoders, Minimum Description Length, and Helmholts Free Energy),提出「最自然的非監督式學習方法就是使用一個定義概率分布而不是可觀測向量的模型」,並使用一個神經網路來學習這種模型。所以,還有一件你能用神經網路來做的奇妙事:對概率分布進行近似。

神經網路迎來信念網路

事實上,在成為1986年討論反向傳播學習演算法這篇有重大影響力論文的合作者之前,Hinton在研究一種神經網路方法,可以學習1985年「 A Learning Algorithm for Boltzmann Machines」中的概率分布。

玻爾茲曼機器就是類似神經網路的網路,並有著和感知器(Perceptrons)非常相似的單元,但該機器並不是根據輸入和權重來計算輸出,在給定相連單元值和權重的情況下,網路中的每個單元都能計算出自身概率,取得值為1或0。因此,這些單元都是隨機的——它們依循的是概率分布而非一種已知的決定性方式。玻爾茲曼部分和概率分布有關,它需要考慮系統中粒子的狀態,這些狀態本身基於粒子的能量和系統本身的熱力學溫度。這一分布不僅決定了玻爾茲曼機器的數學方法,也決定了其推理方法——網路中的單元本身擁有能量和狀況,學習是由最小化系統能量和熱力學直接刺激完成的。雖然不太直觀,但這種基於能量的推理演繹實際上恰是一種基於能量的模型實例,並能夠適用於基於能量的學習理論框架,而很多學習演算法都能用這樣的框架進行表述。

一個簡單的信念,或者說貝葉斯網路——玻爾茲曼機器基本上就是如此,但有著非直接/對稱聯繫和可訓練式權重,能夠學習特定模式下的概率。

回到玻爾茲曼機器。當這樣的單元一起置於網路中,就形成了一張圖表,而數據圖形模型也是如此。本質上,它們能夠做到一些非常類似普通神經網路的事:某些隱藏單元在給定某些代表可見變數的可見單元的已知值(輸入——圖像像素,文本字元等)後,計算某些隱藏變數的概率(輸出——數據分類或數據特徵)。以給數字圖像分類為例,隱藏變數就是實際的數字值,可見變數是圖像的像素;給定數字圖像「1」作為輸入,可見單元的值就可知,隱藏單元給圖像代表「1」的概率進行建模,而這應該會有較高的輸出概率。

玻爾茲曼機器實例。每一行都有相關的權重,就像神經網路一樣。注意,這裡沒有分層——所有事都可能跟所有事相關聯。我們會在後文討論這樣一種變異的神經網路。

因此,對於分類任務,現在有一種計算每種類別概率的好方法了。這非常類似正常分類神經網路實際計算輸出的過程,但這些網路有另一個小花招:它們能夠得出看似合理的輸入數據。這是從相關的概率等式中得來的——網路不只是會學習計算已知可見變數值時的隱藏變數值概率,還能夠由已知隱藏變數值反推可見變數值概率。所以,如果我們想得出一幅「1」數字圖像,這些跟像素變數相關的單元就知道需要輸出概率1,而圖像就能夠根據概率得出——這些網路會再創建圖像模型。雖然可能能夠實現目標非常類似普通神經網路的監督式學習,但學習一個好的生成模型的非監督式學習任務——概率性地學習某些數據的隱藏結構——是這些網路普遍所需要的。這些大部分都不是小說,學習演算法確實存在,而使其成為可能的特殊公式,正如其論文本身所描述的:

或許,玻爾茲曼機器公式最有趣的方面在於它能夠引導出一種(與領域無關的)一般性學習演算法,這種演算法會以整個網路發展出的一種內部模型(這個模型能夠捕獲其周圍環境的基礎結構)的方式修改單元之間的聯繫強度。在尋找這樣一個演算法的路上,有一段長時間失敗的歷史(Newell,1982),而很多人(特別是人工智慧領域的人)現在相信不存在這樣的演算法。

我們就不展開演算法的全部細節了,就列出一些亮點:這是最大似然演算法的變體,這簡單意味著它追求與已知正確值匹配的網路可見單元值(visible unit values)概率的最大化。同時計算每個單元的實際最有可能值 ,計算要求太高,因此,訓練吉布斯採樣(training Gibbs Sampling)——以隨機的單元值網路作為開始,在給定單元連接值的情況下,不斷迭代重新給單元賦值——被用來給出一些實際已知值。當使用訓練集學習時,設置可見單位值( visible units)從而能夠得到當前訓練樣本的值,這樣就通過抽樣得到了隱藏單位值。一旦抽取到了一些真實值,我們就可以採取類似反向傳播的辦法——針對每個權重值求偏導數,然後估算出如何調整權重來增加整個網路做出正確預測的概率。

和神經網路一樣,演算法既可以在監督(知道隱藏單元值)也可以在無監督方式下完成。儘管這一演算法被證明有效(尤其是在面對自編碼神經網路解決的「編碼」問題時),但很快就看出不是特別有效。Redford M. Neal1992年的論文《Connectionist learning of belief networks》論證了需要一種更快的方法,他說:「這些能力使得玻耳茲曼機在許多應用中都非常有吸引力——要不是學習過程通常被認為是慢的要命。」因此,Neal引入了類似信念網路的想法,本質上就像玻耳茲曼機控制、發送連接(所以又有了層次,就像我們之前看過的神經網路一樣,而不像上面的玻耳茲曼機控制機概念)。跳出了討厭的概率數學,這一變化使得網路能以一種更快的學習演算法得到訓練。洒水器和雨水那一層上面可以視為有一個信念網路——這一術語非常嚴謹,因為這種基於概率的模型,除了和機器學習領域有著聯繫,和數學中的概率領域也有著密切的關聯。

儘管這種方法比玻爾茲曼機進步,但還是太慢了,正確計算變數間的概率關係的數學需求計算量太大了,而且還沒啥簡化技巧。Hinton、Neal和其他兩位合作者很快在1995年的論文《 The wake-sleep algorithm for unsupervised neural networks》中提出了一些新技巧。這次他們又搞出一個和上個信念網路有些不一樣的網路,現在被叫做「亥姆霍茲機」。再次拋開細節不談,核心的想法就是對隱含變數的估算和對已知變數的逆轉生成計算採取兩套不同的權重,前者叫做recognition weights,後者叫做generative weights,保留了Neal"s信念網路的有方向的特性。這樣一來,當用於玻爾茲曼機的那些監督和無監督學習問題時,訓練就快得多。

最終,信念網路的訓練多少會快些!儘管沒那麼大的影響力,對信念網路的無監督學習而言,這一演算法改進是非常重要的進步,堪比十年前反向傳播的突破。不過,目前為止,新的機器學習方法也開始湧現,人們也與開始質疑神經網路,因為大部分的想法似乎基於直覺,而且因為計算機仍舊很難滿足它們的計算需求。正如我們將在第三部分中看到的,人工智慧寒冬將在幾年內到來。

作者:Andrey Kurenkov

來源:數據與演算法之美

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據實驗室 的精彩文章:

歐洲即將開展第一次基於CRISPR的人類基因改造試驗
她是法國數學界的「花木蘭」,高斯的「救命恩人」

TAG:大數據實驗室 |