當前位置:
首頁 > 最新 > LeCun台大演講:AI最大缺陷是缺乏常識,無監督學習突破困境

LeCun台大演講:AI最大缺陷是缺乏常識,無監督學習突破困境

近日,在台灣大學,卷積神經網路之父、FacebookAI 研究院院長 Yann LeCun 以「Deep Learning and the Path to AI」為題,對深度學習目前的發展現狀和面臨的最大挑戰、以及應對方法進行了綜述和分析。

6 月 29 日,台灣大學。卷積神經網路之父、FacebookAI 研究院院長 Yann LeCun 以「Deep Learning and the Path to AI」為題,對深度學習目前的發展現狀和面臨的最大挑戰、以及應對方法進行了綜述和分析。新智元結合台灣大學在 Facebook 上公布的視頻、台灣科技媒體 iThome 的報道,以及 Yann LeCun 今年早些時候在愛丁堡大學的演講資料,為您綜合介紹。

演講從模式識別(Pattern Recognition)的起源說起。1957年,Perceptron 誕生,成為第一個 LearningMachine。LeCun 說,目前的機器學習演算法大多衍生自 Perceptron的概念。

從那時起,模式識別的標準模型就可以分為 3 步走:1.程序被輸入一張圖像,通過特徵提取,將圖像特徵轉換為多個向量;2. 輸入這些向量到可訓練的分類器中;3.程序輸出識別結果。

他表示,機器學習演算法其實就是誤差校正(Error correction),通過調整權重,來進行特徵提取。也就是說,如果輸入一張圖,演算法識別後,結果值低於預期類別的值,工程師就將輸入的圖增加 Positive 的權重,減少 Negative 的權重,來校正誤差。

>深度學習是當今最廣泛使用的模式識別方法。LeCun 認為深度學習的特點在於「整個程序都是可訓練的」。他解釋,構建深度學習的模型不是用手動調整特徵提取的參數來訓練分類器,而是建立一群像小型瀑布般的可訓練的模組。

>當開發人員將原始的影像輸入系統後,會先經過初步的特徵提取器,產生代表的數值,在這一個階段可能會先識別出一些基本的紋理,接下來這些紋理的組合會再被拿來識別更具體的特徵,像是物件的形體或是類別,整個訓練的過程就是不斷地經過一層又一層這樣的模型,每一層都是可訓練的,所以我們稱這個演算法為深度學習或是端到端訓練(End to End Running)。

LeCun 解釋,深度學習模型之所以工作良好,是因為現在的影像都是自然景象加上其他物體,也就是混合型的圖像,而每個物體又由不同的特徵所組成,會有不同的輪廓和紋路,圖片的像素也是一個問題,因此,可以將影像分級成像素、邊緣、輪廓、元件和物件等,初級的特徵提取會先偵測出影像中最基本的輪廓,比如明顯的紋路和色塊,進一步的特徵提取則是將上一層的結果組合再一起,拼成一個形體,最後再拼成一個物體。

>這種分層式的組合架構(Hierarchical Compositionality)其實不只適用於影像,LeCun說明,它對文字、語音、動作或是任何自然的信號都適用,這種方式參考了人腦的運作模式。大腦中的視覺中樞,也是用類似分層式的組合架構來運行,當人類看到影像後,由視網膜進入到視丘後方外側膝狀體,再到大腦中主要的視覺中樞,最後來到顳葉皮質,人類看圖像也是由大腦經過多層的結構,在100毫秒內就能識別圖片。

>深度學習的問題在於如何訓練,在1980年代中期,誤差反向傳播演算法(Back Propagation Algorithm)開始流行,但其實誤差反向傳播演算法很早就被提出來,只是當時沒有受到重視。誤差反向傳播演算法一開始先經過簡單線性分類,再將這些結果帶到非線性的線性整流函數(Rectified Linear Unit,ReLU),線性整流函數就是找到要調整參數的方向,來減少錯誤判斷,不過現在都已經有可用的套件或是框架,像是Torch、TensorFlow 或是 Theano等,還有一些套件是可用來計算輸出結果和預期結果之間的誤差。

Yann LeCun認為,現在要撰寫機器學習演算法並不難,用 3 行 Python 就可以完成,不過這還停留在監督式學習階段,所謂的監督式學習就是輸入大量的訓練樣本,每一套訓練樣本都已經經過人工標註出原始圖片和對應的預期結果。以影像處理為例,訓練集由多個(X,Y)參數組成,X就是影像的像素,Y則是預設的識別結果類別,像是車子、桌子等,之後再用大量的測試集來測試程序,若判斷結果正確,不用調整,若判斷有誤則調整程序中的參數。

因此,Yann LeCun表示,監督式的機器學習就是功能優化(Function Optimization),資料輸入和輸出的關係通過可調整的參數來優化,經由調整參數的方式,將結果的錯誤率降至最低,其中,調整參數的方式有很多種,很多人都會用梯度下降演算法(Stochastic Gradient Descent),梯度下降演算法可以找到最適合的回歸模型係數.即時地根據輸入的資料動態調整模型。

>身為「卷積神經網路之父」的 Yann LeCun 也介紹了卷積神經網路(Convolutional Neural Network,CNN),卷積網路就是將輸入的影像像素矩陣經過一層過濾器,挑選出特徵,再透過池化層(PoolingLayer),針對輸入特徵矩陣壓縮,讓特徵矩陣變小,降低計算的複雜度。CNN影像和語音識別都有很好的成效,不僅如此,還能識別街上移動的路人、街景的物體,Facebook 也用 CNN 來識別 Facebook 用戶上傳的照片,他表示一天 Facebook 就有10億以上的照片,可以準確地識別物體的類別,像是人還是狗、貓等,還能識別照片的主題,像是婚禮或是生日派對等。

>不過,Yann LeCun提出,監督式的機器學習有2大問題,第一是要如何建立複雜的演算法來解決複雜的問題,第二則是手動調整參數的知識和經驗都是來自於不同任務,許多工程師想要處理的領域,像是影像識別、語音識別都需要建置不同模型,因此,監督式機器學習可以在訓練過的專案上有很好的表現,但是沒有訓練過的資料,程序就無法辨別,簡單來說,如果要程序識別椅子,不可能訓練所有椅子的特徵資料。

事實上,Yann LeCun 表示現實中有種機器具備數百萬的調整鈕(Knob),這些調整鈕就像機器學習中的參數和 Perceptron 的權重一樣,可以用上百萬的訓練樣本來訓練模型,最後分類出上千種的類別,但是,每一個特徵的識別都必須經過數十億次的操作,因此,可想而知,現今大家所使用的神經網路是非常複雜的,如此龐大的運作不可能在一般的 CPU 上執行,「我們面對的是非常大規模的優化問題。」他說。

>AI系統的架構大致上可以分為感知(Perception)、觸發器(Agent)和目標(Objective)3個模組,先由感知器偵測真實世界的數據,像是影像、語音等,這些數據經由觸發器,會依據狀態觸發目標,執行相對應的程序併產生結果,其中觸發器就是AI 的精髓,觸發器必須要負責規劃、預測等智能工作,而目標則是由本能和固定的兩個元件所組成,以視覺識別(VisualIdentity)系統為例,經由感知收集影像數據,透過觸發器觸發分析情緒的程序,再判斷影片中的人是開心還是不開心。

>AI 架構中的觸發器(Agent)主要負責預測和規劃,運作過程又可分為模擬器(Simulator)、執行器(Actor)、回饋器(Critic),模擬器接收到狀態後,傳送給執行器,執行器就會啟動相對應的動作,並同時對模擬器提出要求,啟動相對應的動作之後送到回饋器,經由回饋器分析要採取的動作,決定後才送往目標(Objective)執行。

>市場上 AI 好像無所不能,但其實,Yann LeCun個人認為,AI 還是有些局限,像是機器必須會觀察狀態、了解很多背景知識、世界運行的定律,以及精確地判斷、規劃等,其中,Yann LeCun 認為 AI 最大的局限是無法擁有人類的「常識」。

>由於目前比較好的AI應用都是採用監督式學習,能夠準確識別人工標示過的物體,也有些好的成果是用強化學習(Reinforcement Learning)的方式,但是強化學習需要大量地收集資料來訓練模型,Yann LeCun表示,對應到現實社會中的問題,監督式學習不足以成為「真的」AI。

他指出,人類的學習是建立在與事物互動的過程,許多都是人類自行體會、領悟出對事物的理解,不需要每件事都要教導,舉例來說,若有個物體被前面的物體擋住,人類會知道後面的物體依然存在的事實,或是物體沒有另一個物體支撐就會掉落的事實。

「人腦就是推理引擎!」他說明,人類靠著觀察建立內部分析模型,當人類遇到一件新的事物,就能用這些既有的模型來推測,因為生活中人類接觸到大量的事物和知識,而建立了「常識」。這些常識可以帶領人類做出一些程序無法達到的能力,像是人類可以只看一半的臉就能想像另外一半臉,或是可以從過去的事件推測未來等。

他舉例,若人類看到一張戰利品放不下行李箱的圖片,再看到一個句子說:」這些戰利品放不下行李箱,因為它太小了。「人類能夠很清楚地知道「它」指的是行李箱,人類也因為知道整個社會和世界運行的規則,當沒有太多的信息時,人類可以依照因果關係自動補足空白的信息。

無監督式學習是突破 AI 困境的關鍵,採用無監督學習的對抗訓練讓 AI 擁有真正自我學習的能力。

如何讓 AI 擁有人類的常識?Yann LeCun認為要用無監督式學習。他又稱之為預測學習,他將現今機器學習的方式分為強化式、監督式和無監督式學習,並以黑森林蛋糕來比喻。

>強化學習是蛋糕上不可或缺的櫻桃,所需要資料量可能大約只有幾個Bits,監督式學習是蛋糕外部的糖衣,需要10到10,000個Bits的資料量,而無監督學習則是需要數百萬個Bits,無監督學習被他比喻為黑森林蛋糕,因為無監督學習的預測能力像擁有黑魔法一樣神奇,不過,他也強調黑森林蛋糕必須搭配櫻桃,櫻桃不是可選擇的配料,而是必要的,意味著無監督學習與強化學習相輔相成,缺一不可。

Yann LeCun認為,程序還是很難在不確定性的情況下,正確地預測,舉例來說,如果一隻直立的筆,沒有支撐之後,程序可以判斷出筆會倒下,但是無法預測會倒向哪一個方向。

因此,他表示,對抗訓練(Adversarial Training)是可以讓 AI 程序擁有自學能力的方法,他解釋,對抗訓練就是讓兩個網路相互博奕,由生成器(Generator)和判別器(Discriminator)組成,生成器隨機地從訓練集中挑選真實數據和干擾噪音,產生新的訓練樣本,判別器再用與真實數據比對的方式,判斷出數據的真實性,如此一來,生成器與判別器可以交互學習自動優化預測能力,創造最佳的預測模型。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 36氪 的精彩文章:

8點1氪:《王者榮耀》推最嚴防沉迷措施;無人便利店一周2筆融資;深圳共享單車新規:一年違法3次停用半年
熊貓資本毛聖博:我們為什麼不投「無人便利店」
立足兒童詩教,「婷婷姐姐」用另一種方式講兒童故事
東西的未來:可以得到就不必擁有
三星Note 8看起來似乎與S8大同小異,但有兩點絕對不一樣

TAG:36氪 |

您可能感興趣

Ian Goodfellow:我最大的失敗是用無監督解決計算機視覺的監督學習問題
AI教父Hinton:AI 系統將走向無監督,我們需要真正理解大腦
Ian Goodfellow:我的失敗是用無監督解決計算機視覺監督學習問題
Yann LeCun分享Facebook最新AI研發成果:AI變革的下一站是無監督學習
無監督學習和transformers如何在OpenAI手裡玩出新花樣
DeepMind綜述無監督學習:通用智能路上的踏腳石,讓AI更聰明
IJCAI Oral:弱監督實現精確目標檢測,上交大提出協同學習框架
針對遊戲行業的欺詐難題,DataVisor 的無監督演算法可以做什麼
Hinton老爺子CapsNet再升級,結合無監督,接近當前最佳效果
Spotlight 論文:非參數化方法實現的極端無監督特徵學習
CapsNet 再升級!無監督學習圖像特徵,取得最先進結果
半監督學習也能自動化?南大和第四範式提出Auto-SSL
學界 | Wasserstein is all you need:構建無監督表示的統一框架
Double DIP——一種無監督層圖像分割 AI 技術
大數據科普:神經網路入門-監督學習 Supervised Learning
Wasserstein is all you need:構建無監督表示的統一框架
DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能冠軍!
「Science重磅」DeepMind生成查詢網路GQN,無監督學習展現3D場景
SKT監督重啟慧眼:Mata果然有問題?
MIT像素級聲源定位系統PixelPlayer:無監督地分離視頻中目標聲源