當前位置:
首頁 > 科技 > DeepMind綜述無監督學習:通用智能路上的踏腳石,讓AI更聰明

DeepMind綜述無監督學習:通用智能路上的踏腳石,讓AI更聰明

曉查 發自 紐凹非寺

量子位 報道 | 公眾號 QbitAI

在過去十年中,機器學習在圖像識別、自動駕駛汽車和圍棋等領域取得了前所未有的進步。這些成功在很大程度上是靠監督學習和強化學習來實現的。

這兩種方法都要求由人設計訓練信號並傳遞給計算機。在監督學習的情況下,這些是「目標」(例如圖像的正確標籤); 在強化學習的情況下,它們是成功行為的「獎勵」(例如在Atari遊戲中獲得高分)。因此,機器學習的極限是由人類訓練師決定的。

但是學習知識還應該有其他的策略,就像讓幼兒學習,不僅有指導(監督學習)和鼓勵(強化學習),還應該有自由探索世界(無監督學習)。如果要讓AI脫離人類發展成出通用智能,必須要讓它掌握無監督學習的技能。

DeepMind今天在官方博客中對無監督學習的原理、近年來取得的成果、發展前景進行了綜述。

無監督學習關鍵的特點是,傳遞給演算法的數據在內部結構中非常豐富,而用於訓練的目標和獎勵非常稀少。無監督學習演算法學到的大部分內容必須包括理解數據本身,而不是將這種理解應用於特定任務。

解碼視覺元素

2012年是深度學習的里程碑,AlexNet席捲了ImageNet圖像分類競賽,但是更引人注目的是藏在AlexNet之下的事情。

研究人員在分析AlexNet時發現,它通過為輸入構建複雜的內部表示來解釋圖像,低層次的特徵,如紋理和邊緣在底層中表示,然後將它們組合在一起形成高級概念,例如更高層次中的輪子和狗。

這與我們的大腦中處理信息的方式非常相似,其中初級感官處理區域中的簡單邊緣和紋理,然後組裝成複雜對象。因此複雜場景的表示可以由「視覺基元」所構建,這種方式與單詞構成句子大致相同。

在沒有人類明確的指導的情況下,研究人員發現AlexNet的層可以通過基本的「視覺辭彙」來解決任務。

遷移學習

AlexNet還可以被遷移到訓練之外的視覺任務中,例如識別整個場景而不是單個圖像。

人類就非常擅長這種學習方法,我們能迅速調整自己的經驗,以適應新的技能和理解收集到的信息。例如,經過專業訓練的鋼琴家可以相對輕鬆地掌握彈奏爵士鋼琴的方法。

理論上,構成世界正確內部表徵的智能體應該能夠做同樣的事情。

但是AlexNet等分類器所學到的表示仍具有局限性,特別是網路只用單一類別標記圖像訓練時,那些推斷標籤時用不上的信息 ,無論它在其他任務中用處多大,都可能被網路所忽略。如果標籤總是指向前景,則表示可能無法獲取圖像的背景。

一種可能的解決方案是提供更全面的訓練信號,比如描述圖像的詳細內容,不單單把圖像描述成「狗」,而是「柯基犬在陽光明媚的公園裡叼飛盤」。

但是,這些信息很難大規模提供,而且這樣做仍然有可能不足以捕獲完成任務所需的全部信息。

無監督學習的基本前提是學習豐富、可廣泛轉移表示的最佳方式,這種方式可以學習關於數據的全部內容。

如果你覺得轉移的概念看起來過於抽象,那麼請想像一個學習簡筆畫的孩子。她發現了人體形態的特徵。通過增加具體細節,她可以為她的所有同學繪製肖像,加上眼鏡、紅色T恤的同桌等等。

她發展出這項技能不是為了完成一項特定任務或獲得獎勵,而是為了反映她描繪周圍世界的基本要求。

生成模型和GAN

無監督學習的最簡單目標是訓練演算法生成自己的數據實例,但是模型不應該簡單地重現之前訓練的數據,否則就是簡單的記憶行為。

它必須是建立一個從數據中的基礎類模型。不是生成特定的馬或彩虹照片,而是生成馬和彩虹的圖片集;不是來自特定發言者的特定話語,而是說出話語的一般分布。

生成模型的指導原則是,能夠構建一個令人信服的數據示例是理解它的最有力證據。正如物理學家理查德·費曼所說:「我不能創造的東西,我就不能了解」(What I cannot create, I do not understand.)。

對於圖像來說,迄今為止最成功的生成模型是生成對抗網路(GAN)。它由兩個網路組成:一個生成器和一個鑒別器,分別負責偽造圖片和識別真假。

生成器產生圖像的目的是誘使鑒別者相信它們是真實的,同時,鑒別者會因為發現假圖片而獲得獎勵。

GAN開始生成的圖像是雜亂的和隨機的,在許多次迭代中被細化,形成更加逼真的圖像,甚至無法與真實照片區別開來。最近英偉達的GauGAN還能根據用戶草圖生成圖片。

通過預測創建內容

無監督學習中另一個值得注意的成員是自回歸模型,它把數據分成一系列小片段,每個片段依次被預測。這些模型可以通過連續猜測接下來會發生什麼來作為輸入,並能夠再次生成猜測數據。

在語言模型中,每個單詞都是從它之前的單詞預測出來的。它能夠支持在電子郵件和消息應用程序中彈出的文本預測內容。

最近OpenAI公布的GPT-2模型還能能夠生成以假亂真的文欄位落。

通過控制用於調節輸出預測的輸入序列,自回歸模型也能用於將一個序列轉換為另一個序列。例如將文本轉換為逼真的手寫體、自然的語音,還能將一種語言翻譯成另一種語言。

自回歸模型以預測特定順序數據的方式來理解數據。通過預測任何其他數據的任何部分,可以構建更一般的無監督學習演算法。

例如從句子中刪除一個單詞,並試圖從剩餘的內容中預測它。通過學習進行大量局部預測,系統被迫從整體上理解數據。

生成模型的出現讓人們產生了一種擔憂,就是它們可能被濫用。雖然通過照片、視頻和音頻編輯操縱證據歷史已久,但生成模型讓惡意編輯媒體內容變得更加容易。一個知名的「deepfakes」範例是奧巴馬演講視頻片段。

令人鼓舞的是,人們已經做出了面對這些挑戰的努力,包括利用統計技術幫助檢測偽造內容和驗證真實內容、提高公眾意識、以及圍繞限制生成模型使用範圍展開討論。

生成模型本身也能用在檢測偽造內容和異常數據。例如,檢測虛假語音或識別支付異常,保護客戶免受欺詐。研究人員需要研究生成模型,以便更好地理解它們並降低風險。

實現通用智能

生成模型本身很吸引人,DeepMind的主要興趣是用它作為通用智能的踏腳石。賦予智能體生成數據的能力是一種賦予其想像力的方式,從而能夠規劃和推理未來。

DeepMind的研究表明,即使沒有明確的生成數據,學習預測環境的不同方面可以豐富智能體的世界模型,從而提高其解決問題的能力。

訂閱AI內參,獲取AI行業資訊

活動報名|多模態視頻人物識別

加入社群

量子位AI社群正在招募,量子位社群分:AI討論群、AI 行業群、AI技術群;

歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵詞「微信群」,獲取入群方式。(技術群與AI 行業群需經過審核,敬請諒解)

喜歡就點「好看」吧 !


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

AutoX無人車再獲中國車企投資,東風領投,總額數千萬美元

TAG:量子位 |