2017年十大技術突破之強化學習

最新 01-12

作者｜Will Knight

譯者｜嚴子怡

編輯｜Emily

12 月，在巴塞羅那舉行的今年最大的人工智慧會議上，我目睹了這場模擬駕駛的全過程。最讓我驚訝的是，控制這些車的軟體根本不是用常規的方式編寫的。它僅僅通過不斷的練習，學會了如何順利又安全地並道。在訓練的過程中，控制軟體不停地進行演習，每一次演習都會對操作步驟進行一些修改。在大多數的演習中，並道都進行得太過緩慢，並且經常干擾到其他車輛。但是，一旦並道的過程進行的非常順利，這個系統就會學習並偏嚮導致該結果的行為。

這種被稱為強化學習的方法，很大程度上就是 AlphaGo 習得複雜的棋類遊戲——圍棋，並在去年打敗世界上最受人矚目的比賽上最好的人類選手的秘訣。現在強化學習可能馬上會在更多的遊戲中展示它的智力。除了可以改進自動駕駛汽車，該技術還能夠讓機器人抓取它從來沒有見過的物體，並且找出數據中心裡設備的最優配置。

強化學習從大自然抄襲了一個非常簡單的原則。心理學家 Edward Thorndike 早在 100 年前就對此做過記載。Thorndike 把貓放在一個盒子里，貓要是想從盒子里出來，它必須按下一個控制桿。在逡巡大叫一番後，動物們總是會不小心踩到控制桿。當了解到這個行為和想要的結果之間的關聯之後，它們最終能夠以更快的速度逃出盒子。

一些早期的人工智慧研究者相信，這樣的過程如果能夠在機器上實現的話，將會非常有用。1951 年，哈佛大學的學生 Marvin Minsky（它最終作為 MIT 的教授，成為了人工智慧的奠基者之一）創造了一個使用簡單的強化學習來模擬老鼠學習走迷宮的機器。Minsky 的隨機神經模擬強化計算機（Stochastic Neural Analogy Reinforcement Computer），也叫做 SNARC，由非常多的電子管、發動機和離合器組成。這些零部件模擬了 40 個神經元和突觸的行為。該機器作為一個模擬的老鼠，在虛擬的迷宮裡尋找出口的過程中，一些突觸鏈接會被增強，從而強化其內在的行為。

接下來的幾十年里，也有一些小的成果。在 1992 年，一位 IBM 的研究員 Gerald Tesauro 演示了一個使用該技術下十五子棋的程序。這是人工智慧領域地標性成果。但是，強化學習被證明難以延展至更複雜的問題。英國 DeepMind 的研究員，同時也是今天強化學習的主要支持者 David Silver 說道：「人們認為這是一個很酷的主意，但它不能真正地起作用」。

然而，這樣的觀點在 2016 年的 3 月發生了翻天覆地的變化。在當時，一個使用強化學習訓練的程序 AlphaGo 打敗了至今最好的圍棋選手之一——韓國的李世石。這個結果是非常驚人的，因為用常規的方式來編寫一個下圍棋的程序基本上是不可能的。這不僅是因為圍棋非常的複雜，即使是非常有成就的圍棋選手也很難說出為什麼某一步是好是壞，所以下圍棋的原則很難寫成代碼。大多數人工智慧研究員都認為，要想學會圍棋，計算機需要像人一樣花上十年的時間來練習。搶佔車位David Silver 是一個溫和的英國人，它早在劍橋大學本科期間就迷上了人工智慧。他向我們解釋為什麼強化學習最近變得如此強大。他說其中的關鍵因素是把它和深度學習結合起來。深度學習是一種使用巨大的模擬神經網路來識別數據中模式的技術（參見「2017 年十大突破性技術：深度學習」）。

強化學習能夠起作用是因為研究員找到了讓機器計算應該被賦予給每一次嘗試的那個數值的方法，就是老鼠在迷宮裡找出口時的每一次正確或者錯誤的嘗試。每一個數值存儲在一個巨大的表中，並且計算機會在學習的過程中更新所有這些值。對於大型複雜的任務，完成這個計算過程是不切實際的。然而，近幾年，深度學習被證明在識別數據中的模式時有非常高的效率，不管數據是每走的一輪迷宮遊戲，圍棋棋盤上的位置或者計算機遊戲在屏幕上顯示的像素。

事實上，DeepMind 是因遊戲而成名。2013 年，DeepMind 發布了一款程序的細節，該程序能夠以超過人類的水準玩各種 Atari 視頻遊戲。這一程序吸引了 Google 以超過 5 億美金的價格於 2014 年收購了這家公司，並激發了很多其他的研究員和公司開始研究強化學習。好幾家工業級機器人製造商正在測試一種不需要人工編程就能訓練機器完成新任務的方法。同時，Google 的 Alphabet 公司，與 DeepMind 聯合起來使用深度強化學習讓它們的數據中心更加節能。我們很難弄清楚數據中心的每一個元件是如何影響其能源使用的，但是強化學習的演算法可以從一系列數據中學習並在模擬環境中試驗，最終給出建議，例如，何時用何種方式操作降溫系統。

圖片來自 Mobileye 使用了強化學習的車輛視覺系統

但是，你可能會注意到這個軟體最類似人類的行為是在自動駕駛汽車中。現在的無人駕駛設備經常在涉及到與人類駕駛員互動的複雜的場景中猶豫不決，例如轉盤和四向停車。如果我們不想讓它們冒不必要的風險，或者因為過於猶豫而堵在路中間，這些車需要習得更細微的駕駛技巧，比如在一群車輛中搶佔車位。

在巴塞羅那，Mobileye 展示了其高速公路並道程序。Mobileye 是一家以色列自動駕駛公司，它們構建的車輛安全系統被很多汽車製造商採用，包括 Tesla 汽車（參見「2016 年 50 個最智能化的公司」。在播放完車輛並道視頻之後，Mobileye 的技術副總裁 Shai Shalev-Shwartz 為我們描述了自動駕駛汽車會面臨的一些挑戰：在耶路撒冷的擁擠的轉角；在巴黎穿流如梭的路口；在印度地獄一般混亂的大街上。Shalev-Shwartz 說道：「如果一個自動駕駛汽車準確地按照法律行駛，那麼在交通高峰期，可能並道就得等一個小時。」

Mobileye 與寶馬、Intel 計劃今年年末合作在車輛上測試該軟體。Google 和 Uber 也均表示其正在自動駕駛汽車上測試增強學習技術。

thumbnail 強化學習幫助 AlphaGo 在對陣人類圍棋冠軍時獲勝

強化學習正在被應用于越來越多的領域，專註於強化學習方法的斯坦福大學副教授 Emma Brunskill 如是說。她說該方法非常適合自動駕駛汽車，因為它使「一連串好的決策」成為可能。如果程序員必須把所有的決策提前編碼到車輛上，自動駕駛的發展將會非常緩慢。

但是，還有其他的挑戰需要克服。百度公司的首席科學家 Andrew Ng 告誡我們，這種方法需要大量的數據，並且該方法的很多成果案例都基於計算機可以持續地在模擬環境中進行訓練。確實，研究員們還在尋找讓強化學習在擁有多個物體的複雜場景中起作用的方法。Mobileye 也需要調整協議，讓能夠熟練躲避事故的自動駕駛汽車不會導致交通事故。

至少目前來說，當你看到那個稀奇古怪的並道演示，似乎證明了這家公司已經取得了成功。今年年末，也許就在你平常會路過的高速公路上，應用了強化學習的自動駕駛車輛將會迎來迄今為止最具有戲劇性，也最為重要的一場測試。

查看英文原文：

https://www.technologyreview.com/s/603501/10-breakthrough-technologies-2017-reinforcement-learning/

GIF

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI漫遊 的精彩文章:

※微軟程序歸納新技術：元程序歸納

TAG:AI漫遊 |