人物 | 如何打造家用機器人：伯克利大牛Pieter Abbeel的故事

科技 09-23

機器之心發布

來源：AI Frontier

第三屆美國矽谷頂級人工智慧前沿大會（AI Frontiers Conference) 將於 2018 年 11 月 9-11 日在美國矽谷最高級別會議中心聖何塞會展中心盛大舉行。美國 AI 界領軍人物悉數出席。機器之心專屬折扣碼：P25SYNC。

許多人都希望有這樣一個機器人：能做飯、打掃房間、鋪床、扔垃圾以及把洗好的衣服都摺疊起來。絕大多數人只是在空想，但 Pieter Abbeel 是真的將這項任務視作他一生的目標。

這位加州大學伯克利分校的教授在 2002 年還是斯坦福大學的研究生時，加入了吳恩達的小組，並開始了這項任務。當時他的研究對象還完全不是機器人，而是自動駕駛汽車和直升機。

2004 年，Abbeel 發表了論文《Apprenticeship Learning via Inverse Reinforcement Learning》。他提出了一種通過觀察執行任務的專家來訓練機器人的新方法。他在模擬自動駕駛汽車時展示了這種方法的可行性。該論文後來被認為是他生涯中最重要的論文之一。

之後，他將學徒學習應用於直升機控制。Abbeel 和他的同學 AdamCoates 以及導師吳恩達一起成功地訓練了一架直升飛機，使之能在沒有人工監督的情況下進行航展。

Abbeel 在獲得博士學位後成為加州大學伯克利分校的助理教授。在接下來的 10 年裡，他就全身心投入他一直以來的夢想：研造家用機器人。

一個家庭機器人應該「多才多藝」才能夠應付各種各樣的家務事。你肯定不會想要 5 種不同的機器人：一個做飯，一個洗衣，一個洗碗，諸如此類。即使你的房子足夠大到可以容納 5 個專業機器人，你也可能會需要機器人做其他事情：把地板上的衣服撿起來，為你倒一杯咖啡，打開窗戶等等。

那我們如何才能建造全能機器人？如今的機器人專心完成一項任務都算得上是勉強。比如一個機器人需要花費數小時的訓練才能學會將手臂朝正確的方向移動來拿起一個杯子。

這種困難並不能阻止 Abbeel 朝他的夢想進發。他的第一個想法是利用「模仿」。一個人完成任務，然後機器人重複它。這樣可以節省培訓時間，也許可以讓機器人完成額外的工作。

2010 年，Abbeel 創建了 BRETT（全稱「消除繁瑣任務的伯克利機器人」），這個一個改造自 Willow Garage PR2 的機器人，配備相機和手柄。根據一系列基於規則的指示，BRETT 成為第一個可以摺疊成堆毛巾的機器人。通過這樣做，Abbeel 證明了家用機器人的硬體問題可以解決。

然後他把注意力轉向了軟體問題。機器人如何學會去進行一個任務？機器人如何學習做多個工作？

強化學習

Abbeel 一直被強化學習（RL）所吸引，這是一種機器學習方法，教導代理人通過獎勵和懲罰來做正確的行動。這種學習方法假定代理與其環境交互，從而為機器人的行為提供反饋。

一個簡單的例子是經典的老虎機問題：不同的老虎機為你提供不同的收益。你很快就學會了：拉動搖桿來獲得最高的回報。這被稱為多臂強盜問題。一個更複雜的例子是玩視頻遊戲。通過嘗試不同的動作，如射擊和躲閃，你可以獲得不同的分數，並學會更好地玩遊戲。

強化學習對於訓練機器人很有效，因為機器人需要通過移動，抓取，摺疊或做其他動作來與世界互動。如果機器人收到獎勵，它可以更頻繁或更正確地執行該操作。

Abbeel 在他的大多數研究中都用到強化學習。以 BRETT 為例，它的車載攝像頭可以精確定位前方的物體，以及自己的手臂和把手的位置。通過反覆試驗，它學會調整鎚子的位置，並將角度調到正確的位置來拔出釘子。

深度強化學習

強化學習的缺點是環境複雜。為了描述任務、房間或遊戲，我們必須列舉所有位置、所有不同角度和不同情況。如果我們將每個獨特的情況稱為一個狀態，那麼對於一個簡單的任務，狀態的數量將為數千或數萬。

機器人如何快速總結當前狀態並快速地學習？深度學習是一個最好的解決方案、深度學習於 2012 年開始流行，當時它被證明可以有效地對「貓」（ICML 2012 中展示）和 AlexNet 論文（在 NIPS 2012 中展示）中的圖像進行分類。深度學習採用原始圖像像素並將它們概括為幾個類。因此，它使我們無需手動識別圖片或環境中的重要「特徵」。

因此，將深度學習應用於與其環境相互作用的機器人是很自然的。這裡深度學慣用於總結不同的狀態。機器人仍然可以使用強化學習來決定動作。

2013 年，通過將深度學習與強化學習相結合，機器人可以玩 Atari 遊戲了，並在 2016 年與人類圍棋高手一起對抗。深度強化學習領域就這樣誕生了。

Abbeel 的貢獻是他首先將深度強化學習應用在機器人身上。他非常熱衷於此，並在 NIPS 2016 上通過提供了一個叫 DeepReinforcement Learning through Policy Optimization 的教程。它仍然是最受歡迎的深度強化學習教程之一。

雖然深度強化學習教會機器人很好地完成任務，但它並不能衍生為多個任務。換句話說，機器人學會做五秒鐘的動作。但是，一個花費五秒鐘的技能和一個話費一天時間的技能非常不同，這是一個機器人在房子里漫遊，執行不同的家務所需要的。這是元學習是必要的。

元學習：推廣學習新任務

元學習是從多個任務中學習並將學習應用於新任務。它也被稱為「如何學習學習」。

在 2017 年的 NIPS 大會中，Abbeel 和 OpenAI 和加州大學伯克利分校的研究人員通過元學習提出了 One-Shot Visual Imitation Learning viaMeta-Learning，該學習將元學習與一次性學習相結合，該系統只需要觀察 1 個演示，然後就可以為新任務產生正確的動作。

Abbeel 和他的團隊進一步發明了 Simple Neural Attentive Learner（SNAIL）並在 ICLR2018 做了論文展示中。這是一個在單個深度神經網路中實現的元學習者。該網路將序列與序列學習與軟關注相結合，使機器人能夠記住不同任務的背景。

其他研究活動

作為一名加州大學伯克利分校的教授，PieterAbbeel 享有最頂尖的人才資源，許多有才華和勤奮的研究生和他一起合作。如今，他正在指導 25 名博士和博士後。以及 25 名本科生。以下是他的團隊正在研究的其他研究。

終身學習

機器人需要不斷適應不同的任務和不同的情況。終身學習是連續應用元學習並進行泛化的一項技術。在兩個蜘蛛機器人相互戰鬥的實驗中，研究員表明連續自適應機器人最終獲勝。這篇論文一作是 CMU 的 MaruanAl-Shedivat，並且與 Abbeel 所屬的 OpenAI 研究員共同完成。

利用模擬訓練機器人

學習過去的經驗

這個方法被稱為 Hindsight Experience Reply（HER）。我們可以將獎勵傳播回過去的所有操作，並創建重播，而不是等到機器達到最終目標才更新模型。在重播中，每個中間獎勵被視為最終獎勵。因此，我們可以在每個中間步驟（狀態）中更新學習功能並更快地學習。這減少了學習所需的數據。

Pieter Abbeel 正在實現他夢想的道路上：創造一個真正的家用機器人。也許在不遠的將來，家裡的機器人會把吃剩的盤子端走，為你做飯。當你表示讚賞時，機器人搖搖頭微笑，「不需要感謝我。我只是 Pieter Abbeel 的學徒。」

Pieter Abbeel 將在 2018 年 11 月 9 日於加州聖何塞舉辦的 AI Frontiers 大會的視頻理解單元上發言。

AI Frontiers

大會演講嘉賓

AI Frontiers 大會彙集了人工智慧界最頂尖的思想領袖，將為參會者展示最前沿的研究和產品。今年，AI Frontiers 大會的發言人包括：OpenAI 創始人 Ilya Sutskever，Google AI 副總裁 Jay Yagnik，創新工場的首席執行官李開復，iRobot 高級副總裁 Mario Munich，Google Brain 研究員 Quoc Le，加州大學伯克利分校教授 Pieter Abbeel 等。

點擊「閱讀原文」，查看大會官網信息。機器之心讀者限時特別優惠折扣碼：P25SYNC

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※「讀心術」真的來了？AUT新研究惹爭議
※ECCV 2018 | 曠視科技提出統一感知解析網路UPerNet，優化場景理解

TAG:機器之心 |