實現通用人工智慧還要多久?Hinton與AlphaGo之父這樣回答
作者 |Klye Wiggers
譯者 | 劉旭坤
責編 | 琥珀
出品 |AI科技大本營(公眾號ID:rgznai100)
人工智慧(AI)在即將過去的 2018 年進展神速,取得了很多令人矚目的成就,比如預測用戶感興趣的音樂、判斷腫瘤的轉移、生成腦瘤的核磁共振成像、自動根據視頻生成模型、面部識別、在象棋和 Dota 2 比賽中擊敗人類選手以及全自動駕駛汽車。麥肯錫全球研究院的研究人員預測如果照這個勢頭髮展下去,未來 12 年 AI 將佔據美國純經濟效益的 20% 至 25%(全球純經濟效益總額約為 13 萬億美元)。
以上這些成就跟科研人員對深度神經網路(DNN)的研究進展分不開。DNN 的主要思想是用數學方程來模擬人腦的神經元以及神經元之間用來傳遞信號的突觸,用它再組成深度網路的人工神經元。人工神經元在深度網路中分成多層,輸入數據則在層與層之間進行傳遞。這樣的結構使得人工神經元連接之間的權重能通過長期的訓練逐步得到調整,成千上萬次的訓練讓深度網路從輸入數據中提取出特徵,識別出數據樣本中的趨勢,並進行預測。
雖然距離 David Rumelhart 、Geoffrey Hinton 和 Ronald Williams 在他們的經典論文「 Learning Representations by Back-propagating Errors 」中提出用於調整人工神經元之間權重的反向傳播演算法僅僅過去了三十年,但藉助日益廉價而強大的硬體,反向傳播演算法還是讓 DNN 在計算機視覺、自然語言處理、機器翻譯、藥物分子設計和產品質量監測領域取得了飛速的發展。有些情況下 DNN 的表現甚至超越了人類專家。
通用人工智慧(AGI)面臨的挑戰
那麼,DNN 是否會是超級智能機器人成為現實的預兆嗎? 2010 年創立 DeepMind 的 Demis Hassabis 可不這麼覺得,而且他有自己的依據。DeepMind 有一個使命就是將神經科學與計算機科學的研究成果結合起來,並創造出能在任何任務中都超過人類的通用人工智慧。
12 月初,他在蒙特利爾舉辦的 NeurIPS 2018 大會上表示,要實現通用人工智慧恐怕要走的路還很長。「棋類遊戲和電子遊戲的狀態變換有規則可循,而且很容易學習,所以某種程度上說棋類遊戲和電子遊戲很簡單。但現實 3D 環境和現實世界本身都複雜得多……」
Hassabis 是國際象棋神童。他畢業於劍橋大學,也曾在倫敦大學學院、麻省理工大學和哈佛大學學習神經科學研究自傳體記憶和情景記憶。他畢業之後也曾作為程序員參與過遊戲《主題公園》和《黑與白》的開發。Hassabis 於 2010 年成立了 DeepMind ,僅三年之後就發布了能不藉助額外信息通關「雅達利遊戲」的 AI 系統。
2016 年,AlphaGo 擊敗圍棋頂尖高手李世石,讓這家被谷歌斥資 4 億英鎊收購的 DeepMind 聲名鵲起。目前,DeepMind 下屬的 DeepMind Health 與倫敦大學學院醫院合作開發的 CT 圖像分割模型表現也已經與人類醫生接近。DeepMind 所開發的 AlphaFold 更是在第 13 屆蛋白質結構預測比賽中勇奪桂冠,預測出了 43 種蛋白質之中 25 種的精細結構。本月,DeepMind 還在自然雜誌上發表了論文介紹它所開發的 AlphaZero,據稱 AlphaZero 能在國際象棋、圍棋和日本將棋比賽中擊敗所有人類高手。
雖然 DeepMind 所開發的系統看似已經非常強大, Hassabis 卻說談通用人工智慧的實現還為時過早。人類與人工智慧的區別在於,人類能夠從身邊的環境中獲取知識用於自己行動的規劃和預測。所以即便與棋類遊戲的新手相比, AlphaGo 和 AlphaZero 所能獲取的信息也不算多。
Hassabis 表示:「對機器來說想學會打遊戲得先學會看見東西,所以機器學起東西來比人慢很多。人打遊戲時很快就能判斷歸納出碰到什麼東西應該做出什麼樣的動作。」
讓 AlphaZero 擊敗人類需要將其訓練約 70 萬次,每一次訓練則包括 4096 種不同的棋局。即便訓練 AlphaZero 的系統裝備了幾千個谷歌為機器學習專門優化過的晶元,訓練時間仍長達數小時乃至數天(國際象棋需要約 9 小時,日本將棋要訓練約 12 小時,圍棋則需要 13 天)。
今年夏天,Elon Musk 、 Reid Hoffman 和 Peter Thiel 成立的 OpenAI 所開發的 OpenAI Five 在 Dota 2 比賽中必敗了由五名專業選手所組成的隊伍。OpenAI 在博客中表示,訓練 OpenAI Five 使用了谷歌雲平台上 256 塊 Nvidia Tesla P100 顯卡和 12 萬 8000 個處理器。每天的訓練量都相當於玩了 180 年的遊戲 ( 80 % 的時間和自己對戰, 20 % 的時間和舊版 OpenAI Five 對戰)。然而即便經過如此漫長的訓練,OpenAI Five 所學到的技巧也很難應用於別的任務。
Hassabis 還說:「我們目前所開發的系統很難將一個領域裡所習得的知識應用於其他領域。我認為,要實現知識的轉移,模型必須有理解抽象概念或提取知識的能力。訓練機器一步一步玩遊戲很容易,但我們的目標是讓系統擁有生成模型的能力,這樣才能有在其他領域裡規划行動的能力。」
除了任務過於單一,多數的 AI 系統的可擴展性也較差。AlphaZero、AlphaGo 和OpenAI Five 都使用了強化學習的編程範式,讓 AI 能在棋盤或 MOBA 中規劃自己的行動以獲取最大化獎勵。強化學習的思想有點類似於操作條件反射實驗中所使用的「斯金納箱」——當箱子中的動物對外界的聲光等刺激做出反應時,比如按下了操縱桿,它就能獲得食物或者水作為獎勵。
Geoffrey Hinton 曾被人稱為「深度學習教父」,他已經在 AI 領域深耕了 30 年。現在他同時在多倫多大學和谷歌的深度學習研究團隊里工作。除了在 DNN 方面的貢獻,他也在機器學習、感知、記憶和符號處理領域發表超過 200 篇論文。最近他把注意力轉向了旨在提升神經網路預測穩定性的膠囊神經網路。
Hinton 表示強化學習的獎勵信號往往是「微弱」的,這導致代理有時難以在隨機數據中找到合適的模式,這就是所謂「嘈雜電視問題」。他說:AI 所擁有的信息非常有限,所獲得的反饋也非常少,但卻要用這些有限的信息來調整幾百萬甚至幾十億個參數,那你只能可勁訓練了。現在這些深度學習應用看起來效果都不錯,但都是建立在大量訓練的基礎上,不過我覺得這條路不太對。」
憑藉自己幾十年的研究經驗,Hinton 認為要解決強化學習的擴展性問題,主要在於通過分層結構來實現對反饋信號的增強。「比如說有一家很大的企業,這個企業的反饋信號由職位最高的 CEO 來接收,雖然信號很強但是每一個季度才有一個信號進來,這對於調動整個企業所有人員的積極性很不利。不過如果 CEO 有幾個副手他就能給這些副手設定一些小目標來最大化自己的獎勵,這樣企業有更多利潤,副手也獲得了獎勵。」
這種架構下,即使暫時沒有獲得獎勵(也許是 CEO 傳遞給了副手一個錯誤信號),這種信號反饋也會持續循環。而副手們總是能學到一些東西,只是這些學習到的未來可能會用得上。
「把目標細分成子目標或者小目標相當於創造了很多的反饋信號,這樣就可以實現反饋信號的增強。」細想起來這一過程非常複雜, CEO 的副手們需要向自己的下級傳達這些小目標,而員工們也需要能夠判斷自己的行動是否正確,因為只有這樣他們才能理解自己受獎勵的原因。要實現這些溝通,上下級之間需要一種語言系統。
Hinton 說:「簡言之,在這一套系統中,模塊可以為其他模塊設立子目標。我可以把它想像成牧羊人和牧羊犬的關係,雖然牧羊犬不會說話,但訓練有素的牧羊犬可以和牧羊人實現高效溝通。但如果牧羊犬自己還有下級牧羊犬,那麼它就必須能夠向下級牧羊犬傳達來自牧羊人的指示。」
最近出現的 Transformer 模型可能就是解決這一問題的關鍵。谷歌的研究人員去年發表了名為「 Attention Is All You Need 」的論文來介紹名為 Transformer 的新型網路架構,新架構在機器翻譯上的表現超越了目前出現的所有模型,而且訓練模型所需的時間較短。
今年 11 月,谷歌又在 Transformer 模型的基礎上發布了開源的 BERT 模型。BERT 的核心思想是通過對語料集中可能出現的任務進行預訓練來學習不同語言句子之間的關係。使用 BERT 模型只需要一個 TPU,訓練 30 分鐘就能生成一個表現不輸其他演算法的自然語言處理模型。使用一個普通顯卡也只需要訓練個把小時。
Hinton 解釋道:「目前的神經網路調整權重的速度與數據的變化速度比起來太慢了。從生物學研究中我們知道,神經元之間突觸的傳遞可以有不同的速度,這樣才能實現記憶和對記憶的提取。Transformer 模型則相當於在神經網路中實現了路由功能:神經元不只是把信息簡單地傳遞給所有與之相連的神經元,而是只傳遞給可能知道如何處理這些信息的神經元。」
Hinton 還指出 Transformer 模型的思想其實早已經有人提出來了。上世紀七十年代的模型都著重於通過調整權重增加模型的記憶功能來避免反覆從存儲介質中讀取數據。他說:「其實信息並沒有真的存儲在模型中,而是模型具有根據所獲取的部分信息來恢復所有信息的能力,就好像用幾塊骨骼化石就能復原出整個恐龍的樣子。我們之前只在長期記憶中使用了這種方法,而我認為如果能在短期記憶也使用這種恢複信息的方法,那麼一切問題都能迎刃而解。」
AI 與偏見
Hinton 認為 AI 照著模擬人腦這個路子發展下去的話,那麼未來一定是無監督學習的天下。無監督學習是機器學習的一類方法,它之所以被稱為無監督學習是因為所輸入的數據既沒有標記也沒有分類,這與人類學習歸納特徵和識別特徵的途徑是一致的。他說:「我們人類學習的時候數據從來沒有被標記,當人類遇到一個情景的時候可沒人往你腦子裡插個電極給你發信號。我認為這是一種跟符合生物學意義的學習方式……這是大腦正在做的事情。」
Hassabis 也對 Hinton 的看法表示同意。他說:「我們在 DeepMind 正試圖理解實現通用人工智慧都需要哪些認知能力,比如說知識的轉移、抽象知識的理解、創造性、想像力、反事實思維、對未來的規劃、語言的運用和符號推理這些人類做起來毫不費力的工作。」
隨著 AI 日趨強大,有科技專家和倫理學家憂慮 AI 可能會吸收現有訓練數據中存在的偏見並反映在預測結果中。這並不是杞人憂天,因為其實有些偏見已經顯現出來了。
谷歌的 AI 研究人員日前發布了一個用免費開源數據集訓練過的照片標記模型。輸入一張穿著婚紗的西人女子照片,模型輸出的標記是「婚紗」、「女士」、「婚禮」和「新娘」這類詞。輸入身著傳統服飾的東方新娘照片輸出的則是「衣物」、「活動」和「表演」這類詞,模型甚至根本沒注意到照片里的人。
華盛頓郵報今年 7 月發起的一項研究顯示,亞馬遜和谷歌推出的智能音箱在語音識別準確率上,對英語母語的人的口音識別正確率比非英語母語的人要高 30%。IBM 和微軟等公司使用 Switchboard 語料庫來衡量語音模型的錯誤率,該語料庫已經被證實偏向於美國某些特定的地區。
與語音識別相比,計算機視覺演算法在偏見上的表現也好不到哪去。一項 2012 年發布的研究顯示,Cognitec 推出的面部識別演算法識別黑人的準確率要比識別白人的準確率低 5 % 至 10 %。現在倫敦警方所使用的面部識別每次竟多達 49 個錯誤匹配。在今年夏天的亞馬遜 Rekognition 面部識別測試中,使用來自「公共資源」的25000 張照片進行訓練後,竟然在美國國會議員的照片測試中「識別」出了 28 名罪犯。
儘管有很多負面報道,Hinton 對 AI 的發展依然很樂觀。他認為 AI 有一項優勢就是它的靈活性,因此對數據中的偏見進行建模,並消除結果中的偏見並不是很困難的任務。他說:「數據中存在偏見的話,模型學到偏見也很正常。不過我們有多種方式來對數據中的偏見進行建模,之後從模型中去除偏見就易如反掌了。要去除人心中的偏見可沒這麼容易,偏見哪是說說就能消失的,在這一點上機器學習系統確實比人類優越得多。」
目前也確實出現了一些消除演算法中偏見確保 AI 公平公正的努力。今年 5 月 Facebook 發布了能夠探測 AI 演算法中人種、性別和年齡的偏見。埃森哲也發布了類似的工具來幫助開發人員探測和避免 AI 演算法中存在的偏見。微軟和谷歌年中也都發布了自家的偏見探測解決方案。IBM 今年秋季也發布了全自動的演算法監測工具 AI Fairness 360 。這款雲平台上的工具能夠幫助開發人員判斷 AI 預測的依據並推薦改正演算法中偏見的措施,比如調整演算法或增加數據。IBM Watson 和 IBM 雲計算平台最近也有一些糾正面部識別中偏見的措施。
Hinton 說:「強大的電腦硬體可以讓我們不用為了效率犧牲演算法的可讀性。相比運算效率上的犧牲,代碼的簡潔可能更重要,犧牲一些效率讓我們能夠完成消除演算法中的偏見,那麼效率上的犧牲也是值得的。」
AI 與就業
關於 AI 對就業問題的影響,Hinton 也表示非常樂觀。
「通用人工智慧這個詞聽起來好像機器比人強了,但其實並不是這麼回事。我認為谷歌助手這樣的 AI 系統只是幫我們人類來完成一些日常工作。」
研究機構 Forrester 的研究員認為,工作流程自動化和 AI 將會創造出能夠代替人類工作的數碼工人軟體,而明年美國 40 % 的企業都會開始使用數碼工人,美國 10 % 的工作崗位將會被自動化的軟體所取代。世界經濟論壇、普華永道和高德納諮詢公司甚至預測 2025 年全球將有 7500 萬工作崗位被 AI 取代。
Hinton 則對此持不同看法。他認為通用人工智慧對世界的認知遠不足以讓它能夠取代人類,而且這種情況短期內都不會有什麼改觀。 AI 只會成為提高人類生活水平的一種手段。他說:「未來的 AI 可能對你想做的事情和你個人的偏好都有相當的了解,而且它能夠幫助你完成一些事情,但這絕不等同於將你取而代之。你讓一個非常擅長自動駕駛的系統去替你去約會的話,後果可想而知。」不過他也表示,讓 AI 代替完成一些可能威脅到人類安全的工作是完全正確的。
「(人們)真正應該害怕的是坐上一輛不會告訴你它在做什麼的神經網路控制的自動駕駛汽車。」
TAG:AI科技大本營 |