對話Gary Marcus：人工智慧還未找到它的牛頓，我們不能依賴它

科技 02-11

機器之心原創

機器之心（海外）編輯部

作者：

Herin、Tony

Gary Marcus，他是一名成功的科學家、暢銷書作家、企業家，以及 Geometric Intelligence (被優步收購的機器學習初創公司) 的首席執行官和創始人。作為一名作家，他經常為「紐約客」和「紐約時報」撰稿，並且是四本書的作者。作為紐約大學心理學和神經科學教授，他在人類和動物行為、神經科學、遺傳學和人工智慧等領域發表了大量文章，並經常刊登在 Science 和 Nature 等期刊上。

在這次的採訪對談中，Gary Marcus 與機器之心 (Synced) 開展了關於深度學習以及人工智慧整體發展的談話。

（以下為對話原文，機器之心做了不改變原意的整理。）

您能總結一下您 2018 年的研究工作嗎？

我在 2018 年最重要的工作是寫了一系列論文，概述了深度學習的局限性。人工智慧現在的大體狀況，我認為並不像大多數評論所說的那樣。我寫的兩篇主要文章一篇叫做《Deep Learning: A Critical Appraisal》，另一篇是《Innateness, AlphaZero, and Artificial Intelligence》。它們都可以在 arXiv 上免費閱讀。第一篇已被廣泛閱讀，我認為 AI 領域的每個人似乎對其持有意見。第二篇不太好讀，但我認為這一篇也很重要，值得一談。

第一篇試圖闡述深度學習的局限性，並指出了 10 個問題，主要是關於深度學習依賴大數據並且歸納能力不很糟糕的問題。第二篇文章是關於先驗知識以及其應該如何納入 AI 系統中的問題。我想這是一種歷史重現，這個現象在人工智慧的早期就出現過。那時人們幾乎在所有的應用中試圖引入 AI，系統想從頭學習幾乎所有東西，但是幾乎沒有什麼效果。在這個領域存在一種錯覺，大家好像都認為只要從零開始學習就能實現真正的智能。這幾乎是所有人對 AI 領域的偏見。深度學習最近取得了不錯的成績，但人們必須了解這些結果是什麼以及有哪些限制。從根本上說，我認為實現智能和很多層面相關。我們已經構建了一些可以實現智能相關的系統，但是在很多其他方面，人類的表現遠比機器好。我們需要理解這是為什麼，因為它是解決方案的一部分。

如果用一個詞來描述過去一年的人工智慧發展，您會選擇哪個詞呢？

用一個詞來概括很難做到，但我想我會選擇「overhyped」（吹噓過頭/炒作過度）這個詞。

在過去一年中，您經常批判深度學習的局限性。您一直在與很多人爭論，尤其是大學教授或其他大公司的研究人員，特別是 Yann LeCun，請問您為何如此著迷於批判深度學習呢？

我與 Yann LeCun 的 Twitter 戰爭只是我所做的一小部分。我的背景是認知科學家。當我還是一個小孩的時候，我嘗試了計算機編程並對人工智慧感興趣。但後來我的畢業作品是關於人類認知研究的，其中部分原因是我覺得人工智慧並沒有取得多大進展。當我從人類認知發展的角度看待當前的人工智慧時，就會思考對於同一個問題孩子們是如何學習的呢？我有兩個孩子，一個四歲，一個六歲。我對 AI 現在能做到的事情感到非常不滿意。因為沒有 AI 能像我四歲或六歲的孩子那樣聰明。雖然 AI 確實可以在某些任務上表現良好，但是任務範疇實際上非常狹窄。每天我都將白日里觀察到的工作中 AI 的狀態與晚上在家時我孩子們的狀態進行對比。我認為深度學習是被過度炒作了。作為認知科學家，我也會從人類認知的角度去思考深度學習常用機制背後的原理，這些機制的好處我認為有很大一部分是讓人感到困惑的。

曾經有一個術語，我猜它可能來自古希臘人，稱為「合成謬誤」。它的意思是當你在一個案例中找到了一些正確的規律，然後你會自動認為這些規律在所有情況下都是成立，我認為這就是深度學習研究的現狀。很多學習哲學的學者通常使用一些不那麼正確的論證，而這正是哲學家所做的，並且其中一個讓論證變得不那麼正確的原因是由於過度概括。而深度學習，就是一個被過度概括的案例。如果人們發現某些方法適用於某些問題，並假設因為它適用於某些問題，所以它將適用於所有問題，那就是胡說八道。

事實上，我們可以系統地看待深度學習效用的問題。深度學習非常擅長圖像分類，非常擅長標記單詞，儘管並不完美，但表現已經非常好。不過深度學習不是很擅長理解場景。

你在推特上看到的一些辯論是由我發起的，因為我注意到這個領域正在發生變化，但是人們並不喜歡。因此，多年來我一直在說，深度學習是淺薄的，它自身並不能真實地反映出事物的運作方式或它們在世界上的作用，這只是某種統計分析。Yoshua Bengio 作為深度學習的先驅之一，也得出了相似的結論。所以我說，看看，Bengio 說的實際上和我在 2012 年所說的一樣。這就是真正牽扯出那一系列 Twitter 辯論的原因。

而且我認為這對幾個方面都很有啟發性，一個是關於 AI 領域如何運作的社會學。現在像 LeCun 等人基本上基於我個人資格來攻擊我，而不是基於我的論證。這絕不是一個好兆頭。我認為當人們在論證中發表觀點時攻擊的是對方而並不是反駁觀點，是因為他們沒有一個好的論據，我感覺我和 LeCun 的辯論就是這樣的情況。他也歪曲了我很多觀點，所以我在 12 月份在 Medium 上寫了一篇文章，指出了他歪曲我立場的地方。

我想表達的不是深度學習本身很糟糕，而是只有它本身還不足夠。因此，對於我剛剛概述的這些問題，例如深度學習對圖像分類是有益的，但對於其它問題來說並不是。我想到的一個隱喻是工具包，我認為將深度學習作為多種解決方案中的其中一種工具是很好的。我認為，如果沒有了其中一種工具，你就無法建造整棟房子。

那請問您現在與 Yann LeCun 的關係是什麼呢？

我認為我們是亦敵亦友。雖然當他歪曲我時，就會更傾向於敵人那部分，我不認為朋友應該互相歪曲。如果你觀看 2017 年我們在 YouTube 上的辯論，會看到我們當時相處得很好，之後還與一群人共進晚餐。我們聊了一整夜，很棒。但是我覺得他現在變得更傾向於一種戒備狀態，並且產生了一些攻擊性。我們確實在 12 月中旬進行了一些交流，當時我列出了我在 Twitter 上放出的我認為同意的觀點和不同意的觀點。

所以您是否曾在辯論中改變或調整過您關於深度學習的觀點呢？

你可以閱讀我在 2012 年在紐約客中寫的那篇文章。我想我仍然支持我在那裡所說的內容，基本上說的是深度學習是一個非常好的工具。這篇文章叫《Is「Deep Learning」A Revolution In Artificial Intelligence?》，我說深度學習對某些問題非常有效，但它對抽象、語言處理、因果推理等等方面並不是很有效。從這個意義上講，我認為我的立場沒有改變。

我認為人們對於如何利用深度學習非常聰明。這幾乎就像是你擁有的只是一把螺絲刀，但你可以嘗試將所有一切問題都轉化為一把螺絲刀可以解決的問題。人們一直很擅長這一點。例如，人們已經大量嘗試使用深度學習來使舊視頻遊戲具有更高的解析度，這是一個非常聰明的應用案例。深度學習中還有很多非常聰明的應用，這肯定會對世界產生很大的影響，但我認為它並沒有真正解決人工智慧的根本問題。

您是混合模型的不懈倡導者，混合模型利用了經典符號系統和深度學習的優勢。您能否給我們一些這方面的研究實例？

我不認為我想要的東西存在於 AI 中。我認為最好的例子實際上關於意識的泄露。所以如果你還記得 Daniel Kahneman 關於系統 1 和系統 2 認知的工作（https://bigthink.com/errors-we-live-by/kahnemans-mind-clarifying-biases），這有點類似。我們有不同的系統來解決不同的問題。他的版本是我們有一個自動工作的反射系統，以及一個通過推理工作的審議系統。你可以爭論其中一些細節，但我認為背後的一般直覺是正確的。我們談論的與心理學相關的另一件事是：自下而上的感知 vs 自上而下的感知。因此，任何心理學教科書都會告訴你，許多實驗也指向這個方向，那就是我們可以自下而上地感知、我們可以識別像素等。

但比如，我現在正在通過視頻會議看著你，如果你截取屏幕截圖，你的眼鏡中會出現一些小方塊。這些看起來像電腦屏幕的小矩形實際上是屏幕的映像。實際上，如果我能夠足夠仔細地觀察它們，我會看到我自己。但我也並不認為我存在於你的眼鏡里。如果基於自下而上的感知，像素點似乎與你眼鏡中的兩個 Gary Marcus 的圖像是一致的，但從我自上而下的感知認為這是不可能的。首先，除非我有一個長得完全相同的雙胞胎，否則不可能有兩個 Gary Marcus。然後他們坐在你的眼鏡里太小了，而且他們太模糊了。因此，對這件事的更好解釋是，它們是我無法看到的顯示器的反射倒影。我看到你，而不是顯示器。我把對這件事的解釋合併在一起。就眼鏡、反射、鏡子等實體而言，這更像是經典 AI，而不是像素的簡單分類。當然，我無法從數據中學到這一點。在你的眼鏡里，我的映像或其他什麼都沒有預先貼上標籤，所以我不能以同樣的方式做到這一點。

因此，神經科學或心理學或認知神經科學（不管是什麼名稱吧），它們都告訴我有不同的視覺途徑。我正在使用的當然有我從像素中獲得的所有信息，但我也同時運用了我對這個世界的認知，例如眼鏡是如何工作的、反射是如何形成的、人的大小等等，以便將所有信息都綜合在一起。然後我正在看著你，我試著做一個分析，『他正在點頭』。因此我認為他理解我在說什麼，或者如果他看起來很迷糊，那麼我會改變我的談話進一步解釋來解決對方的疑問。可我們現在沒有能夠做出這樣判斷的工具。我作為人類向你描述它的方式至少涉及概念，比如眼鏡和反射等概念，所以我認為可以將這兩個東西放在人工智慧中，就像它們在人類進化中融合在一起一樣。

如果你問我有沒有人知道一個非常好的代碼庫正在為他們的商業產品做著這方面的融合，答案估計是沒有。我想我們仍然需要做一些探索。我曾經寫過一篇關於神經科學還沒找到它的艾薩克·牛頓 (Isaac Newton) 的文章。這個觀點也可以擴展到 AI，我也不確定 AI 是否已找到它的艾薩克·牛頓。我們已經擁有了一些基本的機制體系和想法，但我們並不真正理解它。因此，人們實際在某種程度上編寫的代碼或幾乎所有人用 AI 寫的東西都是脆弱和狹窄的，它只適用於它所構建的環境，但無法去適應別的。而對於人類而言，專家可以適應各種與他們所看到的或他們所已知的內容略有不同的事物。即使不是專家，當我們進行對話時，如果我告訴你一些新聞和不尋常的事情，你也可以適應它。比方說我告訴你，有人從一個非常大的梯子上掉下來，你就會開始想像到這個場景發生的狀況，即使你從未真正置身於這種情況之中。

您認為最近哪些研究工作有著巨大潛力？

不能很精確的說吧，但是我認為有一些事情正朝著良好的方向發展，例如

圖網路

等。人們至少接受了這樣一個事實，即知識的結構不僅僅是一個很大的載體，而且是一長串的數字。我認為沒有人解決過這些問題，但至少他們現在正在努力認真地對待這些問題。這讓我們考慮到更廣泛的模型類型，我認為這就是我們需要的。

請問您 2019 年的研究工作重點是什麼呢？

我對機器人技術非常感興趣。關於這個我不會說太多。但是我認為機器人技術是一個很好的領域，因為它可以測試很多例如常識推理的想法，比如你如何推理世界運作的方式。如果你要建造一個人們幾十年來一直在談論的家用機器人，它可以在家裡自由行走，走到廚房走到客廳，它可以撿東西或者以各種方式幫助人們，那麼你必須深層次地了解這個世界，而不僅僅是處於膚淺的層面。

因此，深度學習的另一個問題是它通常可以在 80％的情況下起作用，然後在 20％的情況下產生奇怪的錯誤。當你推薦東西時，如果你使用的是推薦引擎或圖像標註，那麼成本非常低。如果我標記了一堆照片出現了一個錯誤，這可能沒什麼大問題。但即使是圖像標記，如果是在一個容錯率極低的場景設置里出錯那可能也會帶來很大問題。

家庭環境是最不希望出現差錯的地方。你不希望機器人碰到桌子上的蠟燭，然後著火。所以你必須讓人工智慧以可靠的方式運作。因此，我正在撰寫的書，或者說與 Ernest Davis 剛剛一起完成的書，是關於如何製作值得信賴和可靠的 AI 的。這需要讓機器擁有足夠的常識，它們可以通過行動後果來思考，這樣機器人才算是真正具備智能。

您對 2019 年人工智慧的發展有何期待？

我不期待任何巨大的進步，但巨大進展也是可能的。如果有大的進展，我們可能不會立即聽到它們，因為採納一個好主意並將其付諸實踐需要時間。因此，類似地，我期望在 2019 年，你能夠問 AI 系統更多、更廣泛的事情，比如亞馬遜的 Alexa 和蘋果的 Siri 等。很多這樣的企業今年沒有著重展開與機器的真實對話。但是有很多嘗試是在家庭環境里配備某種機器人，不過這些機器人現在還相對簡單和粗糙，但我們會看到這個領域之後的進展。我不知道我們是否會看到人工智慧發生重大改變，不過這是可能的。去年有足夠多的人認識到深度學習的範式是有局限的，也許有人會真正解決這個問題並想出一些新的東西。

您對中美之間開展人工智慧技術的競逐有何看法？如果美國計劃限制人工智慧出口，那將如何影響人工智慧的整體發展呢？

競逐已經開始了。中國做的事情比美國做得更多。我認為美國是更有歷史優勢的。美國具備更好的研究生教育體系，可以促進創造力和創新等。但是現在，美國有一位總統，他以自己的方式狹窄地專註於自己所認定的道路。他並沒有在培育科學和技術，這很不好。例如，我們一直在拒絕許多高質量的移民。擁有高質量移民是我們一直以來做得很好的原因之一。所以我認為，只要現任總統在任，我們就做得不好。另一方面，我認為目前中國的領導層對人工智慧非常感興趣，顯然是投入了大量資金。

在過去一年中，人工智慧出現包括數據泄漏、人才稀缺、模型偏見、可解釋性、執法等問題，您最關心哪一問題？能否就此問題說說您的看法？

我現在最關心的問題，也是我的新書將要涉及到的，是

AI 還不是真的可靠

。如果你在一個真正需要可靠性的任務中使用不可靠的東西，你會遇到麻煩。比方說用人工智慧分類人們的工作申請、控制武器或者人們可能會想到的任何應用場景。如果在這其中的 AI 並不可靠但我們卻依賴它，那麼我們就會遇到問題。我的基本觀點是，現在 AI 不可靠，這不是你可以在開放世界中使用的東西。我們現在擁有的最好的技術還屬於狹隘的技術，適用於非常具體的問題，例如規則永遠不會改變、你可以根據需求收集儘可能多模擬數據的場景。而當你把這些東西放到開放世界中，例如讓它們駕駛汽車，雖然它們也可以工作，但你不能真正依賴它們。

在某些情況下，人們無論如何都會使用到它們，並且可能導致事故和死亡。在某些情況下，我們可能會推遲 AI 被應用的時間點。還有一個次要問題是，人們可能實際上已經放棄了人工智慧，這由於一系列問題，比如構建聊天機器人和無人駕駛汽車等任務比炒作所說的要困難得多。但是我想很多人都認為我們到 2020 年將擁有無人駕駛汽車，可以將它們作為原型，但我們還不能指望它們。而且目前尚不清楚還要花多長時間才能達到真正可以依靠它們的程度。

因此，如果我們到了 2025 年，仍然需要人類進行演示，人們可能會厭倦人工智慧，或許會開始減少資金投入，誰知道會發生什麼呢？與此同時，如果有人說他們要在我家附近試行無人駕駛汽車，我會很擔心，因為我認為無人駕駛汽車還不值得信賴。它們大部分時間都在工作，但你不知道它們什麼時候就會做一些奇怪的事情。它們不會預先告知你，但就是這麼做了。