馬庫斯批判Hinton、吳恩達、LeCun等煽風點火！炒作將帶來AI寒冬

新聞 12-03

【新智元導讀】紐約大學心理學與認知科學教授、暢銷書作家加里·馬庫斯認為，在關於AI研究的新聞報道中，過度的宣傳和錯誤的信息將導致AI寒冬再來。而問題不僅出在媒體，研究人員和AI領軍人物持默許態度甚至煽風點火。你認同馬庫斯的觀點嗎？來新智元AI朋友圈和行業大咖討論吧～

「過度的宣傳和錯誤的信息將導致AI寒冬再來」，紐約大學心理學與認知科學教授、暢銷書作家加里 · 馬庫斯 (Gary Marcus) 最近在The Gradient上撰文，批評媒體在報道AI進展時常常傾向於將每一個微小的新進展描述為將從根本上改變我們的世界的巨大的勝利。

這類誇大的報道滿足了讀者的閱讀興趣，卻帶來了不容忽視的危害：如果公眾、政府和投資界認識到，他們被灌輸了關於人工智慧的不符合現實的觀念，那麼新一輪的AI寒冬可能就會開始。

並且，這一切已經有預兆，包括聊天機器人、醫療診斷、假新聞檢測器、自動駕駛汽車等等，過度的承諾往往導致了項目本身的死亡。

馬庫斯批判Hinton、吳恩達、LeCun等煽風點火！炒作將帶來AI寒冬

但過度炒作AI的問題不僅出自媒體和大眾，馬庫斯表示，許多AI領域的領軍人物也在煽風點火。

AI誇大報道泛濫，研究人員默許甚至煽風點火

無論是人工智慧還是納米技術，媒體常常傾向於在報道每一個微小的新進展時，描述為一次巨大的勝利，將很快從根本上改變我們的世界。當然，偶爾也有新發現被低估。晶體管剛出現時並沒有掀起多大的波瀾，也沒有多少人一開始就意識到互聯網的全部潛力。但對於晶體管和互聯網，有很多小的結果是被誇大了的，有很多產品和想法從未兌現，像冷聚變這樣的所謂進步還沒有被複制，在死胡同里進行的實驗最終也不會改變世界。

馬庫斯批判Hinton、吳恩達、LeCun等煽風點火！炒作將帶來AI寒冬

晶體管

當然，部分原因是因為公眾喜歡革命性的故事，對報道微小進步的新聞哈欠連連。但研究人員往往是同謀，因為他們過於依賴宣傳，而這會對他們的研究資金甚至薪水產生重大影響。在很大程度上，媒體和相當一部分研究人員都對這種現狀感到滿意，有源源不斷的結果一開始被過度宣傳，然後被悄悄遺忘。

讓我們來看看過去幾周的三個獨立結果，這些結果被主流媒體以從根本上就具有誤導性的方式報道出來：

11月24日，《經濟學人》發表了一篇對OpenAI公司的GPT-2句子生成系統的採訪，誤導性地說GPT-2的答案是「未經編輯的」，而實際上，每一個被發表的答案都是通過連貫和幽默性過濾器從五個選項中選擇的。這讓公眾認為對話式AI已經比實際要近得多。這種印象可能在不經意間被進一步加深，AI領域的權威專家Erik Bryjngjolffson在推特上說，這篇採訪「令人印象深刻」，「GPT-2的答案比許多人的回答更連貫」。而事實上，這篇採訪令人印象深的的連貫性來自(a)該系統所使用的大量人類文字；(b)人類記者對連貫性的過濾。了解到這一點後，Brynjjolffson發了一則更正，但與本文的主題一致，轉發他的原始推文的數量與轉發更正的數量是75:1——表明強調AI勝利卻具有誤導性的新聞要比清醒的消息傳播得更快。
OpenAI創建了一個神經網路系統，讓機器人學會操縱一個定製的魔方，並通過有誤導性的宣傳視頻和博客讓許多人認為該系統已經學會了在認知方面解決魔方，實際並非如此。(相反，除了靈巧性之外，解魔方的計算是通過1992年發明的一種經典的、符號操縱的解魔方演算法來完成的，這種演算法不是後天習得的)。在這段廣為流傳的視頻中，另一個不那麼明顯的事實是，這個魔方裝有藍牙感測器，而且即使在最好的情況下，其成功率也只有20%。媒體報道往往忽略了這些細微差別。例如，《華盛頓郵報》報道稱，「OpenAI的研究人員表示，他們並沒有明確地編程機器來解決這個難題」，而這起碼是不清楚的。《華盛頓郵報》隨後發表了一則更正——「更正：OpenAI將他們的研究重點放在使用機械手物理操作魔方，而不是解決魔方難題…」——但顯然讀到這則更正的人遠遠少於那些閱讀了誤導性的原始故事的人。

馬庫斯批判Hinton、吳恩達、LeCun等煽風點火！炒作將帶來AI寒冬

三體問題

最近，至少有兩篇關於神經網路在物理學中的應用的論文被誇大報道了，包括一些著名媒體。兩個事件中，解決複雜問題的玩具版本的神經網路被誇大。例如，一篇報道稱「神經網路解決了三體問題，比傳統方法快1億倍」，但該網路並沒有經典意義上的解決方案，而是進行了近似，並且僅近似了一個高度簡化的二階自由問題(而不是傳統的10階)，並且僅限於具有相同質量的物體。最初的誤導性報道在網路上廣泛傳播，隨後，Ernest Davis和我本人在Nautilus上寫了一篇詳細評論受到廣泛關注，但以轉推量作為粗略的衡量標準的話，閱讀原始新聞的人與閱讀更冷靜的分析的人的比例還是75:1，甚至更懸殊。

不幸的是，過度炒作AI的問題已經超出了媒體本身。事實上，自AI誕生以來的幾十年里，許多(當然不是全部)AI領域的領軍人物都在煽風點火。

這可以追溯到早期的創始人，他們認為我們現在可以稱之為通用人工智慧(AGI)的時間不會超過幾十年。1966年，麻省理工學院(MIT)人工智慧實驗室給Gerald Sussman布置了一個著名的任務：在一個夏天內解決視覺問題；眾所周知，機器視覺在50年後仍然沒有得到完全解決。在第一個樂觀的預測發布60年後，通用AI似乎仍需要幾十年的時間。

這種趨勢當代仍在繼續。以下是一些近期AI歷史的例子，來自一些最著名的人物：

在2015年接受《衛報》採訪時，被廣泛譽為「深度學習教父」的Geoff Hinton熱情表示谷歌採用類人智能的機器學習新方法「幫助克服了人工智慧的兩個主要挑戰：掌握自然的對話語言以及實現邏輯跳躍的能力」，並且該公司「即將開發出具有邏輯、自然對話能力的演算法」。這篇採訪題為「谷歌向開發具有類人智能的機器邁進了一步」，然而四年後，我們距離能夠進行自然對話而無需人工干預、確保連貫性的機器還有很長的路要走，也沒有現成的系統能夠可靠地對物理世界進行推理。大約一年後，Hinton聲稱，放射科醫生就像「已經在懸崖邊緣但還沒有向下看的狼」，建議「如果你做放射科醫生，就像動畫片裡面的歪心狼懷爾(Wile E. Coyote)，你已經在懸崖的邊緣了」。他補充說：「我們現在應該停止培訓放射科醫生。很明顯，在五年內，深度學習將比放射科醫生做得更好。」Hinton在2017年接受《紐約客》採訪時進一步回應了這一說法。與此同時，數百家放射學公司帶來了無數種深度學習技術，但到目前為止，還沒有真正的放射學家被取代。最好的猜測是，深度學習可以增強放射學家的能力，但不能在短期內取代他們。Hinton的話嚇壞了許多放射科的人。後果可能是消極的；目前在世界的許多地方放射科醫生都是短缺的。

2016年11月，在《哈佛商業評論》上，另一位深度學習領域的知名人物吳恩達(Andrew Ng)寫道：「如果一個普通人用不到一秒鐘的時間就能完成一項智力任務，那麼我們可能在現在或不久的將來就可以用AI實現這一任務的自動化。」一個更現實的評估是，某件事是否可以自動化在很大程度上取決於問題的性質、可以收集的數據以及兩者之間的關係。對於像桌面遊戲這樣的封閉式問題，可以通過模擬來收集大量的數據，吳恩達的觀點已經被證明是有預見性的；但在無法完全模擬的開放式問題中，例如會話理解，吳恩達的觀點至少到目前為止被證明是錯誤的。商業領袖和決策者最好能夠了解哪些問題適用於目前的技術，哪些不適用；吳恩達的話掩蓋了這一點。

2015年5月，《連線》雜誌根據對時任Facebook人工智慧研究主管Yann LeCun的採訪，報道稱「『深度學習』將很快給我們帶來超級智能機器人」。不用說，超級智能機器人還沒有到來。正如Pieter Abbeel最近指出的那樣，從實驗室演示到讓機器人在現實世界中表現出智能，還有很長的路要走。

與此同時，那些自己工作被歪曲的研究人員的反應往往是沉默，甚至是默許。Open AI的首席科學家llya Sutskever在推特上說：「《經濟學人》採訪了GPT-2，這次採訪很有意義。」當我問他，在了解《經濟學人》採訪中的例子是人工選擇的之後，他是否堅持自己的評論時，他沒有回答。

一個多月前，OpenAI的首席技術官Greg Brockman親自挑選了自己，他在推特上說：「一篇GPT-2寫作的文章已提交給《經濟學人》青年寫作競賽…一位不知道該文章是由AI寫作的評委給出了這樣的評論：「措詞有力，並用證據支持了主張，但這一想法並非具有獨創性。」他沒有注意到的是，其他一些評委對同一篇文章持相當否定的態度。例如，文章「沒有足夠快地抓住要點；觀點不是新穎，太含糊，修辭問題過多」（評委2），而另一位評委指出「這篇文章沒有從根本上回答問題，也沒有提出新穎的想法，寫作/結構也不是特別好。此外，我認為文章並沒有表明對現有氣候政策或IPCC出台的科學文獻的深刻理解。」（評委6）。

研究社區的其他習慣進一步證實了不準確的「人工智慧就在我們身邊」的說法。例如，DeepMind經常寫一些文章，熱情洋溢地談論某項工作的潛力，但缺乏有關潛在限制的章節，而這些章節是大多數嚴肅科學工作的結論部分的主要內容。相反，他們常常通過推論來表明他們正在努力解決問題和重大挑戰，暗示他們使用的技術應該解決其他重大挑戰——而不考慮其他問題，如自然語言理解，這與他們一直關注的遊戲問題有很大的差異。他們發表在《自然》(Nature)上的有關AlphaGo和星際爭霸(StarCraft)的論文都遵循了這一策略，基本上沒有討論潛在的限制。

幸運的是，並不是該領域的所有人都誇大了自己的工作；在過去一年左右的時間裡，我看到了Pieter Abbeel和Yoshua Bengio的精彩而平衡的演講，他們都指出了深度學習(和深度強化學習)做得很好，但同時也明確指出了未來的挑戰，並坦率地承認我們仍有很遠的路要走。(Abbeel強調了實驗室工作和機器人在現實世界中工作之間的差距，Bengio強調了因果關係的必要性)。我只是希望這些是常態而不是例外。如果不是這樣，政策制定者和公眾很容易就會感到困惑；由於這種傾向於誇大而非低估結果的報道，公眾開始擔心在可預見的將來AI會取代許多工作，而這不會發生。

新的AI寒冬早有徵兆：聊天機器人、醫療診斷等項目「死亡」

為什麼從業人員應該關心？畢竟，對AI的炒作給每個人都帶來了好處，不是嗎？公眾的熱情意味著更多的資金投入研究，更多的人致力於人工智慧；如果有更多的錢和更多的人，我們將更快地實現通用人工智慧。有什麼危害呢?

我認為這是「公地悲劇」(the tragedy of the commons)的一個版本，例如，許多人在某一特定水域過度捕撈，在短期內為他們自己生產了更多的魚，直到整個魚類種群崩潰，所有人都要受苦。人工智慧的風險在於：如果公眾、政府和投資界認識到，他們被灌輸了一種關於人工智慧優勢劣勢的不符合現實的觀念，那麼新一輪的AI寒冬可能就會開始。(第一次AI寒冬是在1974年，之前經歷了一輪炒作和失望的周期。)

我們已經看到了多個事後看來可能是預兆的事件：

聊天機器人：2015年，Facebook承諾推出一款名為M的系統，將徹底改變智能助理的工作範圍。打造他們想要的東西的AI在當時並不存在，但這個項目被認為是一個數據遊戲；人類將回答第一批問題，然後深度學習將處理剩下的問題。到2018年，該項目被關閉。總體來說，2015年時人們對聊天機器人的熱情很高；現在，人們普遍認為，目前的AI只能處理有限的對話，即使這樣也沒有完全的可靠性。他們做出了承諾，但沒有兌現。

馬庫斯批判Hinton、吳恩達、LeCun等煽風點火！炒作將帶來AI寒冬

Facebook虛擬助理M在2018年被關閉

醫療診斷：IBM Watson過度承諾，最終由於令人失望的結果，MD安德森癌症研究所等醫療合作夥伴退出；現在，人們普遍認為，讓Watson進行醫學診斷的項目是一種過度的承諾。考慮到DeepMind非凡的數據訪問能力和龐大的計算和智力資源，許多人一開始都以為它會涉足醫療診斷。但現實情況是，目前也沒有什麼令人信服的東西出現(DeepMind的醫療部門已經轉移到谷歌)。即使在更簡單的放射學案例中，它主要是關於感知的而不是關於推理，對自然語言理解的要求更小，將實驗室演示付諸實踐也被證明是困難的。

馬庫斯批判Hinton、吳恩達、LeCun等煽風點火！炒作將帶來AI寒冬

放射科醫生檢查結果

假新聞檢測器：2018年4月，馬克·扎克伯格向國會表示，人工智慧將在5到10年內解決Facebook最棘手的問題，包括虛假新聞、仇恨言論、歧視性廣告和恐怖主義宣傳等。但到今年5月，Facebook首席技術官Mike Schroepfer放棄了在短期內取得重大進展的承諾。
無人駕駛汽車：很多人都期望到2020年實現完全自動駕駛的目標(Elon Musk曾承諾)，但該領域普遍的共識是，除了在有限的條件下（例如理想的天氣，行人極少的情況，詳細的地圖等），全自動駕駛的難度比大多數人的預期要困難得多。

馬庫斯批判Hinton、吳恩達、LeCun等煽風點火！炒作將帶來AI寒冬

Waymo的自動駕駛車

現在，政府、大公司和風險投資家正在對人工智慧進行大規模投資，主要是深度學習；如果他們開始察覺到一種過度樂觀的模式，那麼整個領域可能都會遭殃。如果無人駕駛汽車和對話機器人只晚一兩年出現，沒問題，但在無人駕駛汽車、醫療診斷和對話人工智慧方面，實現的日期越晚，新的AI寒冬的風險就越大。

研究論文「局限」部分需要提出的六大問題

到目前為止，關於AI的錯誤信息很普遍。雖然誇大報道並不是到處都是，但即使是知名媒體也經常歪曲結果；企業的利益經常導致這個問題。個別的研究人員，甚至一些最傑出的研究人員，有時也會這樣做，而當他們的研究結果被誤解時，更多的人只是靜靜地坐在一旁，不去公開澄清。

錯誤的信息並不是無處不在的——一些研究人員直言不諱地指出研究的局限性，一些報道準確地描述研究結果，誠實地承認局限性；但是把每一個漸進性的進步都解釋為革命性的突破，這一趨勢普遍存在，因為人們都喜歡閱讀這類故事。

最終，其結果可能會削弱該領域，自相矛盾的是，在最初激發公眾興趣之後，反而引發了AI寒冬的到來。

在Rebooting AI一書中，Ernie Davis和我提出了6條建議，每一條都針對讀者、記者以及研究人員應該如何平等地評估他們獲得的每一個新結果，並在論文討論的「局限」部分提出同樣的問題：

除去這些花言巧語，AI系統實際上做了什麼？「閱讀系統」真的能閱讀嗎?
結果在多大程度上是普遍的？(在鳳凰城行之有效的駕駛系統在孟買也能工作嗎？解決魔方的系統能打開瓶蓋嗎？需要進行多少再訓練?)
有沒有一個demo，感興趣的讀者可以自己探索?
如果說AI系統比人類更好，那麼是哪個人類，好多少？
在特定任務上的成功能推動我們在構建真正的人工智慧上走多遠?
系統有多穩健(robust)？如果不進行大量的再訓練，它是否也能與其他數據集一樣有效呢？AlphaGo在19x19的棋盤上運行良好，但需要重新訓練才能在矩形棋盤上玩；缺乏可遷移性是很明顯的。
在每一篇研究報告和媒體報道的結尾處進行一點建設性的自我批評，雖然並不總是缺席，但卻經常被遺漏，這可能對保持現實的期望大有幫助。

馬庫斯批判Hinton、吳恩達、LeCun等煽風點火！炒作將帶來AI寒冬

作者介紹：加里·馬庫斯(Gary Marcus)是一位科學家、暢銷書作家和企業家。他是Robust.AI公司的創始人和首席執行官。他是機器學習公司Geometric Intelligence的創始人兼首席執行官，該公司於2016年被優步收購的。他是五本書的作者，包括 The Algebraic Mind Kluge、The Birth of the Mind、《紐約時報》暢銷書Guitar Zero，以及他最近與Ernest Davis合著的新書 Rebooting AI。

原文鏈接：

https://thegradient.pub/an-epidemic-of-ai-misinformation

寒冬里，這個最酷AI創新平台招人啦！新智元邀你2020勇闖AI之巔

在新智元你可以獲得：

與國內外一線大咖、行業翹楚面對面交流的機會
掌握深耕人工智慧領域，成為行業專家
遠高於同行業的底薪
五險一金＋月度獎金＋項目獎勵＋年底雙薪
舒適的辦公環境（北京融科資訊中心B座）
一日三餐、水果零食

新智元邀你2020勇闖AI之巔

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※Nature：中國科學家發現最大恆星級黑洞！有望開創黑洞發現新紀元
※華為美研所提出EnAET:半監督SOTA和同模型下全監督SOTA