驚人！頂會AI論文提出的400種演算法，94％的演算法」可復現性「存疑！

知識 02-17

導讀：在AAAI會議上，挪威科技大學計算機科學家Odd Erik Gundersen報告了一項調查的結果，調查針對過去幾年在兩個AI頂會上發表的論文中提出的400種演算法。他發現只有6％的研究者分享了演算法的代碼。

去年，加拿大蒙特利爾大學的計算機科學家們希望展示一種新的語音識別演算法，他們希望將其與一名著名科學家的演算法進行比較。唯一的問題：該benchmark的源代碼沒有發布。研究人員不得不從已公開發表的描述中重現這一演算法。但是他們重現的版本無法與benchmark聲稱的性能相符。蒙特利爾大學實驗室博士生Nan Rosemary Ke說：「我們嘗試了2個月，但都無法接近基準的性能。」

人工智慧（AI）這個蓬勃發展的領域正面臨著實驗重現的危機，就像實驗重現問題過去十年來一直困擾著心理學、醫學以及其他領域一樣。AI研究者發現他們很難重現許多關鍵的結果，這導致了對研究方法和出版協議的新認識。法國國家信息與自動化研究所的計算神經科學家Nicolas Rougier說：「這個領域以外的人可能會認為，因為我們有代碼，所以重現性是有保證的。但完全不是這樣。」上周，在新奧爾良召開的AAAI會議上，重現性（reproducibility）問題被提上議程，一些團隊對這個問題進行了分析，也有團隊提出了減輕這個問題的工具。

最根本的問題是研究人員通常不共享他們的源代碼。在AAAI會議上，挪威科技大學計算機科學家Odd Erik Gundersen報告了一項調查的結果，調查針對過去幾年在兩個AI頂會上發表的論文中提出的400種演算法。他發現只有6％的研究者分享了演算法的代碼。只有三分之一的人分享了他們測試演算法的數據，而只有一半分享了「偽代碼」。（甚至包括Science和Nature在內的期刊上發表的AI論文中也沒有代碼。）

針對主要會議上發表的400篇AI論文的調查顯示，只有6％的論文包含演算法的代碼，約30％包含測試數據，54％包含偽代碼。

研究人員說，這些缺失的細節的原因有很多：代碼可能是一項正在進行中的工作，所有權歸某一家公司，或被一名渴望在競爭中保持領先地位的研究人員緊緊掌握。代碼可能依賴於其他代碼，而其他代碼本身未發布。或者代碼可能只是丟失了，在丟失的磁碟上或被盜的筆記本電腦上——Rougier稱之為「我的狗吃了我的程序」問題。

假設你可以獲得並運行原始代碼，它仍然可能無法達到你的預期。在機器學習領域，計算機從經驗中獲取專業知識，演算法的訓練數據可以影響其性能。 Ke推測，不知道那個語音識別基準的訓練數據是什麼阻礙了她的團隊的進展。「每跑一次的結果都充滿了隨機性，」她補充說，你可能「真的非常幸運，跑出一個非常好的數字。」「研究報告中通常寫的就是這個。」

在AAAI會議上，加拿大麥吉爾大學的計算機科學家Peter Henderson表示，通過反覆試驗學習設計的AI的性能不僅對所使用的確切代碼高度敏感，還對產生的隨機數「超參數」也非常敏感——這些設置不是演算法的核心，但會影響其學習速度。

他在不同的條件下運行了這些「強化學習」演算法中的幾個，發現了截然不同的結果。例如，運動演算法中使用的一個簡筆畫虛擬「半獵豹」，它可以學習在一次測試中奔跑，但只會在另一次測試中在地板上徘徊。

Peter Henderson說，研究人員應該記錄更多這些關鍵細節。「我們正試圖推動這個領域有更好的實驗程序，更好的評估方法。」

Peter Henderson的實驗是在OpenAI Gym強化學習演算法測試平台上進行的，OpenAI的計算機科學家John Schulman幫助創建了Gym。John Schulman說，Gym有助於標準化實驗。「Gym之前，很多人都在進行強化學習，但每個人都為自己的實驗做好了自己的環境，這使得大家很難比較各種論文的結果。」

IBM Research在AAAI會議上提出了另一種工具來幫助復現：一種自動重新創建未發布源代碼的系統，它為研究人員節省了數天或數周的時間。這個系統是一種由小型計算單元層組成的機器學習演算法，類似於神經元，用於重新創建其他神經網路。系統通過掃描一份AI研究論文，尋找描述神經網路的圖表或圖示，然後將這些數據解析為圖層和連接，並以新代碼生成網路。該工具現在已經復現了數百個已經發布的神經網路，IBM計劃把它們放置在一個開放的在線存儲庫中。

荷蘭埃因霍芬理工大學（Eindhoven University of Technology in the Netherlands）的計算機科學家Joaquin Vanschoren為創建了另一個存儲庫：OpenML。它不僅提供演算法，還提供數據集和超過800萬個實驗運行及其所有相關詳細信息。「你運行實驗的確切方式充滿了無證的假設和決定，很多這些細節從來沒有成為論文。」Vanschoren說。

心理學通過創造一種有利於復現的文化來處理它的再現性危機，AI也開始這樣做。 2015年，Rougier幫助啟動了一個致力於復現的計算機科學雜誌ReScience，NIPS已經開始從其網站鏈接到論文的源代碼（如果有的話）。

Nan Rosemary Ke正在邀請研究人員嘗試復現提交給即將舉行會議的論文，以實現「可復現性挑戰」。Nan Rosemary Ke說，近100個復現項目正在進行中，大多數是由學生完成的，他們可能因此獲得學分。

人工智慧研究人員表示，目前的激勵措施仍然不符合可復現性。他們沒有足夠時間在每種條件下都測試演算法，或者在文章中記錄他們嘗試過的每個超參數。因為他們面臨發論文的壓力——許多論文每天都在網上發布到arXiv上，而且也沒有同行評審。

實際上，許多人也不願意報告失敗的復現。在ReScience，所有公布的復現項目迄今為止都是正面的。Rougier說，他也嘗試過發表一些失敗的項目，但年輕的研究人員往往不希望批評別人，失敗的項目也就無人問津了。這就是為什麼Nan Rosemary Ke拒絕透露她想用作基準的語音識別演算法背後的研究人員的原因之一。Gundersen說這種文化需要改變。「這樣做不是羞愧」他說，「這只是說實話。」

原文：http://www.sciencemag.org/news/2018/02/missing-data-hinder-replication-artificial-intelligence-studies