NIPS論文遭受全面質疑：論證過程普遍不完整，又何談對錯？

科技 12-25

栗發自凹非寺

量子位報道 | 公眾號 QbitAI

現在的機器學習論文，到底是不是經過有效論證的研究成果？

倫敦大學學院 (UCL) 的研究人員，分析了NIPS 2017的中選論文，得出的結果令人失望。

連對錯也不配談？

一大問題就是基線(Baseline) 嚴重缺失：

121篇參與評估的論文里，只有55%和現有最前沿演算法 (State-of-the-Art) 做了對比；而與沒有輸入信息、沒有經過訓練的隨機猜測進行了比較的，更是只有9%。

除此之外，NIPS論文的論證中，也大量存在其他問題，比如不標註置信區間。這些問題都會關係到，演算法的有效性能不能被證實。

那麼，就來仔細觀察一下這份評估報告：

幾乎全軍覆沒

研究人員從679篇NIPS 2017論文中，按照下面的標準篩選出了121篇接受評估：

提出了監督/半監督模型的研究，或者把預訓練和監督/半監督模型結合在一起的研究。

三個維度

然後，團隊確定了評估標準三大項：

一是實驗：有沒有用真實數據或者合成數據 (Synthetic Data) 去測試演算法，最理想是兩者兼有。

二是基線：有沒有現有最前沿 (State-of-the-Art) 基線，或者隨機猜測 (Uninformed) 的基線。

如果缺少前者，就不能得出超越現有演算法的結論；缺少後者，就不能說明演算法比隨機猜測的表現更好。

三是量化對比(Quantitative Comparison) ：比如從有沒有置信區間(CI) 這一點上，評估對比是否正式 (下圖為詳細標準) 。

正式對比中，要標明置信區間，或者要有頻率論假設檢驗 (Frequentist Hypothesis Test) 。並且，需要說明是怎樣得出的。

如果不經過這些步驟，就不能證明，差異不是由隨機波動(Random Fluctuation) 造成的。

倖存者無幾

先看數據，有99%的論文使用了真實數據來測試，有29%用到了合成數據。

基線方面，有91%的論文沒有用到隨機猜測 (Uninformed) 基線，有55%用了現有最先進 (State-of-the-Art) 演算法作為基線。

而關於演算法之間的量化對比是否正式，32%的論文標明了置信區間，但同時解釋了置信區間如何計算的寥寥無幾，被評判為「正式對比」的只有3%。

這樣看來，幾乎是全盤否定。

該如何解決呢？

研究人員為測試結果總結了一句話：完整的論證過程，在NIPS論文里是罕見的。

團隊說，雖然用一屆NIPS的發表論文，來概括ML/AI領域所有學術文獻的情況，並不是一個非常全面的方法；

但是，NIPS/NeurIPS是領域內的頂會，把這裡發表的論文視為高質量研究成果，作為研究樣本，也屬合理。

如果，機器學習領域的論文普遍存在論證不完整的問題，要怎麼解決呢？

理論上不難，研究人員應該在論文里，表明使用某個方法、使用某種基線的理由，寫清現有最先進 (State-of-the-Art) 的方法是什麼，用合適的量化方法來體現研究的重要性。

可是，實際操作中還會遇到困難：

團隊在論文里寫到，ML/AI領域，環境比較特殊。眾所周知，這個領域的論文發表和審核機制，會鼓勵那些宏大的論調，而那些審慎的論點很容易被忽略。

如果機制不改變，這樣的狀況也很難發生明顯的變化。

不過，研究人員也提出，用戶(End Users) 可能會促進情況的改善：

行業和政府部門的決策者，可以向上游領域施加壓力，比如從財政上打擊那些論證不夠有效的研究成果。

論文傳送門：

https://arxiv.org/pdf/1812.07519.pdf

—完—

年度評選報名

加入社群

量子位AI社群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「交流群」，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話界面回復關鍵字「專業群」，獲取入群方式。（專業群審核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡就點「好看」吧 !

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章:

※16篇論文、70多頁PPT幫你優化深度學習模型，免費下載
※「蟻人」不再是科幻！MIT最新研究，能把任何材料物體縮小1000倍

TAG:量子位 |