當前位置:
首頁 > 科技 > NIPS論文遭受全面質疑:論證過程普遍不完整,又何談對錯?

NIPS論文遭受全面質疑:論證過程普遍不完整,又何談對錯?

栗 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

現在的機器學習論文,到底是不是經過有效論證的研究成果?

倫敦大學學院 (UCL) 的研究人員,分析了NIPS 2017的中選論文,得出的結果令人失望。

連對錯也不配談?

一大問題就是基線(Baseline) 嚴重缺失:

121篇參與評估的論文里,只有55%和現有最前沿演算法 (State-of-the-Art) 做了對比;而與沒有輸入信息、沒有經過訓練的隨機猜測進行了比較的,更是只有9%

除此之外,NIPS論文的論證中,也大量存在其他問題,比如不標註置信區間。這些問題都會關係到,演算法的有效性能不能被證實。

那麼,就來仔細觀察一下這份評估報告:

幾乎全軍覆沒

研究人員從679篇NIPS 2017論文中,按照下面的標準篩選出了121篇接受評估:

提出了監督/半監督模型的研究,或者把預訓練和監督/半監督模型結合在一起的研究。


三個維度

然後,團隊確定了評估標準三大項:

一是實驗:有沒有用真實數據或者合成數據 (Synthetic Data) 去測試演算法,最理想是兩者兼有。

二是基線:有沒有現有最前沿 (State-of-the-Art) 基線,或者隨機猜測 (Uninformed) 的基線。

如果缺少前者,就不能得出超越現有演算法的結論;缺少後者,就不能說明演算法比隨機猜測的表現更好。

三是量化對比(Quantitative Comparison) :比如從有沒有置信區間(CI) 這一點上,評估對比是否正式 (下圖為詳細標準) 。

正式對比中,要標明置信區間,或者要有頻率論假設檢驗 (Frequentist Hypothesis Test) 。並且,需要說明是怎樣得出的。

如果不經過這些步驟,就不能證明,差異不是由隨機波動(Random Fluctuation) 造成的。


倖存者無幾

先看數據,有99%的論文使用了真實數據來測試,有29%用到了合成數據。

基線方面,有91%的論文沒有用到隨機猜測 (Uninformed) 基線,有55%用了現有最先進 (State-of-the-Art) 演算法作為基線。

而關於演算法之間的量化對比是否正式,32%的論文標明了置信區間,但同時解釋了置信區間如何計算的寥寥無幾,被評判為「正式對比」的只有3%

這樣看來,幾乎是全盤否定。

該如何解決呢?

研究人員為測試結果總結了一句話:完整的論證過程,在NIPS論文里是罕見的

團隊說,雖然用一屆NIPS的發表論文,來概括ML/AI領域所有學術文獻的情況,並不是一個非常全面的方法;

但是,NIPS/NeurIPS是領域內的頂會,把這裡發表的論文視為高質量研究成果,作為研究樣本,也屬合理。

如果,機器學習領域的論文普遍存在論證不完整的問題,要怎麼解決呢?

理論上不難,研究人員應該在論文里,表明使用某個方法、使用某種基線的理由,寫清現有最先進 (State-of-the-Art) 的方法是什麼,用合適的量化方法來體現研究的重要性。

可是,實際操作中還會遇到困難:

團隊在論文里寫到,ML/AI領域,環境比較特殊。眾所周知,這個領域的論文發表和審核機制,會鼓勵那些宏大的論調,而那些審慎的論點很容易被忽略。

如果機制不改變,這樣的狀況也很難發生明顯的變化。

不過,研究人員也提出,用戶(End Users) 可能會促進情況的改善:

行業和政府部門的決策者,可以向上游領域施加壓力,比如從財政上打擊那些論證不夠有效的研究成果。

論文傳送門:

https://arxiv.org/pdf/1812.07519.pdf

年度評選報名

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

喜歡就點「好看」吧 !


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

16篇論文、70多頁PPT幫你優化深度學習模型,免費下載
「蟻人」不再是科幻!MIT最新研究,能把任何材料物體縮小1000倍

TAG:量子位 |