NIPS論文遭受全面質疑:論證過程普遍不完整,又何談對錯?
栗 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
現在的機器學習論文,到底是不是經過有效論證的研究成果?
倫敦大學學院 (UCL) 的研究人員,分析了NIPS 2017的中選論文,得出的結果令人失望。
連對錯也不配談?
一大問題就是基線(Baseline) 嚴重缺失:
121篇參與評估的論文里,只有55%和現有最前沿演算法 (State-of-the-Art) 做了對比;而與沒有輸入信息、沒有經過訓練的隨機猜測進行了比較的,更是只有9%。
除此之外,NIPS論文的論證中,也大量存在其他問題,比如不標註置信區間。這些問題都會關係到,演算法的有效性能不能被證實。
那麼,就來仔細觀察一下這份評估報告:
幾乎全軍覆沒
研究人員從679篇NIPS 2017論文中,按照下面的標準篩選出了121篇接受評估:
提出了監督/半監督模型的研究,或者把預訓練和監督/半監督模型結合在一起的研究。
三個維度
然後,團隊確定了評估標準三大項:
一是實驗:有沒有用真實數據或者合成數據 (Synthetic Data) 去測試演算法,最理想是兩者兼有。
二是基線:有沒有現有最前沿 (State-of-the-Art) 基線,或者隨機猜測 (Uninformed) 的基線。
如果缺少前者,就不能得出超越現有演算法的結論;缺少後者,就不能說明演算法比隨機猜測的表現更好。
三是量化對比(Quantitative Comparison) :比如從有沒有置信區間(CI) 這一點上,評估對比是否正式 (下圖為詳細標準) 。
正式對比中,要標明置信區間,或者要有頻率論假設檢驗 (Frequentist Hypothesis Test) 。並且,需要說明是怎樣得出的。
如果不經過這些步驟,就不能證明,差異不是由隨機波動(Random Fluctuation) 造成的。
倖存者無幾
先看數據,有99%的論文使用了真實數據來測試,有29%用到了合成數據。
基線方面,有91%的論文沒有用到隨機猜測 (Uninformed) 基線,有55%用了現有最先進 (State-of-the-Art) 演算法作為基線。
而關於演算法之間的量化對比是否正式,32%的論文標明了置信區間,但同時解釋了置信區間如何計算的寥寥無幾,被評判為「正式對比」的只有3%。
這樣看來,幾乎是全盤否定。
該如何解決呢?
研究人員為測試結果總結了一句話:完整的論證過程,在NIPS論文里是罕見的。
團隊說,雖然用一屆NIPS的發表論文,來概括ML/AI領域所有學術文獻的情況,並不是一個非常全面的方法;
但是,NIPS/NeurIPS是領域內的頂會,把這裡發表的論文視為高質量研究成果,作為研究樣本,也屬合理。
如果,機器學習領域的論文普遍存在論證不完整的問題,要怎麼解決呢?
理論上不難,研究人員應該在論文里,表明使用某個方法、使用某種基線的理由,寫清現有最先進 (State-of-the-Art) 的方法是什麼,用合適的量化方法來體現研究的重要性。
可是,實際操作中還會遇到困難:
團隊在論文里寫到,ML/AI領域,環境比較特殊。眾所周知,這個領域的論文發表和審核機制,會鼓勵那些宏大的論調,而那些審慎的論點很容易被忽略。
如果機制不改變,這樣的狀況也很難發生明顯的變化。
不過,研究人員也提出,用戶(End Users) 可能會促進情況的改善:
行業和政府部門的決策者,可以向上游領域施加壓力,比如從財政上打擊那些論證不夠有效的研究成果。
論文傳送門:
https://arxiv.org/pdf/1812.07519.pdf
—完—
年度評選報名
加入社群
量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
喜歡就點「好看」吧 !
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
※16篇論文、70多頁PPT幫你優化深度學習模型,免費下載
※「蟻人」不再是科幻!MIT最新研究,能把任何材料物體縮小1000倍
TAG:量子位 |