當前位置:
首頁 > 新聞 > Goodfellow 炮轟同行評議!雙盲評審導致AI頂會論文變水

Goodfellow 炮轟同行評議!雙盲評審導致AI頂會論文變水

Goodfellow 炮轟同行評議!雙盲評審導致AI頂會論文變水

Goodfellow 炮轟同行評議!雙盲評審導致AI頂會論文變水

新智元報道

來源:Twitter、Reddit

報道:聞菲

【新智元導讀】Ian Goodfellow 今天發推表示,他懷疑正是同行評議機制導致了如今AI會議論文下降,評審人質量參差不齊是主要原因,浮誇的論文被選中,真正的好論文反而被埋沒。作為科學界一貫以來的雙盲同行評議機制,正在遭遇一場前所未有的災難。

Goodfellow 炮轟同行評議!雙盲評審導致AI頂會論文變水

如果你讓一位科學家只選一個科學界引以為傲的標準,估計不少人都會說「同行評議」。

同行評議是大多數國際期刊和會議對投稿論文進行篩選的其中一個過程。很多時候,期刊編輯或學術會議會邀請某一特定研究領域的專家,對文章進行評價,幫助決定投稿論文是否值得發表。

更廣泛地說,同行評議是專家學者對本專業領域的學術成果的評價,包括著述的發表出版、評論、評獎、評職稱、論文引用、論文鑒定等等。

同行評議是科學界能夠「自我糾正」「自我完善」的光榮傳統:以同行評議為核心的科學評價體系旨在清除不同形式的欺騙、實驗誤差或研究者的失誤,防止和發現自欺行為和偏見。

但是,今天谷歌研究員、GAN的發明人 Ian Goodfellow 卻發布一條推文:他懷疑,實際上正是同行評議造成了如今機器學習里的一些怪現象!

Goodfellow 炮轟同行評議!雙盲評審導致AI頂會論文變水

尤其是機器學習和AI會議論文的一些同行評議結果,不但沒有保持科學界的優良傳統,反而導致一些華而不實的論文被發表,而真知灼見則往往因為評審人自身水平低、沒看懂而拒稿遭到埋沒。

現在的頂會評審,真是出了大問題。

Goodfellow:同行評議才是現今AI會議論文水平下降的元兇!

Goodfellow在推文中表示,作為頻繁出任會議領域主席並且管理一支小型科研團隊的研究者,他經常能看到很多人(包括他自己團隊在內)工作的評審意見。

對於實證研究來說,最多的(拒稿)意見是沒有「理論」,但評審人並沒有針對某個特定問題去要理論,而是將其當做一種輕鬆的拒稿理由——Goodfellow 這樣形容,「他們掃了一遍論文,沒看到炫酷的公式」,好,拒掉吧,原因?寫「缺乏理論」就好。

而投稿人為了應對這樣的評審,最簡單的方法之一,就是在論文中加入許多無用的數學推理和公式。評審人一般不會認為這些公式沒用,相反,這樣做還通過他們心目中「我掃了一遍,看到了炫酷的公式或者不明覺厲的理論名稱」這個測試標準。

類似地,Goodfellow 指出,對於那些提出一種新方法取得更好性能的論文,評審人往往讀過一篇,然後拒稿,理由是論文沒有闡釋為什麼這種方法表現更好。而當論文有解釋的內容時,無論說得多不靠譜,甚至根本不被證據支持,心軟一些的評審人也會讓其通過。

此外,評審人看見通過實證觀察去理解一個系統工作原理的論文時,往往反饋「沒有新演算法」。這時候怎麼辦?扔一個新方法進去就行了唄,管它相不相關呢。

評審人一般不怎麼喜歡純科學論文(science papers),那理論研究怎麼投稿?好辦,象徵性地加點新的工程方法進去就行啦。

Goodfellow 指出,也有個別科學論文全憑實力得到高分,但通常也是被拒稿多次以後才有幸遇到了真正能看懂的評審人。

總之,Goodfellow 說:「機器學習如今的怪現象里,有一些可能不是同行評議造成的,但評審人要求增加數學(公式)、增加虛假的解釋和虛假的原創性,我已經司空見慣了。」

Goodfellow 炮轟同行評議!雙盲評審導致AI頂會論文變水

Goodfellow 指出,同行評議作為一種機制是經過時間檢驗的科學評價標準,但具體實施仍然要謹慎。

NIPS 2018初審結果出爐,哀聲遍野:評審人不專業!

Goodfellow 提到的「機器學習怪現象」,實際上就是 ICML 2018 的一場辯論。CMU 助理教授 Zachary C.Lipton 攜手斯坦福研究員 Jacob Steinhardt,撰寫了一篇《機器學習令人擔憂的趨勢》(Troubling Trends in Machine Learning Scholarship),引發了熱烈的討論。

Lipton 和 Steinhardt 在文中指出,如今的機器學習論文存在幾大問題:

  1. 無法區分客觀闡述和推測;

  2. 無法確定取得更好結果的原因,例如,當實際上是因為對超參數微調而獲得好效果的時候,卻強調不必要的修改神經網路結構;

  3. 數學公式堆積:使用令人混淆的數學術語而不加以澄清,例如混淆技術與非技術概念;

  4. 語言誤用,例如使用帶有口語的藝術術語,或者過多使用既定的技術術語。

如此看來,也難怪 Goodfellow 會懷疑,正是現今的同行評議,造成了AI和機器學習會議論文水平下降!

看到 Goodfellow 的推文後,Lipton 也表示贊同。他回復推文說,確實,如今同行評議水平下降,以及由此導致投稿人心態扭曲,也是造成機器學習怪現象的原因之一。

Goodfellow 炮轟同行評議!雙盲評審導致AI頂會論文變水

實際上,前幾天正好 NIPS 2018 的初審結果公布,社交網路上哀鴻遍野。對評審結果的抱怨,很大程度上就是 Goodfellow 指出的那些:沒有數學公式、缺乏結果解釋……

Goodfellow 炮轟同行評議!雙盲評審導致AI頂會論文變水

其中,最嚴重的問題,或許是評審人本身不專業,根本沒有看懂論文!

中科院計算所的一位博士生導師告訴新智元,他們組這次提交的一篇 NIPS 2018 論文,反饋意見還不算太差,6、6、8(6=marginal accept,8=accept)。

其中,認為該接受的那位評審,確實是看懂了論文,提出了很多有針對性的具體問題和意見。而其他兩位認為拒也可收也可的評審,只給出了非常簡略的反饋,諷刺的是,其中一位的理由恰好就是「沒有解釋結果原因」。

這位博士生導師說:「很明顯,那兩名評審要麼就是沒有細看論文,要麼就是對領域不熟。」

「我告訴學生,好好rebuttal,還是有希望的。」

論文數量激增,ICML、NIPS等頂會評審陷入困境

NIPS 2017,微軟亞洲研究院劉鐵岩組中了 4 篇論文。新智元在採訪現任微軟亞洲研究院副院長的劉鐵岩博士時,後者也曾提到,近年來機器學習和 AI 會議論文數量激增,是好事,也是壞事。

與 Goodfellow 一樣,同樣是機器學習頂會領域主席常客的劉鐵岩博士說,由於很難在短時間內找到足夠多的嚴謹合格的評審人,權威評審人/領域主席的時間和精力有限,也只能看那麼多篇論文,剩下的就只能找稍微次一些的評審,這些評審人很可能因為自己的水平有限,無法覺察優秀論文的創新和意義而直接拒稿。

另一方面,這些評審往往會被一些包裝得很華麗、結果很漂亮,但對領域發展並沒有那麼大作用的論文所吸引,因此現在 NIPS 整體論文水平參差不齊。

但是,論文整體質量下降也並非單純由於近年來論文數量激增、評審人質量下降造成。

NIPS 2014 做了一個實驗,將當年投稿的10%(共166篇論文)同時交給兩個不同的評審委員會評審,每個委員會由大會組委會的一半成員構成。評審結果令人吃驚:兩個評審委員會對其中 42 篇論文(約25%)的評審意見相左。由於兩個委員會都把論文錄用率控制在 22.5% 左右,委員會一錄用的 21 篇論文會被組委會二拒稿,而組委會二錄用的 22 篇論文被組委會一拒稿!

Goodfellow 炮轟同行評議!雙盲評審導致AI頂會論文變水

也就是說,被其中一個評審委員會錄用的論文,其中大約 57%會被另一個評審委員會拒稿。這樣,從理論上講,如果重新審稿,NIPS2014年錄用的一半以上的文章將被拒稿!

上述實驗表明,當錄用率很低時,質量居中的論文錄用的隨機性將大大提高。比如在上述例子中,約7.5%肯定被錄用,50%以上的文章肯定被拒稿,其餘中間 47% 左右的論文是否被錄用則有很強的隨機性。

相對而言,NIPS 2014 的投稿遠沒有 NIPS 2018 多,因此上述評審人問題至少不會那麼嚴重。

論文錄取這件事,本身就有很強的隨機性。

成也Arxiv,敗也Arxiv:AI會議論文未來該如何評審?

目前,期刊和會議會採取不同的同行評議方式,有單盲、雙盲、公開同行評議和發表後再進行同行評議等方式。不論採取哪種模式,同行評議的主要目的都是為了驗證研究結果,保證所發表的工作具有全球性的影響。

ACL 已經採用了雙盲評審機制,而且規定研究人員不能在一定期限內將論文上傳到 arXiv,很大一個原因便是以 arXiv 為代表的預印版論文庫干擾了同行評議,尤其是雙盲評議。

CVPR 2019 程序主席、微軟研究院首席研究員華剛博士此前在接受新智元專訪時表示,ArXiv 雖然是一個非同行評議論文庫,但其活躍度讓如今大多數研究人員都把它作為一個定期跟蹤的信息源。

但是,身為多個學術會議的主席以及多本學術期刊的編委,華剛博士在肯定 arXiv 加速學術交流的同時,一針見血地指出,「arXiv讓學術會議的雙盲評審形同虛設」,arXiv上的論文質量也是「魚龍混雜」。

但如今,NIPS的雙盲評審也暴露出種種問題。有人呼籲,強烈建議將「學生評審」加入到審稿人中來——與其邀請不合格的博士生甚至本科生,還不如明確地加入「學生評審」,讓學生評審人先閱讀論文,然後教授等高級評審人評論作為輔助信息,提供給最終評審,這在很大程度上可以擺脫目前審稿人質量參差不齊的災難。

Goodfellow 炮轟同行評議!雙盲評審導致AI頂會論文變水

僅僅舉辦 5 年便被譽為「深度學習頂會」的ICLR,率先採用 Open Review 論文評審機制,評審和 rebuttal 全部公開,或許也是一種解決之道。

你認為呢?

參考資料

1、Goodfellow Twitter:https://threadreaderapp.com/thread/1023606428966080513.html

2、Reddit 討論,呼籲加入學生審稿人:https://www.reddit.com/r/MachineLearning/comments/92cx7p/dstrongly_recommend_to_add_student_reviewer_to_ml/

3、Reddit 討論,NIPS 2018 初審結果怨聲載道:https://www.reddit.com/r/MachineLearning/comments/924lkp/r_nips_2018_for_those_of_you_that_got_some_harsh/

新智元AI WORLD 2018大會【早鳥票】開售!

新智元將於9月20日在北京國家會議中心舉辦AI WORLD 2018 大會,邀請機器學習教父、CMU教授 Tom Mitchell,邁克思·泰格馬克,周志華,陶大程,陳怡然等AI領袖一起關注機器智能與人類命運。

大會官網:

http://www.aiworld2018.com/

即日起到8月19日,新智元限量發售若干早鳥票,與全球AI領袖近距離交流,見證全球人工智慧產業跨越發展。

Goodfellow 炮轟同行評議!雙盲評審導致AI頂會論文變水

  • 活動行購票鏈接:

    http://www.huodongxing.com/event/6449053775000

  • 活動行購票二維碼:

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「數據通天塔來了」谷歌、Facebook、微軟、推特四巨頭聯手,打通全球數據壁壘!
「清華紫光棄美投歐」230億美元收購鎂光被拒,26億美元收購法國智能晶元商

TAG:新智元 |