ACL新政禁止投稿論文在arXiv公開，我們到底需要什麼樣的雙盲評審？

新聞 05-29

雷鋒網 AI 科技評論按：近日 ACL（ Association for Computational Linguistics，計算語言學協會）對自己的投稿、評審、引用規則進行了修訂，其中最具爭議的一項是要求ACL 下屬會議（ACL、EMNLP、NAACL - HLT）的匿名投稿論文，在會議投稿截止日期前的一個月內不允許上傳到非匿名預印本平台（比如 arXiv）；直到論文評審結果公布後才可以公開上傳（揭開匿名）。

這一要求顯然再次引發了對於「雙盲評審的必要性」和「如何高效率地執行雙盲評審」的討論，畢竟一段時間之前 ICLR 2018 的匿名論文投稿在評審結果出爐前就大批量暴露了論文作者，已經出現了一些批評的聲音。剛好 ACM 通訊近日的一篇文章就研究了論文接受率和匿名的關係，雷鋒網 AI 科技評論先帶大家重新認識一下前一個話題。

雙盲評審的原因

總的來說，在一場控制性實驗中，ACM 網路搜索和數據挖掘國際會議（WSDM）委員會發現當評審者知道論文作者信息時，評審者更傾向於推薦名作者或者頂尖機構的論文。語言演變會議（Evolution of Languages Conference）委員會則發現當評審者知道作者信息時，男性一作的得分會比不知道時高 19%，女性一作則低 4%。

種種研究表明偏見會影響任何人，無論評審者的性別或種族。而雙盲評審則可以弱化這種影響，減少歧視。這也使得雙盲評審成為評價系統的非常具有建設性的一部分，使得論文評審結果更加的忠於論文質量。但即便是雙盲評審中，審稿人猜測論文作者的嘗試仍然會影響評審結果。

匿名的效果

就 ASE、OOPSLA、PLDI 這三個會議的數據來看，70%~86% 的評審者在提交評審結果前並不去猜論文作者是誰，這說明他們不知道也不在乎到底是誰寫了這些論文。下圖顯示了每個會議的評價者、論文以及評論的數量。還顯示了作者身份猜測結果的分布情況。

ACL新政禁止投稿論文在arXiv公開，我們到底需要什麼樣的雙盲評審？

每篇論文至少有三條評論

假如評審者在評論中猜測論文作者，他們大概率會猜對（ASE 72% 的猜測能夠猜對，OOPSLA是 85%，PLDI 是74%）。不過實際情況中，絕大多數的評審意見中並沒有真的包含正確的猜測結果（ASE 90％，OOPSLA 74％，PLDI 81％）。

相比於普通評審者，專家們是否更喜歡猜作者並且容易猜對呢？下圖顯示了相關研究得出的結論。

ACL新政禁止投稿論文在arXiv公開，我們到底需要什麼樣的雙盲評審？

其中 X 代表專家，Y 代表研究學者，Z 代表普通學者（均為自評）。如上圖所示，「專家們」顯然更喜歡預測，然而預測準確性卻沒有比另兩類人高多少（PLDI 的 Z 類評審除外）。所以結論是那些自認專家的更加喜歡猜測論文作者，正確性卻不值一提。

第二個問題，論文「假」匿名頻繁嗎？有些作者不匿名可能是因為匿名效果太差。這種「假」匿名的論文反而會引來更多猜測。下圖顯示了相關研究得出的結論。

ACL新政禁止投稿論文在arXiv公開，我們到底需要什麼樣的雙盲評審？

上圖顯示論文猜測的分布（柱形下部的陰影部分代表著猜測正確率）。其中絕大多數（26%~30%）論文只有一位評審者會猜測它的作者。研究還顯示論文作者被猜測的越多那麼猜不中的概率就越低。綜合了三門會議數據的 χ2分布顯示，猜測一次、兩次、3+次的論文的作者猜中率在統計學上有顯著差異（p≤0.05），這種差異在 OOPSLA 上也表現顯著。直接比較各會議的猜測率（均使用單尾 Z 檢驗）他們還得出了一些結論：對於 OOPSLA 來說，它的一猜正確率與其他兩門會議有很大差別；對於 PLDI 來說，它的一猜正確率和 3+猜正確率的也有統計學差異，這表明少數論文可能很容易被猜中作者；對於 ASE 來說，只有 1.5% 的論文被猜測作者的次數超過三次，PLDI 的同類數據是13%。另外，他們還發現，PLDI 中 40% 的猜測只針對 13%的論文，這意味著這要改善這一小部分論文的匿名情況就可減少很多猜測。由於目前這三門會議剛剛採用雙盲評審，可能存在匿名程度低的情況，隨著作者們的匿名經驗越來越豐富，之後的匿名效果會越來越好。

第三個問題，那些被猜中作者的論文更容易被接收嗎？他們調查了論文接收率與評審者的猜測的關係以及與猜中率的關係。結果如下圖所示。

ACL新政禁止投稿論文在arXiv公開，我們到底需要什麼樣的雙盲評審？

上圖顯示 ASE 的論文接收率似乎不受猜測行為的影響。而 OOPSLA 和 PLDI 的未被猜測的論文的接受率較低，相較於那些至少猜中一次的則下降更加明顯。尤其值得注意的是，PLDI 未被猜測的論文相較於全部猜錯的論文更加不容易被接收（OOPSLA也存在這種情況）。這種情況可能是因為 OOPSLA 和 PLDI 的評審者們更加青睞有名的研究員，他們相信高質量的工作更可能來自名研究員，所以也更願意去猜作者。

最後一個問題，評審者們是怎麼「去匿名化」的？曾有人詢問 OOPSLA 和 PLDI 的評審者，作者信息是否是從引用中泄露出的。在所有帶猜測的評論中，OOPSLA 37%（佔全部評論的 11%）和 PLDI 44%（佔全部評論的 11%）的評論承認作者信息是根據引用推斷的。ASE 的評審者們也被問及是什麼指引了他們的猜測，75 人是根據論文主題，31 人是根據之前的工作、數據集和源代碼，21 人是因為之前已經見過草稿，3 人是根據先前的談話。該結果表明有一些匿名曝光是不可避免的。還有一些評審者在搜索相關工作用作評價依據時搜索到了當前論文的 GitHub 庫或項目網站。另一種情況就是該篇論文與作者之前的工作聯繫過於緊密，也難以真正匿名。雖然匿名困難，但現在也有不少改善匿名效果的方法。比如，增加學界對於匿名化的熟悉程度，確立一致的規範和明確的指導原則等。

而在程序委員會的內部會議上，主席就多次聽到某成員確信另一個成員就是論文的作者的言論，然而事實證明他猜錯了，這也反映了部分評審者過於自信，他們的去匿名推理並不一定正確。

程序委員會主席的觀點

針對以上的結果，三個會議的程序委員會主席仍然支持繼續使用雙盲評審，他們都認為雙盲評審減輕了潛在偏見的影響，這也是雙盲評審的目的。不過執行的效果以及其中的挑戰仍然不能掉以輕心。有一些程序委員會成員也持有同樣的觀點，這或許表明他們認為引入雙盲之後他們認為自己的評審中的偏見變少了。

程序委員會主席們對於揭示論文作者的時間點看法不一，比如在評審後或PC會議前。其他的分歧也有一些，比如 PLDI 的主席強烈建議全部會議都使用雙盲評審，這樣一篇被拒論文重新匿名投給其他的會議時就能依舊保持匿名。ASE 的主席則發現，在某些情況下，揭示論文作者有助於更好地理解論文的貢獻與價值。

總的來說，所有的主席們都不認為雙盲評審會增加行政負擔，ASE 的程序委員會主席僱傭了兩個評審流程主席來協助他的工作，負擔並不重。OOPSLA 的程序委員會主席也認同施行雙盲評審的負擔並不重，他覺得更重要的是指導作者進行匿名。PLDI 則是讓作者將論文提交給程序委員會主席，然後由他進行派發，新增行政負擔也是微不足道。

雙盲評審的額外負擔來自於課題衝突，而會議管理軟體則可以簡化衝突管理，所有的程序委員會主席都認為處理這些衝突並不困難，PLDI 的程序委員會主席認為雙盲評審帶來的好處完全大於它所產生的負擔。

ACL 的新政為何引發爭議？

顯然雙盲評審正如大家一致認為地那樣不僅確實有積極的效果，而且不難做，那麼 ACL 嘗試保護雙盲新政為何引起了爭議呢？

首先，論文的信息公開和研究內容的快速迭代更新已經是領域內通行的做法，雙盲評審帶來的各種限制也只能是取得平衡而無法完全在時效性和公開性方面開倒車。有人認為「截稿前一個月限制公開」的做法過於理想化、有效性非常有限。比如它只對首次投稿有用，被拒的論文可以自然地公開上傳到 arXiv 然後投下一個會議；以及，作者完全可以在更早的時候完成並上傳論文，不僅不受到這一限制的影響，更享有了充分的曝光和修訂時間。

新政的支持者、斯坦福大學 NLP 小組（Stanford NLP group）掌門人、2015 年曾任 ACL 主席的 Christopher Manning 也發言針對這一新政的初衷做了詳細的解釋：

「通過加速研究結果傳播速度來加速科學進步是件好事，而過程中使用雙盲評審可以弱化偏見，防止一些名學者或者大機構從中獲利。ACL 的投稿、評審、引用策略規則就是兩者之間的一種折衷方案。

作為折衷方案，它會給非匿名文章的傳播帶來一些延遲；同時它也無法完美達成雙盲評審的各項要求。但它仍然距離雙盲的要求更近了，我認為這是一種好的妥協，目前表現也符合預期。當然如果你並不打算為傳播速度而妥協，而是專註解決多樣性，包容性以及偏見等問題，那麼 ACL 的新政可能對你並不重要。

作者的匿名性終究是無法得到絕對保證的，畢竟你要與同事討論工作，或者外出演講提到自己的研究課題，總會泄露的，所以 ACL 新政也並不是希望你隔絕與同事的工作交流。事實上，ACL 的新政策是希望通過高效利用預印本來加速科學進步：即在會議截止日期前早早地提交新結果，或者與同事早早交流初步想法以便之後修改。

之所以設計了這樣新政，是考慮到了人性的兩大弱點：拖延和健忘，每個人都本可以在截止日期前 35 天完成工作，但很少有人這樣做。一些預印本或者之前被拒的論文可能經過一段時間以後已經廣為傳播了，但人們很少記住它們的作者。高匿名性很好的保留了雙盲評審的好處，ACL 現在對非匿名預印本的限制只是為了避免匿名性被徹底破壞，當然同時也盡量多地保留加速科學交流的做法。」

結論

結合文中前半段來自 ASE、OOPSLA、PLDI 會議的數據，以及保持匿名性過程中的種種難題，實際上我們都會發現「完全的匿名」是無法達成的。但是既然雙盲評審對於減輕偏見能夠發揮出效力，我們總還是需要一些措施來提高匿名程度，以及提醒大家，在注重快速自由的溝通交流的同時也不要忘記了我們仍需以為各種方式努力減少人為的偏見。

via ACM.org，Effectiveness of Anonymization in Double-Blind Review，C. Le Goues, Y. Brun, S. Apel, E. Berger, S. Khurshid, Y. Smaragdakis, Communications of the ACM, Vol. 61 No. 6, Pages 30-33, 10.1145/3208157. Christopher Manning ( Twitter @chrmanning)。雷鋒網 AI 科技評論編譯整理

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※高額打車補貼下，黑產如何薅走美團的羊毛？
※雷軍香港拜會李嘉誠；寒武紀推出首款雲端AI晶元；特斯拉今年仍需融資20億美元

TAG:雷鋒網 |