死磕論文前,不如先找齊一套好用的工具
選自 Medium,作者:Eddie Smolyansky,機器之心編譯,參與:劉曉坤、王淑婷。
還在機器學習論文的海洋里忘我沉淪?先花幾分鐘學些新工具,不虧,論文閱讀、評論、社交、管理、搜索、復現、寫作全不誤。
作為像深度學習這樣高產領域的研究人員,我們經常會發現自己被論文的汪洋所淹沒。這些論文是如此之多,想全部讀完並跟蹤最新研究似乎很難很難。我覺得形成這種局面的一個重要原因是,我們沒有充分利用現有工具和服務來讓工作變得更加簡單。另一個原因是缺少能夠在一個界面下滿足我們所有需求的真正好產品,不過說到這個就得另寫一篇博客了。
最近,我開始了解 ML 的一個子領域,對該子領域相關文獻的優先排序、閱讀和管理讓我感到非常沮喪……最後我選擇找些工具來幫忙處理這項任務,我想把這些好用的產品和服務分享給你們。希望能夠幫那些需要和科學論文打交道的人改善工作流程。
我主要關注的是論文閱讀和展示的問題(而非寫作):
- Reference Manager(也叫論文庫)
- 用社交平台來分享知識
- 運用自動論文分析演算法來獲取額外的元數據(關鍵詞、相關數據集、重要引用等)
Reference Manager(也叫論文庫)
你可以在這些平台上創建和管理所有以前和未來的閱讀清單,添加個人筆記並和小組分享。這些庫會被同步到雲端,也就是說你在任何地方都能打開論文。看書可以用 goodreads,不過看論文的話,最好從下列工具中選擇:
- Mendeley:這款產品雖然顏值不咋地,但它有免費的商業模式,支持 web、PC、Mac 和移動手機等多個平台。除了一般的論文筆記,你還可以直接注釋和高亮顯示 PDF。它的雲存儲是有限額的,超過幾百篇論文之後就得付費。
- Paperpile:它需要付費訂閱(沒有免費版本,可以用谷歌賬號免費試用 30 天),但看起來很潮,用起來也感覺不錯。你可以非常輕鬆地把論文庫從其它服務平台上導入到這款產品中。你還可以把庫同步到自己的谷歌雲,這算是它的一個優勢。目前它只能在谷歌瀏覽器上使用。
- Zotero:這是一個免費和開源的實現,你只需為超額的雲存儲付費。類似 Mendeley,不過功能沒它多。
- Mendeley:https://www.mendeley.com/
- Paperpile:https://paperpile.com/
- Zotero:https://www.zotero.org/
當然,你還有很多選擇,不過這幾個是我用過並且感覺還不錯的。如果讓我選的話我會選 Mendeley,因為它支持很多平台而且還免費。
Mendeley 的界面
Zotero 的界面
arXiv 進化版
arXiv 於 1991 發布,並在近十年內鮮有變化,儘管論文發表數大幅增長(到 2016 年 10 月提交論文數已經達到了每月超過 10000 篇)。當然,我們現在對論文資源庫提供的功能已經有很多新的需求。我們想要能執行論文分析的演算法,想找到實現論文結果的代碼,希望有能共享信息的社交平台,我們還可能對雙列格式的 pdf 文檔感到厭煩。
在網上搜索現有解決辦法之後,我找到很多此類工具。
社交平台
- Shortscience:這是一個能共享論文概述的平台,目前有超過 1000 篇論文概述,並仍在持續增長;
- OpenReview:這是一個能提供公開論文評審過程的平台,所有提交的論文會公開作者姓名等信息,同時接受同行的評價及提問,可以匿名或實名地對論文進行評價。公開評審結束後,論文作者也能夠調整和修改論文。Openreview 目前僅對特定學術會議提供評審功能,例如 ICLR,並且由於受到廣泛質疑,ICLR 在 Openreview 上的評審也被改成了雙盲評審。除了官方評審之外,近期很多論文的評論區也能看到讀者和作者之間的積極交流。
- Scirate:能看到熱度較高的 arXiv 論文,並按學科分門別類,還能瀏覽相關論文的評論。但其熱度排序基於該網站內的點贊數,而這個網站的活躍度並不高。
- Shortscience:http://www.shortscience.org/
- OpenReview:https://openreview.net/
- Scirate:https://scirate.com/
Shortscience 的論文概述示例
Openreview 上的 ICLR 2019 論文及評審示例
找到論文的代碼實現
- Papers With Code:自動把論文連接到實現代碼的 GitHub 資源庫和數據集,並根據 GitHub 的收藏量排序。每篇論文可能有多個合併的條目。
- Github pwc:以相當簡潔的列表關聯論文和代碼實現,包含最新的 NIPS 論文。
- GitXiv:每個項目可以方便地展示為 arXiv+GitHub+鏈接+討論,可惜的是這個項目不再維護了。
- Papers With Code:https://paperswithcode.com/
- Github pwc:https://github.com/zziz/pwc
- GitXiv:http://www.gitxiv.com/
Papers With Code 界面。
GitHub pwc 頁面上的一些鏈接。
其它工具
- arXiv-sanity:相比於 arXiv 有很大的改進,包括在瀏覽中顯示摘要、評論和非常基本的社交、庫功能。這個整合了很多便捷功能的網站,是 Andrej Karpathy 在空閑時開發的。
- arXiv-vanity:可以將來自 arXiv 的論文渲染成響應式網頁,從而讓人們不用再看 pdf 文檔。
- arXiv-sanity:http://arxiv-sanity.com/
- arXiv-vanity:http://arxiv-vanity/
arXiv-sanity 界面
arXiv-vanity 轉換論文示例
論文搜索和分析
- Google scholar:如今搜索論文的首選,可以在這裡查看論文統計和引用參考文獻,還能通過關注作者或者論文獲得新論文更新提醒,以及利用自動化推薦來提供一個基本庫。
- Semantic scholar:可以結合外部材料整合進行論文的語義分析。功能包括:展示引用和參考文獻、度量論文影響力、展示論文圖表、自動生成關鍵詞(根據標題)、分析作者、在互聯網尋找額外資源(例如,相關 youtube 視頻),以及推薦論文。
- Google scholar:https://scholar.google.co.il/
- Semantic scholar:https://www.semanticscholar.org/
- Semantic Scholar: author profile page
Semantic Scholar:作者簡介界面
適用於作者的工具
- Overleaf:支持多人協作的在線 LaTeX 編輯器,好比用谷歌文檔寫論文,很好實現。
- Authorea:一種支持多人協作在線撰寫論文的方法,旨在減少 LaTeX 的使用,支持現代 WYSIWYG 編輯器。支持內聯代碼和數據,促進可復現性,支持內聯公共評論和其它合理功能。
- Code ocean:基於雲計算的再現性平台。我的理解是你將自己的研究作為 Jupyter 環境代碼上傳,然後在線運行,並復現作者曾取得的相同圖表/輸出。
- Overleaf:https://www.overleaf.com/
- Authorea:https://www.authorea.com/
- Code ocean:https://codeocean.com/
[如果你覺得前文太長,可以選擇……不看]
我的建議
- 管理閱讀庫:Mendeley
- 閱讀和寫論文評論:shortscience 和 openreview
- 將論文和 GitHub 資源庫匹配:paperswithcode 和 pwc
- 論文和作者分析:Semantic scholar
- 寫論文:Overleaf
順便提一下,谷歌最近發布的 Dataset Search 也是搜索數據集的神器哦。
最後,希望這篇博客里推薦的服務平台中至少有一個能讓你改善工作流程。嘻嘻~
arXiv 上不同主題的提交量,數據來自其統計頁面。
原文地址:https://towardsdatascience.com/finding-and-managing-research-papers-a-survey-of-tools-and-products-9151810d1b4d
※專訪 | 百鍊智能姚從磊:在互聯網公開信息中「大海撈針」,為一億機構人物建立「全息檔案」
※報名 | 大咖演講、前沿論壇、乾貨課程,2018 AIIA人工智慧開發者大會——一場開發者的盛宴
TAG:機器之心 |