被維基百科引用280萬次的論文長什麼樣?
撰文Giorgia Guglielmi
維基百科引用最多的期刊文章涉及月球坑的名字,以及人類和小鼠基因的 DNA 序列。許多最受歡迎的論文在維基百科上的引用數比其在科學文獻中的引用數還要多。
維基百科是世界上訪問量第五大的網站。
來源:Chris Batson/Alamy
「令人難以置信的是,引用數最多的文章幾乎全都是科學論文。」紐約的數據科學家、圖書館員 Matt Miller 說。Miller 分析了負責運營維基百科的舊金山非營利組織維基媒體基金會在三月發布的引用數據,其中包含了約 1570 萬條數據記錄,顯示了在維基百科近 300 個不同語言版本中,擁有正式編號(例如國際標準書號 ISBN 或數字對象識別碼 DOI)的各種來源被引用了多少次。維基媒體基金會注意到,維基百科中通過正式編號引用的大部分都是書籍,但是 Miller 特別觀察了英語維基百科通過 DOI ——這是期刊文章最常用的編號——引用的文章數目。他分析了 120 萬條帶有 DOI 的引用,其中包含了 83.5 萬餘篇不同的文章。
引用最多的論文在英語維基百科上總共被引用了 4702 次,是 2002 年一篇收集了超過 15000 個人類和小鼠基因序列的論文(參見「英語維基百科」)。引用該論文的維基頁面幾乎全是關於單個基因或蛋白質的頁面。「這是個意外的驚喜。」癌症研究人員 Robert Strausberg 說。他是原論文的項目負責人,目前任紐約市路德維希癌症研究所科學副主任。
英語維基百科:前十大被引學術文章
2004 年發表的一篇擴展版的基因集文章是引用數第二多的,共引用了約 3400 次(相比之下,根據 Google Scholar 的數據顯示,科學文獻對它的引用數只有 487 次)。該論文的共同作者之一、美國國家癌症中心的癌症遺傳學家 Daniela Gerhard 說,這篇文章被引用了這麼多次可能是因為它提供了可獲取的有關表達基因序列的信息。
總而言之,前十名中有五篇文章是關於 DNA 目錄的,其中包括了一篇詳細描述如何生成這種庫的研究。2005 年的一篇包含了將近 3000 種人類蛋白質互作的圖譜也位居前列,排名第七。(維基媒體的原文說:「毫不意外,維基人可喜歡工具文章了。」)
其餘四篇均為天文學文章。英語維基引用數第三多的有將近 3000 次引用,是 2007 年的一篇幫助研究者解讀依巴谷衛星數據的文章。依巴谷衛星是第一個測量恆星位置、距離和亮度的太空計劃。
另外幾篇空間科學論文涉及小行星的尺寸和亮度,以及月球坑的名字(見於 1971 年的一篇文章,根據 Google Scholar 的數據顯示,這篇文章在科學文獻里只有 16 次引用)。依巴谷衛星一文的作者、英國劍橋大學的天文學家 Floor van Leeuwen 說,這些文章的引用次數多,是因為很多天體有著單獨的維基頁面,而這些論文是非常可靠的引用源。
爬蟲的工作
2001 年建立的維基百科每個月有 160 億次訪問量,目前是世界上訪問量第五大的網站。所有人都可以新建文章或編輯已有的文章,但是網站的規章要求作者和編者必須為引用的文字和信息標註已發表的文章來源,例如書籍和學術論文。
倫敦慈善機構阿卡迪亞基金會的開放獲取項目總監 Ross Mounce 對維基媒體的數據進行了獨立分析,得到了全語種維基百科中引用次數最多的 10 篇帶 DOI 號的文章(參見「全語種維基百科」)。其中 6 篇是一樣的,但是排名第一的完全不同。引用數最多的是一篇 2007 年的論文,它更新了已有百年歷史的全球氣候分類法。這篇文章有 280 萬引用數——但是英語維基中只有 169 次引用(全語種中引用數第二多的在英語維基只有21000多次引用)。
這篇氣候研究被引用這麼多次是因為有幾百萬次引用都來源於程序自動生成的頁面。根據維基百科的數據顯示,截至 2014 年 7 月,瑞典達拉納大學的物理學家 Sverker Johansson 所寫的這個爬蟲軟體生成了將近 300 萬篇文章。其中三分之一是瑞典語,其餘的則是兩種菲律賓語言——宿務語和瓦瑞語。Johansson 表示,該爬蟲生成了數百萬篇關於城鎮或島嶼的地理位置的文章,而大多數文章都包含當地的氣候類別,因此會引用上述氣候研究。他補充說,他不知道爬蟲自動生成了多少次這篇論文的引用,「不過 280 萬聽起來差不多。」
全語種維基百科:前十大被引學術文章
Mounce 補充說,其他文章可能在維基百科上有很多次引用,但沒有正式標註 DOI 號,即通過其他手段引用,例如 PubMed 的 ID 碼。
加州大學數據管理中心館長 John Chodacki 說,為了讓人們能夠信任信息,引用非常重要。「不光對期刊文章如此,對維基百科頁面也是如此。」他說。但是此前必須通過付費服務才能分析和比較學術文章的引用數據,「最有趣的是,現在這份數據所有人都能拿到。」
版權聲明:
2018 Macmillan Publishers Limited, part of Springer Nature. All Rights Reserved
※年薪27-35萬,植物表觀/組學大數據/單細胞測序技術開發等方向
※鄭洪坤:做前沿生物研究的創新「推手」
TAG:科研圈 |