當前位置:
首頁 > 知識 > Nature:百名科學家自引用率超50%,最高自引94%

Nature:百名科學家自引用率超50%,最高自引94%

機器之心報道

參與:張倩

美國科學公共圖書館生物期刊(PloS Biology)近日發布的一份資料庫顯示:數百名研究者的論文自我引用率超過了 50%,部分研究者的自引率甚至超過了 90%。這麼高的自引率到底算不算學術不端?是什麼推高了自引率?如何避免過度自引帶來的負面效應?我們將在本文中探討這些問題。

一個資料庫揭露的事實

導語中提到的資料庫全稱是「A standardized citation metrics author database annotated for scientific field」(科學領域標準化引用計量作者資料庫),其中包含過去 20 年 176 個子領域被引用最多的 100,000 名研究者的標準化引用數據,包括引用量、h-index、合著-校正 hm-index 等指標。該數據集由斯坦福大學、愛思唯爾等機構的研究者共同創建,數據來自愛思唯爾專有的 Scopus 資料庫。該團隊希望找到那些有助於提高引用量的因素。

資料庫簡介:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3000384

資料庫下載地址:https://data.mendeley.com/datasets/btchxktzyw/1

資料庫文件,其中它包含了十萬研究者的引用量、h-index、一作論文數、獨立作者論文數、自引用比例等 42 項特徵。表格中的第一個選項卡描述了所有特徵都是什麼,就算單獨拿出來也是一個非常好的數據集。

令創建者始料未及的是,資料庫發布之後,其中的研究者自引率成為了大家關注的焦點。

《Nature》的一份新聞特寫對該資料庫中的自引率問題進行了報道,並舉了其中一個比較極端的例子:一位印度研究者的自引率(被自己或自己的合著者引用的比例)竟然高達 94%(截至 2017 年)。

這位名為 Sundarapandian Vaidyanathan 的研究者是印度 Vel Tech 大學的一名計算機科學家,他的例子比較極端,但並不是個例。該數據集中包含 100,000 名研究者,其中至少有 250 位研究者的自引或被自己合著者引用的比例超過了 50%,數據集的自引率中位數為 12.7%。

一所「彎道超車」的大學

其實早在 2017 年,國外問答網站 Quora 上就有關於 Vaidyanathan 及其所在學校印度 Vel Tech 自引率過高的質疑,QS 世界大學排行榜研究部主任 Ben Sowter 在回答區對此事進行了分析。

2017 年,印度 Vel Tech 科技大學突然躋身泰晤士高等教育(THE)世界大學排名子榜單「亞洲大學排行榜」(Asia University Rankings 2017)第 43 名,而在此之前,它從未進入過任何全球大學排行榜的前 1000 名。

排在 Vel Tech 後面的是日本頂尖研究型國立綜合大學九州大學,THE 世界排名前 400,ARWU 排名前 300,QS 排名前 200。

Vel Tech 科技大學 2017 年亞洲大學排行榜得分情況。從左到右:綜合分、引用分、產業收入分、國際化視野分、科研分與教學分。

排名上升如此之快著實讓人驚訝。但如果仔細觀察上圖可以發現,雖然 Vel Tech 的其中三個分數均遠遠低於九州大學,但它有一項分數特別高,即第二欄的引用分,達到了 100 分。而這項得分的權重佔到了 30%,所以導致 Vel Tech 最後綜合得分也比較高。

相比之下,VelTech 的科研分只有 8.4,遠遠低於同位次的澳門大學和下面的九州大學,如此高的排名怎能令人信服?

其實,這主要是由榜單的發布方《泰晤士高等教育》的統計方法漏洞導致的。他們的統計方法沒有將自引排除在外,而 VelTech 的自引用量剛好又很高,這才把這樣一個普通的大學送上了如此高的位次。但 Ben Sowter 也指出,這家大學從 2015 年就開始光明正大地鼓勵研究者引用自己的論文,因此,他認為這家大學是在故意操縱引用量這一指標,以騙過這些排名系統。

Ben Sowter 還用數據佐證了自己的說法。從愛思唯爾的 Scopus 資料庫可以查到 VelTec 大學最近幾年的引用量概況。如下圖所示,該校被引量在 2015 年陡然上升,從 2014 年的 694 激增到 6187,這顯然是不正常的。

出現這種現象通常是因為發表了某篇比較有影響力的論文,但從表中可以看出,沒有哪篇文章可以帶來這麼大的增長,因為 2015 年引用量最高的論文被引次數也才 81,所以一定還有其他原因。

那麼真正原因到底是什麼呢?Sowter 提醒我們注意圖中的一個複選框(標紅部分)。

選中這個複選框之後可以排除該校的自引用量。按照這種方法,Sowter 算出了 VelTec 每年的自引用率:

計算結果顯示,VelTec 的自引率呈逐年上升趨勢,而且 2015 年突然上升了 34.5%,升至 95.0%!這樣算下來,VelTec 科技大學 2011 年至 2016 年的 13,864 次引用中,有 12,548(90.5%)都是自引。因此,Sowter 表示,他們這種做法實在是居心不良。

隨後,Sowter 也把矛頭對準了上文中的 Sundarapandian Vaidyanathan,他是 VelTec 研發中心的院長。以 Vaidyanathan 2015 年發表的一篇文章為例,那篇文章列出了 144 個引用條目,其中 19 個是他本人之前的研究。該論文的被引量是 114,其中 112 次被引來自他自己的其他論文。

因此,Sowter 認為,這種做法在學術上是無效的,根據這種數據對一個機構進行評價也是無效的,除非你是愛因斯坦。因此,他建議在排名分析中將自引排除在外。

Sowter 還表示,過高的自引率是一種作弊行為,背後有某些不可告人的目的,如獲得獎勵或研究經費。

高自引率是否意味著學術不端?

對於 Sowter 提出的質疑,Sundarapandian Vaidyanathan 也進行了回應。他表示,學術研究是一個連續的過程,「後面的研究不可能不以前面的為基礎」,而這種自引並不是為了誤導他人。

Vaidyanathan 表示,他的主要研究方向是混沌與控制理論。根據 Scopus 的記錄,他總共發表了 348 篇研究工作(截至 2017),參與了約 50 個超混沌新系統的研究。他的研究在混沌理論方向排名第二,在超混沌理論方向排名第一。這些數據都可以證明他在混沌和控制理論方向的專業水準。因此,他認為,上述質疑並不合理。而且,他明確強調,他的自引不是為了達到自己或學校的某種目的。

此外,他還列出了自己在混沌以及其他領域的研究貢獻,明確指出自己在多個學科都有良好的研究記錄。

對於核心的自引問題,Vaidyanathan 回應稱,他的研究會引用混沌領域等多個學科的最新進展,而這些最新的進展也包括他自己的。

此外,Sundarapandian Vaidyanathan 的朋友、他的 Top 3 合著者之一——埃及本哈大學的 Ahmad Azar 教授也在原貼下力挺 Vaidyanathan。Ahmad Azar 表示,Vaidyanathan 在混沌與控制領域有諸多創新性研究,而且成果頗豐,他的論文也被該領域廣泛引用。

當然,說了這麼多,Vaidyanathan 想表達的只有一點:他在自己的領域是一名頂級的研究者,所以引用自己的研究也是理所當然。

誠然,正如 Vaidyanathan 所說,科學研究是一個漸進的過程,新的研究需要建立在舊的研究之上,因此引用自己過去的研究也是合理的。但他似乎並沒有解釋為什麼自己的自引率如此之高。如果如他所言,他是該領域的領軍人物,那麼為何其他人沒有大量引用他的論文?

Vaidyanathan 的高自引率不禁令我們反思,這種行為可否被定義為學術不端?

7 月份,國際出版倫理委員會(Committee on Publication Ethics,COPE)將過度自引(extreme self-citation)列為引用操縱的形式之一。但斯坦福大學一位致力於元科學研究的學者表示,「那些自引率超過 25% 的學者未必是學術不端,需要進一步核查。」

儘管很多研究者都同意過度自引是一大問題,但對於多少是「過度」以及如何解決這一問題,人們並沒有達成共識。這個問題的難點之一在於,研究者在有些情況下確實有正當理由引用自己或合著者的文獻。

上述資料庫的作者 Ioannidis 也警告說,他的研究不應該導致那些自引率高的學者受到誹謗,而且這些自引率可能因學科和職業階段不同而產生差異。「它只是提供了一份完整、透明的信息,不應該被用於判斷科學家的學術品行。」

是什麼推高了自引率?

「我們將職業發展與這些引用指標掛鉤,而且極度看中這些指標,這其實就是在鼓勵自引。」俄勒岡大學 的一位心理學家表示。

2017 年的一項研究發現,義大利的研究者在 2010 年一份有關晉陞的政策出台之後自引率顯著上升,這項政策規定,學者只有達到規定的生產率閾值才能獲得晉陞。

其他自引率較高的研究者還有數學家 Theodore Simos(76%)和醫藥化學家 Claudiu Supuran(62%),他們去年都被科萊恩分析公司(Clarivate Analytics)列入了 6000 名「世界級研究人員」的名單,這些研究人員因其出色的研究表現而入選。

由此可見,高自引率問題的根源其實是制度層面的。如果學術界在晉陞、經費分配等方面不那麼看中這些指標,研究者也不會費勁心思提高自己的論文引用量。

近年來,學術界對引用量、影響因子等指標的批評也越來越多。以色列本古里安大學(BGU)的軟體和信息系統工程助理教授 Michael Fire 對 20 世紀以來大量學科研究的引用數、H-index 和影響因子等進行了統計分析,結果表明,這些指標已經失去了意義,甚至正在拖累學術研究。

他在分析之後得出了幾大結論:

1)研究結果支持古德哈特定律(Goodhart"s law),即當傳統指標(如論文數量、引用數量、h-index 和影響因子)成為目標後,這些指標也就失去了重要性/影響力。把論文寫短一點、和更多作者合作可以幫助研究者在同等時間下產出更多論文。

此外,論文結構的主要變化與高引用量有關。作者可以使用較長的標題和摘要,或者在標題中使用問號或感嘆號,使論文更有吸引力,從而增加引用量,即「學術界的標題黨」……這些結果支持了一個假設:學術論文為了符合目標指標而不斷變化。

2)論文引用量成為很多研究者的目標。他觀察到研究者在新研究中引用其以往研究的頻率呈增長態勢,一些作者甚至數十次、數百次引用自己的論文。

此外,大量論文——超過 72% 的論文和具備至少 5 個參考文獻的論文中有 25% 的研究在發表 5 年後就沒有人引用了。很明顯,大量資源被花費在影響有限的論文上了,這可能表明研究者發表更多低質量論文的目的在於增加論文發表數量。

Michael Fire 的研究結果與上述高自引率問題高度吻合。也就是說,h-index 等論文量化標準有太多可以操縱的空間,已經成為學界的一個問題,因此其重要性和作用正變得越來越低。

如何避免過度自引帶來的負面效應?

毫無疑問,現行的論文和研究者評估制度是有問題的。但我們依然需要一個量化指標來決定經費分配、升遷等現實問題,因此我們要做的只能是優化這些指標。

印度尼西亞的研究部門利用基於引用量的公式來分配研究經費和獎學金,但去年,該部門表示,有些研究者利用過度自引或小團體互相引用等不端行為操縱分數,他們因此已經暫停了 15 名研究者的經費,並計劃在公式中減去自引指標。但研究者表示,這一計劃還沒有實施。

但也有人對這種做法持反對意見,上個月發布的一份討論文件顯示,COPE 反對將自引剔除出指標的做法,該組織表示,「這種做法不利於我們了解自引的正面學術價值。」

早在 2017 年,瑞士蘇黎世大學的一名生物學家 Justin Flatt 就呼籲對研究者的自引記錄進行更加清晰的說明。他建議創建一個 s-index,即自引指數,計算方法和 h-指數類似。也就是說,如果一位研究者的 s-index 是 10,那麼意味著 Ta 有十篇論文至少被自己引用了十次。

Flatt 已經獲得了一筆資金,用於 s-index 的數據收集工作。他也同意 Ioannidis 的觀點,即此類研究不是為了設立某種限制標準,也不是為了點名批評那些自引率高的人。但只要學術界繼續用 h-index 作為宣傳指標,我們就有理由創建 s-index。

最後,我們都非常關心的是,那些人工智慧學者們的論文自引率如何?據數據集統計,AI 大牛們的論文自引數量普遍低於平均水平,這可能是因為人工智慧領域是一個快速發展的領域。

剛剛獲得 2018 圖靈獎的人工智慧巨頭 Geoffrey Hinton 自引率 為 1.2%、Yann LeCun 1.61%、Yoshua Bengio 為 1.8%;斯坦福大學教授吳恩達的論文自我引用率為 1.57%,李飛飛則為 2.51%。阿爾伯塔大學教授 Richard Sutton 的自引率是 6.01%。

曾被人吐槽在文章中自我引用的 LSTM 之父 Jürgen Schmidhuber,其自我引用的比例也僅為 5.03%。相比之下,本文主角 Sundarapandian Vaidyanathan 高達 94% 的數字就顯得有點嚇人了。

參考鏈接:

本文為機器之心報道,轉載請聯繫公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

大幅減少訓練迭代次數,提高泛化能力:IBM提出「新版Dropout」
一個暗示特斯拉自動駕駛取得「驚人進步」的視頻,讓網友炸了鍋

TAG:機器之心 |