當前位置:
首頁 > 科技 > 可視化Nature、Science、Cell三大刊牛文,學術畫像解密大咖

可視化Nature、Science、Cell三大刊牛文,學術畫像解密大咖

新智元推薦

來源:愛思美譜(ID:acemap_)

指導老師:傅洛伊、王新兵;核心技術成員:吳可意

整理編輯:三石

【新智元導讀】《Science》、《Nature》和《Cell》三大學術期刊在學術界可謂是家喻戶曉,那麼發表在其上的文章到底有什麼與眾不同之處呢?本文便構建了這三大刊的學術畫像,深趴了其牛文的獨特性質,揭開CNS的神秘面紗。更多AI話題歡迎來新智元和群查看。

說起《Science》、《Nature》和《Cell》這三本學術期刊,相信大家都不會陌生,甚至網上有流傳說,學者們獲評院士的必要條件之一,便是要發表過《Nature》或《Science》的文章。

《Science》、《Nature》和《Cell》被統稱為CNS三大刊。大家可能會好奇:

CNS三大刊上的文章為什麼如此受青睞?

其和普通文章相比究竟有何特別的氣質?

它們的刊登背後有何共同規律和現象可以為我們所掌握?

手握大把的《Nature》或《Science》是否真的對學者們的職位上升有決定性的作用?

這些學者中有多少人擁有漫長的學術生涯,又有多少人僅僅是「one hits wonder」?

也有人想好奇地了解,CNS三大刊的大牛們在合作模式上有何特點,他們究竟愛和大牛們維持合作還是樂於採用廣發合作帖的模式?

另外,除了學者的自身信息,CNS文章作者們所在的機構、文章的領域等是不是都蘊含著各種我們意想不到的信息量?

要回答這麼多問題,就需要獲取CNS的相關數據進行分析。然而,目前網路上還沒有包含這三個學術期刊的資料庫,而且就算有了它們的學術信息,我們也很難直接從字元串里得到清晰、立體的學術信息。

於是,帶著對這三個期刊學術信息的好奇心,小編決定從頭構建它們的學術畫像,以此來深趴一下發表在CNS三大刊上的牛文究竟有哪些方面的獨到特質,希望這些特質或多或少可以幫助廣大民眾揭開CNS的神秘面紗,還原其niubility養成的廬山真面,以此滿足廣大民眾對CNS長期以來持有的各類好奇心。

CNS三大刊的學術畫像如何構建?

在期刊的官網上爬取公開的學術論文信息

爬取的內容包括:標題、作者、作者所屬機構、發表時間、論文領域以及引用的文獻信息。

對爬取得到的數據進行規範化和補足處理

由於官網上的論文信息時間跨度很大,早年幾乎都沒有收錄機構信息和領域信息;而且隨著時間變化,同一機構的名稱在表達上也會有些出入。

對最終數據進行可視化處理

在可視化階段,對於論文合作者關係,我們充分考慮學術信息在時間維度上的變化情況,開創性地每十年劃分一個數據集,製作出合作者關係變遷圖;對於機構信息,我們讓機構與其實際地理位置產生聯繫,繪製出含經緯度信息的機構地圖。除此以外,我們還繪製出了論文引用網路以及幾個有趣指標在時間跨度上的演變。

圖中關係怎麼表示?

在合作者關係圖中,用節點表示合作者,連邊表示合作者合作完成過一篇學術論文,節點越大,就表示它參與的工作越多;在引文網路中,用節點表示論文,連邊表示論文的引用關係,節點越大,就表示它的被引用量越多。

機構地圖怎麼聯繫節點與實際位置?

我們將機構與其地理位置(國家/州)進行匹配,再用匹配好的地理名稱區匹配經緯度。在用Gephi繪圖時,使用插件GeoLayout來放置節點。

文引用網路中的節點都來自同一期刊嗎?

當然不是來自同一期刊的文章。但是構建的過程是先引入某一期刊(如《Cell》)的所有論文,再將這些文章的引用引入到Gephi中,所以引文網路中的文章是不能保證均出自同一期刊的。

從學術畫像中得到的有趣發現

在完成可視化後,我們在學術畫像中得到了一些有趣的發現。下面給大家一一道來!O(∩_∩)O

《Nature》合作者關係

圖1 《Nature》合作者關係變遷圖

圖2 《Nature》合作者關係總覽圖

從圖1最直觀的可以看到的是,隨著時間變化,重要性高(合作數高)的點(藍點)越來越小,數目也在不斷增加,說明隨著時間變化,學術大牛也在不斷增加,但是和 他們合作的人也越來越多,呈現了一個學術不斷發展壯大的趨勢。

另外,隨著時間增 長,圖的複雜度也在不斷地增長。還可以觀察到的是,在 1900 到 1950 這段時間裡,重要性高的點非常分散且位於圖的邊緣,而重要性低的點往往聚在一起且交錯複雜,可以猜測這段時間裡,學術大牛往往喜歡單人作業或和少數人合作,而其他人則喜歡聚在一起完成一些項目。

值得注意的是,從20世紀初到20世紀70年代,藍點學者W. F.Denning一直活躍在《Nature》學術界,擁有超高的合作量。通過搜索了解到,原來這位學者是來自英國的William Frederick Denning,他是一位業餘的天文學家,這就是說,他並沒有接受過專業的科學培養。他的主要成就在於對彗星的發現,比如周期性的72P/Denning–Fujikaw彗星和失落彗星D/1894 F1。

《Cell》合作者關係

圖3 《Cell》合作者關係變遷圖

圖4 《Cell》合作者關係總覽圖

從時間維度上看,圖譜邊緣區域遊離的社區在不斷的減少,從一開始的遊離在中心外的社區變成中期遊離的節點或一組有合作關係的節點,到最後節點數量大減;中心區域的節點不斷增多,社區結構不斷複雜化,到最後看不出來有社區結構存在。

這兩個 區域的變化都暗示了 《Cell》 雜誌上的論文合作都朝著領域交叉的方向進行。

圖5 《Cell》 合作者關係圖(2010-2019)

在2010-2019年的圖中,圖中出現了肉眼可見的巨變,遊離的節點驟減,中心區域的結構也發生了很大的變化。在中心區域的邊緣,出現了一群藍點學者包括 Li Ding, Matthew H. Bailey 和 Jianfang Liu 等(他們在癌症和基因等方面有所發文),在這?年裡,他們互相之間和與其他較低合作數的學者進行了高強度的合作。但是他們的研究可能和其他的學者之間聯繫並不那麼密切,導致他們飛到了中心區域邊緣。

《Science》合作者關係

圖6 《Science》合作者關係變遷圖

圖7 《Science》合作者關係總覽圖

《Science》 雜誌和其他期刊很不同的一點在於:它在很長一段時間裡,都沒有大量的學者合作交流,所以從時間上來看,它的變化僅僅在於合作者數量不斷增加。但是到了 21 世紀,可能是學術界的一股交流合作浪潮,讓 《Science》 的合作關係圖也開始變得交錯複雜起來。

1990年代的時候,圖中大社區開始萎縮,周圍的遊離點也開始相應的萎縮,這可能和雜誌社的刊文策略有關,可能在這一年代里,雜誌社減少了學術論文的刊載,增加了科普性文章的刊載,導致合作者數量減少。

《Nature》機構地圖

圖8 《Nature》機構地圖

以信息最為豐富的 《Nature》 圖為例。總的來說,美國在這三張圖上有絕對的領先優勢:

首先,它擁有全球最多的機構數量;

其次,它擁有全球發文數量最多的機構:加州大學系列,MIT等;

最後,它的總體發文數量也是最多的。

再把目光移到南美洲,巴西、智利和阿根廷等國家,發現它們也有很強的科研能力。旁邊的北非、東非、南非也實力不菲,如肯亞、迦納,他們都在這張地圖裡佔據了很大的版面。整個歐洲也擁有與美國匹敵的機構數量和發文數量,其中以英法德三國最為矚目。

再將目光駐足到亞洲地區,可以發現中印日三國的實力也不可小覷,但是相較而言,在《Nature》 的刊物發表上,中國還有上升空間。從世界角度看,若把節點大小(發文量)看作是機構的科研實力的某種維度體現的話,除了美國,英國,澳大利亞外,其他國家還沒有科研實力非常出眾的機構。

從大洲的層面上看,歐洲足以和北美分庭抗禮,而其他幾個大洲里,亞洲主要靠中日印以四國的科研力量領跑第二階梯,澳洲的兩個國家和非洲南美的差距不算太大。

《Nature》領域分布

圖9 《Nature》領域分布

圖9.1 《Nature》領域分布 圖例

在採集到Nature 的機構信息和領域信息後,我們決定將兩個信息放到一起來發現領域與機構/地理位置的關係。圖中的機構節點按該機構發文數量最多的領域染色。

我們可以看到,在全球範圍里,機構發文中Health sciences的數量最多,Scientific community andsociety次之,Earth and environmental sciences數量最低,這一大小比例和2010年代合作者領域關係是基本吻合的。雖然橙色的Physical science佔比不高,但是它仍然在歐美板塊中佔據了一些影響力較高的機構。

由於本圖領域劃分過大,導致圖中的顏色較為分散,如果進一步細分領域,我們可能會獲得更多有趣的信息。

《Cell》引文網路

圖10 《Cell》引文網路

從圖10可以看出,由左下到右上,時間不斷增長,圖的複雜交錯性也在不斷增長,這是由於年代越新,引用文獻的年代越複雜造成的。另外,在這條對角線上,基本上各個年代都會出現少量重要性高的文章,這一點很有趣,而且他們都在各自年代的圖的中部位置。

而到了 00 和 10 年代後,這些重要性高的文章變得更多了,但是相對的重要程度卻變低了。這個現象有兩個解釋:a. 年代久遠的文章,被引用的時間去見更久,所以重要性更大,而今年的 文章還沒有足夠多的時間被其他文章引用;b. 近年來的學術發展,大牛不斷增加,這一結果 和之前的作者合作關係圖不謀而合。

CNS論文的標題長度、論文合作者數量、論文合作機構數量隨時代的變遷趨勢。

圖11 論文標題長度變遷

圖12 論文合作者數量變遷

圖13 論文合作機構數量變遷

從圖形上看,可發現CNS三大刊的論文標題基本呈高斯分布,且不同年代的峰值也會發生偏移。綜合對比,可發現三大刊的高斯峰值點無外乎均在5、10、15附近波動,而Science在1960和2010年代甚至還在20附近出現了二次小高峰,甚是有趣。

在機構數量和合作者數量方面,我們可以看到曲線基本是隨數量增多而下降的,說明一篇文章的作者數和機構數並非多多益善,存在著一個合作的最佳尺度!

按時間維度來分析,在論文標題長度和論文合作者數量上,《Nature》和《Science》都是隨時間變化而增長,而《Cell》與其他們的變化相反;在機構數量變遷上,三本期刊的單篇文章機構數都在上升,這一點有兩個原因:1. 隨著時間變化,網站上關於機構的信息越來越豐富了;2. 需時間變化,機構間的合作也更加密切了。

總結

本次研究中,我們深度挖掘了潛藏在期刊(《Nature》,《Science》和《Cell》)數據中的有趣信息,如各個期刊的學術發展脈絡,學術界的合作關係演變,領域的興起,融合和衰落,標題的長度演變等。這些分析結果可以將研究人員從大量的原始數據中解脫出來,通過研究學術畫像的形式,更加輕鬆地獲取潛藏其中的信息,進而揭示學術界眾多領域的發展歷程和規律,尋找各領域中的關鍵學者、關鍵論文,探索可拓展的交叉新興領域,並預測未來研究熱點。

未來展望

雖然在本篇推文中我們引入了時間和空間維度的概念,但是我們要麼是單獨討論時間維度,要麼是單獨討論空間維度,並沒有將二者真正結合在一起。為了達成這個目的,我們可以在機構地圖中加入時間信息,將各國/各洲在時間尺度上的變化動態地表現出來;也可以在合作關係中加入作者受教育機構的地理信息(如:大學本科-研究生-博士),為進一步了解合作者關係提供有力的手段。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「造假」Atlas之後,這個機器人打保齡球視頻引髮網友熱議
學界激辯!IEEE限令下該以打促談還是邊合作邊抗爭?

TAG:新智元 |