可視化NIPs等AI頂級會議影響力:大約20%論文從未被引用
1新智元編譯
兩個關鍵概念
Citation flow(引文流):上面的彩色扇形,概括了某個領域的會議(中間的灰色點)的論文總體引用數量以及被引用的該領域中top 25的其他會議或期刊。從左到右:機器學習領域的NIPS,編程語言設計和實現領域的PLDI,web搜索和數據挖掘領域的WSDM。
所有Citation flow:http://cm.cecs.anu.edu.au/post/citation_flow/
Citation survival:上圖中,具有線性趨勢的橙色點表示引文生存率(citation survival rates),即一個會議的論文中,在論文發表後至少X年或更長時間裡被引用過至少一次的比率。這個名字是Jacob Eisenstein創造的。從左到右:自然語言處理領域的ACL,編程語言設計和實現方面的PLDI,計算生物學的ISMB。
了解更多Citation survival:http://cm.cecs.anu.edu.au/post/citation_survival/
下面解釋一下本研究的動機、方法和應用。詳細的引文圖表可以參閱這個頁面:http://cm.cecs.anu.edu.au/tags/citation/
研究動機
一個會議的學術影響力來自哪裡?如果你在一個會議發表過論文,或參加過某個會議,或者即將要進入一個圍繞學術會議的研究社區,你可能會想知道這個社區的知識遺產是什麼。
在學術圈子的集體記憶中,有多少篇論文被記住?被記住多長時間?曾經有一場激烈的討論說:兩年內是否80%的論文就被遺忘了?劇透:對於我們的研究中涉及的大多數會議來說不是這樣,但是大約20%的論文根本就從來沒有被引用。
在過去的幾年裡,引用的行為模式有發生變化嗎?劇透:是的,尤其是在2005年或2006年之後,我們可以會將其命名為「學術搜索效應」。
以上是我們做這項研究的動機問題。
數據和方法
我們的數據源是Microsoft Academic Graph(MAG),具體來說是2007年2月發布的版本。我們按venue將論文進行分組,並利用MAG標註所有論文的引用和被引用。分析時間主要是從2015年底到2016年。數據處理,繪圖和報告生成的代碼在這個存儲庫中共享:https://github.com/lexingxie/academic-graph
發現
在大多數會議中,論文被引用的比例(即在發表後,被引用至少一次)是80%左右。例如,SIGMOD是81%,SIGIR是78%,NIPS是83%。也有例外,SIGGRAPH是47%,CRYPTO是89%。
論文發表20年或以上之後,被引用論文占所有論文的比例,從10%(NAACL),20%(OOPSLA),到40%(ACL),60%(CRYPTO)各不相同。這個統計數據與會議的歷史高度相關——大多數會議只有20多年的歷史,而且20年前發表的論文數量(也就是1995年以前)的數量是相當少的。一個極端的例子是ISIT,1973年有兩篇論文,直到1991年才再次有論文發表。
集體學術記憶的長尾:對於大多數會議來說,top25的會議中有60%~70+%的本會議內或其他會議論文的引用,但是不管是參考(reference)還是引文(citation)的總數都在1000~2000左右。
學術搜索效應(scholar search effect):在2005或2006年之後,對舊論文的引用變得更多。這可能是因為學術搜索引擎變普及,查找舊論文變得更容易了。
示例:NIPS(1987-2015)會議引用模式數據和圖示
數據:
29年歷史(1987-2015),共計6483篇論文。
共計38246次列入參考文獻,平均每篇論文被列入參考文獻5.9次
-1498個不同的參考文獻來源,top 25的佔了64%
共計131082次引用,平均每篇文章被引用20.22次
-3275個不同的引用來源,top 25的佔了57%
-引文生存率:當年0.83;10年0.60;20年0.32
上圖左是NIPS會議論文中引用和被引用論文的截圖。(詳見圖4)右圖生存率表示在發表x年之後還活躍/被引用的論文比率。(詳見圖10)
本頁中的其餘圖示大體可歸為幾下幾類:
圖1-圖3:論文的基本數據,被列為參考文獻的次數、引用次數。
圖4-圖5總結了這些年間所有的引用,分類為引用(incoming citation,該會議論文中引用的文獻)和被引(outgoing citation,該會議的論文被其他來源的論文引用 )。
圖5和圖6通過年份來分解引用和被引的情況。
圖7和圖8分解了在NIPS會議上,當年被引用的參考文獻。對大多數會議來說,存在「谷歌學術」效應,就是說年代越久遠的論文被引用的次數越多。
圖9-圖11探討了「在最少x年後,還有多少論文仍被引用」以及哪些論文從未被引用過。
圖1:整體論文數據。左側是每年發表的論文數量;右側是每年發表論文被列作reference和citation的平均數。
圖2:整體reference數據。左側是每年發表的論文被列作reference的總數;右側是NIPS發表的論文被列為reference的數量。
圖3:整體引文數據。左側是每年發表論文被列作引文的總數;右側是NIPS發表的論文被列為citation的數量。
圖4:top-k的incoming/outgoing引用。節點顏色:引用率(outgoing ideas,紅色)vs參考文獻(incoming ideas,藍色)。節點大小:在任一方向,引用和參考文獻總數。藍色邊緣的厚度由離開既定會議的參考文獻數量決定;紅色邊緣的厚度由流入既定會議的參考文獻數量決定。節點由左到右,由incoming/outgoung引用的方式分類。
圖5:top-k的incoming/outgoing引用。(柱狀圖以不同方式來呈現上面扇形圖中的信息)
圖6:參考文獻的熱力圖。按照發表年份(橫軸)和參考venue(縱軸)細分。
圖7:引用的熱力圖。按照發表年份(橫軸)和引用venue(縱軸)細分。
圖8:參考文獻年代的箱型圖(y軸上越低表示年代越久遠),通過論文發表的年份細分(x軸)。
圖9:參考文獻的熱力圖,通過論文被發表年份(橫軸)和參考文獻發表年份(縱軸)細分。
圖10:通過線性回歸覆蓋,發表之後至少x年被引用的論文比例。
圖11:每年被引用的論文數量熱力圖,通過發表年份(橫軸)和引用年份(縱軸)劃分。
圖12:給定年份發表,之後仍被引用的論文熱力圖。通過發表年份(橫軸)和引用年份(縱軸)劃分。
小結
幾張圖表可能勝過長篇大論。我希望這個研究能為讀者提供有關這些學術會議的有用信息,幫助你了解一個新的會議,或幫助你了解一個會議的概括和影響力。
這會成為論文的另一種影響度量嗎?也許吧。現在已經有許多廣泛使用的度量,例如影響因子(impact factor)、mapequation、Google scholar的排名,等等。沒有那個度量是完美的,但是看看另一種視點肯定是有利無害的。
原文:http://cm.cecs.anu.edu.au/post/citation_vis/
點擊閱讀原文可查看職位詳情,期待你的加入~
※「深度」中國頂級AI Lab探訪:今日頭條、訊飛、阿里、騰訊、姚班都在做什麼
※「AI VS人類」醫生水平大PK:人工智慧四勝三平一負絕對領先
※「周志華深度森林第二彈」首個基於森林的自編碼器,性能優於DNN
※「Bengio一人署名論文」提出「意識RNN」,用4頁紙進軍通用AI
※傳特斯拉與英偉達分道揚鑣,英特爾成特斯拉車載多媒體系統新晶元供應商
TAG:新智元 |