在分析了AI頂會上的6163篇論文後,我們能發現怎樣的發展趨勢與變化?……
原文來源:Kakao AI Report
「機器人圈」編譯:嗯~阿童木呀、多啦A亮
最近,有關人工智慧(AI)的研究在各個領域都取得了顯著的成果。這主要歸功於長期以來一直致力於這個研究領域的AI研究人員的努力。如果根據引用次數、參與人數、接受論文數量和歷史記錄來看的話,關於AI的最重要的學術會議就是ICML(International Conference on Machine Learning)和NIPS(Neural Information Processing Systems)。相較於ICML的重點是機器學習,NIPS涵蓋的課題領域就較為廣泛了,包括認知科學和應用機器學習。在37年前的1980年,ICML舉行了第一次學術會議,並於今年8月在澳大利亞悉尼舉行了第34次會議。NIPS成立於1987年,並計劃於2017年12月在加利福尼亞舉行第30屆會議。
為了研究AI研究領域的最新趨勢,研究小組對2005年至2016年期間ICML和NIPS發表的6163篇科學論文進行了薈萃分析。最新的研究結果揭示了AI研究的最新趨勢和變化。通過對過去12年來被引用次數最多的論文進行研究,從各種角度,如累積引用,作者的合作網路,以及論文中關鍵字的變化。分析了最近的趨勢和變化,從諸如累積引用,作者的合作網路,以及論文中關鍵字的變化等角度入手,以分析AI研究領域最新的發展趨勢和變化。
[1.過去12年接受的論文數量的變化]
ICML在過去12年接受的論文數量的變化
從2005年到2016年,ICML總共接受了2315份論文。2016年接受的論文數量為322篇,比11年前的134篇論文翻了一倍還多。
NIPS在過去12年接受的論文數量的變化
而至於NIPS,接受的論文數量從2005年的207份增加到2016年的568份,增加了一倍多。
研究團隊可以證實,對於ICML和NIPS來說,2012年接受的論文數量與2011年相比都有顯著上升。這是2012年人工智慧研究歷史上的一個重要事件。2012年,Geoffrey E.Hinton教授和他的團隊(多倫多大學)在Imagenet大型視覺識別大賽(ILSVRC)中使用深度神經網路展示了一個很好的成果。
[2.作者引用次數]
在過去的12年里,ICML中被引用次數最高的前20名作者
在過去的12年里,NIPS中被引用次數最高的前20名作者
在過去的12年里,ICML和NIPS中累計被引用次數最高的前20名作者
以下圖表顯示了(分別為NIPS和ICML)中接受論文和被引用總數最高的前30名作者。 (下載原始文件)(https://github.com/giallo41/Data_Science/blob/master/Conf/data/ALL_most_cited_author_Graph.xlsx)
以下圖表表示的是年度引用次數最多的15名作者:
在被引用最多的15名作者中,每年被引用次數的變化
在被引用最多的15名作者中,年度論文的變化
該研究小組調查了在ICM和NIPS中排名前15位的作者的12年變化趨勢。之所以選擇15個作者的原因是,這個數字可以通過數據可視化顯示出最有效的趨勢。上面的圖表顯示了這15位作者的累計引用次數和被接受的論文數量。他們表示,那些在接受論文數量上逐漸變化的作者,每年也會不斷地發表論文。在GitHub上可以找到完整的ICML和累計引用的列表。
下表列出了以上圖表中15位作者所發表的論文中引用最多的論文。(下載原始文件)(https://github.com/giallo41/Data_Science/blob/master/Conf/data/Top15_most_cited_papers.xlsx)
大多數引用的文章由這15位作者撰寫
[3.合作網路]
具有較高引用率的作者合作網路
上圖顯示了ICML和NIPS接受的論文中被引用最多的作者的協作網路。粗體線意味著他們經常作為合作者出版。為了更好地進行分析,研究團隊創建了由15位被引用次數最多的作者發表論文的共同作者的關係網路圖。分析中使用的數據可以在GitHub中找到。 (下載原始圖片)(https://github.com/giallo41/Data_Science/blob/master/Conf/author_network.png)
[4. 最常用於標題的關鍵字]
為了間接地展示出過去12年里人工智慧領域的研究課題的變化,研究團隊分析了論文標題中的關鍵字的變化。首先,團隊在過去的12年中,用了詞「雲」來了解趨勢變化的大致情況。過去12年在ICML和NIPS中使用頻率最高的兩個關鍵字是「學習」和「模型」。由於這兩個詞是目標研究期間在論文標題中出現的頻率最高,所以團隊認為,除了這兩個詞之外的其他關鍵字將顯示AI研究的趨勢變化。選定的基礎年份是2006年,2011年和2016年。選擇5年的時間間隔能夠更為清楚地研究變化。
出現在ICML接受的論文標題中的關鍵詞(更大的詞意味著它們更常用於標題中。)
ICML 2006
ICML 2011
ICML 2016
對於ICML收錄的論文,2006年論文題目中最常使用的關鍵詞是「貝葉斯」、「核」和「分類」。 但是,2016年收錄的論文則頻繁出現「網路」、「演算法」、「優化」,「深度」等關鍵詞。
NIPS收錄的論文標題中出現的關鍵字(越大的詞意味著它們更常在標題中出現)。
NIPS 2006
NIPS 2011
NIPS 2016
對於NIPS收錄的論文,2006年論文題目中最常使用的關鍵詞是「貝葉斯」、「核」、「分類」和「聚類」,與ICML收錄的論文中出現的相似。相比之下,「深度」、「自然」、「網路」和「隨機」等詞在2016年被NIPS收錄的論文中出現最為頻繁。對這些關鍵詞的考察,我們了解了過去10年研究主題的變化。
為了了解過去10年人工智慧研究課題的變化,對頻繁出現的標題關鍵詞進行了分析。
ICML錄用論文中的標題關鍵詞比較:2006年和2016年
NIPS錄用論文中的標題關鍵詞比較:2006年和2016年
雖然關鍵字「深度」在ICML中沒有出現,但在2006年的NIPS中只出現一次,但在2016年隨著「網路」一詞成為最顯著的關鍵字,在ICML中出現了22次,在NIPS中出現了43次。
年度文章標題的主要關鍵詞的出現次數比較:
年度ICML論文中主要關鍵詞出現次數的變化
年度NIPS論文中主要關鍵詞的出現次數的變化
[5.AI領域研究員網路]
AI研究網路的主要broker是Michael I. Jordan。
研究團隊還根據NIPS和ICML的錄用論文,對研究人員網路進行了研究。特別注意網路中研究人員的身份。所選擇的基本指標是度中心性(degree centrality),其通過對每個實體對網路中的其他實體的直接鏈接的數量進行計數來衡量實體的連接度,以及中介中心性(Betweenness Centrality),指的是作為連接網路中的其他實體的broker的能力。為了將這兩個概念應用於研究網路,度中心性意味著研究人員之間的直接聯繫的程度,而中介中心性意味著研究人員之間broker的能力。對於構成網路結構的研究人員數量,NIPS為5878人,ICML為3949人。基於網路分析的結果,以度中心性和中介中心性排名前20位的研究人員如下所示。圖中的索引是使用頂部數字的絕對值作為分母的標準化值,這使得相對比較更容易。
對於NIPS來說,加州大學伯克利分校教授Michael I. Jordan在度中心性和中介中心性領域排名第一。Jordan也是吳恩達的指導教授,他被稱為四大AI大神之一。在ICML中介中心性領域Jordan排名第一。這意味著Michael I. Jordan是AI研究網路的靈魂人物。換句話說,他是連接兩個研討會研究網路研究人員的關鍵實體。通常,broker對網路內的通信進行控制,網路的成員依賴於broker。網路分析表明Michael I. Jordan一直是人工智慧研究的中心人物。
除了Jordan,所謂的AI大神,如Jordan的學生吳達恩,Geoffrey E. Hinton和Yoshua Bengio也佔據了網路排名的頂層。在韓國,密歇根大學計算機科學與工程系教授Honglak Lee在ICML排名第十九位,他是在吳恩達的指導下完成博士論文的。
處於中心的Michael I. Jordan的AI研究人員網路如下所示。
ICML作者網路關係分析
NIPS作者網路關係分析
1.數據收集
NIPS 進程:https://papers.nips.cc/
2005年至2016年期間錄用的論文被使用情況。
2.抽樣
使用了2005年至2016年間在ICML錄用的2315篇論文和NIPS錄用的3848篇論文。
3.論文引文
使用網站https://scholar.google.co.kr檢查文章標題的引用。隨著新論文的錄用,現有論文的引用次數逐漸增加。為分析目的,引用次數為4月21日的數量為基礎。
4.分析方法
https://github.com/giallo41/Data_Science/tree/master/Conf
研究團隊收集的數據文件和用於分析的Python源代碼可以在這裡找到。
? ICML和NIPS論文題目、作者以及過去12年每篇論文的引用次數以Excel格式統計,並使用Python的Pandas DataFrame進行分析。
?添加了每個作者過去12年的累計引用次數,並且使用dataframe.sort()方法選擇了大多數引用的作者。
?對於論文標題分析,標題中的單詞被分隔並轉換為小寫。那麼這樣的話,就像『:』, 『?』, 『for』, 『a』, 『an』 ,』in』, 『of』, 『with』, 『and』, 『the』, 『to』, 『on』, 『from』, 『by』, 『using』, 『very』, 『via』, 『it』, 『that』, 『as』, 『,』 ,』which』, 『-』, 『through』, 『without』, 『while』, 『is』, 『than』, 『where』, 『much』, 『many』, 『or』 和 『so』被丟棄。
? 由Python提供的單詞雲包用於詞雲分析,其描述了每個關鍵字在相對字體大小方面的發生頻率。
5.網路分析的概念和方法
(1)概念
有時研究人員獨立主導完成研究,有時與其他人合作進行研究。我們假設有研究員A,研究A可以參與研究(a),也參與研究(b)。在這種情況下,研究人員A可以作為兩個研究之間的橋樑。正如我們從這個例子中所看到的,中間人有可能在一個網路中連接不同的信息或知識。在許多對網路結構感興趣的領域,包括組織社會學,(可能)擔任中間人角色的實體對已經使用「中介中心性(betweenness centrality)」的概念進行了研究。該方法也適用於本文。此外,考察實體之間的聯繫程度的度中心性(Degree Centrality)也被用作測量指標。度中心性確定一個實體對與其相關的其他實體的影響程度。
(2)方法
在2005—2016年期間NIPS和ICML錄用的論文作者做出總結。ICML的研究人員為3949人,NIPS為5878人。作者的列表被排序成行和列,產生一個方形矩陣。 ICML是一個3949×3949矩陣,NIPS是一個5878×5878矩陣。我們計算了每位研究人員與其他研究人員一起寫論文的次數。如果A和B一起寫了四篇論文,那麼A列B列中的值為4。這個矩陣是使用UCINET 6.0進行分析的,這是一個網路分析工具。從分析結果中,我們分別提取了分別為度中心性和中介中間性前20名。
※蘋果發布最新AI研究,「全文」解讀iPhone如何實時識別手寫體漢字
※智能體到底是什麼?這裡有一篇詳細解讀
※深度學習只能用實數?憑什麼不能用複數!
※雲跡科技為何能夠成為英特爾OEM合作商?
※貝索斯:「隱秘」建起AI傳奇帝國
TAG:機器人圈 |