斯坦福2018全球AI報告,七大維度數據公開
智東西(公眾號: zhidxcom)編 | 智東西內參
斯坦福全球 AI 報告從去年開始發布,該報告由斯坦福大學主導,專家組包括來自SRI公司、麻省理工學院、OpenAI、麥肯錫、哈佛等機構的多位專家,旨在通過具體數據全面追蹤人工智慧的最新進展。
本期的智能內參,我們推薦來自斯坦福大學的報告《2018全球AI年度報告 》,從學術研究、產業、軟體開源、公共利益等方面介紹2018年AI的發展,並記錄計算機視覺、自然語言理解等領域的技術進展。如果想收藏本文的報告全文(斯坦福:2018全球AI年度報告),可以在智東西公眾號回復關鍵詞「nc309」獲取。
以下為智能內參整理呈現的乾貨:
一、2018AI論文發表概況
1、按學科分類
下圖顯示了學術論文的年度出版率相對於1996年的比率的增長。該圖比較了所有科研領域、計算機科學(CS)和人工智慧(AI)的論文增長。
從從1996年到2017年,每年發表的AI論文的增長率都超過了CS領域,這表明AI論文的增長不僅僅是出於人們對計算機科學的興趣增加。
1996-2017論文按學科分類發表增速
2、按地區分類
下圖顯示了按地區分類發表的AI論文數量。歐洲一直是AI論文的最大生產地 – 2017年Scopus的AI論文中有28%來自歐洲。與此同時,儘管2008年左右中國論文數量出現波動,2007年至2017年在中國發表的論文數量增加了150%。
1998-2017論文按地區分類發表增速
3、細分領域分類
下圖按子類別展示了Scopus上的AI論文數量。類別不是互斥的。 2017年發表的AI論文中,有56%來自機器學習與概率推理(Machine Learning and Probabilistic Reasoning)這一研究方向,而2010年只有28%。圖中展示的大多數2014 – 2017年期間的論文發表速度都比2010 – 2014年期間快。最突出的是神經網路( Neural Networks )方向,2010 – 2014年複合年增長率(CAGR)只有3%,而2014 – 2017年的複合年增長率達到37%。
1998-2017 Scopus子類別的AI論文數量
4、 arXiv 上的AI論文
arXiv 是一個收集物理學、數學、計算機科學、生物學與數理經濟學的論文預印本的網站。下圖顯示了arXiv上的AI論文數量。右軸是指arXiv上所有AI論文的總和(由灰色虛線表示)。
arXiv上的AI論文數量一直在增加。這些論文無論是經過同行評議還是已被AI會議接受,都表明AI作者傾向於傳播他們的研究,這也表明了該領域的競爭性。自2014年以來,計算機視覺(CV)和模式識別是arXiv上最大的AI子類別。這除了表現出人們對計算機視覺的興趣日益增長之外,這也表明其他AI應用領域的增長。
arXiv上按子類別劃分的AI論文數量(2010-2017)
5、按地區活動關注度分類
下圖顯示了美國,歐洲和中國的相對活動指數(RAI)。 RAI通過將其與AI中的全球研究活動進行比較來近似區域的專業化程度。 RAI被定義為一個國家的AI出版物產出相對於AI出版物全球份額的份額。1.0表示一個國家在AI中的研究活動與AI中的全球活動完全一致。高於1.0的值意味著更重視,而低於1.0的值意味著較少重視。中國的AI論文更側重於工程技術和農業科學,而美國和歐洲的AI論文則傾向於關注人文科學和醫學與健康科學。與2000年的數據相比,2017年的數據顯示,這三個地區的專業化程度提高,而中國則轉向農業。這符合我們的預期,因為中國是最大的食品生產國,並且傾向於將其研究重點放在應用AI上。
各區域AI研究關注重點(2000年)
各區域AI研究關注重點(2017年)
6、按機構關注度分類
下圖展示了與政府,企業和醫療機構有關的Scopus論文數量。 2017年,中國政府發表的AI論文數量幾乎是中國企業的4倍。自2007年以來,中國的政府發表AI論文數量增加了400%,而同期企業AI論文僅增加了73%。在美國,相對較大比例的AI論文是由公司發表。 2017年,美國企業AI論文的比例比中國企業AI論文的比例高6.6倍,比歐洲高4.1倍。
中國按機構分類的AI論文(1998-2017)
美國按機構分類的AI論文(1998-2017)
歐洲按機構分類的AI論文(1998-2017)
各地區企業發表AI論文的增長(2009-2017)
各地區政府發表AI論文的增長(2009-2017)
7、AI論文引用概況
下圖顯示了地區劃分AI作者的平均加權引用。加權引用(FWCI)是AI作者在該地區接收的平均引用次數除以所有AI作者的平均引用次數。FWCI顯示了學者引用書相對於世界平均水平。FWCI為0.85表明論文的引用率比世界平均水平低15%。雖然歐洲每年發布的AI論文數量最多,但歐洲的FWCI仍保持相對平穩,與世界平均水平相當。相比之下,中國已大幅增加其FWCI。 2016年,中國的AI作者被引用率比2000年高出44%。儘管如此,美國的總引用率仍高於其他地區,比全球平均水平高出83%。
AI作者的地域加權引用(1998-2016)
8、各國AAAI論文
下圖顯示了按國家分列的2018年人工智慧促進協會(AAAI)會議提交和接受的論文數量。 2018年AAAI會議於2018年2月在路易斯安那州新奧爾良舉行。AAAI 提交論文,中美佔70%,中選論文,中美佔67%。中國的論文提交數高出美國約1/3,但二者中選論文數相差無幾,中國入選265篇,美國入選268篇。
AAAI會議提交和中選論文
二、高校AI課程註冊情況
1、學生人數
下圖顯示了入讀AI和機器學習(ML)課程的本科學生的百分比。雖然選擇AI課程的本科生比例往往略高於ML課程(人工智慧平均為5.2%,ML為4.4%),入讀ML課程的本科生人數增長速度更快。這顯示了機器學習作為AI子領域日益增長的重要性。
在AI入門課程中註冊的本科生比例
ML專業(2010-2017)在校大學生比例
2、美國AI課程
下圖顯示了美國幾所領先的計算機科學大學的AI和ML課程註冊的增長情況。 2017年入門AI入學人數比2012年增加了3.4倍,而2017年ML課程入學人數比2012年增加了5倍。加州大學伯克利分校2017年入門ML課程的學生人數是2012年的6.8倍。
AI課程入學人數增長情況(2012-2017)
ML課程入學人數增長情況(2012-2017)
3、國際AI課程
下圖和下一頁的圖表顯示了美國以外幾所領先的計算機科學大學的AI和ML課程註冊。2017年,清華大學的AI + ML課程入學人數比2010年增加了16倍,是非美國院校外增長率最高的高校,幾乎是第二名多倫多大學的2倍。
美國外人工智慧+ML課程註冊人數增長情況。(2010 – 2017)
三、AI會議概況
1、大型學術會議
下圖顯示了大型AI會議的出席人數以及相對於2012年的大型會議出席人數的增長。大型AI會議是2017年有超過兩千名與會者參加的會議。在大型會議中,NeurIPS (曾用名NIPS) 、CVPR和ICML,是參與人數最多的三大AI會議。自2012年以來,論參與人數的增長率,這三者也領先於其他會議。NeurIPS和ICML參與人數增長最快:2018年與2012年相比,NeuRIPS增長3.8倍 ,ICML增長5.8倍 。
大型AI學術會議參會情況
大型學術會議參與率
2、小型學術會議
下圖顯示了小型AI會議的出席人數以及相對於2012年小型AI會議出席人數的增長情況。小型人工智慧會議是2017年參會人數不足兩千人的會議。ICLR 2018年的出席人數比2012年增加了20倍。這種增長很可能今天人工智慧內部更加註重深度和增強學習的結果。
小型AI學術會議參會情況(1995-2018)
小型學術會議參與率
四、AI創業公司/投資
1、AI創業公司
下圖顯示了某一年度活躍的風險投資支持的美國私營初創公司的數量。藍線(左軸)僅顯示AI初創公司,而灰線(右軸)顯示所有風險投資支持的初創公司,包括AI初創公司。該圖表顯示了每年1月份的初創公司總數。從2015年1月到2018年1月,活躍的AI創業公司增加了2.1倍,而所有活躍的創業公司增加了1.3倍。在大多數情況下,所有活躍初創公司的增長保持相對穩定,而AI創業公司的數量呈指數級增長。
美國AI創業公司(1995年1月 – 2018年1月)
2、風險投資
下圖顯示了風險投資公司(VC)在所有融資階段向活躍的美國創業公司提供的年度資金數額。藍線(左軸)僅顯示AI初創公司的資金,而灰線(右軸)顯示所有風險投資支持的初創公司(包括AI初創公司)的資金。從2013年到2017年,AI VC融資增加了4.5倍,而所有風險投資資金增加了2.08倍。 1997 – 2000年所有風險投資基金的繁榮可以用互聯網泡沫來解釋。 2014年和2015年較小的繁榮反映了經濟增長。
美國AI創業公司的年度風險投資資金(1995年 – 2017年)
五、AI人才和專利
1、人才需求
下圖顯示了所需的AI技能每年的職位空缺數量,以及所需的AI技能的職位空缺的相對增長。雖然ML是最重要的技能要求,但深度學習(DL)正在以最快的速度增長 – 從2015年到2017年,需要DL的職位空缺數量增加了35倍。
AI職位空缺(2015 – 2017)
按所需AI增加職位空缺(2015 – 2017)
2、專利
下圖顯示了發明人地區劃分的AI專利數量和增長情況。 AI專利使用IPC代碼進行匯總,這些代碼屬於認知和意義理解以及人機界面技術領域。 2014年,大約30%的AI專利來自美國,其次是韓國和日本,每個專利持有16%的AI專利。在頂級發明地區中,韓國和台灣取得了最大的增長率,2014年AI專利數量幾乎是2004年的5倍。
按發明人地區劃分的AI專利(2004-2014)
按發明人地區劃分的人工智慧AI專利增長概況(2004-2014)
六、企業和政府關注度
1、財報電話會議中提及AI和ML的次數
下圖顯示了按行業劃分的公司盈利電話中的人工智慧(AI)和機器學習(ML)關鍵詞次數。第一張圖表僅顯示了科技公司,因為該行業擁有更大規模的AI和ML提及。第二張圖顯示了IT以外的行業提到的AI次數,。 2015年提到AI和ML的IT公司持續增加。對於大多數其他行業而言,這一增長始於2016年。在財報電話會議中,除了科技行業之外,提及AI次數最多的公司,基本上分布在消費、金融和醫療保健行業。
科技公司財報電話會議提到AI次數(2007-2017)
其他公司財報電話會議提到AI次數(2007-2017)
2、政府關注度
下圖顯示了美國國會記錄中的人工智慧和機器學習以及加拿大和英國議會的訴訟記錄(稱為Hansards)。在這三個政府中,這些術語的提及自2016年以來出現飆升。此外,在這三個國家中,機器學習在2016年之前很少被提及,並且相對於人工智慧而言仍然只佔總提及的一小部分。
美國國會提到AI和ML次數(1995-2018)
英國議會提到AI和ML次數(1980-2018)
加拿大議會提到AI和ML次數(2002-2018)
七、最新技術性能
1、圖像識別: ImageNet
下圖顯示了隨時間變化的ImageNet準確度分數。2017年是ImageNet比賽的最後一屆,2018年這項比賽就不再進行了。不過,驗證集依然有人在用。圖中,藍色的線條為ImageNet挑戰賽歷年的成績變化,由於每年比賽所用的數據不同,旁邊多了一條黃色線條,是以ImageNet 2012驗證集為評價標準繪製的。可以看出,到2015年,機器在圖像分類任務上的能力已經明顯超越了人眼,而即使比賽不再繼續,學術研究者依然在認真推進該任務的表現。這也側面說明,如果一項工作有了明確的評價標準和固定的挑戰內容,研究者們圍繞此競爭,更容易讓技術在該領域取得突破。
ImageNet (2010 —2018)
下圖顯示了訓練網路以高精度從ImageNet語料庫(圖像資料庫)對圖片進行分類所需的時間。該度量標準代表了AI領域中資源良好的參與者為了訓練大型網路執行AI任務(例如圖像分類)所花費的時間。由於圖像分類是一種相對通用的監督學習任務,因此該指標的進展也與其他AI應用程序的更快訓練時間相關。在一年半的時間裡,培訓網路所需的時間從大約一小時減少到大約4分鐘。
ImageNet訓練時間(2017年6月 – 2018年11月)
2、實例分割: COCO
ImageNet挑戰賽結束以後之後,CV領域把重點放在了微軟的COCO,挑戰語義分割和實例分割。四年來,COCO數據集上圖像分割挑戰的精確度已經提升了0.2,2018年的成績比2015提升了72%。不過,目前還沒有超過0.5,這一項還有充足的進步空間。
COCO實例分割挑戰(2015-2018)
3、語義分析
下圖顯示了AI系統在確定句子句法結構的任務上的表現。解析度量是在某些任務中理解自然語言的第一步,例如問答。最初使用類似於解析編程語言的演算法完成,現在幾乎普遍使用深度學習。自2003年以來,所有句子的F1得分都提高了9個百分點。
選區解析 – Penn Treebank(1995-2018)
4、機器翻譯
下圖顯示了AI系統在將新聞從英語翻譯成德語,德語翻譯成英語的任務中的表現。從英語到德語的BLEU分數今天比2008年高出3.5倍。從德語到英語的翻譯在同一時間段內翻了2.5倍。因為每年使用不同的測試集,所以不同年份的得分不完全可比。然而,BLEU分數表明了機器翻譯的進展。
新聞翻譯- WMT挑戰(2008-2018)
5、問題解答:ARC
下圖顯示了AI2推理挑戰(ARC)隨時間性能進展。 ARC數據集包含7,787個真正的小學水平(美國3 – 9年級),多選科學問題,以鼓勵高級問答的研究。問題分為挑戰集(2,590個問題)和簡易集(5,197個問題)。挑戰集僅包含基於檢索的演算法和單詞共現演算法錯誤地回答的問題。問題是純文字,英語考試問題,涵蓋文件中指出的幾個年級。每個問題都有多項選擇結構(通常有4個答案選項)。這些問題伴隨著ARC語料庫,這是一套14M無序的科學相關句子,包括與ARC相關的知識。無法保證可以在語料庫中找到問題的答案。 ARC基準測試於2018年4月發布.2018年的性能在Easy Set上從63%上升到69%,在Challenge Set上從27%上升到42%。
ARC排行榜(2018年4月- 2018年11月)
6、問題解答:GLUE
下圖顯示了GLUE基準測試排行榜的結果。通用語言理解評估(GLUE)是一個新的基準,旨在測試自然語言理解(NLU)系統的一系列任務,並鼓勵開發不適合特定任務的系統。它由九個子任務組成 – 兩個單句(測量語言可接受性和情感),三個關於相似性和釋義,四個關於自然語言推理,包括Winograd模式挑戰。語料庫大小從不到1,000到超過400,000。指標包括準確度/ F1和馬修斯相關係數。儘管基準測試僅在2018年5月發布,但性能已經提高,大約是第一個公布基線與估計的非專家人員水平約90%之間的差距的一半。
GLUE基準排行榜(2018年5月至2018年10月)
智東西認為,中國在人工智慧領域的技術發展和市場應用方面已經進入了國際上的前沿發展國家群體,呈現出中美雙雄共同領跑的局面。從科技產出等方面來看,中國人工智慧發展的總體水平和美國相比仍有差距,但已經超過大部分國家。在論文和專利等指標上,中國已經有了一定的領先優勢。總體來看,在AI這個風口上,中國已經佔據了較高的起點。
※撕破美國封鎖線!中科院造出最強晶元設備,10nm晶元來了
※重磅:亞馬遜推首款雲AI晶元!算力高達幾百TOPS,明年面世
TAG:智東西 |