學界|定量研究:當前機器學習領域十大研究主題
選自arXiv
作者:Patrick Glauner等
機器之心編譯
參與:韓小西、李澤南
機器學習的發展日新月異,目前最熱門的研究方向是什麼?近日,來自盧森堡大學等地的研究者們對近十年來各大熱門期刊和會議上發表的論文進行了定量分析,通過機器學習找出了目前業內排名前十的研究主題。在這份新榜單中,支持向量機、神經網路和數據集排名前三,大幅領先於其他主題。讀者可以點擊「閱讀原文」下載此論文。
論文地址:https://arxiv.org/abs/1703.10121
機器學習研究中常探索哪些話題?這個問題曾於 2007 年通過在傑出的研究者中做定性調查第一次得出過答案。在本文的研究中,我們從定量的角度回答這個問題。具體來說,我們收集了 54,000 篇論文的摘要,它們都是在 2007 至 2016 年間於重要的機器學習期刊和會議上發表的文章。隨後,我們用機器學習演算法確定了機器學習領域中排名前十的研究主題。不局限於模型,我們提供了涵蓋優化、數據、特徵等方面的整體視角。這種定量方法減少了調查偏差。關於什麼是機器學習領域最流行的前十個主題,該方法提供了全新的以及與時俱進的觀察視角。我們的方法可以找到這一領域最流行的話題,為研究者們選定方向提供幫助。
前言
2007 年,一篇名為《數據挖掘排名前十的演算法(Top 10 algorithms in data mining)》的論文指出並介紹了在數據科學領域中排名前十的最有影響力的數據挖掘演算法。它通過整合獲獎研究者的提名、研究社區的觀點以及谷歌學術的被引量來計算權重。在這項工作中,排名前十的演算法為:C4.5, K-均值(k-means),支持向量機(SVM),Apriori,EM,PageRank,AdaBoost,KNN,樸素貝葉斯(naive Bayes)以及 CART。
在接下來的十年中,與計算機硬體能力的發展以及商業應用問題的大量增長同步,機器學習技術得到發展。源於對主要期刊及會議的定量分析,本文研究回顧了機器學習研究領域內排名前十的流行研究方向。本研究涵蓋了一些更廣泛範圍內的研究主題,不僅包括模型,還包括像數據集,特徵,優化技術以及評價矩陣這樣的概念。由於文獻多關注模型,這種在整個機器學習領域內更廣闊的視野在文獻中大部分都被忽略了。在這項研究中,我們主要的貢獻在於通過定量方法提供了一種關於機器學習活躍的研究領域的清晰觀點,其中並不摻雜個人觀點。這種嘗試旨在減少偏差並尋找研究社區真正的關注焦點。這項研究的結果讓我們可以把自己的研究放在機器學習的全局範圍內重新審視。這為研究者提供了研究流行課題以及辨識那些在最近的研究中沒有獲得充分關注的課題的機會。
表 1:參考期刊
表 2:參考會議
結果
採用以二元語法和三元語法作為提取策略的方法 1,我們僅得到了很普遍的研究主題。具體來說,排名前五的研究主題為「網路預處理」,「監督分類部分」,「學習二值表達」,「非監督和監督學習」以及「從輸入中預測標籤」。作為對比,施行採用 RAKE 進行基於機器學習的關鍵詞提取的方法 2,我們得到了如圖 1 所描繪的排名前 10 的研究主題。我們注意到在排名前三的研究主題,即「支持向量機」,「神經網路」,以及「數據集」之後,研究主題的流行度發生了急劇下跌。我們注意到在「目標函數」之後有另一次下跌。接下來的 7 個話題在流行度方面非常接近。「隱馬爾科夫模型」在流行度上僅略低於「主成分分析法」。
圖 1:黑色標記的為排名前 10 的研究主題,灰色標記出的為排名 11-20 的研究主題
結論
在此文的研究中,我們使用機器學習方法從將近 54,000 篇於 2007 至 2016 年間發表在主要機器學習期刊和會議的文章摘要中找到了機器學習研究領域中排名前 10 的研究主題。具體說來,我們發現支持向量機,神經網路,數據集,目標函數,馬爾科夫隨機場,特徵空間,生成模型,線性矩陣不等式,高斯混合模型以及主成分分析為排名前十的主題。對比於 2007 年完成的類似的工作,支持向量機是整個排名前十的列表中唯一相同的主題。這一現象可以歸為如下原因:首先,我們不只考慮模型,而將考察範圍擴展到包含特徵,數據以及優化的整個機器學習領域。其次,不同於對領域內專家的看法進行調查,我們採用定量研究以減小偏差。第三,在過去十年中,學界對模型的興趣發生了巨大變化,最顯著的標誌是在深度學習術語下神經網路的回歸。總體上,本次定量研究為目前的機器學習研究興趣提供了廣泛的視野,對未來的研究活動具有指導意義。
※業界|深度學習真的萬能嗎?理解深度學習的局限性
※IJCAI計算機與思想獎迎來女性獲獎者 Devi Parik
※谷歌像素遞歸超解析度研究:怎麼消滅低解析度圖像馬賽克?
※MIT與波士頓大學聯合報告:事實證明機器確實會降低就業和工資
※從強化學習基本概念到Q學習的實現,打造自己的迷宮智能體
TAG:機器之心 |
※性的科學研究
※Cell:我國學者在神經化學單細胞研究領域取得重要研究進展
※研究學習法與《為什麼學生不喜歡上學》
※應用語言學中的動機研究:研究動態、選題設計與教學應用研修班
※中國歷史動物地理學研究芻議
※中國易經研究學會八字學員:劉欽雨老師四柱命理預測學習心得
※文學人類學與國學研究現代轉型
※軍事醫學研究院毒物藥物研究所王全軍研究員
※暨南大學肺癌精準醫學實驗室誠聘生物化學或分子生物學相關專業的副研究員和博士後各兩名
※「國家臨床醫學研究戰略聯盟臨床醫學研究方法培訓班」是「孵化器」,是播種機
※牛津大學在中國建首個海外物理學和工程學研究中心
※【教學研究】鴉片戰爭
※癲癇相關組學研究概況
※免疫學單細胞研究新技術
※科學家對於量子力學與靈魂方面的研究
※臨床前毒理學研究
※多重視域下的中國古典文學研究國際學術研討會召開
※探討我所中醫文化學科研究方向與研究路徑
※用數學研究環境的女科學家
※丁芒文學藝術研究