「專訪」KDD2018主席熊輝教授:數據挖掘與深度學習結合新趨勢
1新智元原創
2017年8月13日至17日,數據挖掘國際頂級學術會議 KDD2017在加拿大哈利法克斯市舉行。本次大會總的註冊人數達到1656人,來自全世界51個國家和地區。其中,美國註冊人數最多,其次是中國,第三是加拿大。
關於本次大會論文接受數據、中國學者和公司的表現以及最佳論文、最佳論文請參見新智元此前的報道《【KDD最佳論文出爐】BAT、華為谷歌論文排行榜,中國包攬KDDCUP》。
大會同時宣布了KDD2018年大會的主席名單。美國羅格斯-新澤西州立大學信息安全中心主任、羅格斯商學院管理科學與信息系統系熊輝當選 Research Track PC 主席。
熊輝 E- Mail:hxiong@rutgers.edu ;實驗室主頁:http://datamining.rutgers.edu
熊輝教授本科畢業於中國科學技術大學,博士畢業於美國明尼蘇達大學,目前為美國羅格斯-新澤西州立大學信息安全中心主任、羅格斯商學院管理科學與信息系統系副系主任、正教授 (終身教授)、RBS院長講席教授,並擔任中國科學技術大學大師講席教授。
熊輝教授主要研究領域涵蓋數據挖掘、大數據、人工智慧;獲得的部分榮譽包括ACM傑出科學家,長江講座教授,海外傑青B類(海外及港澳學者合作研究基金)。熊輝教授的研究工作被Forbes, The Economist,Harvard Business Review,The Wall Street Journal等媒體廣泛報道。其中,經濟學人雜誌(The Economist)在2016年專文重點介紹了熊輝教授利用大數據技術預防犯罪的研究工作 (Economist Article Title: Cutpurse capers),同時哈佛商業評論在2016年也以專文重點介紹他的關於人力大數據分析的前沿工作。
KDD高產學者:今年被接收文章有8篇;中國學者學術地位大幅提升
據介紹,本次大會熊輝教授和團隊總共有8篇文章被接收(包括oral),去年他們團隊的論文被接收數量是9篇,可謂非常高產。要知道,相比之下,在本年度KDD接收的 200 多篇論文里,來自中國大陸的高校和企業只有 20 多篇。
另外,本屆KDD上 China Chapter,熊輝教授與裴健、鄭宇和葉傑平等多位頂尖的學者一起組織了精彩的分享。
熊輝對新智元介紹說:「在本屆KDD China Session, 我介紹了在大數據人才智能化分析這一世界前沿領域的創新工作。區別於傳統人力資源管理須通過大量長期實踐才能總結出經驗規則,永遠在解決問題,管理相對滯後。大數據人才智能化管理通過數據挖掘提供客觀性,完整性,透明性,預測性分析,可以讓管理做到更加客觀,公正,未雨綢繆。具體來說,我從人才、組織和文化三大人才管理業務場景出發,介紹了一整套針對業務痛點的智能化人才管理工具和解決方案,所介紹的人才智庫系統是基於我們自主開發的數十項智能化機器學習模型演算法工具,有效支持和輔助了人才獲取、人才保留、人才發掘、組織穩定等一整套管理動作。我們構建的這套完整的智能化人才管理系統,充分展示了以大數據驅動智能化人才管理的高效性,在世界範圍內尚屬首創。」
近年來,中國學者在KDD學術會議上的存在感逐漸變強,表現非常突出。對此,熊輝教授也有感受,他說:「中國學者這幾年在各個研究方向都在快速成長和突破。我具體感覺體現在兩個方面。首先是大量高水平的論文發表,並伴生大批的優秀青年學者;其次是中國學者學術地位的大幅提升,越來越多的中國學者擔任行業頂級會議的組織者和頂級期刊的編委甚至主編。」
今年論文接受率最高只有12.8%, 為什麼KDD的論文錄取率那麼低?
數據顯示,今年KDD研究Track共審閱了748篇論文,共接收130篇,其中口頭展示64篇,海報展示66篇,接收率分別為8.6%和8.8%。數據科學應用Track 共審閱了390篇論文,共接收86篇,其中口頭展示36篇,海報展示50篇,接收率分別為9.2%和12.8%。
KDD向來以論文接受率低著稱。被問及大會接受率為何如此低,熊輝教授向新智元介紹說,KDD是數據挖掘和數據科學領域最頂級的學術年會。來自學術界,工業界和政府部門的研究人員都希望在KDD上發表和展示自己的有影響力的工作,因而投稿量每年都特別大,所以KDD的接收率一直非常低。另外,非常多的高科技公司人力資源部門都積極招聘在KDD以第一作者發表過論文的學生,所以學生也都非常有投稿熱情,這也客觀導致文章接受率低。
KDD新趨勢:傳統行業與大數據,機器學習,人工智慧技術的結合將會成為一個新的戰場和制高點
新智元在採訪中問到,近兩年KDD領域最值得關注的趨勢是什麼?
熊輝教授認為,近兩年,數據挖掘,機器學習和人工智慧技術,不僅僅和新興互聯網產業結合緊密,和傳統產業的相互結合和促進,也成為了一個新亮點。比如,根據人們傳統的理解,人力資源行業是一個組織行為學科,是很難被量化的。我們的人才智能化的項目展示了通過大數據分析提供客觀性,完整性,透明性,預測性分析,可以讓管理做到更加客觀,公正,未雨綢繆。又比如,工業製造行業,似乎也是很難擁抱大數據和人工智慧技術。但是,在工業製造4.0的標準里,人工智慧技術,將會成為傳統工業製造涅槃重生的引擎。他說:「我相信傳統行業與大數據,機器學習,人工智慧技術的結合將會成為一個新的戰場和制高點。」
那麼,近年來,KDD領域向機器學習和實際應用的結合非常緊密,這是一個大趨勢么?
熊輝教授認為這是一個大趨勢。他進一步解釋說,首先人類在世界任何一個角落,任何一個時間,任何一類的行為,都以不同數據的形式開始保存了下來。在人類歷史上,我們從來沒有這麼好的機會能夠通過細緻化,全面化的數據,深入毛孔的了解人的行為,發現行業的痛點。所以,未來KDD領域向機器學習和實際應用的結合會越來越緊密,而且未來越來越多KDD的研究問題會來源於應用實踐。
具體到深度學習。熊輝教授認為,大數據+深度學習,目前是很多領域的非常熱門的一類技術解決方案。深度學習在擁有大數據的很多應用領域展示了自己獨特的優勢,比如語音識別和圖像處理。然而,他的個人觀點是,深度學習就像任何一種技術都有它的局限性,也有它的適用範圍。在KDD領域,他相信會有很多研究專註於深度學習的參數選擇,降低計算複雜度和結果的可解釋性。
數據挖掘高手談數據:什麼樣的數據才是好數據?
作為在數據挖掘領域有著深厚積累的資深教授。熊輝教授如何看待數據?怎麼樣的數據才能是好數據?要怎樣獲得這些好數據呢?
熊輝教授認為,要獲得高效優質的數據,我認為應該同時考慮「量」和「質」。 量,不僅僅是指數據量的大,還包括是否有效覆蓋所要研究課題的不同的對象,即統計里的population;「質」指的是數據信息的有效性,即我們的數據的雜訊程度,是否包括具體問題分析所需的各種屬性,是否存在和易於構建內在的關聯性,是否能有表徵豐富的語義,是否能夠支持快速計算和分析。
對於大數據。他認為,數據不是簡單的越大越好,而是和需要解決的問題相關的數據越大越好。在很多具體數據分析應用,特別是商務智能中,還要注意大數據和小數據的有效結合。
AI的迅速發展也為數據挖掘領域帶來了一些有趣的變化,比如數據的發現和挖掘的自動化,就是由機器來自動完成數據挖掘的工作。針對這一研究方向,熊輝教授向新智元介紹說:「在學術界,已經有一些學者開始嘗試探索自動化的數據挖掘,一個潛在方向是Prescriptive Analysis。」
比如,他們和IBM的學者合作嘗試實現自動化的異常點檢測,在今年KDD17發表了文章 「REMIX: Automated Exploration for Interactive Outlier Detection」。但是,基於數據挖掘工作本身的多樣性和複雜性,往往需要領域知識和技術知識的有機結合,經常很難完全避免人的參與,所以做到完全自動化在目前看還是不現實的。
挖掘數據的價值:抓小偷,治霧霾甚至反恐
2015年開始,數據挖掘領域出現了一些非常有意思的研究,比如熊輝教授做的利用大數據分析「抓小偷」的研究(參見新智元的報道:KDD 精彩論文:用智能公交一卡通數據抓小偷)。
另外,也有研究員在探索使用數據挖掘進行霧霾的治理和反恐。熊輝教授對新智元說,隨著感測網技術的快速發展和實施,越來越密集的感測器可以幫助實時搜集廣泛覆蓋的環境監測的數據。這些數據對於我們有效判斷霧霾的成因,進而幫助合理的霧霾治理提供了決策支持。
在反恐領域,數據挖掘應用前景廣闊。首先,近幾年數據分析技術和大數據硬體分析平台技術獲得突破性進步。比如,雲計算大數據分析平台的快速發展和應用,以及深度學習技術在文本,聲音,圖像,視頻數據的分析取得了很大成功。其次,現在可運用於反恐的數據來源多樣化和數據覆蓋範圍也更廣闊。例如,廣泛分布的攝像頭已經一定程度上物聯網了,聯網的攝像頭產生的多源視頻數據可以很好的幫助發掘潛在恐怖襲擊,或者幫助捕獲恐怖分子。
點擊閱讀原文可查看職位詳情,期待你的加入~
※KDD2018主席熊輝教授:數據挖掘與深度學習結合新趨勢
※DeepMind主攻的深度強化學習3大核心演算法及7大挑戰
※盤點影響計算機視覺Top100論文從ResNet到AlexNet
※「破解人類識別文字之謎」對圖像中的字母進行無監督學習
TAG:新智元 |
※領略數據管理最新理念——2018 NetApp中國創新論壇前瞻
※2018年2月中國CPI、PPI數據權威解讀
※02-24:紫光展銳與英特爾共同宣布達成5G戰略合作;英特爾宣布在2H19推出筆記本用的XMM 8000系列5G數據機;等
※2017各地GDP數據
※2018年2月3DM新媒體數據彙報
※2017中國經濟和能源數據小結
※2017年香港、澳門、台灣GDP數據
※數據中心需求強勁,2017年第四季Server DRAM營收成長約13.9%
※2016-2017 學年SAT 成績數據解讀
※Y4T24 三大運營商2017年數據分析
※專訪 360 商業化 CTO 胡寧,從廣告數據看 360「克制」的變現之路
※專訪 360 商業化 CTO 胡寧,從廣告數據看 360「克制」的變現之路
※S系新10級TD數據曝光:中坦速度+重坦防禦+152神教=?
※日誌易CEO陳軍出席2018愛分析 中國大數據高峰論壇
※首批107名DSMM測評師上崗 貴陽聯合阿里打造數據安全試驗田
※CVPR 2018:用狗的數據訓練AI 華盛頓大學研發模擬狗行為的AI系統
※Assembly將在2018EASL公布在研乙肝新葯ABI-H0731新數據
※幸運辣雞的2018-TBSI數據科學複試經驗帖
※40、44、41、哈登成NBA歷史第一人,勇士悍將葩數據:5+9+9+2+2+19
※2017年x86 伺服器市場數據:Dell EMC、HPE、浪潮位列全球前三