「裴健當選SIGKDD主席」研究被引超7萬次,他還有一個遺憾|專訪
【新智元招聘】AI 盛夏,星艦啟航。《新一代人工智慧發展規劃》發布之際,新智元也正式入駐融科資訊中心 B 座,整裝待發。天時地利,星辰大海,我們召喚你——新船員的加入!COO、總編、主筆、內容運營、客戶總監、客戶經理、視覺總監(兼職) 7 大職位招聘全新啟動。點擊文末閱讀原文查看詳情。
根據新智元獲得的最新消息,ACM SIGKDD日前公布了新一任主席的名單,加拿大西蒙弗雷澤大學教授裴健當選,任期為 2017.07.01——2019.06.30。
裴健是加拿大西蒙弗雷澤大學計算科學學院教授,統計學與精算系及健康科學學院兼職教授,加拿大一級研究講席教授(Canada Research Chair, Tier 1)。他專註於數據挖掘、大數據、數據科學和資料庫的研究及其在健康信息學、金融、企業業務系統等的應用。他發表了200多篇學術論文、一本教科書和兩本學術專著,被引用7萬多次。此外,他還是 ACM 和 IEEE 的 Fellow。
新上任主席的三把火
根據裴健教授對新智元的介紹,SIGKDD的主席選舉過程包括:現任執委會任期到期前,由一個提名委員會提名下一屆的候選人,其中必須有兩名主席候選人和兩名秘書長兼司庫候選人,執委候選人必須多於6人。然後全體SIGKDD會員通過不記名投票選出主席、秘書長兼司庫和6名執委。候選人通常是在SIGKDD中活躍的成員,之前有SIGKDD服務經驗,在技術、應用和戰略方面有一定經驗。
裴健說,當選SIGKDD主席後,在未來兩三年,SIGKDD重點要做好幾件事情:
·首先,SIGKDD作為數據科學的全球領先的專業人士組織,需要得到學術界和產業界持續支持。SIGKDD會繼續為學術界和產業界提供全面的支持,推動學術界和產業界的互動;
·第二,SIGKDD的核心領域是數據科學,我們要團結相關的專業人士和社區,如機器學習、人工智慧、統計學、資料庫、認知科學等。我們要通過各種活動推動數據科學的創新和應用;
·第三,SIGKDD要進一步推動這個組織的多樣性,如鼓勵更多的女性進入KDD這個行業,在各個地區和應用領域建立發展SIGKDD的分支機構。最重要的是SIGKDD要大力推動數據科學的教育普及,為培養下一代數據科學家鋪路搭橋。
2017年8月,SIGKDD將在加拿大新斯科舍哈利法斯舉行,裴教授對新智元說,這幾年KDD大會在如何使數據科學和人工智慧在數據密集應用中落地,如何做出開創性的新穎應用等方面都很出彩,歡迎大家關注大會。
SIGKDD在中國
根據裴健教授的介紹,在數據挖掘領域,有一批優秀的華人學者非常活躍,做出了傑出的貢獻,如前輩 Jiawei Han 教授和陸宏鈞教授,以及現在很活躍的周志華教授、劉兵教授和熊輝教授等,在產業界特別是國內企業,有很多年輕的專家做出了突出的成績,如百度的沈抖博士、滴滴的葉傑平教授、領英的Shipeng Yu博士等。
作為美國計算機學會 ACM 旗下數據挖掘和知識發現的專業組織,SIGKDD 每年都會主辦 KDD 大會,是數據挖掘領域的最高學術會議,每年都吸引2000 多與會者,大部分來自產業界,學術論文的接收比例不超過 20%。
資料顯示,2016年的KDD大會共吸引了1115 篇投稿,其中研究專題投稿論文784篇,最終有142篇錄用;應用數據科學專題投稿論文331篇,錄用66篇。
SIGKDD 2016年1月在中國設置了分會(SIGKDD China) 目前,SIGKDD China 的執行委員會主席為香港科技大學楊強教授,副主席為南京大學的周志華教授,以及百度公司副總裁沈抖。微軟研究院鄭宇擔任秘書長,西南交通大學的李天瑞為財務主管。
數據挖掘是屠龍之術? 很多號稱AI公司的企業其實都在干數據挖掘的事情
在查閱背景資料,我們看到網上有這樣一種說法:數據挖掘目前在中國的尚未流行開,猶如屠龍之技,現實情況是這樣嗎?裴健教授說,就他了解的情況,其實數據挖掘在中國到處開花結果。實際上很多號稱AI公司的企業都在干數據挖掘和數據科學的事情。大家越來越認識到 AI 應用數據為王。
針對現在數據挖掘行業存在概念混亂的現象,許多局限在報表的展示和簡單的統計分析,卻也號稱是數據挖掘。裴健教授認為,報表是數據挖掘結果的重要展現形式之一,另一個重要展現形式是可視化分析。數據挖掘可以從報表和簡單的統計分析出發,關鍵是逐步挖掘業務需求和潛能,推進數據挖掘的深入應用,在業務中發揮作用,產生越來越大的價值。數據挖掘的關鍵是能利用越來越多的數據產生越來越大的業務價值。
關於數據挖掘,有人說「溝通能力和興趣愛好是個人的數據挖掘的核心競爭力」,對於這一觀點,裴健在接受新智元的採訪時表示:「數據挖掘的核心是對數據和業務的理解能力和對演算法的構建能力。溝通能力很重要,是對數據和業務的理解能力的關鍵,但同時演算法的構建能力也很重要。」
研究被引用數量超過7萬次,裴健還有一個遺憾
在谷歌學術上,我們查到,裴健教授的研究總共被引用數量超過了7萬次,2012年至今的5年間,被引用次數超過3萬5千次。在數據挖掘領域可謂有著強大的影響力。
在採訪中,我們希望裴健教授向我們推薦一篇他認為最滿意的論文。謙虛的裴健老師表示,「與其選自己最滿意的論文,還不如說自己最常有的遺憾。 」
他說:「每篇論文發表之後就會留下遺憾,因為總有可以改進的地方。回頭看,對自己的每篇論文我都能說出自己的遺憾。與其選自己最滿意的論文,還不如說自己最常有的遺憾。 我經常遺憾對一個問題的本質認識不足,忽略了更簡潔的演算法,對別的領域不夠了解,未能借用別的領域已有的技術和方法。」
數據挖掘其實是一個非常跨學科的領域,與眾多學科相互促進,共同發展。以人工智慧和機器學習為例,可以結合的點非常多。對於這種跨界的合作,裴健教授對新智元介紹說:「我和機器學習的專家合作很多,自己也可以濫竽充數地說懂一點機器學習。我在資料庫、數據挖掘、機器學習和信息檢索多個領域都做一點,和不同的學者合作,從他們身上學到不同的東西,如不同的思維方式和領域知識,收益非淺。多跟不同的人合作是很有幫助的。」
KDD最新趨勢: 深度學習最近的發展很Disruptive
KDD領域近年來向機器學習靠攏的趨勢很明顯。從大會評選出的最佳論文,以及組織舉辦的Workshop就能夠看出,話題與實際應用結合非常緊密,keynote 演講里還有專門請投資人從VC視角講解機器學習。
那麼,這算是一個大趨勢嗎?
裴健教授在接受新智元的專訪時表示,機器學習本身就是數據挖掘的一個重要工具,20年前數據挖掘創始的時候的三大主要內容就包括機器學習。機器學習與數據密不可分,數據挖掘是打通從數據到業務的端到端流程。
再具體到深度學習,裴健說:「深度學習最近的發展很 Disruptive。在數據挖掘領域,很多工作用深度學習作為工具。KDD上有很多文章提出了很有趣的問題,然後用深度學習作為工具巧妙地解決了問題。建議感興趣的讀者去瀏覽一下今年來的KDD論文集。」
聊一聊數據:這樣才能獲得高效的、優質的「燃料」,確保火箭不會出事?
人工智慧的發展很大程度上依賴於數據的獲取,有人曾說,如果人工智慧是火箭,數據就是燃料,從你在數據挖掘多年的經歷來看,怎樣才能獲得高效的、優質的「燃料」,確保火箭不會出事?現在深度學習領域出現了各種各樣的數據集,數據的量非常大,在圖像領域就出現了比著名的Imagenet要大很多的資料庫,那麼,是不是數據永遠是越大越好?對於研究者來說,怎樣才算是適合的數據?
在「數據」上有著多年研究經驗的裴健對新智元介紹說:「一般來說,數據是越多越好。深度學習需要大量的數據來產生可以generalize的模型。在實際應用中,數據往往是有成本的。有很多應用場景不容易獲取大量的高質量數據。所以說我們需要針對具體問題,獲取合適的數據。在這方面,統計學對數據的採集評價有一系列的方法和原則,值得深入學習。另一個方面,要很好利用大量的數據,通常需要比較複雜的模型,對計算的要求也相應地比較高,所以我們要根據數據量和應用來選擇合適的模型。」
提到大數據和好數據,人工智慧發展的另一個前沿方向就是能減少數據依賴,實現無監督學習。裴健認為,無監督學習的一個難點在於其沒有絕對的評價標準。例如病人可以按病因、癥狀、併發症、風險等很多方面進行分群。因此,無監督學習的一個難點就是如何形成合適的類別,特別是結合問題的上下文,如常識,去形成合理有意義的類別。
採訪的最後,新智元提到,最近「程序員自動化」的討論比較多,那麼在數據發現和挖掘領域,是不是也可以實現「自動化」,由機器來完成數據的挖掘工作?裴健表示,數據挖掘就是致力於數據的挖掘工作自動化。這是我們數據挖掘領域專家正在努力做的。
點擊閱讀原文可查看職位詳情,期待你的加入~
※「CVPR 2021主席出爐」譚鐵牛、虞晶怡當選,未來4年6位華人主席
※「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿
※拿下人臉識別「世界盃」冠軍!松下-NUS 和美國東北大學實戰分享
※全球計算機H-index TOP 10華人Philip S. Yu】從深度學習到廣度學習
TAG:新智元 |
※EDG廠長韓服沖頂失敗,遇多名LCK選手,網友:他在研究Msi對手
※EDG廠長:我又在研究MSI對手了,打RNG兩級抓下就完事了!
※研究人員:每200個Google搜索建議中就有一個被污染
※一秒鑒別ICO詐騙丨2251個項目,研究人員提出深度學習ICO信用評級系統
※NCI9012,在mCRPC中,以AR和DNA修復為靶標的研究結果
※SAMUEL GuìYANG的第六度短暫研究
※PD-1有望成為NSCLC治療的一線用藥!KEYNOTE-042研究數據解讀
※Peanut賽後談RNG奪冠:徹夜研究MLXG,為何他一場都沒上?
※神童8歲開發APP,11歲研究人工智慧,連IBM都找他合作
※繼在中國開設AI中心兩個月後 Google這次又將一個重大研究項目轉向法國
※研究熱點——CRISPR-Cas9系統
※洲際賽KT對陣RW,Smeb已經在研究RW了!團戰殺SMLZ就行,還用研究?
※推薦▎研究者和CRC在AE/SAE報告中的職責
※CVPR 2018獎項出爐:兩篇最佳論文,何愷明獲PAMI 青年研究員獎
※AWS 案例研究:LBE
※UG/NX在CAD/CAM技術中的研究與應用
※CIRC研究報告指出,Android用戶忠誠度為91%,高於iOS用戶的86%
※ctDNA-NGS試劑盒性能驗證研究斬獲AACR口頭演講,專家解讀研究意義
※SPARC系統在基於GaN的塊體和納米結構LED研究中的應用
※Yann LeCun卸任FAIR負責人:「我更擅長做研究」