當前位置:
首頁 > 新聞 > SMP 2018 首日,前沿技術講習班四大主題報告一覽

SMP 2018 首日,前沿技術講習班四大主題報告一覽

由中國中文信息學會社會媒體處理專委會主辦、哈爾濱工業大學承辦的第七屆全國社會媒體處理大會(SMP 2018)將於 2018 年 8 月 2 日- 4 日在哈爾濱召開。雷鋒網作為獨家戰略媒體帶來合作報道。SMP 專註於以社會媒體處理為主題的科學研究與工程開發,為傳播社會媒體處理最新的學術研究與技術成果提供廣泛的交流平台,旨在構建社會媒體處理領域的產學研生態圈,成為中國乃至世界社會媒體處理的風向標。

8 月 2 日舉行了第十期前沿技術講習班(ATT 10),此次講習班邀請四位知名學者圍繞網路表示學習、因果推論、深度強化學習及數據可視化四個方向進行講座。講習班由浙江大學楊洋助理教授擔任主席。

在上午的講習班環節中,北京大學信息科學技術學院的宋國傑副教授帶來了《大規模網路表示學習》的分享,圍繞網路表示學習的研究展開了詳細而系統的闡述。

圖片來源:哈工大 SCIR 李家琦

基於現實世界中的大量數據都是以網路形式存在的,儘管目前計算機的算力在不斷增強,但考慮到數據的高維性、數據的稀疏性、數據的大體量等多種因素,如何圍繞大規模網路數據開展機器學習和數據挖掘研究,也成為了產學高度關注的重要議題。

他首先從線性與非線性的角度回顧了發展歷程,並強調了表示學習的研究目標主要集中在兩個方面,一個是還原網路原始節點中的關係;另一個是維護節點在網路空間中的性質。他在講座中還介紹了 Word2Vec、Adjacency-based similarity、LINE 及 Random-walk Approach 等四個經典的表示學習方法。

他結合各項研究的特點做出總結,並從多個方面進行了網路表示學習的進一步延伸,分別從靜態數據到動態數據(如 depthLGP、Dynamic Triad Model 等工作)、從節點到社群(如 M-NMF 等工作)、從同質到異質(如 meta path 等工作)等多個方面介紹了一系列代表性進展。

隨後,他圍繞多層次網路表示學習、動態網路表示學習及基於網路表示學習的實體標準化等三個角度深入介紹團隊的相關工作。最後,他建議未來可以圍繞 Graph Neural Network、大規模 Network Embedding、拓展 embedding space 等方面展開更多研究。

接下來,清華大學政治學系孟天廣副教授帶來了題為《計算社會科學新進展:從探索性分析到因果推論》的主題報告。

圖片來源:哈工大 SCIR 李家琦

報告伊始,他闡述了大數據分析與因果推論的關係,他表示,大數據分析是以知識發現為導向的,數據挖掘即從數據中自動抽取模式,然後通過解釋和評價轉換成最終用戶可理解的知識。因果推論視角下的大數據分析則包括描述性推論、因果性推論、機制性推論。

他進一步表明計算社會科學中重視因果關係有如下五點原因:一是好奇心驅動,二是解釋性知識更關鍵,三是需要將社科應用到社會場景,四是識別好的因果關係可以幫助我們更有效地做預測,五是要賦予數據挖掘社會意義。

帶來計算社會科學方法論的進展之後,他也回應了目前對大數據方法的一些批評,如探究「相關關係」而非「因果關係」,在數據採集過程中涉及到個人隱私保護問題等等。他同時指出,大數據方法也帶來了很多機遇。比如數據模態更加多元,是「全量數據」而不是「樣本數據」,是「真實數據」而不是「設計的數據」,數據里蘊含豐富的時空信息可以用來做數據融合等等。而在經濟上,也具備低成本、時效性和高效率三個特徵,此外在學術影響上也極具優勢。

此後,他詳述了用大數據做因果推論的四個發展方向,一是大數據+計量分析,即用大數據的方法降維、測量,然後再做回歸、匹配等,二是大數據+小數據分析,即在大數據里抽取小樣本,進一步檢驗模型假設,三是大數據+時空模型,進行一些因果推斷和可視化,四是大數據分析+實驗設計。

他表示,在大數據分析、因果推論上有一系列工具:例如統計分析方法,如主成分分析、線性回歸、非線性回歸、空間計量等,還有一些現場實驗、自然實驗等實驗方法。

在最後,他詳述了這四個方向的若干方法和工具,並舉了一系列實例,如文本匹配、立案登記制等等。

下午,清華大學計算機系黃民烈副教授分享了《深度強化學習及其在自然語言處理的應用》。他首先介紹了強化學習的基本概念,作為「首個通過交互進行學習的模型」,強化學習通過對策略給予不同的 reward,在試錯的過程中達成最優策略。由於具有序列決策、嘗試試錯、延遲獎勵等特點,深度強化學習在遊戲、機器人、自動駕駛等多個領域擁有廣泛的應用場景。

圖片來源:哈工大 SCIR 李家琦

基於 value-based(Q-Learning)、policy based 和 actor-critic 的方法,他對其代表方法及基本思想做出了闡述,他在演講中也總結了強化學習的主要特點,1)當前決策會影響未來的決策;2)強化學習的訓練過程本質上是一個試錯的過程;3)以長期 reward 的最大化為導向。

在最後,他總結了強化學習在自然語言處理應用中的關鍵點,包括 1)將任務轉化化自然序列決策問題;2)明確強化學習的「試錯」本質;3)在 reward 中加入先驗知識的理解;4)在無監督或弱監督的場景下行之有效。但與此同時,我們也應看到暖啟動的重要性,此外也應考慮在完全監督及 Large Action Space 問題下效果提升的有限性,在訓練技巧及調參上也對研究者提出了更高的要求。

最後一位演講的嘉賓是同濟大學設計創意學院教授、智能大數據可視化實驗室主任曹楠,他帶來了數據可視化的一系列介紹以及可視化在異常檢測中的應用。

圖片來源:哈工大 SCIR 李家琦

演講伊始,他對同濟大學智能大數據可視化實驗室進行了簡單介紹,實驗室橫跨多個學科,研究領域包括數據可視化、人機交互、機器學習,目前正在招生中。

隨後,他介紹了數據可視化的基礎概念,可視化一個很重要的功能就是數據解釋,當數據量非常大,結果很複雜時,可視化在理解數據中可以發揮重大作用。他表示,廣義來講,任何能創造圖像、動畫等的技術都可以稱為可視化,數據可視化是可視化的一個分支,數據可視化分為三個子領域:科學可視化、信息圖,信息可視化,這裡重點討論的是信息可視化。

他舉了拿破崙對莫斯科進軍路線的一張圖來說明可視化的作用,這張圖用二維圖表一目了然地展現了五六維的信息。他強調,信息可視化不是藝術,也不是計算機圖形,也不是處理圖像,而是圍繞數據,揭示數據真諦。在統計分析時會掩蓋數據的真諦,可視化可以幫助從上下文中觀察數據。

他提到大數據可視化的三點挑戰:視覺混亂、性能瓶頸、人的認知有限。接下來他闡述了創造可視化的幾個關鍵點:理解數據,知道用戶和任務;設計要能達到信、達、雅;布局,即解優化方程,但由於時間限制,往往沒法得到全局最優解;此外,為了讓人們觀察到數據的變化,必須有動畫。

之後,他介紹了一些流行的可視化開源工具包,例如 D3.js, Tableau,在可視化相關知識的學習上,他推薦了《Visualization Analysis&Design》一書。另外,他介紹了可視化相關的重要學術會議,包括 IEEE InfoVis/VAST/SciVis。

在介紹完可視化一系列基礎概念之後,他提到用可視化來查找社交媒體中的異常用戶,他表示,匿名用戶的行為可能會威脅到整個社區,這時候找出這些異常用戶意義重大。這時候面臨的挑戰有兩點:很難定義何為正常和異常,很難獲得有標籤的數據來訓練模型。之後,他舉了他們實驗室在異常檢測方面的一連串的工作,研究主要分兩個階段,第一階段是群體異常行為的分析,第二階段是個體異常分析,他們此前的相關工作有如 FluxFlow 謠言檢測,TargetVue 用戶行為畫像等。之後,他也介紹了異常檢測相關競賽 Bot Design/Detection。

至此,講習班內容全部結束,在明後兩天,SMP 2018 將迎來六大特邀報告,八大分論壇、技術測評以及口頭報告等多項精彩環節,雷鋒網也將持續為大家帶來專題報導,敬請期待。雷鋒網


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

一窺 ACL 2018 最佳論文
蘋果內鬼被控竊取商業機密加盟小鵬汽車 小鵬回應:我不知情

TAG:雷鋒網 |