北大獲中國首個WWW大會最佳論文獎,提出ELSA跨語言情感分析模型
WWW 2019(The Web Conference)已於5月13-17日在美國舊金山召開。會議閉幕式上,大會主席公布了兩篇最佳長論文和一篇最佳短論文。
其中來自北京大學信息科學技術學院計算機科學技術系、高可信軟體技術教育部重點實驗室劉譞哲副教授課題組的論文「Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification」獲得了今年WWW大會最佳長論文獎,這是WWW歷史上中國學術研究機構(含港澳台)首次獲此榮譽。
WWW大會由萬維網發明人、2016年度圖靈獎獲得者Tim Berners-Lee爵士等人於1992年發起並創辦,是計算機與互聯網領域的頂級學術會議,也被列為《中國計算機學會推薦國際學術會議和期刊目錄》中的A類學術會議,錄用率常年維持在14%~18%。
今年,WWW 大會投稿總數為1247篇,錄取225篇,錄取率為18%。值得一提的是,今年也正值萬維網誕生30周年。
以下是大會官方公布的三篇獲獎論文信息:
最佳長論文1:Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification
作者:Zhenpeng Chen、Sheng Shen、Ziniu Hu、Xuan Lu、Qiaozhu Mei、Xuanzhe Liu(北京大學)
鏈接:https://arxiv.org/abs/1806.02557
獲獎理由:創造性地使用全球通用的emoji作為跨語言情感分類表徵學習的一部分,顯著優於之前的SOTA結果。
最佳長論文2:OUTGUARD: Detecting In-Browser Covert Cryptocurrency Mining in the Wild
作者:Amin Kharraz、Zane Ma、Paul Murley、Charles Lever、Joshua Mason、Andrew Miller、Nikita Borisov、Manos Antonakakis、Michael Bailey(伊利諾伊大學香檳分校、喬治亞理工學院)
鏈接:https://nikita.ca/papers/outguard-www19.pdf
獲獎理由:首個無需手動分析、有效防禦瀏覽器內cryptojacking系統的設計、實現和評估。
最佳短論文:ViTOR: Learning to Rank Webpages Based on Visual Features
作者:Bram van den Akker、Ilya Markov、Maarten de Rijke(阿姆斯特丹大學)
鏈接:https://arxiv.org/abs/1903.02939
獲獎理由:集成了ImageNet 預訓練CV模型和IR顯著模式(salience pattern),從而極大提升排序的準確率,特別是對於更早網頁位置而言。
北大最佳長論文解讀
圖註:本文第一作者為北京大學信息科學技術學院2018級博士生陳震鵬,通訊作者為劉譞哲副教授,論文作者還包括北京大學信息科學技術學院2014級本科生沈晟、鬍子牛,2016級博士生陸璇,以及密歇根大學梅俏竹教授。
在動態、開放和多變互聯網環境下,軟體系統需要深入準確地感知和理解用戶情境(包括所處環境的狀態和用戶的行為),以更加智能地提供服務。作為用戶情境感知和理解中一個重要方面,情感分析得到了包括數據挖掘、系統軟體、人機交互等多領域研究者的廣泛關注,成為交叉研究熱點並取得一系列進展。現有情感分析工作主要基於英語文本開展。在其他語言上,研究較少、標註語料稀缺,現有方法效果較差。但是,75%的互聯網用戶為非英語用戶,大約一半的Web內容為非英語內容。考慮到上述學術研究上的不平衡問題,非英語用戶對Web貢獻很大,卻無法像英語用戶一樣享受到高質量的基於情感分析的Web服務。
針對這一現象,學術界提出了「跨語言情感分析」,將英語語料中學習到的知識遷移到那些缺乏標註語料的語言(稱為目標語言)上。最直接的跨語言情感分析方法就是使用機器翻譯技術來連接兩種語言。比如,將目標語言文本翻譯成英語,直接使用英語的情感分析工具來處理翻譯語料。近年來,隨著表徵學習的發展,研究者開始嘗試更複雜的方法,例如,藉助機器翻譯技術將兩種語言的表徵對齊,形成一個統一的表徵空間,並基於該表徵空間開展情感分析。
儘管上述方法聽起來可行,但是效果卻一直不盡人意。事實上,上述方法均未考慮到語言差異問題。具體來說,不同語言中的情感表達方式不同,機器翻譯只能保留那些語言之間共性的情感表達,不能保留語言特定的情感信息。例如,「怒っている」翻譯成英語是「angry」,兩者均蘊含負面情感,是英語與日語之間共性的表達;「湯水のように使う」在日語中形容浪費,是負面的表達,但是翻譯成英語後是「use it like hot water」,丟失了原本的情感。
因為機器翻譯只能保留兩種語言的共性,需要一個新的「橋樑」來連接兩種語言,同時保留兩種語言共性和個性的情感信息。作為情感信息的載體,該橋樑需要比人工標籤更易獲得,且在各語言中普遍存在。基於上述需求,本文使用emoji表情符號作為這一橋樑。一方面,emoji是情感表達的有效工具,可以充當人工標註的情感標籤的替代品;另一方面,emoji作為世界通用的普適性語言,可以充當連接兩種語言(即英語與目標語言)的橋樑。兩種語言之間共性的emoji使用模式可以和機器翻譯一起,縮小語言之間的差異;各語言特定的emoji使用模式可以緩解語言差異問題。
具體地,本文提出了ELSA(Emoji-powered representation learning for cross-Lingual Sentiment Analysis)模型。首先,從Twitter上收集兩種語言的語料,基於語料中的emoji使用情況學習兩語言各自的表徵模型。英語和目標語言各自的表徵模型中蘊含了各自特定的情感信息。接著,使用機器翻譯技術生成平行語料,抓住兩種語言之間共性的情感信息。
為了驗證ELSA的效果,本文選用了經典的亞馬遜評論數據集,該數據集中包含9個任務,即分析法語、德語、日語的關於書籍、DVD、音樂的評論文本中的情感。結果顯示,ELSA較已有的跨語言情感分析方法,效果上有顯著提升。為了驗證模型的泛化能力,本文還選用了Twitter數據集進行驗證,較已有方法,準確率提升十幾個百分點。
2016年開始,劉譞哲副教授課題組在研究移動互聯網系統與服務時發現,emoji正在成為一種新的「普適」語言,是用戶最為廣泛使用的交互方式(大多數輸入法都已內置emoji)。課題組認為,emoji不僅可以讓表達更加生動,而且可以作為一種新的「軟」感測器(Soft Sensor)來感知和理解用戶的情境。特別地,隨著用戶數據的安全隱私問題日益得到關注,如歐盟《通用數據保護條例》(GDPR)等法律法規的推出,傳統方法可能因涉及用戶隱私數據而無法應用;而emoji可以在一定程度上避免涉及這些敏感數據,並在用戶畫像、情感理解等方面被驗證具有良好的效果。以emoji作為理解和分析用戶情境的切入點,課題組在過去三年形成了一系列研究成果,已陸續發表於WWW和UbiComp等國際頂級會議,為用戶情境分析理解並進行服務推薦開闢了全新的研究視角。
※批歸一化和Dropout不能共存?這篇研究說可以
※每個開發者都應該了解的一些C++特性
TAG:機器之心 |