當前位置:
首頁 > 最新 > ACL2017 斯坦福:將方言多變性納入社會公平語言識別

ACL2017 斯坦福:將方言多變性納入社會公平語言識別

你和「懂AI」之間,只差了一篇論文

很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

這是讀芯術解讀的第2篇論文

ACL 2017 Short Papers

將方言多變性納入社會公平語言識別

Incorporating Dialectal Variability for Socially Equitable Language Identification

斯坦福大學

Stanford University

【摘要】語言識別(LID)是處理多語言文本任務關鍵的第一步。然而,大多數LID系統並不旨在處理全球平台(如Twitter)的語言多樣性,本地方言和泛濫的語碼轉換導致語言分類器系統地錯過了少數民族方言使用者和多語言說話者。我們提出了一種新的數據集和基於字元的seq2seq模型,用於支持方言和多語種識別。我們的模型在多個LID基準上實現了最先進的性能。此外,在使用Twitter進行健康跟蹤的案例研究中,我們的方法大大增加了由弱勢族群編寫文本的可用性,從而實現「社會包容性」NLP工具的開發。

1 引言

語言識別(LID)是多語言文本NLP任務中重要的第一步。在Twitter的全局設置中,文本是由不同語言背景的作者撰寫的,他們可能會與區域方言使用者進行溝通,甚至包含同一個消息的並行翻譯來與不同的聽眾講話。這種方言的變化在所有語言中都是頻繁的,甚至是美國和英國英語等宏觀方言,都是由城市和社會經濟發展水平不同的當地方言組成的。目前,針對數十種語言訓練的主流LID系統主要是利用歐洲中心語料庫,而不考慮人口統計和方言變化。因此,這些系統將具備數百萬使用群體,這些群體的方言與大部分方言都不同。

圖1 Twitter中社會公平的LID的挑戰包括方言文本,如奈及利亞(#1)和愛爾蘭(#2)以及#3中的多語言文本(印度尼西亞語和英語)。

目前已經出現了多個在全球範圍內主流的LID系統。然而,只有少數技術已經解決了全球數據語言變異性的挑戰,如圖1所示的方言變體和多語言文本。這些技術通常僅集中在有限的變異性方面,例如,個人方言,如非洲裔美國人本土英語、在線演講、類似語言或詞級的語碼轉換。

在這項工作中,我們的目標是設計一個社會公平的LID,這將使得能夠以人數較少的方言、多語言消息和其他語種,進行大規模多語言、具備廣泛覆蓋人群的語言識別。我們首先在全球範圍內構建一個大型的Twitter帖子數據集(§2)。然後,我們引入一個LID系統EQUILID,產生每個分詞的語言標註,並獲得四個LID任務(§3)的最優性能,超過主流LID基準的300%。最後,我們提出了一個關於使用Twitter進行健康監測的案例研究,並表明(1)當前廣泛使用的系統受到來自發展中國家文本召回率低的影響,(2)我們的系統大大減少了這種差距,並使社會公平的LID成為可能。

2 搜集社會代表文本

儘管語言中已經存在一些已知的語言差異,但目前主流LID系統主要針對以歐洲為中心的來源數據進行了訓練,通常是由於數據可用性。此外,即使訓練融入了維基百科全球範圍內的文本,他們的作者仍主要來自高度發達國家。這種潛在的偏見可能會顯著影響下游應用程序(我們稍後將在第4節中詳述),因為語言識別通常被認為是一個已解決的問題,大多數研究採用現成的LID系統,而不考慮它們是如何訓練的。

我們的目標是為LID創建一個社會代表性語料庫,用於捕獲語言中的變體,如正字法、方言、形式、主題和拼寫。受最近Twitter語言調查的驅動,我們接下來描述了如何在三個維度上構建70種語言的語料庫:地理、社會和話題多樣性以及多語言性。

地理多樣性 我們通過以人為中心的方法通過boot-strapping來創建一個不同地域的大規模文本數據集,這些方法將位置和語言描述視為作者推斷的人口統計屬性。通過推斷Twitter用戶,然後從單語用戶收集文檔,我們確保捕獲到每一種語言的區域變異,而不是專註於語言變體的一個特定方面。

Compton等人(2014)和Jurgens等人(2015)提出一種方法可以推斷個體位置。該方法首先通過帶有地理標籤的推文確定具有真實可靠地理位置的個體,然後推斷其他個體的位置,作為其朋友的地理位置中心,將該推斷方法迭代地應用於整個社交網路。該方法在城鄉用戶中,十公里範圍內是準確的(Johnson等,2017),這對我們在此使用的城市粒度的分析是足夠的。我們使用一個具有2.3B邊的關於相互提及的網路來定位132M用戶。

為了識別單語用戶,我們對同一個人的推文進行分類,如果他至少有20個tweets,並且95%被標記為同一種語言l,則該作者被視為單語用戶。我們使用這種重複標註過程來自動識別錯誤分類的推文,當這些推文在地理上聚合時,就可以捕獲區域方言和主題了[1]。我們使用langid.py和CLD2作為分類器來構建單獨的單語集,以減輕每個語言的偏差。

社會和主題多樣性 作者調整他們的不同寫作風格。因此,我們從不同層次的廣泛話題中獲取語料庫。從(1)維基百科文章和更加非正式的談話頁面收集70種語言文本,(2)聖經和古蘭經翻譯(3)JRC-Acquis,歐洲立法的集合,(4)「聯合國人權宣言」,(5)「Watchtower」在線雜誌,(6)2014年和2015年「區分類似語言」任務的迭代和(7)Twitter70數據集。我們還包括從俚語網站(例如城市詞典Urban Dictionary)中提取的單語言語料庫和來自Blodgett等人的非洲裔美國本土英語數據。(2016)。對於所有來源,我們通過聚合最多140個字元的句子來順序提取實例。

多語言多樣性 作者在Twitter上生成多語言文本,此外Rijhwani等人(2017)估計,3.5%的推文是語碼轉換的。為了捕捉多語言文檔中的潛在多樣性,我們執行數據擴充來綜合構建推文的多語言文檔,通過(1)從任意來源對兩種語言進行文本抽樣;(2)每個文檔的被抽樣的幾率為50%,根據常用的標點符號對文本進行分割,(3)將兩個文本連接在一起,並將其添加到數據集中(如果≤140個字元)。我們僅創建句子級或短語級的語碼轉換,而不是字級的轉換,以避免外來詞歧義,這被認為是一個重大挑戰。

語料庫概要 地理多樣化的語料庫是由兩個Twitter數據集構成的:來自2014年3月的所有推文的10%樣本的13B推文和從2016年11月起所有帶有地理標籤推文的1%樣本中提取的14.2M推文。最終,我們收集來自197個國家和53種語言的1.5M用戶的97.8M推文。在數據集中識別單語作者之後,9.4%的實例(9.1M)被CLD2或langid.py標記為與其作者所說的語言不同的語言;由於幾乎所有都被錯誤分類,因此我們認為這些是很有價值的數據,以修正系統誤差。

共收集了2.58億個實體,用於主題和社會多樣化的語料庫。多語言實例是通過對所有語言對的文本進行抽樣創建的;共有3.2M的合成實例被創建。補充材料中對全部細節進行了描述。

3 Equitable LID分類器

我們介紹EQUILID,並對單語和多語的tweet文本進行評估。

模型 基於特徵的神經網路架構特別適用於LID,因為它們有助於模擬語言的微妙正字法現象和語音特性,例如,捕獲常規語素在一種語言的出現次數。此外,與基於字的方法相比,基於字元的方法顯著降低了模型的複雜性;基於字的方法需要對於每個單詞形式進行單獨神經表示,因此這種方法在包含數千萬個不同單詞的多語言環境中是不可行的。我們使用編碼器-解碼器架構和注意機制。編碼器和解碼器是具有512個門控反覆單元的3層遞歸神經網路。該模型被訓練為基於空白字元對字元序列輸入進行分詞,並且輸出帶有每個分詞的語言序列,以及用於標點符號,主題標籤和用戶提及的額外的分詞類型。

設置 社會代表性語料庫(§2)中的數據被分為訓練、開發和測試集(分別為80%/ 10%/ 10%),分別對每個源(例如維基百科)的數據進行區分。由於規模不同,我們對每個源和語言施加最多50K個實例,以減少訓練誤差。最終數據集共使用了52.3M的實例。多種語言實例是由其各自分割內的文本產生的,以防止測試-訓練集重疊。對於Twitter70數據集,我們使用與Jaech等人(2016)相同的訓練、開發和測試分割。所有評估使用相同的訓練模型。所有的參數優化都是使用adadelta(Zeiler,2012)的開發套件進行的,具有64個小批量的訓練模型。該模型訓練了270萬步,大概有三個階段。

比較系統 我們比較了兩個主流的LID系統,langid.py和CLD2,兩者都被廣泛應用於NLP社區的Twitter。CLD2在網頁文本上進行訓練,而langid.py在newswire、JRC-Acquis、網頁和維基百科上進行訓練。既不是為Twitter設計的,我們對文本進行預處理以刪除用戶提及的主題標籤和URL以進行更公平的比較。對於多語言文檔,我們用Lui等人(2014)描述的、為此特定任務而設計的Polyglot替代langid.py。

我們還結合了Jaech等人(2016)的研究成果,他們為兩個基準測試訓練了不同的模型。他們的架構使用卷積網路,使用其字元將每個輸入字變換為一個向量,然後將字向量推送到一個LISM編碼器,該解碼器將語言解碼為每字的soft-max分布。對這些單詞語言分布取平均分布,以識別輸入文本最可能屬於哪種語言。相比之下,我們的架構僅使用基於字元的表示,併產生每個分詞的語言分配。

基準 我們用三個數據集測試單語設置:(1)§2的地理多樣化語料庫的測試部分,涵蓋53種語言,(2)Twitter70數據集的測試部分,涵蓋70種語言,(3)TweetLID共享任務,涵蓋6種語言。TweetLID數據包括加利西亞人,由於其出現的相對不頻繁,因此這不是我們包含的70種語言之一。因此,我們僅對非加利西亞部分的數據進行了實驗。使用70種語言綜合構建的多語言數據的測試數據部分,測試多語言LID。使用宏平均和微平均F1值評估模型。宏平均F1表示每種語言的平均F1,與該語言的實例數無關。微平均F1表示從所有實例測量的F1值,並受數據集中語言分布偏差的影響。

結果 EQUILID在所有基準測試中都能達到其他主流LID系統的最先進的性能。我們把這個優勢歸因於其更具代表性的訓練數據;的確,Jaech等人(2016)表示,langid.py僅在Twitter70數據上進行再訓練時,獲得了更高的0.879的F1值,值得強調的是,由於社交媒體的多樣性,主流系統通常不會進行數據訓練。儘管受到廣泛訓練,EQUILID也優於Jaech等(2016)的基準最優模型。

表1 四項基準測試結果。Jaech等人(2016)實驗結果是針對不包括加利西亞人的每個基準最優的獨立模型。對於多語言推文,我們使用Lui等人(2014)描述的langid.py的擴展。

在多語言環境中,EQUILID大幅優於Polyglot和CLD2,與之前相比,宏平均F1超過300%的增長。此外,由於我們的模型還可以識別每種語言鴻溝,因此我們將其性能視為在語言之間檢測句子和語言間短語轉換的全語言解決方案上的重要一步。事實上,在Twitter70數據集中,EQUILID發現大約5%的測試數據是未標記的語碼轉換實例,如圖1中的第三個例子。

錯誤分析 為了確定分類錯誤的主要來源,我們在Twitter70的測試集上手動分析了EQUILID的輸出。該數據集包含9,572個測試實例,其中90.5%被我們的系統正確分類;我們在剩下的909個錯誤分類的例子中討論錯誤源。

用相同腳本編寫的,使用重疊辭彙的密切相關語言分類是最大的錯誤來源(374個錯誤分類的實例,占所有錯誤的41.1%)。斯拉夫語言是最具挑戰性的,177個波斯尼亞和65個斯洛維尼亞語推特被歸類為克羅埃西亞語。這是不足為奇的,考慮到即使對於人工標註,這項任務也是具有挑戰性的(或不可能的)。例如,一個錯誤分類的波斯尼亞語推特(「多汁巧克力餅乾食譜」)與克羅埃西亞語相同。印度語言有39個錯誤,孟加拉語、馬拉地語、尼泊爾語、旁遮普語和烏爾都語推文被歸類為印地語。日耳曼語中、丹麥語、挪威語和瑞典語經常混淆,造成22個錯誤。

錯誤的另一個主要原因是由於英語的音譯和語碼轉換:印地語、烏爾都語、菲律賓語、泰盧固語和旁遮普語中的328條消息被歸為英文,佔36.1%的錯誤。一個印地語推文dost tha or rahega ... dont wory ...but dheryarakhe(「he was and will remain a friend ... don』tworry ... but have faith」)是一個例子,錯誤地由我們的系統分為英語。由於缺乏這些語言的音譯示例,目前很難減少這種類型的錯誤。

4 案例研究:健康監測

我們總結一個現實案例研究,使用Twitter帖子作為跟蹤健康趨勢的實時信息來源。這些信息對於那些沒有足夠資源來識別趨勢的地區尤其重要。通常,趨勢跟蹤方法首先應用語言識別方法來選擇特定語言內容,然後應用複雜的NLP技術來識別與其目標現象相關的內容,例如區分流感評論與宿醉相關的內容。這個環境是社會包容的LID系統可以產生的實際影響:有效分類弱勢族群方言的LID系統可以大大增加趨勢跟蹤方法的召回率,從而有助於揭示最需要它的地區的傳染病危險趨勢。

語言品種與社會階層和民族認同相關聯。作為一個案例研究,我們評估LID系統在識別包含健康辭彙的英語推文中,跨越具有不同人類發展指數(HDI)的區域的功效。我們將EQUILID與langid.py和CLD2進行比較。

設置 健康相關的術語列表是從流行性感冒詞典、心理健康詞典、和與年齡、性別和人格特徵相關的時間導向詞典彙編的。我們從每個詞典中挑選了100個具有最高權值的字母數字術語,形成了共385個獨特術語。

為了分析區域語言的可能影響,我們選擇了25個具有英語口語人口的國家,並為主要城市建立了62個邊界框進行研究。使用GnipAPI,在2016年1月期間收集了總共984K的推文,這些推文至少使用了一個術語,並在同一個邊界框內產生。由於這些推文需要包含特定領域的術語,絕大多數都是英文[2]。因此,我們根據這些推文分為英文的百分比來衡量每個系統的性能,估計它們的召回率。

結果 為了了解人類發展指數與LID性能的關係,我們訓練一個Logit回歸模型,以根據推文起源國家的HDI來預測具有目標術語之一的推文是否會被認為是英文。圖2顯示了兩個基準模型對發展中國家的LID準確率的差異。相比之下,EQUILID在所有級別的HDI下都勝過兩個系統,並為發展水平最低的國家多進行了額外30%的觀測。由於更多的英文文本來自人口眾多的發展中國家,如奈及利亞(HD 0.527)和印度(HDI 0.624),每個都有數千萬講英語的人,因此,在全球環境下,這種性能改進日益重要。EQUILID分別提高了每個國家英語推文的23.9%和17.4%的召回率。這項研究證實了我們的假設,即社會公平的訓練語料庫是實現社會公平NLP的重要第一步。

圖2根據推特起源國的人類發展指數的邏輯回歸曲線估計與健康相關詞的召回率;波段顯示95%置信區間。

5 結論

全球口語的語言通常根據區域方言、話題或社會語言因素的不同而不同。然而,大多數LID系統並沒有針對這種語言多樣性進行設計和訓練,這對於文本的語言識別是很不利的。在這項工作中,我們引入了一個社會公平的LID系統EQUILID,它由(1)創建可以代表語言多樣性類型的數據集,(2)明確對任意語言對的多語言和代碼交換進行建模。我們證明EQUILID顯著優於當前的主流LID系統,而在跟蹤健康相關內容的真實案例研究中,EQUILID顯著降低了發展中國家和發達國家之間的LID性能差距。我們的工作在確保NLP工具充分代表所有人的基礎上,繼續強調了NLP的社會效益。EQUILID系統可從https://github.com/davidjurgens/equilid公開獲取,數據可根據要求獲取。

論文下載鏈接:

http://www.aclweb.org/anthology/P/P17/P17-2009.pdf

留言 點贊 發個朋友圈

我們一起探討AI落地的最後一公里

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

今日芯聲 開魔方僅需0.38秒,你敢來挑戰嗎?
「最燃的AI崗位是哪個?」「AI產品經理啊!」

TAG:讀芯術 |