「頂會見聞系列」之 EMNLP 2018 詳細參會見聞（上篇）

新聞 11-08

雷鋒網 AI 科技評論按：本篇屬於「頂會見聞系列」。每年這麼多精彩的人工智慧/機器學習會議，沒去現場的自然可惜，在現場的也容易看花眼。那麼事後看看別的研究員的見聞總結，也許會有新的收穫呢。

Patrick Lewis 是 UCL 的自然語言處理博士生，同時他也參與 Facebook 人工智慧研究院的研究。Patrick Lewis 對人類應當如何設計自然語言處理系統、如何更高效地編碼並利用語言背後的有用的知識非常感興趣。Patrick Lewis 現場參加了 EMNLP 2018，並在個人博客寫下了他的參會見聞。雷鋒網 AI 科技評論編譯如下。（有刪節）

打開今日頭條，查看更多精彩圖片

我剛剛從布魯塞爾參加 EMNLP 回來。我們在 EMNLP 上展示了我們的 ShARC 數據集的論文。這次會議的規模和廣泛程度真是令人驚嘆，有如此之多的聰明人，在做各種令人驚喜的事情。能遇到自然語言處理界的這麼多學者，和他們聊天、建立聯繫也很開心。

下面我嘗試把自己的一些體會總結成一篇文章。有趣的東西太多了，我都已經開始有點忘了。我聽了超過 60 場論文演講，看了好多好多論文海報，但是相比整個論文的 549 篇接受論文來說也僅僅只是很小的一部分而已。我先說一說我看到的一些高層次的趨勢，然後一塊一塊地詳細說說每一天遇到的值得關注的東西。

總結

我覺得今年的 EMNLP 有好幾個有廣泛外延的趨勢值得注意。嘗試更難的任務，廣泛地對模型、數據集以及任務進行批判性分析，整個領域內有很多注意力都花在了這些事情上。這其中有件好事，就是聳人聽聞的報道少了，沒有什麼突出的新想法、僅僅一味拼湊新架構的論文也少了。

有一個方面有喜人的增長，我把它稱作「負有社會責任的自然語言處理」，它包括的內容從調查學術研究社區內的偏倚一直到流傳的說法的驗證和假新聞闢謠。我覺得 FEVER Workshop 尤其地成功，而且我會鼓勵更多的人參與進來。

我們也看到對抗性方法在 NLP 領域得到越來越多人的關注，從老式的 GAN、到辨別網路、自然語言的對抗樣本生成的各方面都有持續的增長。這些研究的體量相對來說還是比較小的，不過我覺得明年的時候我們就會看到遍地都是對抗性方法了。

我們也看到了上下文相關的文本嵌入得到了廣泛的應用，尤其是 ELMo。AI2 做了很好的宣傳活動，給參會者們送 ELMo 的貼紙和毛茸茸的 elmo 小怪獸玩具。有不少的研究都把 ELMo 作為輸入的對比組，而且也確實在很多不同的應用中取得了可以說是全方位的提升。

會議中還出現了好多好多新數據集。基本都是針對越來越細粒度的任務（包括我們自己的 ShARC），也有很多專門在強調難度。「難度篩選器」的概念一下子就變得特別火（對抗性篩選以及其它相關的技巧），就是為了保證數據集沒法用現有的方法輕鬆解決。理論上來說這是一件好事，不過我有點擔心，如果我們的處理的過程不小心的話可能會讓數據集帶有微妙的、基於模型的偏倚。和上面這些相關的是，有好幾項研究都以現有的數據集為研究對象，進行近距離的、批判性的分析，試圖弄清如果要在這些任務中取得好成績的話到底需要什麼類型的模型；問答任務上的這樣的研究尤其多。

我們也看到了常識和單詞知識方面的研究熱情一直在持續，有一些新的進展，但是我們仍然有很長的路要走。

其它值得一提的還有：重新在語言建模中引入句法和語言學結構，這個方向的研究還在不斷成長；大家都更看重模型的可解釋性；以及，結構化地限制模型的輸出（配合結構化的預測，ILP 等等）。

如果你也到會議現場看了，你也能在這裡寫下更多東西，而且你看到的趨勢可能也會和我的不一樣。畢竟這個會議已經很大了，同一時刻有 5 個會場都在進行。

下面我一個一個 session 地說下一我自己覺得尤其有趣或者值得討論的研究。

FEVER Workshop

這次的 FEVER Workshop 很棒，如果它聚集的熱度能保持下去並繼續增長就更好了，組織者的工作也做得很好。FEVER 是指論述提取與驗證（Fact Extraction and VERification），典型的應用比如熱點新聞鑒別真假並闢謠，在近年來全社會都有熱烈的 AI 熱潮的環境下更有很高的價值。

Tim Rocktaschel：特邀講者

Tim 講述了他在 NTP（網路時間協議）、ShARC（超級哈佛架構）以及其他項目中的工作。我熟悉 Tim 的相關工作，所以沒有詳細做筆記。聽眾提出了一個非常有洞察力的問題，問 NTP 捕捉的到底是關聯性還是語義的相似性，這個問題提到規則歸納無法與關聯性相互配合。

《Towards Automated Factchecking: Developing an Annotation Schema and Benchmark for Consistent Automated Claim Detection》

《面向自動事實核查：為一致的自動陳述檢測開發一個標註方式和 Benchmark》

作者：Lev Konstantinovskiy, Oliver Price, Mevan Babakar，Arkaitz Zubiaga

Lev 在一家打擊虛假信息的慈善機構 FullFact 工作。FullFact 對事實核查的工作流程規如下：

更自動化的監控

更自動化地發現需要核查的陳述

核查陳述

公布

干預

這個項目涉及面向自動陳述檢測方面的工作，首先會為 7 種類別建立一個數據集：

非陳述

數量

預測

個人體驗

相關/因果關係

操作法律/規則

他們使用來自 ExplosionAI 公司的出色的「prodigy」軟體來實現自動化。不幸的是，它的不同標註員之間的一致程度不是很好，不過在定義二進位分類任務時要好得多。數據集由 5571 個句子組成，其中 1570 個句子表示陳述的意思。該模型讓系統得到分別為 0.88 、0.80、0.83 的準確率、召回率以及 F 值。

《Shared Task Flash Talks - The Fact Extraction and VERification (FEVER) Shared Task》

《共享任務 Flash Talks—事實提取和驗證（FEVER）共享任務》

這個 FEVER 任務有 87 次提交，23 個團隊，並讓 f1 值從 0.18 提高到 0.53。

大多數團隊通常使用三步流水線來完成任務：

文件選擇：網元、網路處理器、大小寫轉換、頁面查看、搜索 API

句子選擇：幾種不同的方法

採用監督訓練來分類

《Combining Fact Extraction and Claim Verification in an NLI Model》

《自然語言推斷模型中的事實提取與陳述驗證相結合》

作者：Yixin Nie, Haonan Chen，Mohit Bansal

作者對這三個步驟的每一步驟都使用了 NSMN 方法，並首次將其運用到任務中。

《UCL Machine Reading Group: Four Factor Framework For Fact Finding (HexaF)》

《UCL 機器閱讀組：事實發現的四因素框架（HexaF）》

作者：Takuma Yoneda, Jeff Mitchell, Johannes Welbl, Pontus Stenetorp，Sebastian Riedel

該論文使用了一種流程化的方法：先是文獻檢索，隨後是句子檢索，接著是自然語言推斷，最後是標籤聚合。他們提到大寫以及證據是否接近文章的開頭是非常重要的特徵，並且通過將文章標題添加到句子的自然語言推斷模型中，來使用實體共同參照物。

《Multi-Sentence Textual Entailment for Claim Verification》

《用於陳述驗證的多語句文本蘊涵》

作者：Andreas Hanselowski, Hao Zhang, Zile Li, Daniil Sorokin, Benjamin Schiller, Claudia Schulz，Iryna Gurevych

這篇論文同樣發現，對文檔中的實體進行實體鏈接，從而為附加的證據找到維基百科文章是有用的。

《Team Papelo: Transformer Networks at FEVER 》

《Papelo 團隊：FEVER 的變換網路》

作者： Christopher Malon

這個團隊在自然語言推斷這一步驟中使用了 GPT 變換，並且相比其他的團隊，他們提交的成果在準確率/召回率兩者間的權衡有明顯的不同。

《The Data Challenge in Misinformation Detection: Source Reputation vs. Content Veracity》

《錯誤信息檢測中的數據挑戰：源信譽與內容真實性》

作者：Fatemeh Torabi Asr，Maite Taboada.

Fatimeh 通過視頻通話進行展示。他們通過驗證是否可能使用發布者的信譽來訓練系統，從而檢測內容的真假，進而構建系統。總體而言，這一基於信譽的數據是有用的，不過相關分析表明其中存在一些問題，這是因為來自大的新聞源的文章很多都被標記為諷刺，而小的新聞源的數很多則有很多被標記為騙局。這個論述處理實驗室有一個有意思的網站：https://fakenews.ngrok.io/

特邀報告：《Call for Help: Putting Computation in Computational Fact Checking 》

《求助：在計算機的事實檢查中引入演算法》

講者：Delip Rao

Delip 熱情洋溢地講述了現在對於處理假新聞的需求以及我們作為幫助解決這些問題的實踐者該怎樣承擔責任。他針對部分不同的假新聞，詳細展示了解決方案：

政治新聞

調查報道新聞

教育新聞

科技（人工智慧，用戶體驗以及其他）新聞

研究新聞

他還指出了假新聞的不同「策劃者」和「傳播者」：

策劃者：名人，犯罪分子/恐怖分子，活動家，政府
傳播者：機器程序，「有用的白痴」、陰謀論者、記者

來自謝菲爾德大學 James Thorne 的宣告

James 介紹了 FEVER 2 的規劃，它將遵循 Ettinger 等人的方法論——「構建它、打破它、修復它」：

1.構建它：

用現有的模型和現有的 FEVER 數據構建基線模型；

為模型開發 API。

2.打破它：

將邀請對抗的一方，他們要生成新的數據攻破基準線系統。基準線系統要通過 API 進行在線測試。攻擊者要提交 1000 個最佳的樣本用於比賽。根據攻擊者能夠攻破的系統的數量為他們評分。

3.修復它：

將公開發布一半的攻擊者數據用來訓練新的模型，另一半保留用來測試。

這個規劃真的很好，我非常開心能在這裡看到 FEVER 2 的進程正在向前推進。

Black box NLP（黑盒自然語言處理）

《Context-Free Transductions with Neural Stacks》

《用神經堆棧實現上下文無關變換》

作者：Yiding Hao, William Merrill, Dana Angluin, Robert Frank, Noah Amsel, Andrew Benz，Simon Mendelsohn

作者們調查了神經堆棧增強的神經網路（ NN）是否真的使用堆棧數據架構。他們定義了下面幾個不同的任務：

反向字元串——作者們發現，LSTM 控制器沒有充分利用堆棧，而是將它用作非結構化存儲器。

平衡括弧語言建模，這是一個簡單的任務，簡簡單單的網路就能做得很好，但 LSTM 控制器網路可以做得更好。堆棧會被用作非結構化存儲器，而非用作堆棧。

奇偶性評估——在每個時間步長計算一個二進位字元串的位奇偶，相當於用新的位來取前奇偶的異或。緩衝架構可以很好地解決這個問題，但是沒有緩衝的架構無法實現（隨機猜測）。

他們認為，堆棧遞歸神經網路（RNN）學到了直觀和可解釋的解決方案來簡化演算法任務，但通常使用堆棧的方式並不合理。讓控制器網路正確地使用堆棧，可能需要給模型增加更多的歸納偏倚。

CoNLL——第二天下午

《Comparing Models of Associative Meaning: An Empirical Investigation of Reference in Simple Language Games 》

《比較不同的關聯意義模型：對簡單語言遊戲中的指代的實證探究》

作者：Judy Hanwen Shen, Matthias Hofer, Bjarke Felbo，Roger Levy

作者們研究了桌游「行動代號」（CodeNames）的簡化版本。一個玩家需要從三個單詞中選擇一個，讓另一個玩家再從三個其他單片語成的列表中「也選出一個不是同類的單詞」。他們很想發現人類用什麼語義資源來構建辭彙聯想，並調查了 5 種資源：

名詞，形容詞二元語法聯想

Conceptnet5 相似性

詞向量餘弦距離

LDA 主題建模——這裡使用的是詞的主題分布之間的歐式距離

他們發現，二元語法系統能最好地預測人類玩家（尤其是 2 號玩家）怎樣玩遊戲，這表明了「直接的共現分析在聯想設置中特別重要」。他們還提到，1 號玩家和 2 號玩家的策略存在差異，這就意味著每個玩家所利用的信息是不同的。

《Sequence Classification with Human Attention》(special paper award)

《利用人類注意力的序列分類》（特別論文獎）

作者：Maria Barrett, Joachim Bingel, Nora Hollenstein, Marek Rei，Anders S?gaard

這篇論文獲得了心理語言學特別獎，真的很棒！作者們試圖通過利用眼動追蹤測量的結果，來推動序列分類中的神經注意力更像人類一樣工作。他們不直接監控注意力信號，而是通過利用眼動追蹤軟體所測量得到的注視時間，來將人類閱讀新聞文章的注意力作為模型學習的監督信號。這項工作真的很酷，是少數直接使用了人類在做本能工作時所發出信號的工作之一。

他們測試了其情感分類、語法檢測和仇恨語言檢測的系統，發現使用來自 ZUCO 和 Dundee 語料庫的「平均持續固定時間」注視法，能將 F1 的分數提高 0.5%～2%。

Keynote I：《「Truth or Lie? Spoken Indicators of Deception in Speech」》《「真相還是謊言？口頭欺騙的語音指示器」》

講者：Julia Hirschberg（哥倫比亞大學）

作為會議的第一位主題報告演講者，Julia 詳述了欺騙檢測的優化方法，並描述了建立一個包含人類所講的真話和謊言的乾淨數據集的過程。然後把人類說真話或者說謊話的錄音給別的人類或者給機器學習演算法聽，討論的內容也經常是關於敏感話題的。

機器學習系統比人類更善於發現謊言，不過機器和人類傾向於犯不同的錯誤。他們發現，男性能更好地發現別人說謊，而最善於發現謊言的人，則是那些在開放和一致的人格測試中得分很高的人。

有趣的是，在機器學習模型檢測謊言的時候，說謊者的人格類型是一個重要的特徵。他們還發現，重複敘述以及音高和「停頓間隔」，同樣都是重要的因素。

在下一步工作中，他們計劃通過將謊言遊戲眾包，來獲取更多的人類評價，從而更好地理解人類欺騙檢測。我想說的是：在這裡，壓力和語境是超級重要的。當一個人感到緊張、疲倦或煩惱時，他們說謊的方式可能會有很大的不同嗎？我們這裡同時也存在領域遷移的問題。

EMNLP Session 1

《Reasoning about Actions and State Changes by Injecting Commonsense Knowledge》

《通過增加常識知識來推理動作和狀態變化》

作者：Niket Tandon, Bhavana Dalvi, Joel Grus, Wen-tau Yih, Antoine Bosselut，Peter Clark

作者們在論文中提出了 ProPara 數據集。這個數據集的目標是預測一段程序性的自然語言進行過程中的動作和狀態變化。這個任務和 BABI 中的某個任務感覺很相似，只不過這次是真的體現成了自然語言的形式；近期發布的 RecipeQA 也是自然語言形式的，不過有更豐富的單詞量和更多樣化的主題。

這個任務本身是這樣的：給模型提供一組句子和一組句子中的實體，模型必須閱讀每個句子，然後預測每一個實體的狀態是否發生了變化。他們考慮了這些動作：消耗、生產、發生了哪些轉換以及發生了哪些運動。有意思的是，他們發現貪婪解碼方法可能會帶來毫無意義的預測。

比如，如果一個實體已經被摧毀了，那麼它就不能繼續發生任何後續的變化。作者們的做法是使用了結構化預測。而且這個系統還需要一定的人類常識才能得到比較好的效果。他們發現現有的實體追蹤系統，比如循環實體網路（recurrent entity network）在這裡的表現並不怎麼好；作者們的系統要比循環實體網路提高了 13 分的 F1 分數，在有隱式指代、聯合指代和知識檢索時最容易出現錯誤。

《Collecting Diverse Natural Language Inference Problems for Sentence Representation Evaluation》

《為句子表徵評價收集多樣化的自然語言推理問題》

作者： Adam Poliak, Aparajita Haldar, Rachel Rudinger, J. Edward Hu, Ellie Pavlick, Aaron Steven White，Benjamin Van Durme

這篇論文收集了 13 個現有的不同類型的 NLI（自然語言推理）數據集中多種多樣的語義現象，組成了 DNC（Diverse Natural Language Inference collection，多樣化自然語言推理集合）數據集，地址見 https://www.decomp.io/。DNC 很大、多樣化，涵蓋了原型-角色轉化、真實性、生成性、常識推理、詞義推理等等許多方面的內容，總計有超過 50 萬個樣本。在建模的過程中，論文作者們發現如果想要在雙關語和情感方面取得好的成績的話，需要先在 MNLI 數據集上做預訓練（其後的精細調節是必要的），以及即便他們沒法證明這個假說，也仍然取得了很好的 NER 成績。

《Textual Analogy Parsing: What"s Shared and What"s Compared among Analogous Facts》

《文本模擬解析：在模擬陳述中都有什麼是一樣的、做了哪些對比》

作者： Matthew Lamm, Arun Chaganty, Christopher D. Manning, Dan Jurafsky，Percy Liang

受到總結性語言的自動化視覺效果的設定啟發，這項研究中作者們提出了一個新的任務，叫做文本模擬解析（Textual Analogy Parsing）。這項任務需要對陳述進行分解，然後計算不同陳述之間的高階聯繫。論文中為這項任務引入了一個新的數據集，並提出了一個新的模型，它通過 ILP 的使用來確保分解出的模擬段落符合這個任務設置帶來的限制。又是一篇需要對神經網路的輸出進行限制，讓它符合邏輯要求的論文。這個模型首先會識別不同的實體、它們的語義類型以及數量，然後模型會建立模擬段落，並用這個模擬段落填充一個模擬框架。模型的評估在有標註的頂點-邊-頂點三元組上得到準確率、召回率、F1 分數。

《SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference. Rowan Zellers》

《SWAG：一個用於給定信息的常識推理的大規模對抗性數據集》

作者： Yonatan Bisk, Roy Schwartz，Yejin Choi

SWAG 是一個有預謀地設計得非常難的新數據集，它的創建過程使用了對抗性篩選（adversarial filtering）方法。這個任務是，給出一個初始設定問題後，要求模型從 4 個後續的句子中正確地挑出一個句子來，挑出的這個句子要能夠看作是對一段自然語言的看上去最自然的、最符合常識的續寫。數據集中故意設置了很難分辨的錯誤選項。這篇論文的創作動機來自於，作者們觀察到大多數自然語言推理任務只要求模型有語言學知識，但其實自然語言推理任務本身就應當是一種（有條件的）常識推理任務。這個任務也就和完形填空有很強的關聯。對抗性篩選作為一個數據集創建的特點，我們現在也已經見到了好幾次了。這個數據集很大，有 11 萬個樣本，已經超過了我們認為可以算作「大 NLP 數據集」的 10 萬樣本及格線了。

這個數據集的構造方式很有趣：

連續的兩個句子採樣自 ActivityNet 比賽數據集里的視頻的基於音頻的字幕

把其中的第二個句子看作是黃金答案

他們給一個語言模型輸入第一個句子，以及第二個句子的開頭幾個詞（第一個名詞短語）。然後用語言模型生成很多不同的句子，這些句子也就是候選的錯誤答案

把這些句子都投入到一個對抗性篩選過程中去

隨機分成訓練集和測試集，找一個模型來訓練

對於測試集中的樣本，找到裡面的「很容易就能答對的樣本」，然後把它們換成比較難答對的

反覆重複這個過程，直到收斂

最後，候選的錯誤答案由人類進行標註，確保它們確實是錯誤答案

（上篇完）

這是「頂會見聞系列」之 EMNLP 2018 的上篇，大家可移步《「頂會見聞系列」之 EMNLP 2018 詳細參會見聞（下篇）》閱讀後續精彩內容。

via：https://www.patricklewis.io/post/emnlp2018/，雷鋒網 AI 科技評論編譯雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※AI同傳首次登陸鳥巢，搜狗同傳亮相國際馬術大師賽
※品鈦更新招股書：2018上半年營收5.8億元，凈利1240萬元

TAG:雷鋒網 |