NAACL提名19篇「時間檢驗論文」，桌頭案角你曾經放了幾篇？

新聞 01-18

雷鋒網 AI 科技評論消息：近日 NAACL 2018 的主席博客發表了一份「時間檢驗獎論文」（Test-of-Time Paper）提名列表，共有 19 篇經典論文。其中第18號論文，由於作者Amanda 和 Lyn是 NAACL-HLT 2018 的組織者，所以作者請求將其排除在外；提名列表中仍然保留，但將不參與到最終的評選中。

雷鋒網 AI 科技評論認為，且不管最終哪篇文章會獲得「時間檢驗論文」，這些論文都是做計算語言學中的必讀經典文獻，值得下載下來仔細研讀。下面我們來看都有哪些論文。

為了便於下載，這裡分享一下這些論文的百度網盤下載鏈接：

鏈接:https://pan.baidu.com/s/1ee1miy 密碼:j03w

排名不分先後，按照標題字母順序

Paper #1?

標題：A General, Abstract Model of Incremental Dialogue Processing?

作者：David Schlangen and Gabriel Skantze?

提名理由：本文提出了增量對話處理（incremental dialog processing）的一般模型和概念框架，即對話系統應該如何以一種連續的方式（而不是一句一句的）處理信息，從而能夠讓系統更流暢和人性化的進行交互。在同一個會議上，作者還提交了另一篇論文，這篇文章基於所提出的模型，描述了世界上第一個完全增量對話系統（雖然是在一個非常有限的領域裡）。這項工作激發了大量關於對話系統增量處理的研究，增量處理（與對話狀態跟蹤和神經建模一起）仍然是對話系統研究中最熱門的領域之一。在提名時，這篇文章的 Google 學術搜索有 182 條引用。

Paper #2

?標題：A Linear Programming Formulation for Global Inference in Natural Language Tasks?

作者：Dan Roth and Scott (Wen-Tau) Yih?

提名理由：Roth＆Yih（2004）的論文中引入的 ILP 公式改變了研究界對自然語言處理中全局推理的思考方式，並對 NLP 中的所有領域，從句法到摘要、到信息抽取、到語義中的多任務都產生了很大影響。它引入一種新的技術語言，現在已經成為主流，研究人員廣泛使用的建模工具大大推進了許多 NLP 應用，並引發了一系列的研究問題，這些問題促進了我們在自然語言推理方面一些關鍵問題的理解。

Paper #3

?標題：An Investigation into the Validity of Some Metrics for Automatically Evaluating Natural Language Generation Systems?

作者： Ehud Reiter and Anja Belz?

提名理由：本文探討了自動評估指標（如 BLEU 和 ROUGE）與自然語言生成（NLG）系統的人為評估之間的關係。本文的研究結果表明，雖然自動度量標準可以用於預測生成文本的語言質量，但它們不能捕捉生成內容的質量，而後者對 NLG 系統來說卻是非常重要的。自動評估在 NLG 領域一直是一個爭論不休的話題，而本文的研究改變了該領域眾多人士的觀點，文中認為 NLG 中重要的結果需要人為評估予以支持才能被接受。這篇論文目前的引用率仍然很高，而且由於對話系統和個人助手的工業興趣日益增加，現在對 NLG 的興趣也在逐日增長。

Paper #4?

標題：An Unsupervised Method for Word Sense Tagging using Parallel Corpora

作者：Mona Diab and Philip Resnik?

提名理由：這是第一篇成功使用大規模跨語言映射進行語義表示的論文，特別是在語義歧義方面的工作尤為突出。它將 Diab 在 2000 年的工作（ACL Workshop on Word Senses and Multi-Linguality）擴展到使用平行語料庫進行大規模跨語言擴展語境的概念。本文中的技術推動了整個研究的進一步發展，即利用跨語言預測來進行語義和多語言資源創建，為其他語言標記數據和知識資源。本文連同 Yarowsky、Ngai 和 Wicentowsky（2001）同時期的工作，是從語義學、多語言資源創建、信息抽取到平行語料庫語法的 NLP 任務的跨語言工作的基礎。該論文被引用 268 次，其中最近在 2017 年還有一些其他語言的引用（用英語以外的語言寫的論文）。

Paper #5

標題：Anaphora and Discourse Structure?

作者：Bonnie Webber, Matthew Stone, Aravind Joshi, Alistair Knott?

提名理由：本文的研究為賓州篇章樹庫（PDTB）奠定了理論基礎，催生了新一輪的語篇分析研究浪潮，這在 CoNLL 2015 共享任務中得到了很好地體現。在這篇文章中，Webber 等人提出了篇章結構和語義之間一種新的關係。他認為，副詞篇章提示短語（例如 then、instead、otherwise 等）起著隱喻的功能，將矩陣從句與篇章語境聯繫起來。這就使得發展結構更為簡單的篇章模型成為了可能，從而為以前關於篇章是否可以被視為一個樹的辯論提供了一個新的視角。本文還為 PDTB 轉向局部篇章現象提供了支持，局部篇章對於計算注釋和模型來說更加實用。

Paper #6?

標題：BLEU: a Method for Automatic Evaluation of Machine Translation?

作者：Kishore Papineni, Salim Roukos, Todd Ward and Wei-Jing Zhu

提名理由：這篇文章，無論是在研究領域還是在工業界，對機器翻譯都有著長期、持久、深遠的影響。其度量（BLEU）已經成為衡量翻譯質量的標準方法。

Paper #7?

標題：Cheap and Fast—But is it Good?: Evaluating Non-Expert Annotations for Natural Language Tasks?

作者：Rion Snow, Brendan O" Connor, Daniel Jurafsky, Andrew Y. Ng?

提名理由：這是第一篇（據我們所知）在 NLP 中使用 MTurk 的論文，而現在這似乎已經成為一個流行的方法了。

Paper #8?

標題：Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms?

作者：Michael Collins?

提名理由：評選「時間檢驗」論文的一個關鍵要素是：這篇論文是否仍然影響著現在的研究？

Collins的這篇文章為如何在 NLP 任務中使用機器學習方法奠定了基礎。本文背後的想法很簡單，但也很漂亮，它將已知的且非常古老的 Perceptron 演算法應用到了結構化預測的問題上。這種簡單的方法取得了非常好的結果，它為一系列複雜的 NLP 預測任務能夠使用相對簡單的 ML 方法來取得好結果打開了大門。這項工作直接導致了一些模型開始主宰 NLP 任務，比如信息提取和解析。論文不僅有實證上的貢獻，同時也包括了相應的理論分析。因此，這是過去二十年來 ACL 引用最多的論文之一。

Paper #9?

標題：Evaluating Content Selection in Summarization: The Pyramid Method?

作者：Ani Nenkova and Rebecca Passonneau?

提名理由：金字塔法（Pyramid Method）是基於共識的評估中使用最廣泛的方法之一，並且在所有匯總評估（單語，跨語/多語或其他）方面都被多次使用。這是一個很好的研究和記錄過程，為人類總結和評估的主觀性提供了寶貴的見解，並提出了應對其挑戰的方法。

Paper #10?

標題：Frustratingly Easy Domain Adaptation?

作者：Hal Daume III?

提名理由：本文已經產生了巨大的實際影響。文章思路很簡單易懂且易於實現，論文已經有超過 1000 的引用量，其提出的領域適應的特徵增強思想及時在 NLP 的神經網路時代也仍然很重要。

Paper #11?

標題：Minimum Error Rate Training In Statistical Machine Translation?

作者：Franz Och?

提名理由：本文提出了一個不可微 BLEU 評分直接優化的方法，這是將統計機器翻譯（SMT）提升到可用質量水平的關鍵演算法。這個演算法非常的新穎且能夠有效實現。許多其他的 tuning 演算法也都繼承了它的思想；雖然近來神經機器翻譯已經擺脫了 tuning，但 MERT 仍然是最簡單和最好用的。得益於 David Chiang 用 C 語言實現的高效且優美的 MERT 變得越來越廣泛，可能在你最不經意的地方它就會出現在你的面前。

Paper #12?

標題：Modeling Local Coherence: An entity-based approach?

作者：Regina Barzilay and Mirella Lapata?

提名理由：這篇文章提出了一個最有影響力的數據驅動的一致性模型。這個模型受到理論（Centering）的啟發，但不同於理論（從硬性約束中學習偏好），它允許從數據中學習偏好。這篇文章介紹了一個框架來表示句子流的文檔和特性，這是一個非常有競爭力的模型。該模型也激發了許多後續的工作，探討了對實體框架的補充以及文檔表示。在相關的模型當中，這篇文章的工作直到今天仍然是一個對比的標準。

Paper #13?

標題：Probabilistic Text Structuring: Experiments with Sentence Ordering?

作者：Mirella Lapata

提名理由：這是第一篇介紹了一致性概率方法的論文。它引入了從大規模文檔語料庫中學習句子排序約束的思想，為無監督的相關模型鋪平了道路。本文開闢了無監督概率模型的一致性領域，並採取數據驅動的方法進行學習。因此，這個文章在這個領域做出了很大的突破。

Paper #14

標題：Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis

作者： Theresa Wilson, Janyce Wiebe, Paul Hoffmann?

提名理由：情感分析是最早的有影響力的自然語言處理任務之一，它繼續被廣泛應用於行業分析客戶評論、調查反應、客戶服務日誌、社交媒體帖子、新聞和醫療保健數據。Wison，Wiebe 和 Hoffman（2005）的論文首先提出了情境相關短語級情感分析的問題，並已成為任何人想要了解情感分析細粒度方面的參考工作。

本文介紹了一種語言動機的機器學習方法，它可以自動識別大部分情感表達的上下文極性。這項工作在研究和數據兩方面都有重大的影響。

本文提供了一系列的研究成果——它發展了關於細粒度語境極性的語言現象的直覺，提供了一個語料庫標註研究，開發了一個辭彙資源，並提供了機器學習實驗的實證研究。多年來，它影響了多個 NLP 領域的研究，如情感分析、社交媒體分析和論證研究。

這項工作也產生了一個數據集，在多角度問題回答（MPQA）語料庫中在現有的注釋中添加了上下文的極性判斷。MPQA 現在已經是廣泛應用於情感和意見挖掘（包括基於目標的分析）中的數據集之一。作者還發布了一個被作為資源廣泛應用於構建主觀性和意見檢測系統的情感詞典。研究人員在文章中討論的觀點今天仍然是相關的，因為在新聞和社交媒體中將事實與意見分開的需要比以往任何時候都更加迫切。截至 2017 年 12 月 30 日，Google 學術引用次數超過了 2500 次，僅 2017 年就有 295 次 Google 學術引用，這項工作經受了時間的考驗。

Paper #15

標題：Sentence Level Discourse Parsing using Syntactic and Lexical Information

作者： Radu Soricut and Daniel Marcu

提名理由：本文在修辭結構理論（RST）框架下提出了第一個篇章分析的概率方法，對後續工作產生了本質上的影響。Soricut 和 Marcu 引入了篇章單位分割和句子級篇章分析的概率模型；他們表明，在句子層面上，句法和語篇之間存在著很強的聯繫，因此可以利用這種關係，從而產生有效的語法分析。他們的研究方法和發現不僅持續地促進了現代的篇章分析器，而且促進了 RST 式篇章結構與其他 NLP 任務（如摘要和情感分析）的整合。

Paper #16?

標題：TextRank: Bringing Order into Texts?

作者： Rada Mihalcea and Paul Tarau

提名理由：這是一種被普遍用作抽取和抽象摘要系統基準的方法，同時它還是摘要的圖方法中一個重要的里程碑。本文著重介紹了在子域（關鍵字抽取，句子抽取）中使用所提出的演算法，證明了通用的適用性和魯棒性。它還在當時仍然是高度「監督」的研究環境下強調了無監督方法的價值。

Paper #17

標題：Thumbs up?: Sentiment Classification using Machine Learning Techniques?

作者：Bo Pang, Lillian Lee, Shivakumar Vaithyanathan?

提名理由：情感分析是 NLP 領域中對行業有直接現實影響的最早的任務之一，它在評價挖掘、客戶管理、社交媒體分析、新聞分析、醫療保健支持和決策支持中有著廣泛而實際的應用。Pang、Lee 和 Vaithyanathan（2002）的這篇文章是使 NLP 能夠發揮這種影響力的開創性工作。它是情感分析領域中早期的作品之一，它定義了情感和意見分析、評價挖掘等子領域。它也是在該領域任何人開啟工作所要閱讀的首篇文章，無論在研究、應用還是數據方面都有著極大的影響。

文章中介紹了一種新的文檔分類方法。它採用多種機器學習方法和特性組合，開發了首個文檔分類的解決方案，並對情感分類提出了深刻的見解和挑戰。除了任務制定和技術方法外，這篇文章在數據方面也有重大的影響，其中的電影評論數據集支持了該領域中早期的工作，現在仍然是一個基準評估數據集之一。其成功有兩個關鍵原因：（a）強調數據能夠廣泛可用；（b）細緻管理數據，例如避免多產的 reviewer 對數據的主導性。這些數據廣泛應用於一些教學課程中，也是 NLTK（學生開始學習 NLP 的主要應用程序）的一部分。

文章中所討論的見解和挑戰為許多工作提供了基礎，並且在今天仍然在推動著新的研究。根據最近的統計，這篇文章是 EMNLP 的最高引用論文。在 Google 學術搜索中有著超過 6800 次的引用，僅 2017 年就有 400 多次引用。顯然，這項工作是經得住時間檢驗。鑒於頒獎時間的限制，本年度可能也是這篇文章的最後一次機會了。

Paper #18

標題：Trainable sentence planning for complex information presentation in spoken dialog systems?

作者：Amanda Stent, Rashmi Prasad and Marilyn Walker?

提名理由：本文介紹了 SPaRKy（修辭知識句子規劃），這是自然語言生成中第一個可訓練的句子規劃方法，並應用修辭關係來構建篇章。

SPaRKy 使用手工制定的句子規劃規則來生成候選句子規劃，然後由訓練後的句子規劃排名器對這些句子進行排名。實驗結果表明，排名最高的句子規劃得分與最佳人工排名句子規劃的平均得分相差在 10％以內。雖然最近基於 CNN 的端對端 NLG 論文完全避免了對手工制定規則的需要，但它們並沒有考慮到修辭/篇章關係，而修辭/篇章關係一直被認為是實現 NLG 一致性的核心；而，這篇論文經歷了十多年的時間仍然是一個主要的參考點。

根據 Google 學術搜索，這篇文章（與後續期刊文章（JAIR-07））一共被引用了 186 次，這也是自然語言生成中被引用次數最多的論文之一。

Paper #19?

標題：Unsupervised Discovery of Morphemes

作者：Mathias Creutz and Krista Lagus?

提名理由：Mathias Creutz 和 Krista Lagus 在 2002 年 ACL 形態學和語音學習研討會上首次發表了《無監督發現語素》這篇論文，這是一篇在音韻學、形態學和分詞領域經常被引用、極為有影響力的論文。它提出了兩種無監督的演算法用於將單詞分割成可能長度的詞素單元序列，其中一個是基於最小描述長度原則（建立在 Goldsmith（2001）前期工作的基礎上），另一個基於最大似然估計。經過英語和芬蘭語的測試，這兩個演算法被證明特別適用於芬蘭語等具有黏著語形態結構的語言。這篇文章的思想構成了 Morfessor 第一版的基礎，其中 Morfessor 是一種開源的形態分割器，在圈子裡被廣泛用來分割文本以用於語音識別、信息檢索和機器翻譯等應用。此外這篇文章的結果還成為後續分割方法比較的基線（例如，Poon et al. 2009 NAACL 最佳論文）。

vianaacl 2018，雷鋒網 AI 科技評論編譯

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※激光雷達、CV演算法、高精地圖、整車自動駕駛……大咖齊聚矽谷都聊了些什麼？

TAG:雷鋒網 |