賽爾推薦:精選前沿論文第 0 彈
雷鋒網 AI科技評論按:本文將推薦4篇精選前沿論文,以供參考學習。每篇薦文將包含推薦人簡評、推薦人研究方向等。如對論文有疑問或者想進一步交流,歡迎大家聯繫推薦人共同討論。
本文內容轉載自哈爾濱工業大學社會計算與信息檢索研究中心 公眾號(微信ID:HIT_SCIR)的「賽爾推薦」欄目第0期,可關注公眾號獲得更多資訊。雷鋒網AI科技評論獲其授權轉載。
NO.1
論文題目:A Knowledge-Grounded Neural Conversation Model(AAAI 2018)
作者:Marjan Ghazvininejad, Chris Brockett, Ming-Wei Chang, Bill Dolan, Jianfeng Gao, Wen-tau Yih, Michel Galley
推薦人:張偉男(研究方向:人機對話,自然語言處理)
論文主要相關:人機對話,神經網路模型,知識工程
簡評:在傳統的 Encoder-Decoder 對話生成框架中,融入知識庫作為中間件,生成相關性更好、信息更豐富的回復。這篇文章的亮點在於在完全數據驅動的端到端框架下,融入外部知識做生成內容的控制,當然完全數據驅動以及端到端訓練本身已經不算什麼新意,但將外部知識表示成若干的 Facts 並通過一個額外的記憶網路編碼後加入到解碼過程中則是文章主要的創新點。實驗設計中規中矩,對比系統略顯單薄。
論文鏈接:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/02/A_Knowledge_Grounded_Neural_Conversation_Model.pdf
NO.2
論文題目:Annotation Artifacts in Natural Language Inference Data(NAACL 2018)
作者:Suchin Gururangan, Swabha Swayamdipta, Omer Levy, Roy Schwartz, Samuel R. Bowman, Noah A. Smith
推薦人:劉一佳(研究方向:句法分析、語義分析)
論文主要相關:自然語言推理
簡評:這是一篇即將發表在 NAACL 2018 上的論文。第一作者 Suchin Gururangan 來自華盛頓大學語言系,其餘作者包括 Omer Levy、Sam Bowman、Noah Smith 等知名學者。本文提出一個值得討論的問題:自然語言推理(NLI)數據在構造的過程中存在一系列的人工模式,這種模式的直接後果是模型可以在不需要知道推理前提(premise)的條件下就可以以 67%的準確率判斷推理假設(hypothesis)是否是蘊含(entailment)中立(neural)或對立(contradiction)。文中值得關注的地方包括:如何分析數據,發掘其中的人工模式;如何在發掘了人工模式的基礎上重新審視現有模型。另外,一個更泛化的問題是:我們的模型是真的完成我們對於相應任務的目標,還是在單純「玩弄」數據?
論文鏈接:https://arxiv.org/pdf/1803.02324.pdf
NO.3
論文題目:Dynamic Coattention Network for Question Answering(ICLR 2017)
作者:Caiming Xiong, Victor Zhong, Richard Socher
推薦人:施琦(研究方向:問答系統)
論文主要相關:基於文檔集的問答(Document-based Question Answering)
簡評:這是一篇發表於 ICLR 2017 上的文章,最近在 arxiv 上做了更新。本文在傳統的 seq2seq 框架的 encoder 部分中加入了 co-attention 機制去融合表示問題和文檔信息,然後再通過 Bi-LSTM 對已融合的信息和文檔再次融合,得到最終表示結果;Decoder 部分通過 HMN 預測結果,並通過 LSTM 保存歷史預測信息進行動態迭代。實驗部分採用 EM 和 F1 來評價。文章主要亮點主要仍在於模型的創新,encoder 中的 co-attention 機制以及 decoder 中的動態迭代機制。通過動態迭代機制,可以避免模型陷入局部最優解從而得到錯誤的答案。
論文鏈接:https://arxiv.org/pdf/1611.01604.pdf
數據集鏈接:https://rajpurkar.github.io/SQuAD-explorer/
NO.4
論文題目:A causal framework for explaining the predictions of black-box sequence-to-sequence models (EMNLP 2017)
作者:David Alvarez-Melis, Tommi S. Jaakkola
推薦人:趙森棟(研究方向:文本挖掘)
論文主要相關:sequence-to-sequence 模型,預測的可解釋性,機器翻譯
簡評:這是一篇理論性很強的文章,作者來自於著名的 MIT CSAIL(麻省理工人工智慧實驗室)。這篇文章的立意非常有意思,因為我們都知道,深度學習的可解釋性是很多人的一塊心病。本文試圖解釋神經網路的內部工作機制,旨在研究深度神經網路 sequence-to-sequence 模型的輸入和輸出之間的因果關聯,進而解釋輸入序列和輸出序列之間的映射關係。
很多 NLP 任務都用到的結構預測模大多數不具有可解釋性。例如,很多面向 NLP 的深度學習模型中有大量的參數和複雜的結構。這些黑盒系統雖然在很多 NLP 任務上都獲得了最好的結果,但是它們的結果卻不可解釋。如果模型有很好的解釋能力,那麼好處是很明顯的。例如可以提高我們對模型的信任,可以更清楚的進行錯誤分析進而對模型進行更有針對性的優化。例如,在醫療決策系統中,不可解釋、不能被醫學專家驗證的預測是不被接受的。如果無法理解系統輸入是如何映射到輸出上的,那麼對於錯誤來源的分析也會是很大的挑戰。
目前對於可解釋性的研究,已有的工作主要從兩個角度來進行:模型的可解釋性,即使結構本身可解釋;和預測的可解釋性,即解釋模型的特定預測。尋求讓模型完全透明化是不太可能的。因此,在這篇文章中作者提出了一個針對預測可解釋性的新方法。這個方法會返回一個「解釋」,由一組輸入和輸出符號組成,並且輸入和輸出是因果相關的。這種因果依賴通過分析模型輸入上的擾動產生的效果來獲得。對於每個句子,用一個變異的 auto encoder 來產生變化,句子的變化都是語義相關的。由此推斷出的因果依賴(區間估計)會產生一個在符號上的二部圖(例如,詞序列到詞序列的連接二部圖)。「解釋」可以被推導為這個二部圖上的最小割k-分劃。
論文鏈接:http://aclweb.org/anthology/D17-1042
※專訪中科創達:智能駕駛行業也會出現ARM+Android的組合
※AWE 2018即將開幕:智能語音交互還將是廝殺的主陣地?
TAG:雷鋒網 |