當前位置:
首頁 > 新聞 > NLP大突破:語義角色標記深度模型,準確率提升10%

NLP大突破:語義角色標記深度模型,準確率提升10%

NLP 里的 AlexNet,2005 年以來首個重大提升。

新智元編譯

來源:washington.edu

編譯:熊笑

【新智元導讀】被稱為取得了NLP 「2005 年以來首個大突破」的研究報告 Deep Semantic Role Labeling: What Works and What』s Next,已被 ACL-17 接收。論文的第一作者是華盛頓大學的華人博士生何律恆。該研究為語義角色標註(SRL)引入了一個新的深度學習模型,顯著提高了現有技術水平。

日前,「Stanford NLP Group」 發推特表示,華盛頓大學、FAIR 和艾倫研究所的合作研究 Deep Semantic Role Labeling: What Works and What』s Next ,是 NLP 「2005 年以來首個大突破」。該論文已經被 ACL-17 接收。論文的第一作者是華盛頓大學的華人博士生何律恆。

新智元為您做了這篇論文的譯介。

為 SRL 引入新的深度學習模型,顯著提高了現有技術水平

我們為語義角色標註(SRL)引入了一個新的深度學習模型,顯著提高了現有技術水平,同時對其優缺點進行了詳細的分析。我們使用了約束解碼(constrained decoding)的深度 highway BiLSTM 架構,同時考察了近來初始化和正則化的最佳做法。我們的 8 層模型在 CoNLL 2005 測試集上達到 83.2 F1,在 CoNLL 2012 測試集上達到了 83.4 F1。與以前的技術水平相比,大約減少了 10% 的相對誤差率。對研究結果的實證分析表明:(1)深度模型在恢復長距離語義依存關係方面表現出色,但仍然會犯明顯錯誤;(2)語義分析仍然有改進空間。

語義角色標註(SRL)系統的目標是恢復一個句子的謂詞-論元結構,來做出基本判斷:「誰對誰做了什麼」,「何時」和「哪裡」。最近,沒有句法輸入的 SRL 的端到端深度模型(Zhou 和 Xu,2015; Marcheggiani 等,2017)取得的突破似乎推翻了長期以來的觀點,即語義分析是這一任務的先決條件(Punyakanok等,2008)。在本文中,我們展示了這一結果可以通過具有約束解碼的深度 highway 雙向 LSTM 進一步推動,並再次顯著提高了現有技術(在 CoNLL 2005 上有兩個點的提升)。我們還對目前哪些技術取得了好的表現、還需要做什麼以進一步提升表現進行了仔細的實證分析。

我們的模型結合了最近深度學習文獻中的一些最優的做法。在Zhou和Xu (2015)之後,我們將 SRL 視為 BIO 標記問題,並使用深度雙向 LSTM。然而,我們做出了以下調整:(1)簡化輸入和輸出層;(2)引入 highway connections(Srivastava 等,2015; Zhang 等,2016);(3)使用循環dropout(Gal 和Ghahramani,2016);(4)用BIO 約束進行解碼;(5)與專家產品合并。我們的模型比 2005 年和 2012年 CoNLL 測試集的技術水平相對誤差減少了10%。我們還報告了 predicted predicates 的性能,以激發未來對端到端 SRL 系統的研究。

我們提供詳細的誤差分析,以更好地理解性能提升,包括(1)對架構、初始化和正則化的設計選擇,對模型性能有非常大的影響; (2)不同類型的預測誤差顯示,該深度模型在預測長距離依賴方面表現優異,但仍然受困於已知挑戰(如 PP- attachment errors 和adjunct-argument distinctions);(3)語法角色表明存在明顯的 oracle syntax 改進空間,但現有自動解析器的誤差阻止了 SRL 中的有效使用。

總結來說,我們的主要貢獻包括:

?由開源代碼和模型支持的端到端 SRL 的新型最先進深度網路。

?深入的誤差分析,指出模型的工作原理及其挑戰,包括結構一致性和長距離依賴關係的討論。

?對未來改進方向有借鑒意義的實驗,包括詳細討論如何和何時使用句法解析器來改進這些結果。

我們的深度 SRL 模型的成功有兩個原因

我們深度 SRL 模型的成功有兩個原因:(1)應用訓練深度循環神經網路中的最新進展,如 highway connections(Srivastava等,2015)和RNN dropout(Gal和Ghahramani,2016)(2)使用A *解碼演算法(Lewis 和Steedman,2014; Lee 等人,2016),以強化預測時間的結構一致性,而不增加訓練過程的複雜性。

圖1:四層Highway LSTM。曲線連接表示highway connections,+ 號表示控制層間信息流的變換門。

表1:CoNLL 2005 上的實驗結果,涉及精度(P),召回率(R),F1和完全正確謂詞百分比(Comp.)。我們報告了我們最好的 single 和 ensemble 模型(PoE)的結果。比較模型是Zhou 和Xu(2015),FitzGerald 等(2015),Ta?ckstro?m 等(2015),Toutanova 等(2008)和Punyakanok等(2008年)。

表2:CoNLL 2012 上的實驗結果採用和表1 相同的度量方法。我們將我們最好的 single 和 ensemble (PoE)模型與Zhou and Xu (2015), FitzGerald 等(2015), Ta ?ckstro ?m 等(2015) 和Pradhan 等(2013) 進行比較.

表3:使用 predictedpredicates 的謂詞檢測性能和端到端SRL 結果。與我們最好的 gold predicates ensemble 模型相比,ΔF1 顯示出絕對的性能下降。

圖2:various ablations 的平滑學習曲線。Highway 層組合,正交參數初始化和循環 dropout 對於實現強大的性能至關重要。這裡顯示的數字沒有約束解碼。

圖3:與兩個強 non-neural 基線相比,在進行序列中各種類型的oracle轉換後的表現。Add Arg 轉化之後,gap 被合攏,顯示了我們的方法和傳統系統相比,是如何從預測更多論元中獲益的。

表4:Oracle 轉換與每個操作後的相對誤差減少配對。所有操作只有在不引起任何重疊參數的情況下才被允許。

表5:標記誤差的混淆矩陣,顯示了「the percentage ofpredicted labels for each gold label」。我們僅計入了匹配 gold span boundaries 的預測論元。

圖4:對於我們的模型將gold span 一分為二(ZXY)或合并兩個 gold constituents(XYZ)的情況,我們展示了Yspan 句法標籤的分布。結果顯示,這些誤差的主要原因是不準確的介詞短語attachment。

圖5:謂詞與論元之間的表面距離F1。對於較深層的神經模型,性能隨論元距離增長而衰減的程度最小。

圖6:強制執行核心角色只能發生一次(+SRL)的約束條件,性能受到損害的示例。

表6:2005年CoNLL上的F1,以及按類型細分的CoNLL 2012 上的 development set。語法約束解碼(+ AutoSyn)顯示了域內數據(CoNLL 05 和 CoNLL 2012 NW)的更大改進。

原文地址:https://homes.cs.washington.edu/~luheng/files/acl2017_hllz.pdf

點擊「閱讀原文」查看新智元招聘信息

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

一圖讀懂你不得不知道的10個影響人類社會的演算法
AI TOP 10-百度開源中文建模工具,谷歌自動卡車曝光
AI初創公司均價2500萬-5000萬美元,工程師均價250萬美元
黃士傑公布AlphaGo五盤自戰對局,樊麾與圍棋國手視頻解說
「風格化+GAN」感知對抗網路 PAN,一個框架搞定多種圖像轉換

TAG:新智元 |

您可能感興趣

「乾貨」IJCAI:深入淺出講解深度生成模型(115 PPT)
RTX2080Ti顯卡深度計算測試:提升明顯性價比不高
新核彈RTX2080/Ti深度評測:近年來顯卡最重磅的升級?
16篇論文、70多頁PPT幫你優化深度學習模型,免費下載
ICLR 2018 | 清華&斯坦福提出深度梯度壓縮DGC,大幅降低分散式訓練網路帶寬需求
115頁PPT帶你領略深度生成模型全貌(附下載鏈接)
RTX 2080 Ti深度學習性能實測:提升最對65% 性價比敗北
深度解讀iOS 12中的USB限制模式
高通驍龍855五大維度深度解讀:沒有NPU只有更強大的AI引擎 首款5G移動平台
iPhoneX和XS深度對比 價格相差1600元該升級嗎
63頁【深度CNN-目標檢測】綜述【PDF下載】
NIPS 2018 | MIT等提出NS-VQA:結合深度學習與符號推理的視覺問答
性價比突出,升級空間大:Dell Vostro 成就5000 5471 深度解讀
深挖大數據價值,浩瀚深度MWCS18發布高性能DPI新品
如何1行BN「批規範化」提高訓練速度準確率,有深度學習5層網路比較源碼
速度提高100萬倍,哈佛醫學院大神提出可預測蛋白質結構的新型深度模型
小米MIX 2S深度拆解,加價400值不值?
曠視等提出GIF2Video:首個深度學習GIF質量提升方法
BDTC 2018強勢來襲:深度探秘大數據新應用
質造24小時生活空間 TCL X8 QLED TV深度評測