聯合學習離散句法結構和連續詞表徵的無監督方法

知識 10-09

選自arXiv

作者：Junxian He等

機器之心編譯

參與：Geek AI、張倩

句法結構的無監督學習通常是使用帶有離散潛在變數和多項式參數的生成模型進行的。在大多數情況下，這些模型都沒有利用連續的詞表徵。本文提出了一種新的生成模型，通過級聯帶有結構化生成先驗的可逆神經網路，用無監督的方式一同學習離散句法結構和連續詞表徵。在 Penn Treebank 數據集上，本文提出的的馬爾可夫結構模型在詞性標註歸納任務上的性能超過了目前最先進的模型。此外，該研究中的樹結構模型在既沒有黃金詞性標註標籤也沒有基於標點的約束條件的困難訓練條件下，在無監督依存分析任務中達到了當前最優性能。

數據標註是監督學習方法應用於許多問題的主要瓶頸。因此，直接從無標籤數據中學習的無監督方法顯得越來越重要。對於與無監督句法分析相關的任務來說，離散生成模型近年來佔據著主導地位，如詞性標註（POS）歸納（Blunsom and Cohn, 2011; Stratos et al., 2016）和無監督依存分析（Klein and Manning, 2004; Cohen and Smith, 2009; Pate and Johnson, 2016）。儘管類似的模型在一系列無監督任務中取得了成功，但它們大多忽略了有監督自然語言處理應用中顯而易見的連續詞表示的作用（He et al., 2017; Peters et al., 2018）。本文著眼於利用並顯式地表徵句法結構的無監督模型中的連續詞嵌入。

利用大量無標籤語料庫預訓練得到的詞嵌入提供了一種緊湊的方式，將詞相似性的先驗概念注入到模型中。如果不使用這種技術，這些模型就會將詞視為離散的、孤立的類別。然而，由任何特定的嵌入方案捕獲到的語言的特定屬性可能難以控制，因此可能無法理想地適用於我們面對的任務。例如，用小型上下文窗口預訓練得到的 skip-gram 嵌入（Mikolov et al., 2013）可以很好地捕獲到語言的句法特性（Bansal et al., 2014; Lin et al., 2015）。然而，如果我們的目標是分離句法類別，這樣的嵌入空間就不是理想的——詞性標註類別對應於嵌入空間中重疊的散布區域，如圖 1（a）所示。

圖 1：skip-gram 嵌入（在上下文窗口大小為 1 的 10 億個單詞上訓練得到）以及通過我們使用馬爾可夫結構先驗的方法學到的潛在嵌入的可視化結果（t-SNE）。每個節點代表一個單詞，並且根據 Penn Treebank 中最可能的黃金詞性標註標籤著色。

在我們提出的方法中，我們建議學習一個新的潛在嵌入空間作為預訓練的嵌入的投影（如圖 1（b）所示），同時一起學習詞性標註類別或句法依存關係等潛在的句法結構。為此，我們引入了一個新的生成模型（如圖 2 所示）。該模型首先利用離散結構先驗（我們也稱之為「句法模型」）生成一個潛在的句法表徵（如依存分析）。接著，我們以此表徵為條件，生成一個對應於每個單詞的潛在的嵌入隨機變數序列。最終通過將這些潛在向量用一個參數化的非線性函數進行投影得到我們看到的（預訓練的）詞嵌入。潛在的嵌入可以以完全不受監督的方式與結構化的句法模型一同學習。

圖 2：本文使用的生成模型示意圖。本文提出的句法模型由離散隨機變數 z_i 組成。每個 e_i 都是一個在 z_i 情況下從高斯分布中抽樣到的潛在的連續嵌入，而 x_i 是我們看到的由 e_i 確切求導得來的嵌入結果。左邊的部分描述了神經投影如何將簡單的高斯分布映射到輸出空間中更加複雜的分布上。右邊的部分描述了我們的方法中句法模型的兩個實例：一個使用了馬爾可夫結構的先驗，另一個使用了 DMV 結構的先驗。對於 DMV 來說，z_tree 是潛在的依存樹結構。

通過選擇一個可逆神經網路作為我們的非線性投影器，然後根據投影的倒置對我們的模型進行參數化處理，我們就可以推導出易於處理的準確推理，而且只要推理在底層的句法模型中是易於處理的，我們就可以推導出邊緣似然的計算過程。§3.1 闡明了該推導對應於我們的方法的另一種視角，由此我們可以一同學習觀察到的詞嵌入結果到一個新的嵌入空間的映射。新的嵌入空間更適合句法模型，包含了一個額外的 Jacobian 正則項以防止信息丟失。

最近的研究已經試著去利用通過其它方法構建的無監督生成模型中的詞嵌入（Lin et al., 2015; Tran et al., 2016; Jiang et al., 2016; Han et al., 2017）。Lin 等人於 2015 年在觀察到的詞嵌入上使用高斯分布構建了一個隱馬爾可夫模型（HMM），但他們沒有嘗試學習新的嵌入。Tran 等人、Jiang 等人於 2016 年，Han 等人於 2017 年拓展了 HMM 模型或通過在參數化過程中使用單詞（或標籤）嵌入的多項式拓展了 DMV 模型。然而，它們並不以潛在變數表徵嵌入。

在實驗中，我們使用了馬爾科夫結構的句法模型和樹結構句法模型（具體指 DMV 模型）來實例化我們的方法。我們對兩個任務進行了評價：詞性標註（POS）歸納和不帶黃金 POS 標籤的無監督依存分析。在 Penn Treebank 數據集（Marcus et al., 1993）上得出的實驗結果表明，我們的方法在基礎的 HMM 模型和 DMV 的性能上有極大的提升，獲得了目前在詞性標註歸納任務上最好的實驗結果，還在既沒有黃金 POS 標籤也沒有基於標點的約束條件的困難訓練場景下獲得了目前最好的實驗結果。

論文：Unsupervised Learning of Syntactic Structure with Invertible Neural Projections

論文鏈接：https://arxiv.org/pdf/1808.09111v1.pdf

摘要：句法結構的無監督學習通常是使用帶有離散潛在變數和多項式參數的生成模型進行的。在大多數情況下，這些模型都沒有利用連續的詞表徵。本文提出了一種新的生成模型，通過將帶結構化生成先驗的可逆神經網路級聯起來，用無監督的方式一同學習離散句法結構和連續詞表徵。我們的研究表明，只要先驗知識能很好地起作用，可逆性條件就能幫助我們在模型中進行高效的精確推理和邊緣似然計算。在實驗中，我們用馬爾可夫結構先驗和樹結構先驗實例化了我們的方法，對兩項任務進行了評價：詞性標註（POS）歸納和不帶有黃金 POS 標籤的無監督依存分析。在 Penn Treebank 數據集上，我們的馬爾可夫結構模型在詞性標註歸納任務上的性能超過了目前最先進的模型。同樣地，我們發現我們的樹結構模型在既沒有黃金詞性標註標籤也沒有基於標點的約束條件的困難訓練條件下，在無監督依存分析任務中達到了當前最優性能。