谷歌 AI:語義文本相似度研究進展
雷鋒網按:本文為雷鋒字幕組編譯的技術博客,原標題 Advances in Semantic Textual Similarity,作者為 Google AI 的軟體工程師與技術主管 Yinfei Yang。
翻譯 | 張韻晨 馬力群 整理 | 凡江
插播一則小廣告:NLP領域的C位課程,斯坦福CS224n正在AI慕課學院持續更新中,無限次免費觀看!
最近基於神經網路的自然語言理解的研究的迅速發展,尤其是關於學習文本語義表示的研究,使一些十分新奇的產品得到了實現,比如智能寫作與可對話書籍。這些研究還可以提高許多只有有限的訓練數據的自然語言處理任務的效果,比如只利用 100 個標註的數據搭建一個可靠的文本分類器。
接下來,我們將討論兩篇最近由谷歌發表的關於語義表示研究的論文,這兩個新的模型可以從 TensorFlow Hub (https://www.tensorflow.org/hub/)上下載,我們期待開發者可以利用他們搭建新的令人激動的應用程序。
語義文本相似度
在 Learning Semantic Textual Similarity from Conversations(https://arxiv.org/abs/1804.07754)這篇論文中,我們提出了一個新的方法來學慣用來計算語義文本相似度的句子表示方法。從直覺上來說,如果兩個句子有相近的關於回複信息的分布,那麼它們的語義是相近的。例如,「你多大了?」與「你的年齡是多少?」都是關於年齡的問題,都有相近的回答,比如「我 20 歲了」。與此相反,「你最近怎麼樣?」(How are you?)與「你的多大了?」(How old are you?)包含了幾乎相同的單詞,但它們有不同的含義以及會引導出不同的回答。
如果多個句子有相同的回答,那麼他們在語義上是相近的。否則,他們在語義上是不同的。
在這一工作中,我們的目標是通過一個回答分類任務來學習語義相似度: 給定一輪對話作為輸入,我們希望從一批隨機選擇的回答中挑選出正確的回答。但是,我們最終的目標是學習一個可以返回表示各種自然語言間關係的編碼的模型,這些自然語言間的關係包括相似度與關聯性。通過加入另一個預測任務(在這一任務中,採用 SNLI entailment 數據集)與利用共享的編碼層增強兩者,我們在相似度衡量任務上得到了十分不錯的表現,比如 STSBenchmark(一個句子相似度衡量的基準)與 CQA task B(一個問題與問題間相似度衡量的任務)。這是因為邏輯上的蘊含與簡單的等價關係完全不同,而且邏輯上的蘊含提供了更多用來學習複雜的語義表示的信息。
對於給定的輸入,分類被認為是一個針對潛在選擇的排名問題。
通用的句子編碼器
在 Universal Sentence Encoder(https://arxiv.org/abs/1803.11175)這篇論文中,我們提出了一個模型,這個模型通過添加更多的任務來擴展上述的多任務訓練,採用類似於 skip 思想的預測給定的文本選項周圍的句子的模型共同訓練這些任務。然而,我們採用了一個只有編碼器的結構來代替原來的 skip 思想中編碼器-解碼器的結構,我們的結構通過一個共享的編碼器來驅動預測任務。採用這種方法,訓練時間顯著減少的同時仍保留了在各種遷移任務上的表現,包括情感與語義相似度分類。模型的目標是提供一個單獨的編碼器,它可以儘可能廣泛地支持各種應用,包括改寫檢測、關聯性、聚類以及自定義文本分類。
通過 TensorFlow Hub 上的通用句子編碼器的輸出進行句對語義相似度比較。
正如我們在這篇論文中所表述的,一個版本的通用句子編碼器模型使用了深度均值網路( DAN )編碼器。而第二個版本則使用了一個更為複雜的自主網路結構——轉換器。
正如《通用句子編碼器》論文中所表述的多任務訓練,各種任務以及任務結構通過共享編碼器層/參數而結合(如上圖中灰色框)。
通過使用更加複雜的結構,模型與結構更簡單的深度均值網路模型相比在各種情感和相似度分類任務上表現更好,而在短句子的表現上僅僅是表現的稍微慢一些。然而,隨著句子長度的增加,使用轉換器模型的計算時間顯著增加,而深度均值網路( DAN )編碼器模型的計算時間幾乎保持不變。
新模型
除了上述的通用句子編碼器模型之外,我們還在 TensorFlow Hub 上共享了兩個新模型:大型通用句子編碼器以及精簡版通用句子編碼器。 這些是預訓練的 Tensorflow 模型,可以返回可變長度文本輸入的語義編碼。 這些編碼可用於語義相似性度量,相關性,分類或自然語言文本的聚類。
大型通用句子編碼器使用我們第二篇論文中介紹的轉換器編碼器進行訓練。 它針對需要高精度語義表示的場景以及以犧牲速度和大小為代價獲取最佳性能的模型。
小模型使用句子片段而不是單詞進行訓練,這樣大幅度降低了辭彙的大小,這是模型大小得主要決定因素。它針對內存和CPU等資源有限的場景,例如基於手持設備或基於瀏覽器的實現。
我們很高興與社區分享這項研究和這些模型。我們相信我們在這裡展示的只是一個開始,況且還有重要的研究問題需要解決。例如將這一技術擴展到更多語言(上述模型目前支持英語)。我們也希望進一步開發這種技術,以便能夠理解段落甚至文檔級別的文本。在實現這些任務時,可能會製作出真正」通用」的編碼器。
致謝
感謝Daniel Cer、Mario Guajardo-Cespedes、 Sheng-Yi Kong、Noah Constant 進行了模型訓練,Nan Hua、Nicole Limtiaco、Rhomni St. John 進行了任務遷移, Steve Yuan、Yunhsuan Sung、Brian Strope、Ray Kurzweil 參加了模型結構的討論。特別對 Sheng-Yi Kong 和 Noah Constant 訓練小模型所做的工作進行感謝。
博客原址:https://ai.googleblog.com/2018/05/advances-in-semantic-textual-similarity.html
雷鋒網雷鋒網
雷鋒網雷鋒網
※Model X 致命車禍初步調查結果出爐,我們發現了這些未解細節
TAG:雷鋒網 |