亞馬遜NAACL新論文:如何教Alexa語音助手快速理解新語言
【導讀】隨著亞馬遜Alexa語音助手在越來越多的國家發布,如何快速部署新的翻譯模型在新的語言上成為需要考慮的重要因素。亞馬遜新論文提出使用成熟的機器翻譯模型來提升對新語言的的理解能力,文章將發表在即將召開的NAACL2018上。
論文: Selecting Machine-Translated Data for Quick Bootstrapping of a Natural Language System
鏈接:https://arxiv.org/pdf/1805.09119.pdf
作者 | Penny Karanasou
編譯 | 專知
翻譯 | Mandy, Sanglei
Machine Translation Accelerates How Alexa Learns New Languages
隨著支持Alexa的設備不斷擴展到新的國家,我們提出了一種在新語言中快速部署機器訓練模型的方法,旨在更高效地將Alexa帶給全球的各種語言新客戶。我們將在下周舉行的第16屆NAACL-HLT計算語言學協會北美分會年度會議上介紹我們的方法。
從零開始構建一個自然語言理解(NLU)模型需要收集和標註大量的訓練數據,這對標註者和科學家來說都是一個巨大的時間負擔,而且這個機制也不會擴展到新語言中。一個明顯的解決方案是嘗試利用已用於訓練其他語言的NLU模型的大型數據集。在這項工作中,我們使用機器翻譯(MT)將現有數據源翻譯成目標語言,然後使用翻譯後的數據來引導一個NLU系統。
在新語言中訓練NLU模型的一種常見方式是使用形式語法(formal grammar),一組句法和語義規則,加上標註有語義信息的辭彙,可以產生任意數量的在語法和語義上有效句子。儘管比標註大量數據集花費的時間更少,但這個過程需要語言專家來構建能夠為目標應用程序提供良好覆蓋率的語法。
一旦這個第一個系統達到一定的性能閾值,它就可以與beta用戶共享。 Beta用戶的查詢當然會比人工生成的數據更能代表真實用戶。然後,所有現有的數據源都被用來訓練系統,直到它達到一個新的、更高的性能閾值,這個時候通常可供客戶使用。一旦客戶開始使用該系統,他們的交互會產生更多的訓練數據。
然而,為了獲得足夠多的真實的訓練數據,可能需要花費大量的時間和標註才能實現Alexa客戶在新語言中所期望的功能覆蓋類型。
機器翻譯可以說是快速將NLU系統擴展到新語言的一個有用工具,並且提供所有已支持語言中可用的Alexa功能。在本文中,我們使用一個巨大的英語話語數據集來引導德語NLU系統。
此外,我們還探索自動識別「好」的翻譯的方法,即提高NLU性能的翻譯方法。首先,我們研究基於MT質量的過濾,根據MT模型生成的概率分數對翻譯進行評級。接下來,我們研究基於語義準確性的過濾。為了測量這一點,我們使用機器翻譯的文本,自動將其轉換回原來的語言,然後在結果上重新運行NLU系統。根據新的語義標籤與原始標籤的吻合程度來對翻譯進行評分。
最後,我們將一些語言特定的後處理( post-processing)應用於翻譯輸出。具體來說,我們使用目標目錄來重新採樣翻譯後的數據。例如,我們會自動將德國城市的名稱替換為原始話語中提及的美國城市的名稱,以更好地模擬德國用戶的數據。此外,我們選擇保留某些類型的詞,如歌曲和藝術家姓名,未翻譯。例如,如果原始話語是「Play music by Queen」,則系統不會將藝術家姓名「Queen」翻譯成德語單詞「K?nigin」。
在我們的實驗中(我們在論文中提及),在MT數據上訓練的系統比在語法生成的數據上訓練的系統表現要好得多,而且它們的性能甚至超越了一套訓練了10,000個手工標註的德語單詞的系統。應用濾波和後處理技術進一步提高了結果。
總的來說,這項工作表明,MT的使用可以縮短語法生成的第一個長階段,並為一種新的語言收集內部數據。此外,MT還可以更快地為客戶提供更多的功能,因為所有支持語言的現有功能的數據都可以立即翻譯成新的語言。
Penny Karanasou是亞馬遜的機器學習科學家。她和同事們將在即將召開的NAACL會議上介紹他們的工作。
Paper:Selecting Machine-Translated Data for Quick Bootstrapping of a Natural Language System
論文摘要:
本文了使用機器翻譯(MT)在新語言中快速部署自然語言理解(NLU)系統。 我們的目標是減少為新語言獲取標註語料庫所需的成本和時間,同時仍然具有足夠好的效果來應答用戶的語音請求。 文章中調研了多種數據過濾和特定語言的後處理方法,這些方法都是為了改善機器翻譯的性能。 我們在大規模的NLU任務中對這些方法進行了測試,這個任務主要是將約1000萬條訓練語句從英語翻譯成德語。 結果顯示,在語法和內部數據收集方法的基礎上使用MT數據可可以取得很大的性能改進,同時大大減少了人工操作。 過濾和後處理方法都對結果的提升做出了貢獻。
https://developer.amazon.com/blogs/alexa/post/7dde86fa-0a4f-4984-82d1-7a7d1282fb0c/machine-translation-accelerates-how-alexa-learns-new-languages
更多專業AI教程資料請加入專知人工智慧知識星球群獲取,掃描下面二維碼即可!
-END-
專 · 知
人工智慧領域主題知識資料查看與加入專知人工智慧知識星球服務群:
TAG:專知 |