Google 翻譯出現宗教話語,可能是因為用了聖經訓練模型導致
上線 12 年,Google 翻譯現在支持 100 多種語言,覆蓋了全球 99% 的網民。這其中甚至包括信德語(巴基斯坦和印度)、科薩語(南非)等極少人使用的語種。
但最近Reddit 上有網民發現了一些奇特的現象——在某些語種下,一些特定的片語會被 Google 翻譯成看似亂碼的宗教話語。
將語言設置成從毛利語翻譯成英語後,輸入 19 遍 「dog」 這個詞,Google 翻譯就會將這段話翻譯成「世界末日時鐘在 12 點 03 分我們正在經歷世界上的人物和戲劇性的發展,這表明我們越來越近接近末日和耶穌的回歸」
聽上去像是懸疑驚悚片裡面的台詞,這只是 Reddit 上用戶挖掘出來許多奇怪的翻譯之一。
例如用 Google 翻譯從索馬利亞語翻譯成英語,輸入不同數量的 「ag」 ,會得出不同的翻譯結果,包括將 「ag」 翻譯成 the sons of Gershon (Gershon 的兒子),the name of the LORD (耶穌的名字)。
對於出現這樣現象的原因,Reddit 和推特上的網友玩笑地稱幽靈和惡魔在 Google 提供翻譯服務,或者可能是由不滿的 Google 員工惡意生成。但也有一些認真的討論,包括認為是有些人濫用「建議編輯」按鈕,這個功能可以讓任何用戶幫助給出翻譯內容的建議。
哈佛大學助理教授,研究自然語言處理和計算機翻譯的 Andrew Rush 則不認為會是有人惡意搗亂,因為 Google 翻譯內置的過濾器會捕捉和屏蔽這類型的修改。
翻譯軟體的技術最早是利用詞典和語法生成翻譯,被稱為基於規則的機器翻譯(RBMT),使用上就是機器把每個單詞查好,按簡單的語法規則拼起來。隨著統計學的發展,統計模型開始被應用在機器翻譯上,通過對於兩種不同語言的資料庫進行統計分析來生成翻譯結果。技術稱為統計機器翻譯(SMT),也是 1980 年代到 2000 年代之間翻譯軟體上最常用的方法。
2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一種用於機器翻譯的編碼器-解碼器結構。他們的研究成果可以說是神經機器翻譯(NMT)的誕生。神經機器翻譯是一種使用深度學習神經網路獲取自然語言之間的映射關係的方法。三年後,Google 發布了自家的神經機器翻譯系統 GNMT,也是採用編碼器-解碼器結構,但解決了 NMT 系統翻譯計算成本高,難以處理生僻詞等一些問題。
所謂 Google 的 GNMT 神經機器翻譯,其實就是將要翻譯的句子中的辭彙逐個編碼,形成一個列表,其中每個單元都包含了之前被讀取到單詞的含義,然後使用訓練後的神經網路作為解碼器,將單元逐個翻譯成目標語言。
以漢語「知識就是力量」翻譯成英文為例,神經機器翻譯先按 「知」——「知識」——「知識就」等順序對原句進行編碼,一旦讀取完整個句子,解碼器就開始工作,逐個按列表單元生成英語句子中的一個詞,最後整合成一句話。
GIF
GNMT 還加入了「注意(Attention)」技術,為了在每一步都生成翻譯正確的詞,解碼器會重點注意與生成英語詞最相關的漢語向量。在「知識就是力量」這句話中,知識和力量就是值得注意的單詞。
而想要提高編碼器和解碼器的能力,就需要大量的訓練。系統需要一種語言的大量文本來訓練另一種語言的相應翻譯能力,最終確保可以創建出兩種語言之間對應的模型,這也是問題所在。
回到 Google 翻譯會出現宗教話語的問題。研究自然語言處理和計算機翻譯的 Rush 解釋稱,「當你讓 GNMT 學會一個新語言的翻譯時,它會受到訓練,並竭盡所能去生產一些看起來像人類語言的東西。然而,如果它面對一些特殊的內容,只能展現一些和輸入內容完全沒有關係,但仍然流利通順的東西。」
BBN Technologies 的高級科學家肖恩·科爾巴斯(Sean Colbath)從事機器翻譯工作,他同意奇怪的輸出可能是由於 Google 翻譯的演算法在混亂中尋找秩序。
他還指出,產生最奇怪結果的語言——索馬利亞語,夏威夷語和毛利語。這些語言比英語或中文等更廣泛使用的語言具有更小的翻譯文本。因此他說,Google 可能會使用像聖經這樣被翻譯成多種語言的宗教文本來訓練這些小語種的模型,從而解釋了為什麼會產生宗教內容的原因。
截止 2002 年,已經有 392 種語言的聖經全譯本(即全本舊約、新約都有翻譯的版本)。
Rush 也同意如果 Google 使用聖經來訓練翻譯模型,是可以解釋一些奇怪的輸出。事實上,索馬利亞語的一些奇怪翻譯的確類似於舊約中的特定段落。包括《民數記》在內的幾節經文討論了 sons of Gershon,《出埃及記》里也有對應的內容。
Google 發言人伯爾拒絕透露翻譯的培訓材料是否包括宗教文本,一些已經被發現的奇特翻譯也在被網友發現後進行了修正。
有趣的是,Google 翻譯似乎也知道自己奇怪的地方。
在使用索馬利亞語翻譯:「 why are the translations so weird(為什麼翻譯這麼奇怪)」,Google 翻譯給出了一個有趣的回答,「It is a great way to make it so much better(這是一個讓它變得更好的好方法)」
我們做了一個壁紙應用,給你的手機加點好奇心。去 App 商店搜好奇怪下載吧。
※Bottega Veneta 創意總監離職,以及,來看 Instagram 美妝排名|浮華日報
※「男女有別」不怪大腦,它們幾乎沒有功能結構上的差異
TAG:好奇心日報 |