機器翻譯會迫使翻譯們全失業嗎？

知識 12-20

「熟讀唐詩三百首，不會作詩也會吟」。見識海量範文之後的機器真的可以通過「暴力學習」來取代人類的工作嗎？實際上，優秀的譯文應該具有靈活性和創造性，寄望於通過「大數據統計」路線來推進機器翻譯的想法是不能指望的，因為這種翻譯過程不包括對語句內容及其所屬的言語行為的理解，這一重大缺陷也不能通過對該技術的改進而克服。

撰文

王培（美國天普大學計算機與信息科學系）

最近谷歌漢譯英改用了神經網路技術。做了測試的人們有兩點共識，一是譯文質量比以前的技術要好很多，二是離人的翻譯水平還差得很遠。有趣的是，在此基礎上專家們對機器翻譯的前景卻有截然相反的估計。樂觀主義者認為，照這個速度發展下去，機器早晚會接管所有翻譯工作；悲觀主義者則認為，根據機器翻譯所暴露的缺陷可以看出，這個技術再怎麼發展也有好多因素是沒辦法掌握的。

機器翻譯會迫使翻譯們全失業嗎？

這讓我們想起了「半瓶水」既可以說成「半滿」也可以說成「半空」。一般說來，對於一個正在發展中的技術而言，兩種說法都有道理：一方面，現存一些缺陷是會被該技術的進一步發展所彌補的；但另一方面，任何一個技術都有其根本局限，所以不是所有的問題都一定會在這個技術的框架中被解決。要預測機器翻譯的發展空間，必須具體分析現有技術對翻譯過程的刻畫。

機器翻譯的流派

參考資料[1]介紹了機器翻譯領域及其中的主要技術流派。翻譯是人工智慧研究中最早被考慮到的實際應用之一。在人們發現計算機可以被用來對語言進行編碼處理以後，很快就有人想到可以用它來進行翻譯工作。和人工智慧的其它子領域相似，這裡的故事也是跌宕起伏。

在開始時，受當時語言學界主流（喬姆斯基理論）的影響，機器翻譯主要走的是「基於規則」的路線。簡而言之，這就是為每種語言整理出一本「詞典」和一本「語法書」，然後在兩種語言之間建立詞和句子的水平上的對應關係。以英譯中為例，這樣一個翻譯過程對每個英文句子進行下列處理：

（1）分析其語法結構以及其中每個詞的角色（主語、謂語、賓語等等）。在這個過程中，主要考慮詞類（名詞、動詞、形容詞等等），而不考慮每個詞的意思。

（2）分析其語義，即把句中英語辭彙及其語法關係表示成獨立於語言的概念關係。

（3）把這些概念關係用漢語重新表達出來。

在這些步驟中所遵循的規則都是語言學家所總結出來的。儘管語言學家和人工智慧工作者付出了巨大的努力，這條路徑並沒有導致預想的進展並達到實用水平。這主要是因為人類的語言，即所謂「自然語言」，實在是太複雜了。和人工構造的數學語言或計算機語言不同，自然語言的使用非常靈活，其結果是幾乎所有語法規則均有例外，幾乎所有的辭彙都有多個意義，因而不同語言的語句或辭彙之間也就不存在符合規則的對應關係。

部分地出於對「基於規則」的方案的失望，自然語言處理研究者們逐漸轉向了「基於統計」的路線。這個辦法是把大量的實際出現的語句整理成「語料庫」，然後用統計的辦法來發現其中的某些規律性，比如說詞與詞之間的相繼頻率（如在「這」之後「是」出現的概率）或可替換性（如把語料庫里句子中的「狗」換成「貓」後，有多少結果還在語料庫中）。以此來實現語句預測、補全、糾錯等功能。把統計方法用到機器翻譯當中，就是用大量的已有翻譯範文（比如聯合國文件）為訓練數據來生成一個翻譯系統。這種翻譯技術直接在兩個語言的詞句之間建立對應關係，而在此過程當中不依賴於人工整理的語法規則和詞典。當然，這個辦法要求的數據量和計算量都非常大，但這些現在已不是不可滿足的。

谷歌的神經網路翻譯系統是統計方法的一種具體的實現方式。下面這個出自谷歌網站的動圖簡單表示了這個系統將一個中文句子翻譯成英語的過程。首先，一個「編碼網路」將逐字加長的輸入字串表示成一系列數值向量。然後一個「解碼網路」依照這些向量逐詞生成一個英語句子。在解碼過程中，系統對各個向量的「關注」程度是不同的，這就表現為兩個網路節點之間的連線有濃有淡，而且隨翻譯的進展而改變。

機器翻譯會迫使翻譯們全失業嗎？點擊播放 GIF/1101K

這兩個神經網路都是用大量語料訓練出來的，即通過反覆調整參數，它們「記住了」這兩種語言各語句之間的對應關係，並可以據此推廣到以前沒見過的句子。對每個輸入語句，系統實際上是在計算不同輸出語句的概率，並最終選取可能性最高的那個。參考資料[2]是谷歌團隊關於這個系統工作原理的技術報告。和以往同樣基於統計的翻譯系統來比，這個系統的優勢之一就是把「短語到短語」的翻譯拓展到「句子到句子」的翻譯，因此改善了譯文的可讀性。另一個創新是把沒見過的詞切分成片段，因此可以根據其前後綴、詞根等來決定如何翻譯。

最近，谷歌翻譯團隊又取得了新進展。現在同一個翻譯模型可以處理多語種，並實現了一定程度的「遷移學習」。比如說該模型的訓練語料是在英語-日語之間和英語-韓語之間，但訓練完成後可以被用於日語-韓語之間的翻譯，儘管該模型從未被直接在這兩個語言之間被訓練過。這種功能被稱作「零數據」（zero-shot）翻譯，但這個說法有誤導之嫌，因為翻譯仍然是基於海量數據的，儘管不是直接關於某次翻譯所涉及的兩種語言間的對應關係。

統計翻譯能走多遠

對不關心技術細節的讀者，我們只需說統計翻譯的基本思路是「照貓畫虎」，即把每句話按照最接近、最常見的方式處理，正所謂「熟讀唐詩三百首，不會作詩也會吟」。在系統見識了海量範文之後，用這個辦法的確可以完成大量翻譯工作。隨著語料的積累、演算法的優化、硬體性能的提高等可以預見到的進展，機器翻譯的能力必定會進一步提高。

但這不意味著統計翻譯可以完全取代人的翻譯工作。具體到谷歌神經網路翻譯來說，下面兩個基本預設其實就划出了這個技術的邊界：（1）「翻譯是把一種語言中的語句對應到另一種語言中的語句」；（2）「在諸個可能的翻譯結果中，選擇那個在訓練語料中最常出現的」。

這兩個預設對簡單翻譯任務來說是合理的，但翻譯活動中的很多其它因素被完全忽略了，例如背景知識、上下文、作者（說者）的意圖、讀者（聽者）的接受能力、文體的一貫性、情感色彩等等。在任何需要考慮這些因素的場合，神經網路翻譯的局限性就暴露出來了。

這些局限性是不能被神經網路翻譯的進展所克服的，因為它們來自這個技術的基本前提，而否定了這些前提的發展就不能再算是這個技術的發展，而應當說是另一個技術了。某些小改動可以緩解一些困難，如對訓練樣本加標記，把翻譯單位從單句擴大到多句等等，但這些都不足以徹底解決問題。神經網路翻譯的上述問題可以總結為一點：這種翻譯過程沒有包括對語句內容及其所屬的言語行為的理解。

機器翻譯會迫使翻譯們全失業嗎？

翻譯和理解

這就扯出個大麻煩來：怎麼才算「理解」？對這個概念不同的人顯然有不同的理解。谷歌翻譯團隊就說，既然他們的模型可以把一句話翻譯成多種語言，這就說明該模型真正理解了這句話的含義。這個標準對人說來是足夠好了，但人工智慧的歷史說明了對人合適的標準對機器未必合適。如果某系統對一句話的翻譯很準確，但既不能回答有關的簡單問題，也不能以此影響自己的行為，那說它「理解了這句話」就很牽強。

本文不試圖對「理解」這個概念做全面、深入的分析，而希望通過兩個簡單的例子說明統計翻譯的局限性。這兩個不恰當的名詞翻譯我以前都提到過。

在《人工智慧危險嗎？》中，我提到阿西莫夫的「Three Laws of Robotics」應當譯作「機器人三律令」而非「機器人三定律」，因為這裡的「law」更接近於康德的「道德律令」，而完全不像牛頓的「三大定律」。譯成「定律」會使有些讀者誤以為它們是所有機器人都必然會遵循的法則，而根據阿西莫夫的本意，它們是機器人的設計者強加的約束，因此完全可能被修改甚至背離。實際上阿西莫夫在他的後期作品中又加了一條更根本的律令作為對那三條的修正。

在《圖靈測試是人工智慧的標準嗎？》中，我提到「chatbot」應當譯作「聊天程序」而非「聊天機器人」。這個英文單詞是由「chat」（「聊天」）和「robot」（「機器人」）的後半部分組成，所以譯作「聊天機器人」不是毫無來歷。總的來說，「bot」是指和機器人有一些相似的「擬人」程序，但在英文中沒人會把「chatbot」誤解為一種「robot」，而在中文中，「聊天機器人」完全可能被誤解成「機器人」的一種。隨著把「bot」譯作「機器人」成為時尚，後者將不再特指與通用計算機相區別的專用計算裝置。這就是為什麼「實體機器人」、「物理機器人」等說法開始出現，以強調它們和純軟體的差別。實際上更好的選擇是保留「機器人」一詞的「實體」、「專用硬體」的本意，而用其它辭彙稱呼擬人化的程序，因為這些程序和其它程序的區別並不明晰，而且在所有重要的意思上（商業宣傳除外）都沒有理由被稱為「機器人」。

上述例子說明，在翻譯過程中的候選對象常常是需要從多個方面比較和斟酌的，而絕不僅僅是算出現概率這麼直截了當。儘管「約定俗成」的確是翻譯的一個重要原則，但絕不是唯一的原則。實際上「具體情況具體分析」應當被看作一個更重要的原則。這就是說要試圖把握要翻譯的內容「在此時此地」是什麼意思，而不僅僅是它「在一般情況下」是什麼意思。優秀的譯文應該具有靈活性和創造性，而這不是「統計路線」所能提供的。

第三條路線

我前面提到的問題遠非鮮為人知，而是更接近於有目共睹。但是，除非有更好的技術出現，對這些問題人們除了容忍或抱怨也沒什麼好辦法。

現在大部分研究者仍是希望在「統計路線」的內部解決自然語言處理問題。出於前面解釋的理由，我對此不抱希望。統計技術的確能給我們相對簡單的自然語言處理工具，但這些工具的局限性也是命中注定的。

另一個顯而易見的可能性是在自然語言處理中把「基於統計」的技術和「基於規則」的技術相結合。這條路線會取得一定的進展，但仍不可能徹底解決這兩個技術的基本設定中的「先天缺陷」，更不要說還要解決使二者相互協調的難題。

我自己的研究目標是建立一個通用智能系統（見《你這是什麼邏輯?》等專欄文章），這自然就涉及到自然語言的處理。因為在我的系統中自然語言的作用不是核心性的，而是邊緣性的（儘管也很重要），這方面的具體工作近年來才剛剛開始。我的基本想法和初步結果在參考文獻[3]中有介紹。在這裡只把和前述兩條路線的主要不同點列出來：

不把「自然語言處理」作為一個相對獨立的功能模塊，而是作為系統的推理和學習機制對言語經驗的加工。這就是說對語言材料的處理和對其它材料（感知、運動、概念等等）的處理是基本一樣的。

不循「語法-語義-語用」的次序進行語言理解，而是反過來以「目標制導」的方式分析意義（見《「意思」是什麼意思？》），並用語法知識協助複雜意義的分析。

不假定一個獨立、完整、確定的語法系統，而是允許語法知識、語義知識、語用知識混合存在於各個不同的抽象水平上的概念之中，並主要靠系統自身從經驗中習得這些知識。

所有知識，包括語言知識，都只是一定程度上為「真」（見《證實、證偽、證明、證據：何以為「證」?》），但知識的習得和使用更接近於推理，而不是統計。

這條路線在語言學中更接近於「認知語言學」的傳統。儘管目前我們的結果還沒到能實際應用的程度，但有理由認為這條路線有可能在自然語言處理上（包括翻譯）走得更遠，因為它更接近人學習和使用語言的實際過程。具體到翻譯來說，這就要求系統通過學習掌握詞語的一般譯法，但在翻譯過程中考慮到前述那些被統計翻譯所忽略的因素，通過推理來確定每句話應該怎麼譯。在這個過程中，「理解」體現為把翻譯內容與系統的概念系統相聯繫，尤其是找到其「前因後果」，即作者（說者）為什麼要這麼寫（說），並以此希望在讀者（聽者）心中產生什麼效果。以這種「理解」為基礎，系統試圖用另一種語言實現儘可能類似的效果。這種對翻譯的理解和「規則路線」與「統計路線」均有根本不同。

但縱使是這條路線取得了完全的成功，也不會使得所有的翻譯失業。像我在《計算機將擁有『常識』？還有很多關要闖》中所解釋的那樣，即便一個計算機系統具有了通用智能，它的經驗也不會和人的完全一樣，因此它的概念和信念不會有和人一樣的內容。這種差異必定會體現在翻譯作品之中。對某些材料（如文學作品），我們大概還是喜歡人的翻譯，儘管機器翻譯可能也不錯。這就像外國人學中文很難完全達到中國人的水平（中國人學外文也同樣），因為到後來差異主要是來自於經歷和文化，而不是語言知識和技巧。這類差異可不是靠智力可以彌補的。

總而言之，計算機系統會逐漸越來越多地接管翻譯們的工作，但不會在這個領域裡完全取代人。實際上這個結論可以推廣到很多其它領域。人工智慧必定會造成就業結構的重大調整，但在那些密切依賴人類經驗的領域，機器是不會完全取代人的。

參考資料

[1]Yorick Wilks, Machine Translation: Its Scope and Limits, 2009th edition, Springer, 2008

[2]Yonghui Wu, et al., Google』s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, arXiv:1609.08144[cs.CL], 2016

[3]Pei Wang, Natural Language Processing by Reasoning and Learning, in Proceedings of the Sixth Conference on Artificial General Intelligence, pages 160-169, 2013

轉載請先聯繫newmedia@huanqiukexue.com。

請您繼續閱讀更多來自 環球科學 的精彩文章:

※2015年，哪些研究機構發生命科學論文最多？
※2016年勞力士雄才偉略大獎公布，十位來自世界各地的創新人士獲獎
※原來生物學這麼美！當細胞遇上水彩畫
※2016年勞力士雄才偉略大獎公布，十位來自各地的創新人士獲獎
※噓！世界空調業將吹起「無聲的風」

TAG:環球科學 |

您可能感興趣

※這項翻譯黑科技上線後，翻譯人員會失業嗎？
※誰能幫翻譯？
※神經機器翻譯再立新功：實時機器翻譯取得重大進展
※對機器翻譯取代人工翻譯的反駁
※讀英語翻譯可以做法律翻譯嗎？
※神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進
※從搜狗手機瀏覽器「智能翻譯」看行業未來
※火遍全球的科大訊飛翻譯神器，再增離線翻譯功能！沒網也能用了
※「天賜良機」怎麼翻譯？
※中國最牛人工智慧翻譯器面市，翻譯員要下崗！不用再學英語啦？
※沒有屏幕的翻譯機，你真敢用嗎？
※「可口可樂」竟然曾被譯成「蝌蝌啃蠟」……請個好翻譯會死嗎！
※翻譯軟體污了，什麼污言穢語，蒼老師都能翻譯准！
※微軟翻譯APP，群聊也能實時翻譯啦！
※「深度」AI 入侵翻譯，神經機器翻譯進化讓巴別塔7年內成真
※語翼專業翻譯五招教您做好俄語翻譯
※谷歌翻譯什麼都好，就是翻譯不好
※神器！完全不會英語，出國完全不怕！這個可以放入口袋的隨身翻譯官，讓你和老外對話完全不再是障礙！
※范冰冰國外撈金翻譯全程陪同，自己好尷尬也不敢吃，翻譯要忙死了