南書房行走被譯成「South study walking」,機器翻譯靠譜嗎?
不久前,美國當代著名認知科學家侯道仁教授應邀到訪浙江大學哲學系和語言與認知研究中心,並在「西溪哲學對話」論壇上發表演講。他以王維著名詩篇《鹿柴》和楊絳《我們仨》的片段為例,通過比較谷歌翻譯與他自己翻譯的差別,表達對機器翻譯以及一般人類翻譯的看法。
原文:《高質量的機器翻譯近在咫尺?》
作者:浙江大學 李恆威/教授 王昊晟/博士
學者檔案
侯道仁(Douglas Richard Hofstadter):中文名又稱侯世達,美國人文與科學學院院士,印第安納大學認知科學和比較文學的特聘教授,印第安納大學概念和認知研究中心主任。其主要研究領域包括認知科學、心智哲學、意識、自我感、計算機類比、文學翻譯、數學和物理學。主要著作有《哥德爾、艾舍爾、巴赫:集異璧之大成》(該書獲得美國國家圖書獎及美國出版界最高獎項——普利策獎(非小說類)、I Am a Strange Loop(該書獲得洛杉磯時代圖書科技獎)等。
機器翻譯簡史
1947年,資訊理論的先驅沃倫·韋弗(Warren Weaver)在寫給控制論的奠基者之一諾伯特·維納(Norbert Wiener)的信中提出了利用計算機進行語言自動翻譯的設想,「當我閱讀用俄羅斯語寫的文章時,我會對自己說,『這篇文章實際上是用英語寫的,只不過被編碼成了一些奇怪的符號。現在,我要把這些符號解碼回來。』」
沃倫·韋弗(圖片來源於網路)
1949年,沃倫·韋弗發表《翻譯備忘錄》一文,正式提出機器翻譯(Machine Translation)的概念,即利用計算機將一種自然語言轉變為另一種自然語言的過程。1954年,基於沃倫·韋弗「翻譯即解碼」的機器翻譯思想,美國喬治敦大學進行了著名的「喬治敦實驗」——利用IBM-701型計算機首次完成了英俄文本的自動翻譯。這一實驗的成功標誌著機器翻譯正式登上歷史舞台。
隨後的數十年間,機器翻譯幾經浮沉。從50年代的熱潮到60年代的低谷,再到70年代的逐漸復甦,機器翻譯與人工智慧幾乎經歷著相同的軌跡。進入21世紀後,隨著硬體能力的提升和演算法的優化,機器翻譯終於迎來了全新的繁榮。2016年,谷歌發布新一代GNMT(Google Neural Machines Translation)系統。根據谷歌官方的數據,與早期的PBMT(Phrase-based Machine Translation)系統相比,該系統在英語、法語、西班牙語、中文等主要語言的互譯上,將誤差率降低了60%以上,並且在規範性文本的語言轉換上已經可以達到人類翻譯水平。
隨著機器翻譯的發展不斷突飛猛進、凱歌高奏,眾多研究者和擁躉開始寄希望於它能夠徹底打破桎梏人類語言交流的「巴別塔」,開啟全球無障礙溝通的時代。但事實是否如此樂觀?美國當代著名認知科學家侯道仁教授對此顯然有不同的觀點。
深山之空與機器之空
先讓我們把時間倒回至一千年以前,遠在機器翻譯,甚至是近代意義上的「機器」出現之前。天寶三載(744年),王維旅居輞川,期間與友人遊覽輞川山水,逐處作詩,編為《輞川集》。《鹿柴》正是其中流傳廣泛的一首:空山不見人,但聞人語響。返景入深林,復照青苔上。
詩歌翻譯向來是一件令人頭疼的事情,譯者需要考慮的不僅僅是詩人寫下的文本,最讓譯者大費周章的是必須悉心揣摩字裡行間所蘊含的節律、押韻、情感、意味,甚至是雙關、諧音等文字遊戲,最後要達到「信、達、雅」的上乘譯效,非苦心孤詣不可得。機器翻譯能否勝任這項連人類譯者都難以完美駕馭的工作?侯道仁教授以谷歌翻譯為例展示了谷歌翻譯的結果(以下機器翻譯均基於谷歌翻譯2018年3月版本):Empty mountains are not seen,but people speak loudly.Returning to the deep forest,On the moss.
依照「信、達、雅」的翻譯標準,谷歌的這段翻譯不僅毫無「雅」之神韻,甚至連基本的「信」也相去甚遠。首聯的「空山不見人」被誤譯為了「空山不得見」,尾聯的「復照青苔上」則直接漏譯了「復照」。短短的四句詩,兩句謬以千里,另外兩句則味同嚼蠟。毫無疑問,谷歌的這份翻譯答卷難稱及格。
作為對比,侯道仁教授給出了他自己花費大量時間精心打磨的譯文(事實上之前已有幾十位譯者發表了對該詩的深思熟慮的英譯):Bleak peak, no one seen,But hear snips of talk.Late light spins through bosk,Shines back on green bark.
在逐句對應《鹿柴》含義的同時,譯文還在形式上嘗試進行最大程度的還原:與中文相同,譯文每句包含五個單詞;每句譯文都包含「k」的押韻;以「snips」和「spins」巧妙地在字形上對應頷聯與頸聯的「人」和「入」。
基於兩篇譯文的對比,侯道仁教授認為,與《鹿柴》之空山一樣,機器翻譯也很「空」,但兩者之「空」的品質實在有霄壤之別:「深山之空」在於人山一體、心物一體的欲辨已忘言的空寂之空,而「機器之空」則完全是一種心物疏離、毫無意會的空乏之空。
「行走」的南書房
正如前文所說,詩詞翻譯即使是對於頂尖的人類譯者而言都是極大的挑戰,以這種嚴苛的標準要求機器似乎對於這一「非人類」的技術太過不公平。於是,侯道仁教授又選取了來自《我們仨》中的一段文字來進一步測試機器翻譯。
《我們仨》是楊絳先生晚年撰寫的回憶錄,該書以平實且溫馨的筆法回憶了與丈夫、女兒幾十載生活的點點滴滴。書中的文字遠比《鹿柴》更加「平易近人」,並且用語也更加符合當下的規範。比如,原文中寫道:客去後,鍾書惶恐地對我說:他以為我要做「南書房行走」了。這件事不是好做的,不求有功,但求無過。谷歌翻譯為: Guest to go, the book of fear in the book said to me:He thought I had to do 「South study walking.」 This is not a good thing to do, not for meritorious service, but for nothing.
谷歌對「南書房行走」的翻譯讓人完全不知所云。「South study walking」雖然逐字翻譯了這個辭彙,但顯然讀者無法從中明白「南書房行走」究竟所謂何意。事實上,如果了解了這個詞的真實含義,就會發現谷歌的翻譯與原文可謂「風馬牛不相及」。「行走」這個詞實際上大體意指「助理」,基於此,侯道仁教授將這個片語翻譯為了「South study special aide」。當然,但他也表示,這只是一種嘗試性的翻譯,因為「special aide」同樣沒有準確表達出「行走」的含義,「入值」、「執勤」的意象並不能在「special aide」中得以體現。
雖然谷歌翻譯在《我們仨》上的表現優於《鹿柴》,但在許多關鍵甚至核心詞句的翻譯上,它仍是不合格的。同樣,整體的譯文也失去了原文中平淡卻雋永的意味。
輸入標題
從《鹿柴》和《我們仨》的翻譯測試中不難看出,機器翻譯仍存在著較為明顯的不足與缺陷。侯道仁教授認為,當前的機器翻譯實際上是深度學習(Deep learning)與大數據(Big data)結合的產物。毋庸置疑,這種技術具有極強的實用性,同時對跨語言交流而言也是絕佳的輔助工具。但他強調,當我們面對「深度學習」和「深度神經網路」時,總會下意識地將「深度」誤解為「深刻」,甚至進而將其等同於「強大」或是「聰明」。這種「伊莉莎效應」使我們錯誤地誇大了機器翻譯的能力,以至於認為這種技術能夠媲美甚至超越人類譯者。事實上,所謂「深度」是指新的神經網路相較於舊的神經網路在輸入與輸出之間有更多的層次(layer),與思想上的「深度」毫無瓜葛。
相較於對機器翻譯「深度」的誤解,更值得我們注意的是機器翻譯先天存在一種根本性的「淺薄」:無論是谷歌翻譯、百度翻譯還是其他翻譯引擎,它們都缺乏對世界的理解(understanding)。「計算機只是使用辭彙,它並不理解辭彙……它只是在機械處理文字。它所處理的符號與我們對這個世界的體驗無關。它沒有記憶可供提取,它能夠快速處理文字,但這些文字對它而言沒有圖像、沒有理解、沒有意義。」此外,侯道仁教授還特別指出,機器翻譯並不會由於「更深度學習」或「更大數據」而改善這種「淺薄」,因為理解力涉及到心(mind)和思想(thought),而當下的機器(尤其本質上以圖靈機為根基的機器)是不可能有心和思想的,因此它永遠不可能基於理解來翻譯,而離開理解的機械操作根本無法實現需要心領神會的翻譯!
那麼,人類的思想從何而來?侯道仁教授在其2013年與伊曼紐爾·桑德(Emmanuel Sander)合著的《表面與本質:作為思維的燃料和火焰的類比》(Surfaces and Essences: Analogy as the Fuel and Fire of Thinking)中試圖作出一定的回答。他提出,類比是人類認知的核心。沒有類比就沒有概念,沒有概念就沒有思想。人們通過類比學習概念,並依靠概念進行思考與交流。在侯道仁教授看來,類比並不是表象上的簡單對應,而是深入事物的核心,在本質層面上達成統一。將這種類比的觀點應用於翻譯領域,高質量的翻譯是一種「跨文化的類比」,而非「跨文字的對應」,譯者只有「背離表面文本之貌,才能契合本質內容之神」。當下的機器翻譯並沒有掌握類比這一關鍵技能,仍停留在單詞或片語的簡單對應階段。因此,全自動高質量(fully-automatic high-quality)的機器翻譯無疑仍是天方夜譚。
當然,對於侯道仁教授而言,機器翻譯現實的瓶頸並不意味著這項技術已臻極限。他認為,機器原則上可以真正學會在不同語言之間進行翻譯,並且他本人對此也樂見其成,甚至願意為之脫帽致敬。但是,「所有這一切只有在機器擁有了類似人類的思想、情緒和體驗的基礎上才能實現,而這絕非近在咫尺的事情。」
文章原載於社會科學報第1605期第5版,轉載請註明出處,文中內容僅代表作者觀點,不代表本報立場。
今日
關注
※海登·懷特:被遺忘的標籤——反諷論者
※「先入為主」不如自我重構,國家形象該用「世界的語言」講述
TAG:社會科學報 |