當前位置:
首頁 > 科技 > 網易有道首席科學家段亦濤:神經網路翻譯之始末

網易有道首席科學家段亦濤:神經網路翻譯之始末

Xtecher【錯別字基金】溫馨提示:如果您在閱讀過程中發現錯別字,請在文章底部留下說明+聯繫方式,我們會立刻發給您5-88元隨機紅包一個。

網易有道首席科學家段亦濤:神經網路翻譯之始末



機器翻譯之難,與有道的突圍。


作者|又田

編輯|甲小姐


微信公眾號ID|Xtecher


《舊約聖經》中有記載:


在天下人的口音、言語都是一樣時,他們要建造一座城和一座通天塔,以此傳揚盛名,免於分散。


耶和華說:「看吶,他們成為一樣的人民,都是一樣的言語,如今既做起這事來,以後他們所要做的事就沒有不成就的了。我們下去,在那裡變亂他們的口音,使他們的言語彼此不通。」


於是,眾人的塔半途而廢,人類也各奔東西。


《聖經》以巴別塔之寓,解釋了不同的種族和語言因何存在,如今,人們用這座未能建成的通天高塔,象徵語言不通帶來的混亂隔閡。


探險、貿易、戰爭,讓人類之間彼此發現、了解、融合,而互不相通的語言卻成為溝通的絆腳石。


出於理想,1887 年猶太人柴門霍夫以印歐語係為基礎創建世界語(Esperanto),試圖以此消弭國際交往中的語言障礙。但時至今日,使用世界語的人數,仍不足世界人口的 0.03%。


沒有使用環境、沒有文化和歷史基礎的世界語,推進速度與願望相去甚遠。於是,有人轉而認為英語才是世界語。

人人學習英語?過去20年的實踐,似乎並沒收到理想的效果。


一個更快的解決方案也許是:人類或許可以求助於機器,讓交流暢通無阻。


機器翻譯之難


自然語言,是人類智慧的結晶。語言之後,才有了精準的信息記憶、嚴密的邏輯思維、豐富的情感表達、社會協作等璀璨的人類文明。


翻譯,是語言中最經典的問題,其既包括語言的理解,也包括語言的生成。


然而,自然語言理解,是人工智慧所面對的最困難的問題之一。


為什麼難?


第一,建模難。自然語言是人類經過數千年進化而來的。當一個嬰孩有一天突然蹦出了一句「爸爸媽媽」,你並不知道這個過程是如何發生的,怎麼建模?


第二,演算法的片面性。並非所有事物都可以數字化,人類的溝通絕不僅僅是依賴於目前演算法所能處理的信息。人們能夠「理解」彼此,除了詞句本身,也飽含了對物理世界的知識積累和人生閱歷——當兩個人的生活環境全然不同時,你或許可以聽懂對方說的每一個字,但發生真正的理解和深層次的溝通很難,更何況人與機器之間的「理解」。


「語言是所有智能文明的必然產物,」可縱觀自然語言理解與翻譯史,段亦濤告訴了Xtecher,「充滿著波折與質疑。」

在最早期,人們寄希望於研究語言規則,用規則來翻譯,卻發現語言有非常強的多樣性,而系統必須編碼所有可能的變化,導致無窮無盡的規則出現;第二個階段,人們寄希望於統計數據,所有規則讓機器自動學習過來;而如今的第三代研究方式,即以深度學習技術為基礎的神經網路翻譯,同樣是基於統計數據,但是採用更強大的模型,使得機器能夠更準確地學習到語言中的規律,翻譯質量獲得非常顯著的提升,在某些領域已經接近人類翻譯的水平。


深度學習在機器翻譯領域獲得了巨大成功,以至於有人認為徹底解決機器翻譯問題的曙光就在眼前了。


事實上,機器翻譯經歷了漫長蹉跎的進階史。


時間倒退至二十世紀三十年代初,法國科學家G.B.阿爾楚尼最先提出了用機器來進行翻譯的想法。


1946年,世界上第一台現代電子計算機ENIAC誕生。隨後不久,資訊理論的先驅、美國科學家Warren Weaver於1947年提出了利用計算機進行語言自動翻譯的想法。1949年,Warren Weaver發表《翻譯備忘錄》,正式提出機器翻譯的思想。

網易有道首席科學家段亦濤:神經網路翻譯之始末



隨後十年,機器翻譯研究熱度不斷上升。美國、前蘇聯及一些歐洲國家,均對機器翻譯研究給予了相當大的重視,機器翻譯一時出現熱潮。


然而,正當一切有序推進之時,尚在萌芽中的「機器翻譯」研究卻遭受了當頭一棒。


1964年,美國科學院成立了語言自動處理諮詢委員會(Automatic Language ProcessingAdvisory Committee)。委員會經過2年的研究,於1966年公布了一份名為《語言與機器》的報告。該報告全面否定了機器翻譯的可行性,並宣稱「在近期或可以預見的未來,開發出實用的機器翻譯系統是沒有指望的」。受此報告影響,各類機器翻譯項目銳減,機器翻譯的研究出現了空前的蕭條。

直到二十世紀七十年代中後期,隨著計算機技術和語言學的發展以及社會信息服務的需求,機器翻譯才開始逐漸復甦。由此,業界研發出了多種翻譯系統,例如 Weinder、EURPOTRAA、TAUM-METEO等。不過,當時業界採用的辦法頗為笨拙:將語句中逐個詞語替換成詞典中的解釋。這種翻譯效果顯然無法滿足人們的需求,也進一步向人們宣告著:機器翻譯絕非易事。


再後來,隨著1993年IBM的Brown和Della Pietra等人提出了基於詞對齊的翻譯模型,統計翻譯模型(SMT)方法正式誕生。


統計翻譯模型(SMT)不依賴於人制定的規則,而是通過對大量的平行語料(由原文文本及其平行對應的譯語文本構成的雙語語料庫)進行統計分析,構建統計翻譯模型。相比從前基於規則的模型,統計翻譯模型極大提升了翻譯質量,因此過去幾年間,主流翻譯引擎都以基於短語的統計翻譯為核心。


「統計翻譯模型經歷了很長一段發展時期,但除了帶來初期翻譯質量的明顯提高,後期基本漲勢成平。直到近幾年,基於神經網路的翻譯模型(NMT)才開始崛起。」段亦濤告訴Xtecher。


近幾年,神經網路翻譯為機器翻譯領域打開了一扇新的窗口。


神經網路的誕生,源自人類一個樸素而原始的初衷——想讓機器去模擬人腦神經系統。神經網路的一個重要特性是「從環境中學習」,基於神經網路的翻譯模型,通過對人腦的基本單元——神經元的建模和聯接,探索模擬人腦神經系統功能的模型,期望研製一種具有學習、聯想、記憶和模式識別等智能信息處理功能的翻譯系統。


神經網路受到了掌握多門語言的人類在翻譯過程中大腦中發生的模式識別過程的啟發,可以實現更自然的語音翻譯。


「這一過程類似於人在翻譯:先理解句意,再生成翻譯。

網易有道首席科學家段亦濤:神經網路翻譯之始末


NMT翻譯原理


對比神經網路翻譯模型與上一代統計翻譯模型,段亦濤告訴Xtecher,前者有三點優勢:


首先,統計翻譯模型就像一個由多個組件構成的機器,每個組件完成各自的目標,各個組件的輸出人為地拼裝起來,完成翻譯流程。而神經網路機器翻譯模型是一個端到端的模型,其更像一個有機整體,裡面的所有參數都向著一個共同的目標統籌優化,它們之間的配合更加協調。


其次,統計翻譯模型用離散的one hot encoding的方式來表達一個詞。這種方式的本質是用一個編號來識別每一個對象,它不能夠表達詞與詞之間的關係,因為任意兩個one hot向量的差異都是一樣的;而神經網路翻譯模型是用一個在實數域中的向量來表達一個詞,向量的每一個元素都可以是任意的實數。向量之間的距離、方向等可以表達詞之間的關係,整體表達的信息更為豐富。例如,在神經網路翻譯模型中,一個單詞已經不再僅僅是一個編號,而是一個包含500個維度的向量,其本質是500組數字,而每一個數字都反映了這個單詞的某一個方面。


最後,統計翻譯模型的拼湊感較為明顯;神經網路模型翻譯出的內容更加流暢,能夠更好地利用上下文處理一詞多義的現象。


簡言之,相比統計翻譯模型可能會導致翻譯出來的語句笨拙而迂迴,神經網路模型能夠提供更流暢、聽起來更有「人味」的翻譯。


「神經網路翻譯模型在模型結構上模擬了人腦,其中參數的優化過程也類似人的學習過程。」


有道的突圍


面對神經網路翻譯的優勢,谷歌、微軟、百度、科大訊飛等都加快將神經網路應用於機器翻譯領域的腳步,谷歌更表示會將神經網路機器翻譯技術推廣到GoogleTranslate現在支持的全部103個語種中。


畢業於北航飛機設計專業碩士的段亦濤,在伯克利讀博期間由於校內沒有合適的研究項目,從而轉向計算機系,他的論文方向是分布式計算中的隱私和加密技術。

事實上,他留美期間,已在有道兼職負責搜索相關的機器學習領域,隨後回國,便全身心地投身到了機器翻譯的浪潮之中。


段亦濤所面對的競爭對手是谷歌這樣大刀闊斧行進的巨頭。不過,他對有道不久前推出的神經網路翻譯仍頗有信心。在他看來,有道的優勢有兩個方面:


優勢之一顯然是數據積累。有道作為國內第一批提供機器翻譯服務的互聯網公司,從2008年正式推出到現在已近十年。十年間,有道一直聚焦於中文與其他外語之間的翻譯,通過不斷提升機器翻譯的質量,吸引了大量用戶,積累了海量的語料和數據,這些數據對神經網路翻譯模型的持續優化十分有用。


「目前主流的神經網路翻譯模型大體框架都是一致的,但其中細節和內部機制的作用方式有所差異,這也是造成翻譯結果更為人性化的關鍵。而這些細節和不同機制需要大量的實驗及嘗試才能確定,這就需要大量數據支撐。」


優勢之二,是有道比谷歌在翻譯目標上更加專註。谷歌提供全球服務,支持多種語言的翻譯。而有道的目標是服務中國用戶,翻譯聚焦於中文和其他語言之間,更加理解國人的語言習慣。


從翻譯界通用的BLEU值評價指標來看,有道神經網路翻譯在新聞文章、英語學習及口語等場景下的中英翻譯,做得比國際同類產品更加出色。


在英語學習場景下的翻譯數據盲測結果顯示,此次在有道上線的NMT,其英譯中和中譯英的BLEU值均領先了同行7個多百分點。


在新聞文章翻譯場景下,有道上線的NMT同樣表現不俗,英譯中的BLEU值超同行6個百分點,中譯英也超其8個百分點。


「儘管機器翻譯在近兩年進展較快,但其仍有很長的路需要走。」儘管有道處於業內領先位置,段亦濤仍保持著對機器翻譯的敬畏之心。


談及有道神經網路翻譯模型之後的發展方向,段亦濤告訴Xtecher了三點:

首先,需要持續提高神經網路的翻譯質量。


目前的翻譯只是機器捕捉數據規律,然後對句子進行直譯。若數據中存在表達情緒的詞語,機器學習可以使翻譯出的句子帶有與情緒相關詞語,但實際中的語言習慣,通常情緒只表達在聲調、語調上,此時,翻譯出的句子很難表達出原意。


「未來有道也會結合翻譯的諸多場景、情景,使得翻譯更為人性化,滿足不同的翻譯需求。」


此外,機器翻譯也要與人工智慧的不同分支相結合。


目前有道神經網路翻譯已加入圖像翻譯及語音翻譯,圖像翻譯即根據拍攝圖片即時識別出其中文字並翻譯出來。

網易有道首席科學家段亦濤:神經網路翻譯之始末



「有道致力於將技術與AI結合,嘗試諸如在語音數據基礎上直接進行翻譯,而非先將語音內部轉化成文字,再用文字進行機器翻譯。在此基礎上提煉出來的將不僅僅是文字,可能會將語句中的情感等額外信息翻譯出來。」


最後,目前上線的神經網路模型致力於實現中英互譯,之後也會拓展到其他語種,如中俄、中法互譯等。


段亦濤告訴Xtecher,中英兩種語言是常見需求,因此相關數據量巨大。而其他語種由於使用人數遠少中英互譯,得到的數據量較少,機器翻譯效果相比中英互譯效果較差。

「要想把機器翻譯做好,需要更好地理解人對翻譯的需求,並將這些需求與翻譯結果、翻譯機制進行對比,找出其中欠缺之處,針對性地進行優化。」


不會完全取代人類翻譯


現在的很多人已經不記得世界上曾經存在過一個「打字員」的職業了。


在90年代末到21世紀初的短暫時光里,伴隨計算機的飛速發展出現大批打字人員。但今天,曾經無上光榮的這一職業早已被拋棄。


計算機技術的發展與普及消滅了這個最先接觸計算機的職業,這真是個諷刺。


而同樣的問題也出現在機器翻譯領域,機器翻譯最終會取代人工嗎?翻譯行業是否將走到盡頭?


「事實上,機器翻譯會對翻譯行業帶來巨大的衝擊,但不會完全取代。」


段亦濤認為,人類對語言的學習不只是出於翻譯目的,更多是去學習一門語言中的文化、情感等。而機器,顯然不能理解語言中這些附屬品,「或者說你也不希望機器來替代你。」


除此之外,機器翻譯說到底仍是機器學習,其依賴於從大量的數據中學習對應關係——而供機器學習的數據,仍依賴於人所提供。


最後,由於專業翻譯要求極高的準確性,在很多場合,機器無法承擔出現錯誤而導致的嚴重後果,因此,對於專業領域的翻譯工作,機器還不能勝任。

神經網路翻譯內在還存在諸多問題。例如,由於神經網路翻譯模式是一種端到端的從數據中統一學習的模式,詞語在語意方面的信息和語法方面的信息可能會混雜一起。這一方面是有益的,因為理解原文需要同時依賴兩者。但不同的場景下兩者的貢獻是不同的,人在閱讀過程中可以利用明晰的語法規則進行調整。機器翻譯目前還做不到,這在有些情況下帶來一些干擾。例如,機器在翻譯一個與名人同姓的普通人時候(例如Gates),就有可能翻譯成名人(Bill Gates),因為後者在數據中更常見,模型就把這個姓和具體的名人進行了強關聯。


段亦濤認為,目前來看,機器翻譯帶來的較為現實的變化,是可以大幅地降低人翻譯的成本。「有道的人工翻譯業務會先用機器翻譯粗糙處理,然後再由人進行後續處理。」


根據有道內部數據顯示,如今,通過使用神經網路模型,可以降低約一半的翻譯人力成本。


《銀河系漫遊指南》中有一個構想:只要把一條巴別魚塞進耳朵,就能立刻理解任何形式的語言。


語言,是人類智能最璀璨的所在。完備的語言體系,是人類世世代代進化的結晶,是全人類刻畫世界、思考和交流的寶貴工具。無論技術挑戰多麼艱難,科技工作者們顯然不忍心放棄這塊寶地。雖然,目前的神經網路翻譯給出了一個歷史最優解,但這卻遠遠不是能夠滿足人類需求的終極解法。此時此刻,包括有道在內的全球科技公司,都走在這條誘人而幽深的道路中。

網易有道首席科學家段亦濤:神經網路翻譯之始末



我是Xtecher特稿記者又田,如果您有國內外科技行業新鮮資訊或獨到見解,歡迎與我聯繫。


(添加好友請註明公司、職位、事由)


━━━━━


封面設計:王思寧 排版:陳光 校對:楊靜


━━━━━


Xtecher官網平台現開通認證作者,


(添加好友請註明公司、職位、事由)


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Xtecher 的精彩文章:

百度要用AR「復活」兵馬俑;亞馬遜將在法國建立無人機研發中心
30+位學界大咖,12大高精科技首次曝光,5大前沿技術頭腦風暴會,只等你來!
谷歌人工智慧「大腦」TPU亮相;深鑒科技完成數千萬美元A輪融資
「我們重新定義了什麼叫在線」

TAG:Xtecher |

您可能感興趣

神經網路的傳播
世界都是神經網路的
清華大學孫茂松組:圖神經網路必讀論文列表
貝葉斯神經網路(系列):第二篇
貝葉斯神經網路(系列)第一篇
神經網路的十字路口
周末AI課堂:神經網路的正則化 理論篇
淺層神經網路
卷積神經網路概述
周末AI課堂:神經網路的正則化 代碼篇
新型晶元:成功演示光學神經網路!
卷積神經網路
人工智慧基礎:卷積神經網路代碼介紹
「膠囊網路」是下一代深度學習人工智慧神經網路的接班人
深度學習與神經網路概述
人工神經網路
清華園裡的AI公開課!第三講之神經網路
卷積神經網路簡介
AI的口述歷史:深度學習三巨頭講述神經網路復興史
機器學習—神經網路