當前位置:
首頁 > 最新 > 唐偉:機器翻譯的法律問題思考

唐偉:機器翻譯的法律問題思考

文 / 唐偉

騰訊公司法務平台部高級法律顧問

機器翻譯(MachineTranslation,MT)是語言學、計算機科學及自動化技術相結合的學科,是指藉助計算機把一種語言翻譯成另一種語言的工程,其核心是雙語言知識的計算機處理。從人工智慧的角度來看,機器翻譯就是模擬人對語言的接受、理解、分析,然後用另一種語言重新表達。2017年,政府發布的《國家語言文字事業「十三五」發展規劃》提出支持不同語種間的機器翻譯研究和技術產品研發。計算機科學、語言學(如語料庫等)、人工智慧的發展也為機器翻譯提供了有力支持。除了政策鼓勵,機器翻譯也面臨著語料庫權屬和使用、語音合成中的聲音商品化、知識產權保護等方面的法律問題。

一、機器翻譯概述

(一)機器翻譯的發展歷程

機器翻譯技術的發展大致經歷了萌芽、沉寂、復甦和發展四個階段。

1946年,美國計算語言學家韋弗和英國工程師布斯提出了利用計算機進行自動翻譯的想法。1954年,IBM利用計算機進行了世界上第一次機器翻譯表演。1966年美國語言自動處理諮詢委員會公布的《語言與機器》報告否定了機器翻譯的可行性,導致機器翻譯的研究一度沉寂。

直到20世紀70年代中期,隨著計算機軟硬體的發展,機器翻譯研究開始復甦。業界研發出了Weinder、EURPOTRAA等翻譯系統。1993年IBM公司研發的基於詞對齊的翻譯模型標誌著統計機器翻譯方法的誕生。2003年愛丁堡大學的Koehn提出短語翻譯模型並得到廣泛運用。

隨著人工智慧的發展,人工智慧與機器翻譯相結合的研究也已經開展。去年,Google公司公布了一項僅使用注意力(Attention)機制構建模型應用在機器翻譯的研究,引起了廣泛討論。

(二)機器翻譯的實現原理

機器翻譯的工作原理是先從語言學出發建立詞典和語法規則,然後運用計算機技術將該規則代碼化和程序化,核心是讓計算機模擬人的翻譯過程。

目前,機器翻譯系統主要分為基於規則(以詞典、語法規則為基礎)和基於語料庫(以標註的語料為應用基礎通過統計規律機型翻譯,基於語料庫的機器翻譯又可以分為基於統計的和基於實例的機器翻譯)兩大類。

基於規則的機器翻譯優點在於對知識表達的抽象程度高、對文法結構具有很強的保持能力;缺點是語法和規則由人編寫,規則的一致性難以保障,而且對非規範的語言現象缺乏處理能力。

基於語料庫的機器翻譯優點體現在具有較強的知識自動獲取能力,大規模語料訓練提高系統性能,善於處理模糊的語言現象;缺點在於需要大規模雙語平行語料庫進行訓練學習,語料的選擇和處理工作量巨大。

在機器翻譯的實際應用中,基本採用了基於規則和基於語料庫相結合的方法。機器翻譯系統的工作流程應該包括如下內容:

(1)原文輸入;

(2)詞法分析加工;

(3)句法分析加工;

(4)語義分析加工;

(5)百科知識加工;

(6)目標轉換生成;

(7)譯文輸出。

在語音實時翻譯的領域,在語音輸入後會進行語音識別;相應地,在譯文輸出前會進行語音合成。機器翻譯作為自然語言處理的一項應用技術,涉及人工智慧、數學、語言學、計算語言學、語音識別和語音合同等多種學科和技術。

二、機器翻譯發展的法律問題及應對

(一)語料庫數據的歸屬和使用

基於語料庫的機器翻譯在翻譯過程中引入語料庫統計或實例,通過語料加工手段使語料庫轉化為語言知識庫。近年來,基於語料庫的機器翻譯系統發展很快,取得了突出的成績。

基於語料庫的機器翻譯需要大規模雙語平行語料庫進行訓練學習,對語料庫的質量要求較高,並且翻譯模型和語言參數的精確性直接依賴於語料的多少,翻譯質量的高低主要取決於概率模型的好壞和語料庫的質量及其覆蓋能力。機器翻譯的翻譯性能可通過大規模語料訓練進行改善,並且可以融合更多的句法結構和語義語法信息。

另外,翻譯記憶(Translation Memories)能夠保存和重複使用已經翻譯好的譯文,保證了翻譯的一致性和譯文的質量,避免重複勞動降低了翻譯的成本。所以,在基於語料庫的機器翻譯中,語料庫的建設具有非常重要的地位,語料庫的歸屬和使用也成為制約機器翻譯發展的因素。

語料庫的建設需要付出巨大的勞動和努力,尤其是高質量的語料在初期需要經過人工選擇過濾。從目前來看,國內語料庫建設主要還是依託高等院校和科研機構,也有專門的語料數據公司,還有機構通過建立眾譯開放平台進行語料收集及加工,目的也是為了通過多種方式建設和豐富語料庫。

語料庫的本質是數據,已經公布的《民法總則》確認了數據在法律中的財產地位,作為一種財產,語料庫建設的過程需要注意語料庫歸屬和使用的合法性。合法的語料庫建設方式包括自行建設、合作共建、協商轉讓或者協商授權,通過合法方式建設的語料庫能夠最大程度避免機器翻譯研發過程中的語料庫權利瑕疵。從網上抓取,本質上屬於未經許可使用他人享有合法權益的內容,將會面臨法律風險。

(二)語音合成中的聲音商品化權益

語音合成是通過機械的、電子的方法將文本轉換成語音的技術,涉及機器對自然語言的理解、韻律處理、聲音合成等環節。在機器翻譯的語音產品中,翻譯結果會通過語音合成技術輸出。為實現語音合成的結果,需要提取特定人的聲音的韻律,對合成語音的韻律進行控制;提取特定人的聲音的聲紋,並以聲紋為基礎、結合韻律進行合成。

在語音合成技術中,出現了提取特定人的聲紋用於語音合成是否需要獲得同意的問題。尤其對於公眾人物來說,聲音具有明顯的識別度,容易被他人利用。在國外,一些國家或地區對聲音採取明確的法律保護,如美國加州和內華達州、法國、加拿大魁北克省、我國澳門地區等。對於這種所謂的「聲音權」,我國法律並無明文規定,有學者認為可以通過一般人格權、設立聲音權、形象權或者商品化權等方式進行保護,該問題目前僅在理論探討階段,司法實踐中也還未出現相關案例。

雖然在通過何種方式進行保護的問題上存在爭議,但是學者們都一致認為有必要對聲音進行法律保護。在產品中,如果需要使用名人的聲音,應當通過合同獲得授權;如果是合成語音的,應當為了避免因語音合成與名人聲音相似。

(三)建立專利保護及技術標準

隨著產業發展,語言信息處理的機器翻譯技術國際化的總體需求形成。對技術成果申請專利進行保護,進而建立起相應的技術標準是國際上普遍的做法。

在人工智慧領域,歐盟已經提出在各成員國內部建立統一的技術標準用以指導人工智慧的發展和應用,避免歐盟市場內部的分裂和重複建設。美國也出台了《為未來人工智慧做好準備》和《國家人工智慧研究與發展戰略規劃》報告中,提出統一技術、數據使用、安全等標準建設,避免造成各個參與者封閉建設的問題,影響人工智慧研發和應用。

Google、Facebook、IBM、微軟和亞馬遜已經在嘗試聯合制定關於人工智慧的一系列標準。在機器翻譯技術上處於領先地位的公司已經將技術轉化為專利,目前基於統計的機器翻譯有多達數百項的專利技術,神經網路機器翻譯要達到相同的質量,同樣需要相當多的研究成果,比如Google申請了關於神經機器關鍵字處理翻譯系統的專利。

統一技術標準、數據使用標準、安全保障標準等標準化建設將會是未來機器翻譯發展的方向。因此,將技術專利化的同時注意避免專利侵權,參與技術標準討論,是未來的道路。

(四)個人信息保護

按照《個人信息安全規範》的規定,以電子或者其他方式記錄的能夠單獨或者與其他信息結合識別特定自然人身份或者反映特定自然人活動情況的各種信息。在機器翻譯的信息收集、存儲、使用過程中需要建立相應的保護措施,不得違反涉及隱私和數據保護的基本原則。

我國《網路安全法》《民法總則》等法律法規對加強用戶個人信息保護的問題進行了專門規定,網路服務提供者在提供服務的過程中收集、使用用戶個人信息,應當遵循合法、正當、必要的原則,不得收集與提供服務所必需以外的用戶個人信息或者將信息用於提供服務之外的目的,不得以欺騙、誤導或者強迫等方式收集、使用用戶個人信息。

在行業實踐中,已經有一些翻譯公司因個人信息的問題受到輿論關注。去年,挪威新聞機構NRK報道了挪威國家石油公司(Statoil)因使用在線翻譯工具(translate.com)而導致的數據泄露事件。Translate.com網站在提供翻譯服務時,會將文件編入搜索引擎的索引,可供任何人公開查找。

從保護用戶個人信息的角度,在提供機器翻譯服務的過程中應當避免收集用戶的個人信息,因為服務內容本身不具備收集用戶個人信息的必要性。需要獲得用戶的翻譯結果豐富語料庫的,經加工處理後無法識別到用戶的,在經過用戶同意後可以獲取。

另外,也有人提出,隨著設備硬體能力的提升,可以考慮將機器翻譯系統中具體負責翻譯過程的模塊從伺服器放置於客戶端,翻譯的運算過程將在客戶端進行,避免上傳至伺服器,可以降低個人信息泄露的風險。

三、總結

在全球化發展的快速進程中,機器翻譯技術正在逐步改變人們的工作和生活方式。機器翻譯能隨時隨地幫助我們解決語言障礙,讓語言不通的人們自由交流。關於機器翻譯發展需要面對的法律問題也開始顯露出來,現行的法律制度能否提供滿足機器翻譯發展所需要的框架,值得繼續關注。

主編:麻策

責任編輯:Asepirin

封面圖片來源:pixabay.com


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 網路法實務圈 的精彩文章:

代碼即法律:「解毒」區塊鏈智能合約
圍攻中生存:平台的宿命?

TAG:網路法實務圈 |