當前位置:
首頁 > 新聞 > 智能語音技術如何拯救翻譯機:翻譯機的技術抉擇和優勝略汰

智能語音技術如何拯救翻譯機:翻譯機的技術抉擇和優勝略汰

雷鋒網按:智能語音技術經年之後的不斷完善,尤其是隨著語音識別準確率的不斷提高,基於智能語音技術的智能硬體紛至沓來,除了智能音箱一再受眾人追捧外,智能翻譯機也悄然逆襲,併入這條快車道。

不同於智能音箱因沒有明確的應用場景備受詬病,智能翻譯機倒是有諸如商務會議、出國旅行等針對性較強的應用場景,由此帶來的則是對深度學習演算法更高的要求。


機器翻譯系統:RNN、CNN、transformer

智能翻譯機的技術基礎說到底還是智能語音技術,這一點與智能音箱極為相似,其中,神經網路翻譯系統尤為關鍵,各大廠商紛紛針對這一系統進行自研,諸如谷歌的GNMT、科大訊飛的INMT、搜狗的SNMT等。

用於機器翻譯的神經網路系統最為經典的基礎技術可以歸為兩類——RNN(循環神經網路)和CNN(卷積神經網路)。主要區別在於兩類系統的執行順序不同,採用RNN神經網路的機器翻譯系統是順序執行任務,在進行翻譯工作時,要對整個句子從左到右或從右到左依次執行,精準度較高,但無法充分應用系統硬體GPU的並行運算能力;採用CNN神經網路的機器翻譯系統則是並行執行任務,計算效率更高。

CNN卷積傳輸示意圖

雖然採用CNN的系統的計算效率更高,但是在做機器翻譯時採用CNN的神經網路系統一直不如採用RNN的神經網路系統,尤其是在翻譯精準度上差強人意。因而,長久以來,諸多做翻譯機的公司雖然對RNN和CNN都在跟進研究,但是各家產品中使用的翻譯系統仍是基於RNN架構的較多。

在技術角逐的同時,也不乏有科技公司的產品跟進。例如搜狗於2017年7月上線了基於transformer的機器翻譯系統模型,在解決了transformer機器翻譯系統模型原生系統解碼器解碼速度慢的問題後,將速度提升了8倍,並可以運用到離線翻譯功能。

另外,技術之間各有優勢也是必然的,尤其是在還沒有一個成熟的技術時,做產品和技術研發適度整合多種技術也是必由之路。例如搜狗在跟進transformer機器翻譯模型的同時,仍然在用CNN做語音識別上的訓練,搜狗語音交互技術中心研發總監陳偉在參加對外活動時曾提到:在做語音識別時,搜狗用50層CNN結構得到語音識別模型,基於此模型,訓練離線語音識別模型。


產品形態:手機、耳機和翻譯機

翻譯機的產品形態主要有三大類;翻譯機、翻譯手機和翻譯耳機。

現在主流市場還是將翻譯機做成智能硬體單品,例如科大訊飛的曉譯、有道翻譯蛋等,但是市面上較為高端的翻譯機價格都在千元左右,科大訊飛的曉譯2.0價格標定為2999元,這其實已接近市場上中高端手機的價格,因而,還是吸引了以智能翻譯機為主導功能的智能手機的入局。2018年6月,國內糖果手機推出糖果S20,支持語音翻譯、拍照翻譯、104種語言、離線翻譯,提供24小時在線人工翻譯服務,將翻譯機功能再度整合到手機中。

耳機類翻譯機最初在國外較為流行,如谷歌的Pixel Buds翻譯耳機、Waverley Lab的Pilot翻譯耳機,通過藍牙與手機中的翻譯APP相連,硬體思路類似藍牙耳機,這類產品更多地考慮到手機翻譯機帶來的便捷、禮儀、衛生的問題,解決了場景應用中的一些尷尬局面。

具體各類翻譯機產品,雷鋒網整理如下表:

智能翻譯機產品五花八門,也很難說今後是否還會出現其他應用形態。不過就應用來看,由於要實現語音識別、語音合成、機器翻譯等對系統功耗和性能要求較高的功能,同時還要考慮語種、口音、噪音干擾等複雜的應用場景,現在的智能翻譯機還沒有發展到能夠作為一項功能整合到手機或其他成熟的硬體形式中。正如科大訊飛創始人胡郁談及訊飛翻譯機與谷歌Pixel(手機)相機圖片翻譯的不同時的解釋:谷歌更多從技術落地來考慮,這需要更強的處理器支持,並且也會增加手機的耗電量。


翻譯機的精準度

精準度是翻譯機的靈魂,也是對一個翻譯機的好壞最根本的考量。此前,就各大廠商自報成績單時,科大訊飛的曉譯2.0發布時,官方給出的準確率是98%,搜狗官方公布最新的語音識別準確率是97%。

各大廠商官方公布的準確率確實很高,不過在實際應用中還需要考慮諸如口音、口語及環境雜訊的問題。剛好小編手上有曉譯2.0可供做翻譯測試,兩組測試結果如下:

英文原文:So really,both Linux and Git kind of arose almost as an unintended consequence of your desire not to have to work with many people.

識別/翻譯結果:So really,bothlimitsandgetkind ofrosealmost as an unintended consequence of your desire not to have to work with many people.(因此,實際上兩者的限制和得到種玫瑰幾乎作為一個意外的後果,你的願望不需要與太多的人一起工作。)

中文原文:gitHub是一個面向開源及私有軟體項目的託管平台,因為只支持git 作為唯一的版本庫格式進行託管,故名gitHub。

識別/翻譯結果:給她是一個面向開源及自由軟體項目的託管平台,因為只是給他作為唯一的版本庫格式進行託管,故名給他。(She is a hosting platform for open source and free software projects,because only for him as the only version of the library format for hosting,so named him.)

從結果來看,識別率還是很好的,只是在一些專業辭彙上還無法準確識別;而翻譯結果準確率夠高,口語化略顯不足。由此看來,官方給出的語音識別準確率不能完全用來衡量翻譯機產品的翻譯能力。


誰在攪局者

正是近年來出國旅行備受推崇,外加智能語音技術得到一定突破,使得翻譯機的研發被提上日程。但是處於風口的翻譯機在備受追捧的同時,自然也少不了攪局者。

從產品形態來看,有耳機,也有手機,有基於手機APP的應用,也有智能硬體單品。其中以智能硬體單品居多,其他產品形態更多則是一種嘗試,如無意外,整個產業現在的重心還是要回到智能硬體單品這一形式潛心做功能升級和技術研發。

從翻譯機的價格來看,跨度在百元到幾千元之間,一些沒有成型技術的團隊加入智能語音系統的翻譯機的價格甚至尚不及一支功能簡單的錄音筆,可想其產品架構中軟硬體系統的性能會是怎樣的情形,同時也使得其很難再擁有足夠的資本繼續做技術研發和產品迭代。


雷鋒網小結

大家看到智能翻譯機的時候經常會認為專業翻譯人員很快會面臨失業問題,其實如此說來為時尚早。現在的翻譯機自身還存在諸多問題有待解決,雖然解決出國旅行時的點餐、問路已不是問題,但是面對諸如商務會晤、技術論壇等更為專業的應用場景,或是娛樂場所、賽事解說等更為複雜的周圍環境及人文環境,智能翻譯機的實際應用還是略顯吃力。

不過就技術角度來講,雖然諸多技術和產品紛紛湧入,而其實,這也才剛剛開始。

產品是技術最好的檢驗。語音技術正在經歷著這樣的檢驗,經過了智能音響的檢驗,這一輪是智能翻譯機的檢驗。

智能翻譯機居當下風口,技術雛形雖然已有,但是機器翻譯系統的翻譯速度和翻譯準確度還需要在整個AI大環境下繼續打磨,在翻譯匹配度、翻譯口語化能力、環境辨別能力,甚至具體產品形態上還需要繼續經受市場用戶的各類反饋和研發團隊的不斷改進。

至於當下市場中魚龍混雜的入局者,市場自然會進行優勝劣汰,剩下的終將會是最適合你的產品。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

綠盟馬良:智能設備漏洞挖掘中的幾個突破點
Mobileye 中國區總監 Boaz Sacks:Mobileye 如何做 ADAS、眾包地圖與 Shield+

TAG:雷鋒網 |