當前位置:
首頁 > 科技 > 搜狗首創語境引擎:AI同傳最強進化,PPT翻譯正確率猛升40%!

搜狗首創語境引擎:AI同傳最強進化,PPT翻譯正確率猛升40%!

新智元報道

編輯:張佳

【新智元導讀】手握搜索引擎和輸入法兩張王牌,搜狗在AI同傳領域又放出大招——搜狗同傳3.0驚艷亮相。基於搜狗獨創的「語境引擎」,搜狗同傳3.0以「多模態」和「自主學習「為核心,加入視覺和思維能力,讓AI同傳不僅會聽,還首次具備了會看、能理解會推理的能力。搜狗一小步,同傳一大步。戳右邊鏈接上新智元小程序了解更多!

「全球95%的信息是用英文所寫的,100%的國際商貿活動是用英文的,因此如何幫助中國人跟外國人進行更好的交流,這變成了一個重大的技術課題。」

搜狗公司CEO王小川的這席話道出了多少中國人的心聲?

近日,王小川在某科技大會的演講中談到了「語言AI的未來構想」:我們作為做輸入法、搜索以語言為核心的公司,投了很多的力量來做相關的積累。

這裡說的積累包含搜狗的OCR技術、NLP技術、知識圖譜技術等等,而這個積累的成果終於重磅亮相,它就是「搜狗同傳3.0」。搜狗同傳3.0在這場大會上的首秀驚艷四座,快速準確的同步翻譯王小川的演講內容,感受下:

業內首創多模態同傳,PPT翻譯正確率提升40.3%,搜狗同傳3.0如何實現「能聽會看會思考」?

在與搜狗AI交互技術部總經理陳偉和項目負責人趙超溝通後我們得知,在2016年「互聯網大會」上,搜狗同傳1.0首次亮相時語音識別準確率已經達到97%,機器翻譯準確率達到90%。

而3年後的今天,搜狗同傳3.0再次進化,PPT識別準確率提升21.7%,翻譯正確率提升40.3%,靠的就是秘密武器——「語境引擎」。

基於搜狗獨創的「語境引擎」,搜狗同傳3.0以「多模態」和「自主學習「為核心,加入視覺和思維能力,讓機器同傳不僅能聽,還首次具備了會看、會思考、會推理的能力,引領AI同傳進入了多模態認知時代。

能聽:準確識別講述內容

會看:通過OCR、NLP等技術,實時捕捉並分析PPT核心詞

會思考:基於知識圖譜技術,廣泛擴展專業領域辭彙

其中,搜狗同傳3.0業內首創利用視覺技術加持AI同傳,成功破解了大會同傳場景下,專業術語的識別和翻譯這個難題。

搜狗同傳產品總監張晶晶介紹道:「用攝像頭或者數據線插在視頻上實時通過OCR捕捉演講人正在演講的PPT內容,實時分析PPT核心關鍵詞,就增強了視覺的能力。」

緊接著,在捕捉到核心關鍵詞後,利用搜狗的知識圖譜技術進行廣泛的拓展,把相關的詞語以及這個專業領域相關的詞語都拓展出來來加強語音識別和翻譯。這就是「能理解」。

在這樣一套系統下,搜狗同傳3.0可以更像一個專家和內行一樣的去解讀和翻譯大會。具體來說,使現有AI同傳技術從3方面進行了提升:

更自然,從以往單純的語音識別,到現在去模擬人工同傳的工作方式,增加視覺和大腦擴散知識點的功能,形成一套全方位的感知系統。

更專業,以往的AI同傳模型是通用的,現在通過這套系統形成了實時專屬的定製加強的能力,能夠實時捕捉PPT的內容,補充演講專業領域的知識,並且針對每一個演講的模型定製,提升同傳效果。

更智能,以往模型訓練需要一個被動學習的過程,現在自動學習PPT的內容,自動捕捉海量辭彙,確保同傳品質非常優秀。

在專業術語多的大會上,搜狗同傳3.0的優勢更加明顯,具體效果見下圖:

搜狗同傳2.0將圍棋專業術語「投子」識別為「投資」,而通過捕捉PPT內容和知識圖譜的擴展,搜狗同傳3.0可以準確識別出來。

除了大會演講的同傳外,搜狗同傳3.0作為一套完整的技術體系正在更多的場景應用,比如記者採訪、跨國辦公會議、視頻直播、旅遊出行、法院庭審等。

大廠紛紛押注AI同傳,為什麼以搜索起家的搜狗更具優勢?

這兩年,AI同傳市場很熱鬧,以百度、騰訊、訊飛為代表的大廠紛紛推出自家的AI同傳,也有一些被用在了世界級大會上。那麼,作為最早一批入局AI同傳的搜狗優勢在哪?又有什麼不同的理念呢?

搜狗同傳一直代表著 AI 同傳領域頂級的水平,早在2018年的IWSLT國際口語機器翻譯評測大賽上,搜狗就擊敗訊飛、阿里、APPTEK、AFRL及KIT等國內外頂尖對手,奪得冠軍,實力可見一斑。

在搜狗看來,未來面向人機交互一定是多模態的。其他公司的同傳主要以「語音識別 翻譯」為主,搜狗則步入了下一代,從語音跨到了多模態,同時加入對於語音和知識的理解,讓AI同傳具備一定的認知能力。

其實,AI同傳面臨的挑戰主要有兩個:一是準確性,二是低延時

越多的感官參與,理解就會越準確,對於AI同傳來說也是如此。今天的搜狗同傳把識別PPT加入其中,明天可能會調動更多「感官」,甚至把唇語識別也加入其中,提升翻譯的準確性。

此外,搜狗的兩大利器——搜索引擎和輸入法在提升準確性方面也派上了大用場。

「每天在搜狗輸入法上的語音識別總的次數在8億次以上,8億次以上語音請求數代表著每天差不多有30多萬小時的有效數據,基於這樣的數據再進一步去學習,本身就使得我們的機器一直在不斷成長。」陳偉介紹到。

說話人開口講了半句話,同聲傳譯就要開始翻譯了。為了降低延時,搜狗同傳3.0做了一個基於上下流的解碼,通過一個信息模塊來實時檢測說話人什麼時候斷句,再藉助搜狗強大的知識圖譜迅速整理翻譯,這樣就可以大大降低延時。

搜狗同傳領先的不僅是技術,還有眼光。當前,搜狗AI的技術布局聚焦在自然交互知識計算上。在語言之上提取出跟語言的關聯關係,讓機器產生人的「認知」能力,王小川稱之為知識計算。怎麼更好的把從大量數據中抽取出的知識用在同傳中、怎麼計算出更多的知識給同傳用,這正是搜狗同傳努力的方向。

搜狗同傳3.0的發布,是搜狗又一次在同傳領域的技術創新,讓AI同傳首次具備了視覺能力和思考能力,開啟了AI同傳行業全新的「多模態認知」時代。AI同傳替代人工同傳還會遠嗎?

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

谷歌帝國權杖交接!佩奇布林雙雙卸任將公司交給了印度人Pichai