谷歌助手精通30種語言智商碾壓各大競爭對手語音助手學習語言有多難？

新聞 02-03

與流行的「以英語為中心」的觀點相反，從以英語為母語的人的總數來看，英語並不是世界上說的最多的語言，也不是第二多的語言。事實上，西日耳曼語排在第三位，接下來是印地語、阿拉伯語、葡萄牙語、孟加拉語和俄語。普通話和西班牙語分別排名第一和第二。

令人驚訝的是，谷歌助手、蘋果的Siri、亞馬遜的Alexa和微軟的Cortana只能識別出其中相對較小的一部分語言。直到今年秋天，三星的Bixby才獲得了德語、法語、義大利語和西班牙語的支持。全球共有6.16億人使用這些語言。Cortana花了好幾年時間才精通西班牙語、法語和葡萄牙語。

那麼，為什麼創新的步伐如此緩慢呢?如果你想要找到答案，最好是從用於訓練語音識別演算法的技術開始。事實證明，人工智慧助手遠比我們看到或聽到的要複雜得多。

為什麼讓語音助手「支持」一門新語言如此困難

在語音助手上添加對一種語言的支持是一個多管齊下的過程——在語音識別和語音合成方面都需要大量的研發工作。

「從語音交互的角度來看，有兩件事是相互獨立的，」初創公司Clinc的產品副總裁Himi Khan在接受VentureBeat採訪時說。「一種是語音到文本——將語音本身轉換成某種視覺文本格式的行為。然後是自然語言處理組件。」

如今，大多數語音識別系統都藉助於深度神經網路——神經元類數學功能層，隨著時間的推移，這些功能會自我完善——來預測音素，或感知上不同的聲音單位(例如，英語單詞pad、pat和bad中的p、b和d)。以前的自動語音識別(ASR)技術依賴於手工調整的統計模型來計算單片語合在短語中出現的概率，而深度神經網路則不同，它將聲音(以分段譜圖或聲音頻率譜的表示形式)轉換成字元。這不僅降低了錯誤率，而且在很大程度上消除了對人工監督的需要。

但是基礎語言理解是不夠的。如果不本地化，語音助理就無法了解文化特質——或者更糟的是，無法了解不同文化之間的適當規範。Next IT首席技術創新官Joe Dumoulin在接受Ars Technica採訪時表示，為一門新語言構建一個查詢理解模塊需要30至90天，具體時間取決於該模塊需要涵蓋多少意圖。即便是谷歌和亞馬遜等市場領先的智能音箱，也很難聽懂帶有某些口音的方言。9月由Vocalize.ai進行的一項測試發現，蘋果的HomePod和亞馬遜的Echo設備只能捕捉到78%的中文單詞，而在英語和印度語方面的這一比例為94%。

Khan說：「在核心層面，某些語言之間的差距是非常大的。例如，在英語中，形容詞通常出現在名詞之前，副詞可以出現在名詞之前，也可以出現在名詞之後。有一個很好的例子：如果有人說，『Starfish』，就會變得比較難理解。根據你的語音文本轉換引擎和類似的東西，你可以很容易地將「star」和「fish」作為形容詞或單個名詞聯繫起來。有各種不同的術語被使用，你必須適應不同的說話模式。」

學一門語言已經夠難的了。亞馬遜Alexa AI部門的研究人員在2018年8月描述了其中一個潛在問題。在與助手的典型聊天過程中，用戶經常在連續的問題中調用多個語音應用程序。這些應用程序重新使用變數——例如「town」和「city」。如果有人問了方向，接著又問了一個關於餐館位置的問題，一個訓練有素的助理需要能夠弄清楚在回答這個問題時應該參考哪條線索。

然後，助理必須做出回應。如果不能，它就沒有多大用處。

而先進從文本到語音(TTS)系統像谷歌Tacotron 2(構建基於譜圖的語音合成模型)和WaveNet(構建基於波形的模型)或多或少地從語音中學習語言。

另一種被稱為參數TTS技術利用數學模型重建聲音，然後將這些聲音組合成單詞和句子。生成這些聲音所需的數據存儲在參數(變數)中，語音本身是使用一個語音編碼器(vocoder)創建的。語音編碼器(coder-decoder)用於分析和合成輸出信號。

儘管如此，TTS還是比語言理解更容易解決——尤其是通過對於數據科學家可以隨意使用的像WaveNet這樣的深層神經網路。亞馬遜基於Polly cloud的TTS服務支持28種語言，微軟的Azure語音識別API支持75種以上。而且，谷歌、微軟和亞馬遜已經提供了人工智慧系統合成的中文、荷蘭語、法語、德語、義大利語、日語、韓語、瑞典語和土耳其語的精選語音。

語音助手支持的語言

谷歌助手

今年1月，谷歌助手新增加支持20多種新語言，憑藉其能聽懂的語言數量谷歌助手拔得頭冠。目前，它已經在80個國家的30種語言中被廣泛使用，而在2017年，這一數字僅為8種語言和14個國家。它們包括:

阿拉伯語(埃及、沙烏地阿拉伯)

孟加拉語

中文

丹麥語

荷蘭語

英語(澳大利亞、加拿大、印度、印度尼西亞、愛爾蘭、菲律賓、新加坡、泰國、英國、美國)

法語(加拿大、法國)

德語(奧地利、德國)

古吉拉特語

北印度語

印度尼西亞語

坎那達語

義大利語

日語

韓語

馬拉雅拉姆語

馬拉地語

挪威語

波蘭語

葡萄牙語(巴西)

俄語

西班牙語(阿根廷、智利、哥倫比亞、秘魯)

瑞典語

泰米爾語

泰盧固語

泰語

土耳其語

烏爾都語

蘋果Siri

直到今年1月，蘋果的Siri在支持語言的廣度方面一直領先於谷歌助手。目前，它支持36個國家的21種語言，以及漢語、荷蘭語、英語、法語、德語、義大利語和西班牙語的數十種方言:

阿拉伯語

中文(普通話、上海話和廣東話)

丹麥語

荷蘭語

英語

芬蘭語

法語

德語

希伯來語

義大利語

日語

韓語

馬來語

挪威語

葡萄牙語

俄語

西班牙語

瑞典語

泰語

微軟的Cortana

Cortana於2013年4月在微軟的Build developer大會上首次亮相，後來又通過與亞馬遜的合作，在Windows 10、耳機、智能揚聲器、安卓、iOS、Xbox One，甚至Alexa上發布。Cortana支持的語言可能不及谷歌助手和Siri那麼多。儘管如此，它在6年的時間裡取得了長足的進步。以下是它能識別的語言:

中文(簡體)

英語(澳大利亞、加拿大、紐西蘭、印度、英國、美國)

法語(加拿大、法國)

德語

義大利語

日語

葡萄牙語(巴西)

西班牙語(墨西哥，西班牙

和Siri一樣，Cortana也進行了廣泛的本地化。由英法女演員 Ginnie Watson配音版本帶有英國口音，使用英國習語;而中文版則講普通話。

亞馬遜Alexa

Alexa可以在41個國家的150多種產品上使用，但它支持的語言是語音助理中最少的：

英語(澳大利亞、加拿大、印度、英國和美國)

法語(加拿大、法國)

德語

日語(日本)

西班牙語(墨西哥、西班牙)

公平地說，亞馬遜已經煞費苦心地在擴張新地區進行本地化。當Alexa去年進軍印度市場時，它推出了一種「全新的英語語音」，能聽懂當地發音，並能用當地發音交談。

值得注意的是，情況正在改善。亞馬遜表示，超過1萬名工程師正在研究其NLP協議棧的各種組件，該公司通過眾包的方式逐步擴展了對語言的支持。去年，該公司發布了一項名為「Cleo」的遊戲化技能，獎勵那些用當地語言和方言(如普通話、印地語、泰米爾語、馬拉地語、卡納達語、孟加拉語、泰盧谷語和古吉拉特邦語)重複短語的用戶。

三星Bixby

三星的Bixby搭載在三星的旗艦和中端Galaxy智能手機系列以及即將推出的Galaxy家庭智能揚聲器中。Bixby在全球200個市場都有銷售，但只支持這些國家的少數幾種語言:

英語

中文

德語

法語

義大利語

韓語

西班牙語

三星在歷史上曾遭遇過NLP的挫折。《華爾街日報》在2017年3月報道稱，三星被迫推遲了英文版Bixby的發布，因為它無法理解某些句法和語法。

語言支持在未來如何改進

很明顯，一些語音助理在語言方面取得了更大的進步，而有一些仍在在苦苦掙扎。如何才能讓這些落後的語音助手迎頭趕上呢?

Khan認為，更加依賴機器學習可能會有所幫助。

他解釋說:「處理多語言支持的主要挑戰之一實際上是與之相關的語法規則，必須考慮並適應這些語法規則。大多數NLP模型都是利用某個句子做詞性標註——在某種意義上識別語法，或話語中的語法，並創建規則來決定如何解釋該語法。」

Khan說，有了一個「真正的」神經網路棧——一個不太依賴於語言庫、關鍵字和字典的棧——重點就從語法轉移到單詞嵌入以及單詞嵌入中的關係模式。然後，幾乎可以在任何語言上訓練語音識別系統。

這就是Clinc的方法——它宣稱自己的技術或多或少與語言無關。該公司通過向大量以英語為母語的人提出開放式問題來構建corpa，比如「如果你能打電話問一下你的個人財務狀況，你會說什麼?」它將響應視為現實世界中使用的「調優器」數據集。

只要這些數據集是用一種本地語言管理和創建的，Clinc聲稱只需3到500個發音，它可以添加對一種語言的支持——比傳統的統計方法少幾千個。

「我們用來訓練人工智慧的所有數據都是由母語人士創建的，」Khan 說。「這樣一來，人工智慧就能優化消費者的實際行為。」

總部位於舊金山的Aiqudo採取了稍微不同的策略。這家初創公司提供摩托羅拉Hello Moto 助手的基礎技術，專註於意圖(用戶希望智能系統執行的動作)，並創建跨類別的「動作索引」，如餐館、電影和地理位置，將給定的意圖映射到應用程序、服務和功能上。

Aiqudo的模型不需要理解整個語言——只需要理解意圖。例如，僅從動作指數就可以知道，「Make a dinner reservation for tomorrow at seven p.m. at Avia」這句話中的「Avia」可能指的是一家餐館，而不是電視節目。

該公司首席執行官John Foster在接受VentureBeat的電話採訪時說:「我們並不一定能真正理解語言本身。我們所做的基本上是用我們可以獲得的數據來預先訓練我們的演算法，然後我們去統計這些單詞在頁面上的位置，以及它們在頁面上相對於周圍其他單詞的位置。這就成為我們閱讀這些詞在不同語境中的含義的基礎。」

本地化只需要構建特定區域的操作索引。(巴塞羅那的「Avia」可能與墨西哥城的「Avia」有所不同。)這不僅使Aiquido的模型能夠相對快速地獲得對新語言的支持，而且使它們能夠處理混合語言——結合單詞、表達式和習語的語言——如西班牙式英語。

Foster 說：「我們的模型不會被(混合語言)搞糊塗，因為(當)他們看印地語句子時，他們只是在尋找意圖。如果有些單詞是英語，有些是印地語，那也沒關係。」

毫無疑問，谷歌、蘋果、微軟、亞馬遜、三星等公司已經在使用Foster和Khan所描述的技術，為各自的語音助手增加新的語言支持。但是，有些公司搶先一步，而另一些公司則不得不與遺留系統競爭。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 前瞻經濟學人APP 的精彩文章:

※減產協議短期內難改油價下滑趨勢，沙特減產占歐佩克半壁江山
※三星、華為和OPPO佔據斯里蘭卡65％的智能手機市場華為Y3 2017榮獲最暢銷機型

TAG:前瞻經濟學人APP |

谷歌助手精通30種語言智商碾壓各大競爭對手 語音助手學習語言有多難？

谷歌助手精通30種語言智商碾壓各大競爭對手語音助手學習語言有多難？