讓語音助手好好說話這項成就，Google 還有些事兒沒告訴你

新聞 05-15

本文由愛范兒與騰訊數碼聯合首發

人工智慧仍然在不斷顛覆著我們對「黑科技」這一名詞的認知，這是很多人看完 Google 新語音交互技術演示後的感嘆。

在上周召開的 Google I/O 大會上，Google CEO 桑達爾·皮查伊（Sundar Pichai）向眾人展示了一段日常生活中再正常不過的電話溝通片段：向理髮店或是餐廳預約時間。

不同之處在於，這是一段 Google AI 語音助手和真人之間的對話。它實在是太過真實，倘若不是在發布會上，單純聽這段錄音恐怕很難分清誰是 AI 人工智慧，誰才是真人。

最後，名為 Google Duplex 的人工智慧助理出色地完成了往日需要真人實現的電話預約服務，也讓我們看到語音助手了下一種演變方向。

藉助 AI 技術，人類和語音助手之間的溝通不再是單向的，而是可以很自然流暢地實現多段溝通，就像人與人之間的對話一樣。

這種自然，具體體現在以下幾個細節：

1.更加富有情感的變調語氣，比如提問句中會有停頓，某些單詞則帶有明顯的拖長音；

2.哪怕是對方回答的內容稍顯混亂，Duplex 也能調及時調整應答內容；

3.會發出諸如「嗯哼」、「額…」這樣的語氣詞；

4.恰到好處的回應速度。

事實上，人類在日常對話中並不會太講究語序邏輯，有可能會在一個句子中夾雜著多層意思，這一點在 Google 現場演示的兩個電話溝通案例中也有體現。如果在中文領域，大量的同聲詞或是同音字會讓情況變得更加複雜。

當然，目前 Duplex 只是在「電話預約」這一領域能夠自然地和人類交流。Google 之所以會選擇這個先行試驗領域，也是由於這個場景中涉及的問題不多，對話往往都離不開時間、地點、人數等這類的關鍵詞。而單一環境意味著 AI 能夠更加充分地學習該場景下的內容，並進行有針對性地訓練。

但是，由於真人對話的語序問題，電話溝通中的許多確定性信息，往往要在幾段對話後才會出現，比如「時間是下周五」「什麼時候？」「下周五，18 號」這種關於時間點的反覆確認。

語音助手不僅更聰明，連聲音都越做越逼真

為了準確處理對話問題，我們結合 Google AI 官方博客的內容，簡單梳理了一下 Duplex 的處理流程：

1.依靠 TensorFlow Extended 搭建一個循環神經網路（RNN）模型，並使用匿名通話數據進行了訓練；

2.真人語音會先通過自動語音識別技術（ARS），向 RNN 網路輸入文本信息，其中也包含了音頻特徵和對話歷史；

3.通過 RNN 生成的文本會藉助 TTS 將文本轉語音，來作為最終應答的內容。

這麼看，Google Duplex 和其它很多人工智慧在做的事情也很相似。它們都要先通過大量的數據進行分析訓練，自己學習處理和識別這些數據，然後再藉助合適的模型導出預測結果。

至於大眾所關心的「Duplex 的說話聲和人類差不多」，一方面前文也提到，單一領域下 AI 可以進行更深度的學習；另一方面，Google 則是藉助了包括 WaveNet 在內的文本轉語音技術，讓 AI 可以根據不同情境來改變語氣和語調，生成質量頗高且細緻入微的語音。

（圖片來源：CNET）

其中一點很重要的是「語氣詞」的運用，人類在說話的過程中也會思考，其中的停頓往往就會伴隨著一些語氣詞。我們會在 Google Duplex 的應答中聽到如此自然的表達，有些是開發人員在訓練時刻意為之，有些則是為了能更好地過度多個聲音單元。

當然，在應對一些需要快速回應的詢問比如「你好」時，Google Duplex 可能都不會等待模型運算結果，而是會先給出一個模糊的回答，然後再根據之後的內容配合一個正式回應。

這個手段可以讓 AI 的響應時間更快，同時也更加自然——畢竟如果對複雜問題回應太快，聽起來可就不像是一個「人類」能做到的事。

這種「擬人聲」的自然語音表達，背後離不開文字轉語音技術的進步。現在很多的語音助手，一個句子只是將幾個單詞的語音拼接在一起，雖然結構本身沒問題，但語調基本沒有起承轉合，聽起來就非常生硬。

最典型的例子其實就是我們給 10086 打業務辦理電話，大家都知道其中的回應語音都是預設的——那種聲音不帶任何情感，所以我們都能「聽」的出來。

（圖片來源：Marques Brownlee）

但 Google Duplex 不一樣，它發音的清晰度可能比人類都更為標準。

早在 2016 年，Google 和 DeepMind 就向我們展示了名為 WaveNet 的基於深度學習的語音生成模型。由於音頻涉及了大量信息，它藉助卷積神經網路的層層堆疊和延時連接，以及大量的樣本訓練，最終生成的原始音頻波形在韻律和語調上都表現得非常出色。

在實際的美國英語語音測試環節中，WaveNet 的聲音得分已經非常接近人類的水準，如果再加上句式的準確性因素，可能還不亞於人類。

現在 Duplex 便在文字轉語音這一環節中使用了 WaveNet 的語音合成技術。同時，和圖像識別、翻譯等 Google 雲計算平台 API 一樣，WaveNet 的文字轉語音服務，也成為了當前 Google 雲計算服務的賣點之一。

對語音溝通服務有需求的，不僅只是電話預約

根據 Google 的計劃，Duplex 會率先在餐館、理髮店等電話預定較多的領域開始進行測試。正如前文所說，電話預約領域涉及的關鍵詞不多，在 AI 的幫助下，可以減少很多「重複溝通」的工作。

1.對商家來說，如果使用了 Duplex 支持的預定系統，哪怕在離線狀態下也可以讓客戶通過 Google Assistant 實現預定。

2.節假日中有些商家會變更營業時間，這時也可以讓 Duplex 在電話詢問後再通過 Google 自動更新信息，而不需要商家自己操作，用戶也不用反覆給商家打電話確認。

3.Google Duplex 完成電話預約的過程是後台全自動的，完成後會直接在手機上提醒用戶，這一點對於殘障人士來說幫助極大；若是遇到 Duplex 無法識別的任務，則會轉交給用戶來繼續完成。

至於 WaveNet 文字轉語音技術，接入 Google 雲計算平台則可以運用在更廣泛的領域。目前 Google 已經明確了幾個實際應用場景：

1.和智能電視、汽車、機器人、智能音箱等物聯網設備進行結合，其中駕駛和客廳這兩大場景是目前語音交互的重點關注領域。

2.打造更為自然的語音表達系統，尤其是一些對電話語音服務有需求的運營商公司，比如剛才說的中國移動 10086。

3.將文本內容（如資訊和電子書）轉換為播客和有聲讀物，主要看重的還是擬人化的朗讀效果。

另外，微軟在今年的 Build 2018 開發者大會上也展示了 Cortana 語音助手在多人商務會議場景中的運用。

會上展示了一個圓椎體的音箱產品，它不僅支持人臉識別，而且還可以將多個人的聊天對話轉成文字，並支持實時翻譯，形成一份完整的會議報告，它甚至還可以解讀出會議中的對話內容，對待辦事項進行分類，以及提前安排下一次的會議時間和會議室。

雖說這只是一次視頻演示，但也證明，AI 語音助手遠不止現在問個天氣和定個鬧鐘那麼簡單。

可既然是機器人，為什麼要刻意做得和真人一樣？

用人工智慧減少人力成本，提升效率，一直是大多數公司都希望實現的事。一方面，我們都希望能夠利用自動化手段，將剛才所說重複性、可預測的高度流程化任務，交給機器人甚至是 AI 來完成，讓我們可以把精力放在那些更具創造性、不確定性因素更高的工作上，後者是目前人工智慧難以取代的。

但另一方面，就和其它「將人工智慧做得神似真人」的技術一樣，Google Duplex 的亮相也引發了新一輪用戶對人工智慧技術的擔憂。

牛津互聯網學院的數字道德實驗室博士 Thomas King 就表示：「Google 的這項測試其實是精心設計的一個騙局，如果他們假定人類無法區分出真人和 AI 的聲音，如果一個接線員認為自己長期都在和一群機器人聊天，那麼他的溝通方式還能保持和以前一樣嗎？也許沒有禮貌也沒關係？反正更粗魯也不會傷到人心？這種想法會持續停留在腦海中——哪怕是他接到了一個來自真人的電話。」

也有人認為：「既然原本就是合成語音，為什麼要刻意做得和真的一樣？任何欺騙的成功實現，都會導致信任的破壞。當信任一旦開始流失，就會全面崩塌。」

類似的爭論，我們能在許多國外科技媒體和 Twitter 上看到。大致的態度基本就是：「人類不想被機器人愚弄。」

雖然 Google 已經表示，在正式投入測試後會讓 Duplex「表明自己 AI 的身份」，可具體的實現方式我們還不得而知。如果 Google 真打算將這種技術深入到日常生活領域，也無法迴避剛才所說的倫理和道德疑慮。

考慮到現在智能音箱勢頭的火熱，語音助手自然也成為各大巨頭們角力的重點。可以預見的是，當語音合成技術愈發成熟後，讓 AI 助手發出和我們相似的聲音已經不是太難想像的事。

可如果你說的期望是和它談天說地，又要猜到你內心的想法，就現在來看，Google 要面對的大概還不僅僅是技術問題。

題圖來源：Newsunleashed

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 愛范兒 的精彩文章:

※一大波漫威主題樂園要來了！其中一個就在香港
※高速公路保養太費錢，美國乾脆拆除一部分

TAG:愛范兒 |