一句話可下達三個指令 AliOS語音識別支持多任務處理

科技 10-20

「我要在去麴院風荷的路上開著天窗聽周杰倫的老歌。」

如果你說這句話的對象是人，他一定能夠很輕易地理解你的三個意圖：一、去麴院風荷；二、打開天窗；三、聽周杰倫的老歌。

但如果把人換成機器，例如車，車又是否能夠理解並作出相應的操作反饋呢？

一句話可下達三個指令 AliOS語音識別支持多任務處理

眾所周知，因為操控便利、安全，語音天然是最適合車內交互的方式之一，也幾乎已經成為行業內車載方案的標配，儘管目前各家做出的語音方案差距較大。例如開篇說到的語義理解多任務處理，目前在行業內還屬於比較新的技術應用，還沒有幾家能夠實現，大多數廠商主要聚焦在提升語音識別及自然語言理解準確率的問題上。

AliOS數據智能負責人陳華良透露，目前他們正在對語音做技術升級，重點提升場景智能語義理解（SSLU：Scene-based Spoken Language Understanding）的體驗，是在自然語言理解的基礎上基於場景進行語言理解的智能升級，其中就包含了對多領域任務處理能力的提升。

常見的對話系統一般由自動語音識別（ASR，Automatic Speech Recognition）、自然語音理解（NLU，Natural Language Processing）、對話管理（DM，Dialog Management）、自然語言生成（NLG，Natural Language Generation）和語音合成（TTS，Text To Speech）幾個模塊構成。

據介紹，目前AliOS已經實現了創新的self-play對話訓練數據生成和眾包方案，結合人、車、場景的綜合理解，將語言學、語義的先驗知識、知識圖譜知識遷移到對話系統中，訓練端到端的深度學習對話系統模型，提升場景覆蓋率和對話流暢度，使系統能夠基於場景更好地理解語音指令。

一句話可下達三個指令 AliOS語音識別支持多任務處理

以開篇提到的指令為例，AliOS首先會準確地識別「我要在去麴院風荷的路上開著天窗聽周杰倫的老歌」這句話的每個字，然後結合用戶當前的使用場景，理解這句話的意思，並調用相關的服務，執行導航到麴院風荷、打開天窗，以及播放周杰倫老歌的複雜操作。

陳華良表示：「口語通常表義是模糊，表義是不完整，僅憑藉海量的語料數據，實現口語表達理解是不夠。我們認為基於人、車、場景等更多信息，才能實現場景智能的自然語言理解能力，為用戶獲得更好的語音體驗。」他介紹道，目前AliOS重點針對導航、音樂、有聲讀物、電台等幾個車載高頻應用場景下的語音技術做了重點優化升級，實現多條件搜索、導航多任務、導航中更改偏好、多槽位查詢等。

舉幾個形象的例子，例如「從這裡到中山公園還有多遠？」，AliOS能準確理解為是詢問從當前位置到中山公園的距離；「把之前的途經點刪除了」，AliOS能準確刪除上一次的途徑點；「給我放幾首應景的歌」，AliOS能基於當前天氣、時間信息播放合適的歌曲。

此外，目前AliOS已經從系統底層實現語音與視覺、手勢等交互方式的多模態融合，力求為用戶提供沉浸式的體驗，將被廣泛應用於車載音樂、新聞廣播、有聲讀物、車載導航等多種場景。

一句話可下達三個指令 AliOS語音識別支持多任務處理

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 快科技 的精彩文章:

※怎麼回事？Intel 28核心依然堅守硅脂散熱
※Win10新版17754推送：去除桌面水印、修復《LOL》遊戲異常

TAG:快科技 |