智能語音識別技術及其在家庭中的應用
AlphaGo的橫空出世,讓人工智慧(Artificial Intelligence,AI)技術實實在在地火了起來。在CES2018上,AI語音更是呈現燎原之勢。為什麼在發展了幾十年後,AI語音技術突然火了?原因就在於識別的準確率上,尤其是最近幾年深度學習技術的應用,使得語音識別的準確率越來越高,基本達到了可使用的狀態。
本文對AI語音識別技術及其技術難點做簡單的介紹,同時介紹了語音識別技術在家庭多媒體上的應用前景。
語音識別技術簡介
語音識別作為人機交互的一大熱點,主要包含下面四個方面:
●自動語音識別(Automatic Speech Recognition,ASR),讓機器聽得見;
●自然語言理解(Natural Language Understanding,NLU),讓機器聽得懂;
●自然語言生成(Natural Language Generation,NLG),讓機器能思考;
●文字轉語音(Text to Speech,TTS),讓機器能說話。
本文將重點介紹在家庭媒體領域中涉及最多的前兩項技術,即如何讓機器聽得見和聽得懂。
自動語音識別
自動語音識別技術是一種將人的語音轉換為文本的技術。語音識別是一個多學科交叉的領域,它與聲學、語音學、語言學、數字信號處理理論、資訊理論、計算機科學等眾多學科緊密相連。
自動語音識別技術的目標是讓機器能夠「聽寫」出不同人所說出的連續語音,也就是俗稱的「語音聽寫機」,是實現「聲音」到「文字」轉換的技術。 自動語音識別也稱為語音識別(Speech Recognition)或計算機語音識別(Computer Speech Recognition)。
語音識別是研究如何採用數字信號處理技術自動提取以及決定語音信號中最基本、最有意義的信息的一門新興的邊緣學科,是語音信號處理學科的一個分支。
自然語言理解
語音轉換成文字後,其實計算機還是不知道其具體的含義,這就需要通過自然語言理解來確定這段文字的真實含義,進而讓機器理解人類的訴求,並對這個訴求做出應對。
要實現自然語言理解,遠不如人們想像的那麼簡單,而是十分困難的。從現有的理論和技術現狀看,通用的、高質量的自然語言處理系統,仍然是較長期的努力目標。但是針對一定應用,具有相當自然語言處理能力的實用系統已經出現,有些已經商品化,比如在家庭多媒體方面的智能語音應用。
語音識別技術在家庭多媒體中的應用
智能語音識別技術可以應用在很多領域中,如果聚焦到家庭,當前的應用主要集中在智慧家庭。通過支持語音識別的智能語音設備,如智能音箱、家庭媒體網關、機頂盒等,我們可以繞過複雜的按鍵、文字輸入搜索等操作,以語音控制的方式實現很多事情:
●早上醒來,我們不再拿手機看時間,而是可以直接對著空氣問,「現在幾點了?」「今天天氣怎樣?」「外面是否在下雨?」等等,家中的智能語音設備將會直接給你答案。
●獲取新聞,安排日程。通過智能語音設備,可以收看或收聽新聞,也可以問機頂盒「我今天的日程安排是什麼?」,讓您輕鬆開啟一天的工作和生活。
●娛樂時間,當我們想看電視時,可以通過內置了智能語音功能的家庭媒體設備(比如Android TV機頂盒),用語音的方式選擇想看、想聽的內容,比如播放Youtube中的短片或音樂。如果您的設備中有HBO Now(HBO的OTT APP)、Netflix、Youtube或一些音樂類的APP,我們可以通過說出具體節目的名字來搜索到相應內容;如果不知道具體的名字,可以通過「請找出關於***的電影」,或者「聽點音樂」等模糊的輸入線索,找出相關的內容。
●在語音AI出現之前,在電視上購物是非常麻煩的,有了AI語音,只要對著話筒(遙控器、遠程Mic或移動設備上的APP)說出想要的產品,就能快速便捷地找到心儀的產品。
●對智能家居的控制,比如對電視機的控制,通過AI語音,可以輕鬆地實現開機、關機、調高音量、調低音量等操作,還可以實現對家庭智能設備如燈泡、熱水器、電飯煲、電動窗帘等的控制。
如今業界智能語音識別的參與廠家非常多,如Nuance、科大訊飛、雲之聲、百度、騰訊、Google、Amazon、Apple、微軟等。
語音識別技術在家庭中實際應用的典範當屬Amazon。Amazon於2014年推出業界首款智能音箱Echo。除播放音樂外,Echo也是家庭設備控制樞紐(兼容Nest/IFTTT等產品),可連接第三方服務(如叫車,定外賣等)。隨後Amazon 不斷豐富Echo 家族產品,至今各型號已累計銷售破千萬台。Echo家族產品線也引領著智能音箱行業的發展。
Amazon始終圍繞語音交互設計產品,他們的定位也非常清晰——家庭,在定位之下來找產品的消費環境。圍繞其語音業務Alexa,Amazon打造了一個開放系統,為產品加入源源不斷的第三方服務。
再看Google,2016年5月19日,在年度I/O開發者大會上,谷歌發布配有內置揚聲器的語音激活設備Google Home。Google Home可以通過語音控制家庭設備。2016年10月5日,又推出能通過語音助理Google Assistant,「聲控」的Google Home。2017年,Google正式將Google Assistant集成進其Android操作系統,也就是說在後續的Android TV電視、Android TV機頂盒中都將內置這一功能。
Strategy Analytics發布的研究報告《全球WiFi音箱預測2014—2022》顯示,全球基於WiFi的無線音箱出貨量在2016年增長62%,達到1400萬台,其中搭載智能語音系統的達到42%,約590萬台。預計到2022年,全球智能音箱產品出貨量會增加十倍以上。
語音識別的發展現狀及展望
當前語音識別的準確率雖然已經有了非常大的進步,但距離理想中的要求還有些距離。一般來說,影響語音識別準確率的因素主要有以下幾個方面:
●背景雜訊。雖然現在隨著深度神經網路(Deep Neural Network,DNN)等技術的發展,語音識別對雜訊的魯棒性有了很大的提高,但在信噪比比較低(比如零以下)時性能下降得特別厲害,尤其是在背景雜訊是人聲的時候就更差了。
●口音的影響。以世界範圍內通用的英語為例,就有美音、英音、印地英語、中式英語等,即使在美國,各個地方的人說話也有不同的口音。更不用說方言更加多樣化的中文了,中文比起英語,更增加了聲調、韻律等。口音的識別準確率仍然是當前的一大難點。
●自然的說話方式。語音識別的技術是機器學習,機器學習通常是通過對不同的人的語音進行採集,進而根據這些樣本進行學習的過程。語音採集的樣本更多的是類似「朗讀」的方式,我們也可以稱之為很正式的方式。但在日常生活中,說話方式往往比較隨意,不會刻意說得慢而清晰。自然語言中詞與詞的連接、多音多義字詞等也給識別帶來困難。語音中還會有大量的連音、吞音、發音變形,還有「嗯、啊、呃、這個、那個」等無意義的發音和重複、糾正等。另外還涉及到語法的複雜性,錯用語法等情況也經常發生。目前這方面的識別準確率也不是特別高。
●對句義的正確理解。有時候句子通常並不只是字面上的意思,例如,「你能把鹽遞過來嗎?」,一個好的應答應當是把鹽遞過去;在大多數上下文環境中,「能」將是糟糕的回答,雖說回答「不」或者「太遠了我拿不到」也是可以接受的。再如,如果一門課程上一年沒開設,對於提問「這門課程去年有多少學生沒通過?」回答「去年沒開這門課」要比回答「沒人沒通過」好。
●特定領域和主題。對於特定專業領域的辭彙,機器需要經過更專業的「訓練」才能理解並作出反應。
雖然語音識別技術還沒有達到理想的狀態,但隨著技術的不斷進步,在未來的3—5年,依託於語音識別的語音交互方式必將成為人機交互的主要方式。
※大承載面臨端到端5G業務新考驗
※分析挖掘平台助力數據價值利用
TAG:ZTe刊 |