揭秘語音助手

最新 01-30

自從蘋果公司在2011年在Iphone 4S上集成了Siri，語音助手這項技術就逐漸走入了大眾的視野。而Amazon在2014推出Echo並且在市場上大獲成功，更是將智能音響和語音助手的流行推到了一個新的高度，並引來了眾多的競爭者和效仿者。對於我自己和身邊認識的一些朋友，Echo/Alexa幾乎是生活里不可或缺的一部分了。早上醒來的時候，眼睛還不想睜開，就可以直接呼喊: Alexa, what"s the time now? 不可謂不方便。雖然現在的很多公司都標榜自己的用戶體驗多麼的友好，但是對於那些沒有浸淫在科技產品中的人，這些所謂的『設計』其實並沒有那麼直觀。而語音技術的發展則大大降低了科技產品的使用門檻。試想一下，你的爺爺奶奶這一輩的人也許不會用手機，但是如果有一個設備可以讓她用語音控制，來給家人打電話或者視頻，聽廣播，是不是還挺方便的。所以語音作為一種更自然的交互方式，在可預見的未來里一定會更加普及，更加隨處可見。那麼今天我們就來科普一下語音助手的背後都有些什麼樣的技術吧。

語音助手一般都有個名字，比如說Siri, Echo的語音助手叫Alexa, Google的叫OK Google/Hey Google。行話把它稱為喚醒詞(wake work)。不然誰知道你是叫TA呢，對吧。喚醒了之後你可能就要跟TA說點什麼了。比如你說: What"s the weather tomorrow?這個時候設備接收到的是一段語音信號，接著它會把這段語音傳到雲端。雲端會將這段語音轉化為文本『what"s the weather tomorrow』。這就是語音助手的第一個關鍵技術:語音識別(ASR: Automatic Speech Recoginition)，即將語音轉化為文本。為什麼要轉化為文本呢？因為現在的計算機還沒有能力直接理解語音信號。有了文本之後，接下來登場的就是自然語言理解(NLU: Natual Language Understanding)。也就是理解語言或者說文本的意圖。對於人而言理解語言和場景是一件很簡單的事情，但是對於計算機來說，這還是一個巨大的挑戰。這也是為什麼語音助手往往被認為還很『低智』的原因。不過對於很多常用的場景，我們還是可以運用機器學習和其它的一些方法來處理的。有了對語言的理解，接下來的處理過程就是一個純粹的工程問題了。比如說當它理解到你是問明天的天氣的時候，它就會到某個地方去搜索明天的天氣信息。如果你要讓它開燈，它可能就會去調用控制燈的開關的API。最後，語音助手會將結果合成為一段文字，然後轉化為語音播放出來。這種技術被稱為：文本語音轉換(TTS: Text to Speech)。到此，一個語音處理的循環就完成了。

近年來，由於深度學習的發展和應用，語音識別這一技術已經有了巨大的突破。識別準確率跟人不相上下。語音合成的技術也已經日趨成熟，不僅發音接近專業播音員。在語音語調上也可以模仿不同的人，做到以假亂真。但是在自然語言理解方面，雖然技術也一直在進步，但是還遠遠沒有達到令人滿意的水平。另外，我們上面所介紹的只是一個簡單的問答場景。很多時候想要完成更複雜的任務，就要引入更複雜的對話管理。這個時候，如何在上下文語境里理解語言，如何與相關聯的信息結合，如何管理對話這些都是極具挑戰的問題。當然，拋開這些問題，現有的語音技術已經足夠讓我們做很多的事情了。下次我們就看看，如何能夠打造一個自己語音助手。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

※不懂拒絕的人，活的有多累

TAG:全球大搜羅 |