揭秘語音助手
自從蘋果公司在2011年在Iphone 4S上集成了Siri,語音助手這項技術就逐漸走入了大眾的視野。而Amazon在2014推出Echo並且在市場上大獲成功,更是將智能音響和語音助手的流行推到了一個新的高度,並引來了眾多的競爭者和效仿者。對於我自己和身邊認識的一些朋友,Echo/Alexa幾乎是生活里不可或缺的一部分了。早上醒來的時候,眼睛還不想睜開,就可以直接呼喊: Alexa, what"s the time now? 不可謂不方便。雖然現在的很多公司都標榜自己的用戶體驗多麼的友好,但是對於那些沒有浸淫在科技產品中的人,這些所謂的『設計』其實並沒有那麼直觀。而語音技術的發展則大大降低了科技產品的使用門檻。試想一下,你的爺爺奶奶這一輩的人也許不會用手機,但是如果有一個設備可以讓她用語音控制,來給家人打電話或者視頻,聽廣播,是不是還挺方便的。所以語音作為一種更自然的交互方式,在可預見的未來里一定會更加普及,更加隨處可見。那麼今天我們就來科普一下語音助手的背後都有些什麼樣的技術吧。
語音助手一般都有個名字,比如說Siri, Echo的語音助手叫Alexa, Google的叫OK Google/Hey Google。行話把它稱為喚醒詞(wake work)。不然誰知道你是叫TA呢,對吧。喚醒了之後你可能就要跟TA說點什麼了。比如你說: What"s the weather tomorrow?這個時候設備接收到的是一段語音信號,接著它會把這段語音傳到雲端。雲端會將這段語音轉化為文本『what"s the weather tomorrow』。這就是語音助手的第一個關鍵技術:語音識別(ASR: Automatic Speech Recoginition),即將語音轉化為文本。為什麼要轉化為文本呢?因為現在的計算機還沒有能力直接理解語音信號。有了文本之後,接下來登場的就是自然語言理解(NLU: Natual Language Understanding)。也就是理解語言或者說文本的意圖。對於人而言理解語言和場景是一件很簡單的事情,但是對於計算機來說,這還是一個巨大的挑戰。這也是為什麼語音助手往往被認為還很『低智』的原因。不過對於很多常用的場景,我們還是可以運用機器學習和其它的一些方法來處理的。有了對語言的理解,接下來的處理過程就是一個純粹的工程問題了。比如說當它理解到你是問明天的天氣的時候,它就會到某個地方去搜索明天的天氣信息。如果你要讓它開燈,它可能就會去調用控制燈的開關的API。最後,語音助手會將結果合成為一段文字,然後轉化為語音播放出來。這種技術被稱為:文本語音轉換(TTS: Text to Speech)。到此,一個語音處理的循環就完成了。
近年來,由於深度學習的發展和應用,語音識別這一技術已經有了巨大的突破。識別準確率跟人不相上下。語音合成的技術也已經日趨成熟,不僅發音接近專業播音員。在語音語調上也可以模仿不同的人,做到以假亂真。但是在自然語言理解方面,雖然技術也一直在進步,但是還遠遠沒有達到令人滿意的水平。另外,我們上面所介紹的只是一個簡單的問答場景。很多時候想要完成更複雜的任務,就要引入更複雜的對話管理。這個時候,如何在上下文語境里理解語言,如何與相關聯的信息結合,如何管理對話這些都是極具挑戰的問題。當然,拋開這些問題,現有的語音技術已經足夠讓我們做很多的事情了。下次我們就看看,如何能夠打造一個自己語音助手。
TAG:全球大搜羅 |