當前位置:
首頁 > 知識 > 智能語音交互:阿里的研究和實踐

智能語音交互:阿里的研究和實踐

雲棲TechDay40期,iDST智能語音交互團隊總監智捷帶來智能語音交互的演講。本文主要講解了語音識別的核心組件,語音識別準確率以及影響準確率因素,還分享了iDST智能語音交互以及阿里雲的對外輸出。

在眾多的人工智慧應用中,智能語音交互是大眾能夠最近距離接觸到的一個。從幾年前的手機語音助手,到近年來的互聯網汽車、智能音箱、電視、IoT設備等,語音交互正以前所未有的深度和廣度,融入雨後春筍般湧現的各種智能設備中。國內外各大互聯網公司和眾多初創企業都瞄準了智能語音交互這一重要領域,並視其為下一個最重要的流量入口和服務分發途徑。不僅是在這些新興領域,智能語音交互還逐步滲透到傳統行業內,助力傳統服務智能化。本報告將簡要介紹智能語音交互的技術現狀,以及阿里巴巴在這一領域的已有研究探索和未來展望。

智能語音交互

智能語音交互,是阿里巴巴iDST智能語音交互團隊的核心智能產品體系,將人工智慧、語音識別、語言理解、語音合成、人機交互、知識圖譜、大數據深度學習、聲紋識別等等無縫結合,專註於各類智能終端的能力供給,提供「能聽、會說、懂你」的智能語音交互體驗。

智能語音交互:阿里的研究和實踐

整個東西都是由阿里在自己的平台上,例如基於阿里雲計算平台跟大規模彈性服務的平台上進行研發的。我們自己有比較獨特的語音深度學習的聲學技術,還有比較大規模的語言模型跟解碼器技術。語音識別系統是無法為所有場景同時做好服務的,怎麼能夠在阿里雲上做低成本的定製、低成本的服務,這是我們區別於其他單一語音提供商的。我們的產品在阿里內部跟外部都有一些具體的應用。

智能語音交互:阿里的研究和實踐

所謂智能語音交互,它不單是語音識別或者語音合成的技術問題,更多是「能聽、會說、懂你」的智能人機交互體驗,形成一個閉環。那麼在這當中,最主要就是三個技術,能聽就是語音識別,很多像手淘裡面的語音搜索,把你說的話轉化成為文字,單單說今天機器把語音轉換成文字的過程,完全是聽見但並沒有聽懂的過程,所以後面的人工智慧再高一層次,怎麼去做這種認知,那就涉及到自然語言處理技術了。但是在語音裡面用自然語言技術跟通用的自然語言技術又略有區別,例如語言理解他們叫natural language understanding(NLU),我們現在在語音裡面做的事情稱為spoken language understanding (SLU),首先語音識別本身會產生錯誤,比如說有一字之差,或者同音不同字的情況會出現,那怎麼能夠在有語音識別錯誤的時候很好的來做理解,這就是做口語理解特有的東西。最後還有語音合成,怎麼樣讓機器能夠說話,怎麼用技術使得它更自然,更像人的自然表達,能夠表達出當時說話時候的情緒。

語音識別的核心組件

語音識別技術把語音轉換成文字有一個最簡單的精度度量,就是識別錯誤率,在中文裡面我們通常計算它的字的識別錯誤率,當Character Error Rate和Word Error Rate降為零的時候,就是一字不差的準確識別了,通過這個指標我們不斷的優化語音識別系統。

智能語音交互:阿里的研究和實踐

數學上來說寫上公式如圖,我們輸入一連串的語音數據,因為語音跟圖片不一樣,語音是一個連續的信號,所以我們通常都不會識別一個字,都是連續的語音識別,所以你的輸入會是一個時間序列,然後輸出是一個文本序列。

智能語音交互:阿里的研究和實踐

比如說我們用詞來作為建模單元,那就有一個詞序列。語音識別就是根據input,然後找出一個最大可能的詞序列output,用公式寫出來就可以轉換成三項,聲學模型、語言模型,還有在所有的詞序列當中搜索出一個最大化概率的模塊就叫做解碼器。那分別是用做什麼用呢?

智能語音交互:阿里的研究和實踐

你有一個語音的特徵,通過聲學模型就能把這個feature到底是a的概率多一些,還是e的概率多一些刻畫出來。現在聲學模型在歷史上有非常多的數學模型在裡面使用。目前最popular的模型就是一些深度學習deep learning 的deep models,就像圖中所畫,有一個時間信號,每一幀都有它的input feature,然後通過一些DNN或者更複雜的模型,得到聲學模型的概率。

智能語音交互:阿里的研究和實踐

語言模型是說一個詞序列到底概率多大,比如說可以去算我要去吃飯的概率,我要去洗澡的可能性,如果要去語音識別就不是一句人話,所以這個分就很低,我要去上班比吃飯更被人說的多一些,所以概率是0.4。這些東西可以通過大量的語料收集,通過語言模型對它進行表徵,現在在語音識別裡面仍然直接從你看到的語料當中把這些概率數出來。

智能語音交互:阿里的研究和實踐

如果你去窮舉所有的word sequence,運算量是巨大的,甚至是不可能的,怎麼能夠很高效的把你說的話能夠解碼出來,解碼器現在還沒有任何一個開源的解碼器,可以跟真正的工業界的解碼器比擬,所以這也是整個工業界做語音識別門檻比較高的原因之一,就是解碼器技術還沒有一個特別好用的工具被廣泛的開源出來,這裡面會有很多工作需要在大規模的問題當中去錘鍊。

語音識別準確率

智能語音交互:阿里的研究和實踐

語音識別的準確率也是一個螺旋上升的過程,有的年代因為一些突破性的技術被提出,所以一下就會把錯誤率給降下來,有的年代一直沒有什麼好的技術突破,所以準確率是拉平的,圖中是兩個人打電話交談的時候,怎麼把兩邊人說的話轉換成英文的word,這個錄音就是在電話局的交換機地方錄的,所以你會得到兩個錄的輸入信號,兩個人在交談,所以這個任務就叫switchboard,錯誤率越低越好,1993年的時候錯誤率近乎是100%,那個年代無法做大辭彙量的連續語音識別,2000年左右基本上能夠做到20多的準確率,這條線連續的變成直線好多年,將近10年的時間沒有特別好的技術提出來。

智能語音交互:阿里的研究和實踐

直到2010年代以後,deep learning技術被微軟從學術界學過來,然後不同的研究組都開始關注它,然後DNN模型本身就帶來了一個非常大的improvement,當年就從20幾的錯誤率直接拉到了10幾的錯誤率,這是非常大的進展,在微軟最新的公布number,他們已經把任務從10幾又拉到了5.9這樣的程度,當然用了很多模型的combination,跟別的一些技術在一起,整個就是一部逐漸下降的歷史。哪些上面有了進步呢?比如說以前的辭彙量比較小,就是說能認識的詞可能數千個,那現在可能是數十萬到一百萬個辭彙量,以前是比較有限制的一些任務,現在基本上可以隨便說,比較自然的講話,語音識別系統都能夠很好的來識別,一開始只能做比較乾淨的語音,現在我們基本上可以做比較正常的帶有一定雜訊的語音識別。最開始的時候必須像朗讀一樣,像老師講課一樣非常好的讀出來,那現在可以做比較連續自由的語音。之前是單一語言,現在我們也可以做一些中英文混合的。

歸結起來,技術的進步帶來準確率的突飛猛進,把語音識別從一個實驗室裡面的技術,變成一個大眾科技,我覺得總結下來有以下三點是最重要的:

  • 第一點就是數據閉環。以前我們做語音識別,數據的獲得是很不易,你要從街上拉人到錄音棚裡面去錄,然後才能採集數據,但是現在有手機,有各種各樣的攜帶型設備。我們的用戶在手機淘寶語音搜索的時候,直接可以把這些數據收上來,一旦做過了標註以後,對語音識別本身的提升非常大。

  • 第二點就是深度學習的進步。

  • 第三點就是要有好的運算能力來支撐。

Switchboard才300小時的訓練數據而已,後面有學術界的人給它擴充到了2000小時,現在工業界入門的門檻可能已經是2萬小時了,這就是跟數據來源的更廣泛、更易得很有關係。

智能語音交互:阿里的研究和實踐

我們擁有更大更複雜的模型,尤其是深度學習模型的引入,使得在傳統年代到現在年代整個的準確率在不斷的提升,錯誤率在不斷的下降,在這裡面阿里也有自己一些獨特的技術,比如LC-BLSTM特別適合於做語音識別任務,阿里很早把這個模型推上線,而且現在大家用手機淘寶裡面的語音搜索,雲棲大會上所有演講的實時字幕,這些都是用這個模型產出的語音識別結果。

智能語音交互:阿里的研究和實踐

運算能力也發展的更強大,比如摩爾定律、GPU,對整個圖像領域的deep learning有很大的助力,不管是語音識別還是合成,現在都是用相似的技術來做的。

有了這些東西以後才能夠加快迭代速度,迭代時間直接關係到產品、業務的迭代周期,關係到提高業務性能和擴張產品的時間周期。怎麼能夠快速提升產品的體驗效果,尤其在語音識別上,首先用自己收集的數據,不管你從哪裡去找,然後有第一版的模型上線,然後迅速的根據數據閉環,用戶在不停的使用,有live數據源源不斷的上來,然後馬上進行標註,標註完了以後就要有一個部分高效的learning,不管是演算法也包括機器本身,怎麼在一個分散式的大規模GPU的cluster裡面把你的model迅速的建出來,然後馬上去換掉線上模型,通過這個過程,你會發現一開始語音識別準確率的提升會是非常明顯的,對於圖像別的領域也是一樣,就是怎麼從你的實驗室數據進化到用真實數據,然後迅速迭代模型做替換。

智能語音交互:阿里的研究和實踐

我們有一個多GPU模型訓練加速,阿里有一個ODPS的分散式系統,它不光是做CPU的分散式運算,也有GPU的分散式運算跟調度,所以我們基於此做了一個大規模的分散式多機多卡的machine learning的system,然後專門把它用在語音識別上面。我們現在可以做到接近於線性的一個訓練加速,當你用16塊卡的時候可以得到一個14.3倍的加速,原來用單塊卡訓一個模型,可能5千小時還是不能算大的訓練數據量,那整個多機多卡的訓練上去以後,就可能把時間壓縮到一天多一點,周期就被大大的加速了,所以我們可以比較快的迭代我們的模型,讓用戶的體驗越來越好。

影響語音識別率的主要因素

現在的語音識別仍然沒有那麼完善,有些因素可以把它變得很差。

  • 聲學模型方面:比如環境因素,像噪音,在非常吵的環境下仍然是一個問題;近遠場,如果你對著一個設備在3到5米的距離上面,當距離變長以後,也會很大的影響語音識別的準確率;還有混響,在會議室裡面說話的時候就能通過各種牆面跟鏡面的反射,有多條路徑會把你說的話送到你的麥克風裡面,就會有很強的混響,這件事情也會帶來語音識別準確率非常大的下降。比如人的因素也是一個方面,方言、口音也是一個比較棘手的問題。

  • 語言模型方面也同樣,語音識別其實是一個強的跟領域相關的通用模型,但它用到例如說醫療領域的時候,那些葯的名稱、疾病名稱,各種專業術語它都是完全不懂的,所以需要很多自動跟半自動的方式,去做一個語言模型上面的提升。

  • 多語言混讀方面,雖然現在部分能解,但是中英文混讀仍然是一個非常難的東西,現在還沒有一個特別好的方法能夠完全解決。

如果大家關注這個領域,現在97%被認為是一個good number,還有人講匹敵人類甚至說超越人類這樣的判斷,阿里始終有一個觀點,就是脫離具體場景談準確率都是耍流氓,語音識別到今天的發展仍是一個非常脆弱的東西,你可以有很高的識別率,在更多的實際應用場景下,當那些不利因素都進來的時候,完全可以從97%變到0%,甚至語音識別的準確率可以是負的。因為所有的增刪改都是錯,如果你沒有說話,語音識別系統因為噪音的關係或者別的關係仍然可以出識別結果,那這個時候去計算準確率會是負的。所以公平來說,現在的語音識別的確取得了非常大的進步,在很多以前不能做的場景下,已經做的非常好了,但是仍然有更多的場景,現在還達不到大家所期望的高準確效果。

智能語音交互@阿里巴巴iDST

阿里在2014年底的時候決定很嚴肅的來看待語音這件事情,過去用PC買淘寶,今天大家更多的用移動設備買淘寶,會不會有一天買淘寶的入口變成物聯網IoT,比如說電視、冰箱、音響、汽車,會不會跟互聯網的交流不再通過手機而通過更多的設備,所以語音顯然是裡面一個重要模態。

我們一開始在集團內部構建基礎服務能力,服務於阿里內部各種各樣的語音需求,服務完內部以後,都會通過阿里雲對外輸出,所以現在越來越多的服務外部客戶。我們特別重視數據演算法跟計算的有機結合,關注交互智能和服務智能。

手淘裡面有一個服務助手叫阿里小蜜的語音識別等都是我們的技術在後面做支撐。還有雲棲大會就有專門的上汽榮威互聯網汽車的展示,整個車裡面的語音交互、導航、聽歌等等,現在整個車的業都在向智能化方向發展,例如你開到某一個商場附近,它知道你快到目的地,它就會彈出一個語音消息來問你,例如說某個地方有什麼活動,某個停車場今天是免費的,或者說某一個加油站今天92號汽油直降5毛等等,你就跟它說帶我去吧,它就真的帶你去了,還有一些跟支付相關加油不下車,語音交互顯然就是其中能夠實現車跟人互動的必由之路。

什麼叫服務智能呢?我們試著把我們的傳統行業例如客服的呼叫中心做一些智能化的升級,這是從阿里內部開始做的,阿里跟螞蟻的客服中心其實每天接的電話數是非常大的,常年僱傭上萬人自營跟外包小二在接電話,而且雙十一用工量都是陡增的。對此,我們做了智能質檢,就是當你有幾萬人在聽電話的時候,你根本不知道你的員工有沒有按照你的服務規範在做很好的服務,當時他們只能做到千分之幾的抽檢。智能質檢上線以後,基本上每一通電話都會被機器自動識別下來,後面就有規則跟模型去判斷服務是不是滿足了客戶的需要,問題回答的是否是對的等等。

比如客戶說了謝謝,小二沒有說不客氣,就會被糾出來,這其實也是很好的心理作用,當小二知道有人在聽的時候,他會更注意自己的服務質量,提升自己的業務水平。還有智能電話客服,今天大家打95188,第一個接起你電話的並不是真人,而是一個機器人。

智能語音交互:阿里的研究和實踐

傳統客服中心IVR業務,撥打電話-歡迎致電支付寶-中文服務請按1、英文服務請按2,然後通常我們都會略過,就聽人工服務到底是按9還是按0。然後可能對不起、座席繁忙,可能還需要等待XX分鐘,然後聽音樂單曲循環,然後多少工號為你服務,最後還不放過你,讓你對服務做出評價,因為只有這樣他才能收集出小二有沒有回答你的問題,這是一個非常鬱悶的一個過程。

智能語音交互:阿里的研究和實踐

智能問答機器人降低人工坐席壓力,我們做了95188,它會歡迎致電支付寶,你可以用非常自然的語言描述你的問題,然後機器人就會告訴你這類它能夠解答的問題,它就會告訴你問題解決方案已經推送至支付寶我的客服。除非它回答不了的問題才會轉給人工,轉給人工的時候,它會初步判斷應該轉給哪一個技能組。

阿里巴巴iDST語音能力通過阿里雲對外輸出

智能語音交互:阿里的研究和實踐

所有這些能力,現在都在阿里雲上輸出,外面的合作夥伴拿著阿里雲半成品的技術去做自己真正的產品。比如我們在法院裡面,現在有我們的阿里雲生態夥伴用這個技術去做法院裡面的語音識別,去幫助書記員更快的整理庭審報告。現在我們比較重視NUI自然交互平台產品,就是使得各種各樣的端更好的連接上各種各樣的互聯網服務,端也不是我們做,服務也不是我們做,但是我們做中間層,這一層把人、用戶從這些端上來的自然交互的意圖轉化為對這些服務的訴求,能夠使我們的服務觸達我們的用戶,也使得我們做端的廠商一旦接入了服務以後,就有很多的互聯網上的服務跟內容可以一下就傳達到你的用戶。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲棲社區 的精彩文章:

為開發者賦能,阿里雲大學人才培養再次升級
一份語言選擇指南帶你玩數據科學,選出你心中支持的語言
TensorFlow中的那些高級API
2017年ACL的四個NLP深度學習趨勢(一):語言結構和辭彙嵌入

TAG:雲棲社區 |