福利預告 | 聲智CTO馮大航直播答疑:遠場語音交互核心技術
過去的一年,要說人工智慧在面向消費者的領域有哪些明星產品,銷量近千萬的亞馬遜Echo總是一個繞不開的存在。
提及Echo成功的原因,聲智科技合伙人李智勇告訴雷鋒網,Amazon Echo這產品根本沒做任何的功能上的創新,聽歌、看新聞、設鬧鐘、說笑話、控制家電等所有東西都可以在手機上找到替代品,它唯一的變化只是把語音交互的方式從近場升級為遠場,並把精度和速度打磨到非常優秀的程度。
只是這麼一點點變化,似乎就要創造一個無比巨大的行業。因為Echo之後,全球科技巨頭紛紛推出自己的智能音箱,但亂花漸欲迷人眼之際,估計廣大技術愛好者要和雷鋒網編輯有同樣的疑問:遠場語音交互技術如此有威力,從哪裡可以學的到呢?
不久前,雷鋒網 mooc.ai已推出了遠場語音交互技術的實戰特訓班,由語音交互專家、聲智科技 CTO 馮大航主講,馮大航老師的介紹如下:
馮大航
馮大航:2007年開始從事語音信號處理,麥克風陣列信號處理,語音識別方向研究,在語音交互領域已經積累10年經驗。2007年畢業於中國科學技術大學電子信息工程系,2007-2012年在中國科學院聲學研究所讀博士,博士期間在陣列信號處理方向發表多篇SCI、EI論文,2012年獲得中國科學院院長獎學金,畢業後在中國科學院聲學研究所任助理研究員,工作期間獲得國家自然科學基金項目,同時參與了多個國家重大項目;2015年曾任職於雲知聲負責遠場語音識別前端演算法,2016年5月聯合創建聲智科技。
該課程共分四章24個課時,主要講解語音信號處理,麥克風陣列信號處理,語音識別中的關鍵技術及實用技巧,通過該課程的學習,可以了解目前AI設備(智能音響、機器人、車載設備等)中語音交互的關鍵技術,根據一些開源軟體及硬體設備可以搭建一套遠場語音識別系統,同時語音信號處理中的回聲消除、雜訊抑制技術也是VOIP的核心,廣泛應用於各類直播平台、即時通訊等應用軟體中。
除了在課程中深度的剖析和講解外,馮老師還在課後的評論區和同學們互動交流,探討技術細節。
現將部分探討精選如下:
問題一:
學生:馮老師好!您講到Echo是實時估計說話人方向的,這個比較難,那麼Echo是怎樣做到的呢?
馮大航:其實實時估計說話人的方向技術上難度不大,可以利用語音端點檢測檢測到語音,然後將這段語音分成多段,每段進行DOA估計,最後可以將這些DOA估計結果進行卡爾曼濾波,就可以實現對說話人的跟蹤。但實際中,情況比較複雜,比如旁邊可能突然有人說話,那doa估計可能就會算錯了,現實當中主要是這種方法魯棒性不夠好,你實際使用echo的時候就會發現,如果旁邊放一個干擾源,它的doa也經常會出錯。叮咚音響,已經我們的音響採取的策略就是只計算一次說話人的方向,增加魯棒性。
問題二:
學生:請問實際工程中麥克陣列和單路回聲消除有哪些差異?麥克風陣列回聲消除的優勢有哪些?
馮大航:麥克風陣列回聲消除有很多種做法,是先每一路做回聲消除,然後再做波束形成,還是先做波束形成,再做回聲消除,再或者是先做一部分回聲消除,做波束形成,做回聲消除。取決於你系統的計算能力,以及波束形成採用什麼結構,這裡很難給出一個定性的結論。一般來說先做回聲消除,再做波束形成效果最好,但計算量最大。
麥克風陣列對回聲消除的作用主要體現在後面的波束形成,去混響等演算法上,因為波束形成也會對回聲有抑制作用。所以總體上看麥克風陣列的回聲消除效果要好於單麥克的回聲消除。
問題三:
學生:在真實環境中,不可避免地會出現多源、混響等情況。請問如何判斷MUSIC演算法中360°beamscan DOA得到峰值的真實性。比如在單源+混響的情況下,麥克風陣列會收到來自不同方向的源和混響信號,MUSIC的聲源數量參數是否可以取大些,如4。這樣會同時估計到信源方向和混響方向而不影響演算法的魯棒性。
馮大航:這個涉及信源數估計問題,這個問題學術上研究很多,比如最簡單的判斷自相關矩陣的特徵值大小,但實際中效果都不好。MUSIC信源數取的大,會導致有些信息沒用上,比如原本有3個雜訊向量,你只取了一個,效果肯定不如用3個計算的好。所以music演算法最大的問題是需要預先對信源數估計,而信源數估計又很難,是一個死循環。演算法帶來好處的同時,一定有壞處,就看你使用的場景能否忍受這個壞處。
類似這樣學員與老師的問答還有很多,作為學員福利,在7月1日上午10點,雷鋒網特邀請馮大航老師對於課程內容進行直播答疑。為了讓更多對語音、聲學感興趣的童鞋參與進來,我們放出部分參與名額,但為了保證答疑質量,一旦人數達到限制,將關閉報名入口。
本直播直播地址為:http://www.mooc.ai/course/109,可免費觀看,請同學們設好鬧鐘,提前準備好問題前排就坐。也可以加助教微信:mooccai,自報家門和來意。
※微軟Windows的下一次大更新:將使用AI來打擊惡意軟體
※激光電視市場火熱,誰能吃下這塊大餡餅?
※vivo 發布「隱形指紋」功能:屏幕下的指紋識別到底什麼樣?
TAG:雷鋒網 |
※海爾電視遠場語音黑科技:離5米都可用嘴遙控,海量內容一「說」便播
※小米發布小愛音箱mini 與聲智科技共推4麥遠場技術領先市場
※口袋大屏還有遠場AI語音 創維小湃P2智能微投圖賞
※裝備遠場智能語音 堅果J7S智能投影上線預約
※支持遠場拾音+AI智能交互,音箱跨界玩起「馬卡龍」,顏值好高!
※最有趣的智能投影之一,遠場AI語音「高手」堅果J7S評測
※從遠場語音到人臉識別,人工智慧電視的康佳範本
※新鮮出爐的寶藏投影堅果J7S!會「聽話」,遠場語音更好玩
※LG推出G7 ThinQ 內建AI相機具有遠場語音識別和iPhone X缺口設計
※全新配色,遠場AI智能語音,堅果G7S智能投影,年輕人頭號玩品
※799元Rokid Me評測:遠場拾音 獨特交互
※語音遠場交互的下一個主戰場是手機?
※小愛觸屏音箱的最大缺點是難喚醒和誤喚:精簡了麥克風和遠場拾音
※標配遠場麥克風!亞馬遜發布四款Alexa原型PC
※還為無線充電寶興奮?更酷的遠場無線充電要來了