當前位置:
首頁 > 新聞 > 小米、高通押寶的下一個AI風口:改造機器聽覺

小米、高通押寶的下一個AI風口:改造機器聽覺

許多人認為這次的 AI 復興主要來自兩個領域的突破:機器視覺和自然語言處理,特別是在機器視覺比如人/物的體識別、自動駕駛等,都已經取得很好的表現後,科學家們正在攻克另一個領域—機器聽覺。

在眾多智能語音助手、智能音箱問世的帶動下,提到機器聽覺很容易直接讓人聯想到「關鍵詞喚醒」、「自動語音識別」(ASR),例如先喊一聲 Hey Siri、Alexa、小愛同學,呼喚這些智能語音助理,接著對其下指令。其實,機器聽覺是一門範疇廣泛的領域,從聲學系統、腦怎麼處理聲音、到如何將人類的聽覺知識封裝在演算法中,以及如何把演算法組合成一個可模擬聽覺的機器。

人類的耳朵除了讓我們聽得更清楚,還能識別聲音的方向,知道發聲的物體是什麼,或者判斷處在一個什麼樣的環境當中。想要讓機器能夠具備如同人類耳朵的完整功能,現有技術還是很難實現,像是吵雜環境的多人音源分離、遠場語音交互等,大家講遠場識音可以達到 3 米、5 米,但要做到 3 米、5 米有一個前提,就是噪音不能太大。正因技術發展還有巨大的提升空間,不少科學家正通過深度學習來改善,並推動行業的發展。

美國著名發明家和科學家 Richard F. Lyon 在 2010 年發表一篇關於機器聽覺的重磅「Machine Hearing: An Emerging Field」,指出機器聽覺將成為一個新興領域。文章指出,「我們的計算機目前基本是聾的,它們對於自己存儲和處理的聲音幾乎沒有概念」,「近年來,基於文本的圖像或視頻分析穩健發展,但聲音分析則顯得滯後.... 與機器視覺的多樣化和活躍度相比,機器聽覺領域仍處於起步階段」。

因此,他利用類似機器視覺建模的方法,來打造一個 4 個主要模塊的聽覺系統結構:1. 外圍分析器(peripheral analyzer)、2. 聽覺圖像生成器(auditory image generators)、3.特徵提取模塊(feature extraction module),這個部分在機器視覺領域,就是把圖像作為輸入,萃取出多尺度的功能、4. 可訓練的分類器或決策模塊(a trainable classifier or decision module),這個階段會針對應用程序選用適合的機器學習技術,並利用上階段提取的特徵來做決策。

Richard F. Lyon 指出,要打造一個「智能環境」系統是項大工程,可以通過具聽覺的機器來實現,把它們安裝在汽車、家庭、辦公室的計算機,利用這些「聽覺前端」實時添加應用程序、執行任務,而且配合「特徵提取」、「機器學習」來實現。現在來看,他成功預言了 8 年後今日的樣貌,自動駕駛、智能音箱等都選擇以「聽覺前端」作為交互的入口。

另外,值得一提 Richard F. Lyon 在 80 年代晚期任職於蘋果的先進科技部門,當時蘋果曾推出 PDA 產品 Apple Newton,其中的手寫識別系統 Inkwell 也是由他開發。他也曾在 Google 工作,從事聽覺和聲音處理的研究工作。

此外,華人科學家汪德亮,同樣是機器聽覺的大牛,身為俄亥俄州立大學感知與神經動力學實驗室主任的他,不僅是機器視覺、聽覺交叉學科的專家,更是把深度神經網路引入機器聽覺領域的先驅,例如通過機器學習把嘈雜的說話聲樣本切割為時頻單位(time-frequency units),並從這些單位提取出數十種特徵來區分語音和其他聲音,接著把特徵送到深度神經網路中,藉此訓練出可以分離出語音單元的模型。最後,把這個程序應用在濾波器上,過濾掉所有非語音的單元,只留下分離後的人聲。他的最終目的是希望藉此改善助聽器的品質。

為了把學術研究成果轉化為商業化技術,他以聯合創始人的身份創辦了專攻機器視覺的人工智慧初創公司大象聲科。就在幾周前,大象聲科完成了數千萬人民幣的 Pre-A 輪投資,領投者出現兩個重要名字:小米和高通創投,不難猜想這兩家公司的戰略意義之外,更代表機器聽覺的技術將隨著硬體巨頭的重視可望進入大規模的落地。

機器聽覺仍遠落後於人類

視覺跟聽覺可說是人類最重要的兩個感知能力,機器視覺在許多特殊場景下已經超過人類水平。但是為什麼機器聽覺的發展速度卻不如機器視覺快,仍遠落後人類?

大象聲科 CEO 苗健彰接受 DT 君採訪時解釋,視覺是一種遮擋的信號,不論是區分圖像、物體、人臉,機器可以容易畫出物體的邊緣,但是,聲音是一種疊加的信號,比如一個場景裡面有各種的人聲、雜訊等疊加在一起,信號能量混在一起之後,想要將其分開就很困難。另一個原因是起初深度學習多被應用在語音識別,而更前端的信號處理部分大約是到 2013 年左右才開始引入 AI。前端處理是指在特徵提取之前,對原始語音進行處理,如雜訊抑制、回聲消除、混響抑制等。

不過,近來行業開始湧現了非常大的需求,越來越多智能硬體、機器人需要語音交互。

傳統設計思維過時

在今年 4 月鎚子堅果 3 手機發布會上,提到內置了「AI 通話智能降噪」,簡單說就是通話聽清,背後的技術即是來自大象聲科。

降噪,不是項新概念,市場上也有許多降噪耳塞,效果如何總是得體驗過才知道,既然並非人人都是鎚子用戶,為了讓一般人可以感受,大象聲科其實做了一個錄音 APP—VOCPLUS,苗健彰表示,現在錄音筆多半不具備降噪功能,遇到吵雜環境往往沒轍。不過,APP 只是讓大眾體驗的入口,並沒有打算將其商業化,公司定位是面對手機業者的 B2B 生意,真正商業化如鎚子手機的降噪就是與 APP 同樣的技術。而 DT 君實際試用該款 APP,感覺對於消除環境噪音確實有不錯的效果,有興趣的讀者可以自行下載試試。

為什麼可以做到很好的效果,是提取噪音進而消除嗎?答案其實正好相反。

苗健彰指出,傳統信號處理的思路是基於噪音特徵,比如噪音的 Pattern 是如何、在頻率上有什麼特性等,接著設計濾波器,把噪音留在濾網上,剩下的聲音就留下來,但這麼做存在一個問題,就是世界上的雜訊種類變化太多,聚合一起有各種排列組合,而且很多的動態噪音沒有辦法事先預測何時會出現。

所以大象聲科換了一個角度來思考問題:既然人類語音的 Pattern 特徵其實很明顯,那就把在重點放在人的聲音上,讓機器只關注人的聲音,反而更符合人類聽覺的基本原理,當我們與朋友在餐廳吃飯,環境很吵,但人類仍然可以輕鬆對話,就是因為我們把注意力放在對方身上,這也是為什麼人類可以簡單解決雞尾酒會的問題。

盲源分離是機器聽覺缺失的一塊

他進一步解釋,「機器其實缺失的聽覺功能是盲源分離(BSS,Blind Source Separation),也就是判斷發聲音源」。

為了解決雞尾酒會問題,盲源分離成了近年來信號處理領域的一個研究熱點,BBS 是指一種不需要任何預先得到資訊,從感測器所量測到的混合信號(mixtures)中,把信號源(sources)抽取、分離出來的方式,目前在語音信號分離、麥克風陣列信號處理、生醫訊號如腦電波(EEG)處理等領域都有不少研究。

盲源分離的基本架構如下圖,假設有兩個聲音源 S1、S2,經過了一個未知的混合過程,麥克風收到了兩個聲源的混合信號 X1、X2,而 a11、a12、a21、a22 代表聲源到麥克風的衰減程度,這些係數皆為未知,這也就是稱為「盲」的原因,盲源分離的目標就是在信號和混合過程均未知的情況下,分離出各種音源。

圖|盲源分離技術基本概念

Google 雙人聲分離展現高水準,用視覺輔助聽覺

在看不見的情況下,如何把各種各樣的音源區分開來,是機器聽覺裡面的一個挑戰,解決這個挑戰就有多種思路,「AI 其實提供了一個好的辦法」:通過訓練讓模型能夠自主在嘈雜環境底下把聲音特徵提取出來。

目前來看,大象聲科技術強項在分離人聲和噪音,解決了手機產品某種程度的雞尾酒會問題,不過在其他場景仍有待克服,例如智能音箱、電話會議場景等,還需要解決人聲跟人聲的分類,「多個說話人聲分離,甚至還要記錄下來,可說是在語音分離上最高級的挑戰」。

在多人聲分離領域,Google 前陣子展示把兩個人對話分離的成果,結合視頻的圖像來輔助,就是說,在某些複雜且嘈雜的場景下,加入視覺信號分析來做語音分離,是一個趨勢。

在今年的 Google IO 大會上展示了一段影片,運動節目里兩位來賓情緒激動,說話針鋒相對,你一言我一句,聲音重疊幾乎很難聽清楚任何一方在說什麼,這種情況常出現在新聞節目、脫口秀、會議上,而 Google 做到將兩個人聲分離,讓用戶可以在視頻中指定讓某人「靜音」,只聽見另一方的聲音。「這在語音分離部分是一個很棒的進展,」,他說。

Google 將此技術稱為 Audio-Visual Speech Separation(聲音影像的說話分離),最大的特點就在「聯合視聽模型」,不只是分析人聲跟背景噪音,還會分析視頻中人物的嘴型與表情。研究團隊用了 YouTube 上只有單一講者的無干擾演講影片,並將這 10 萬個、總時數長達 2,000 小時的影片混入其他演講影片與背景雜音,以訓練多重串流卷積神經網路(Multi-Stream Convolutional Neural Network),進而把各個人物所說的話分離成獨立音軌。

圖|谷歌的 Audio-Visual Speech Separation 技術

圖|用視頻中的嘴型、表情來協助完成語音分離

其他的趨勢還有像是機器可以從聲音去判斷用戶的情緒是好是壞,或是機器透過聽覺,它可以自己知道身處在一個什麼樣的環境當中,甚至是當它如果聽不清楚的時候,它可能會主動告訴你:「對不起,我聽不太清,可以把音樂關小一點嗎」,這些都是機器現在不具備的能力,但在未來有機會擁有。有了這些技術功能,智能音箱可能就不會再鬧笑話。

分頭讓人、機器聽得更清楚,考量推出機器聽覺晶元

目前大象聲科主要技術是分離人聲與非人聲,但也逐步投入多人聲分離的研究。而機器聽覺的 AI 訓練其實跟機器視覺概念類似,同樣要提供大量的聲音數據,男女、小孩、高低音等都是必要的,同樣也需要給予標註(label)數據,例如發聲源、發聲時間的起始。

另外,人聲具有一些特點,例如,發聲範圍分為 20~2 萬赫茲之間、大約 24 個頻段。第二、人聲是連續地。機器學習的優勢就在於,通過大規模數據的堆積,機器能夠自己尋找到這些特徵,進而判斷,例如判斷環境是戶外或室內、在車內還車外,在車內有開窗或沒開窗等,這對於車載交互就很有幫助。

大象聲科想要解決的兩大問題:一是讓「人」聽得更清楚,針對手機通訊、雲通訊等領域所推出的智能通話降噪解決方案,能夠幫助用戶過濾掉通話環境中的背景噪音,讓對方聽得更清晰;另一個是讓「機器」聽得更清楚,為機器打造一雙智能耳朵,賦予其更靈敏的機器聽覺。大象聲科推出的智能交互解決方案,包含智能降噪、語音喚醒、聲紋識別等核心演算法,能夠為智能音箱、機器人、智能車載等行業帶來更自然的語音交互體驗。據了解,除鎚子的堅果3之外,今年年底前,這兩大解決方案也會逐漸在其他手機、智能家居和機器人等產品上進行商業落地。

公司主要採用軟體授權的商業模式,將演算法軟體授權給 OEM 廠家,嵌入在手機的數位訊號處理器(DSP )晶元、麥克風晶元上,或直接把它封裝成一個 SDK,提供給語音類軟體運營商。不過隨著市場需求提升,「有計劃將演算法和硬體結合起來,與晶元廠家合作定製一個專門、適合我們演算法的晶元,一方面可以進一步提高方案的性能,還可以幫助客戶降低系統總成本,縮短產品上市時間」,苗健彰說。

圖|大象聲科 CEO 苗健彰(圖片來源:DT 君)

不過由於大象聲科的團隊背景是以軟體見長,而做硬體需要長期積累和大量投入,但他認為,「所謂語音晶元就是聽覺晶元,什麼樣的公司做聽覺晶元最合適的?其實是對於機器聽覺演算法有很強認知的公司,因為知道這個演算法需要一個什麼樣的算力載體」,因此,大象聲科也希望找到能夠一同合作的夥伴。

當智能手機問世後,世界進入了觸屏交互時代,很有潛力的新一代交互方式則落到了語音身上,特別是在雙手被佔據的場景中,用說的比用摸的更方便,像是開車、工廠、醫療場景,語音交互可能會慢慢存在於未來各種各樣的設備中,「我們的技術在於將微弱的人聲從嘈雜的背景當中提取出來,無形植入未來任何一台需要「聽」的智能設備當中,這種存在其實是觀察不到的」,就像是老子《道德經》中所言:大象無形,大音希聲。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

Facebook加碼機器人研究,在多地設立實驗室展開搶人大戰
這個 3D 列印的磁性結構體能夠爬行、滾動、跳躍,甚至還能玩接球

TAG:DeepTech深科技 |