微軟研究員提出多束深度吸引子網路,解決語音識別「雞尾酒會問題」
或許這也是一種方法論:當針對一個問題有多種方法時,不妨將它們綜合起來,或能取各家之長,補各家之短。
本文所要介紹的工作正是採用了這種思路,在語音識別的雞尾酒會問題上取得了較大的突破。
雷鋒網 AI 科技評論按:近日來自 Microsoft AI and Research 的研究員在 arXiv 上貼出一篇論文《Cracking the cocktail party problem by multi-beam deep attractor network》,即利用多束深度吸引子網路解決雞尾酒派對問題。
所謂「雞尾酒會問題」是指人的一種聽力選擇能力,在這種情況下,注意力集中在某一個人的談話之中而忽略背景中其他的對話或噪音。雷鋒網做一個類比,雞尾酒會現象就是圖形-背景現象的聽覺版本。這裡的「圖形」是我們所注意或引起我們注意的聲音,「背景」是其他的聲音。
具體來說,雞尾酒會問題的任務就是在高度重疊的音頻中將不同說話者的內容分離和識別出來。我們人類可以很容易完成這項任務,但是要想建立一個有效的系統來模擬這個過程還是挺困難的。事實上這也是語音信號處理中最為困難的挑戰之一,對它已經超過 60 年的研究,但由於混合源的變化很大,所以即使現在雞尾酒會問題仍未解決。
在「深度學習時代」之前,有一些學者在這個任務上也做了一些嘗試。事實上,雞尾酒會問題可以分成兩類:單通道系統和多通道系統,兩者的區別就在於前者只有一個麥克風,而後者後多個。在單通道系統中,分離過程完全依賴於語音的頻譜屬性(例如音調的連續性、諧波結構、常見的聲母等),這可以通過統計模型、基於規則的模型或者基於分解的模型。在多通道系統中,分離過程可以利用聲源的空間屬性。但是不管使用多少麥克風,大多數現有的系統只能用於相當簡單的情況,例如固定揚聲器、有限辭彙表、不同性別的混合等,在一般的情況中則不能產生滿意的性能。
隨著深度學習的爆發,雞尾酒會問題也有了較大的進步。不過與大多數其他深度學習任務不同的的是,多人說話的分離有兩個獨特的問題:置換問題和輸出維度問題。
置換問題:大多數深度學習演算法要求評估目標是固定的,而在多人講話分離任務重,分離源的任意置換是等價的。
輸出維度問題:指混合說話的人數在不同樣本中是不同的,這就造成了學習的困難,因為神經網路通常要求其輸出層具有固定的維度。
目前有三種單通道神經網路模型,即深聚類(Deep Clustering)、深吸引子網路(Deep Attractor Network)、置換不變訓練(Permutation Invariant Training)。在深聚類和深吸引子網路中,會將混合頻譜中每個時頻段映射到更高維度表示中,也即所謂的嵌入,這兩種模型能夠有效的解決上述兩個問題。而置換不變訓練模型則通過掩碼學習框架(Mask Learning Framework),其中網路受限為每個目標說話者生成輸出掩碼,然後徹底搜索輸出與乾淨的參考音源之間的組合來解決置換問題。這三種演算法在很大程度上提高了語音分離領域的水平。對他們的評估結果顯示,它們在普通數據集的兩音源和三音源分離問題上具有相似的表現。
儘管以上基於深度學習的方法在雞尾酒會問題中取得了很大的突破,但是它們離應用於真實世界的應用程序中還存在很大困難。這主要有兩個原因:
首先,它們的分離能力有限。例如當有四個講話者時(即使是最簡單的兩個男性和兩個女性的分離任務),由於聲音混合較為複雜,每個講話者的聲音大部分都會被其他講話者的聲音掩蓋住,上面提到的幾種單聲道模型幾乎無法完成這樣的任務。
其次,目前的單聲道系統通常容易受到混響的影響,這主要是因為混響會模糊掉單通道分離系統用來分離講話者的語音頻譜線索。
在多通道方法中,目前也有幾種基於神經網路的模型,例如聲學模型(Acoustic Modeling)和語音增強(Speech Enhancement)。但是現有的系統都還沒有解決雞尾酒會問題。例如在語音增強模型中,每個通道都需要一個預先學習的掩碼,這在當前是不適用的,因為還沒有一個系統能夠自動獲取掩碼。而在聲學建模中,則需要多個彙集步驟,這不適用於多方講話者的場景。作者表示,就他們所知目前還沒有一種系統能夠處理複雜的多方講話者語音分離問題。
為了消除以上這些模型性能上的限制,將單通道和多通道方法進行結合是一個很自然選擇方向,因為這兩種方法使用了不同的信息進行分離,因此會起到相互補充的作用。
在作者所發表的這份工作中,他們提出了一種新穎、有效且簡單的多通道語音分離和識別系統。這個系統由多聲道部分和多聲道部分組成。
模型架構
多通道處理 由 12 個固定束(beam)的差分波束形成器組成,它們在空間中進行等價的採樣;然後進行單通道處理,這通過錨定深度吸引子網路(Anchored Deep Attractor Network)來實現,其中每個通道都會學習比率掩碼(Ratio Mask)。
通過結合多聲道處理和單聲道處理,這種系統可以充分利用空間和頻譜信息,並且能夠克服大多數多聲道系統只能在封閉環境中運行的限制,從而使性能優於單通道和多通道系統。該系統利用 beam 作為神經網路輸入,這可以消除神經網路的複雜域處理,並且將空間處理和頻譜處理單獨處理,這可以使系統獨立於麥克風的位置分布。由於引入吸引子網路結構,作者所提出的這個系統能夠執行端到端的優化過程,並且可以擴展到任意數目的音源,而不會有置換或者輸出維度的問題。
實驗結果
先來個直觀的感受:
在這個例子中,上面是原始混合頻譜,中間為根據模型分離並重構出四個說話者的音頻頻譜,最下面則為原始無混合的參考音頻頻譜。可以看出基本上一致。在所有測試數據上都有類似的表現。再來看一下具體情況——
語音分離
這個表格中綠色背景的為對比模型,數據單位為dB,越大越好。其中:
MBBF——multi-beam beamformer,
OGEV——oracle generalized eigenvalue
OMVDR——oracle minimum variance distortionless response
IRM——ideal-ratio-mask
DAN——deep attractor network
而 MBDAN、OMBDAN、MBIRM 則分別是依照作者所提出的系統對上面模型進行的改造。可以看出,這三種模型的表現遠遠優於其他模型。當然從這個表中其實還可以看出蠻多信息的。
首先,我們可以看到,無論是在封閉環境還是開放環境,這三個模型在性能上並沒有太大變化。這說明這些模型可以在現實世界的場景中使用。
其次,與其他波束形成演算法(例如 MBBF、OGEV)相比,性能上有 40% 以上的提升,並取得了與 OMVDR 類似的性能,但 OMVDR 模型的缺點是要求必須具有確切的位置信息。
再次,MBBF 和 MBDAN 的對比可以看出,多通道模型與單通道模型的結合能夠產生互利的結果。
最後,當與單通道的模型比較式,我們可以看到有明顯的優勢。這也是由於結合多通道後彌補了單通道模型混響問題。
語音識別
上表中顯示了用 OMBDAN 模型分離出語音後再做識別的性能,分別有 clean model 和 Far-field model 兩種。可以看出表中六種條件的混合語音的 WER(word error rate)都接近 100%。但是經過處理後,WER 在所有條件下均大幅下降。與凈化模型相比,相對凈增量分別為 62.80%,58.73%,45.59%,遠場模型分別為 69.51%,64.19%,52.53%。由於混響和平穩雜訊包含在訓練數據中,遠場模型取得了更好的性能。
論 文 摘 要
最近神經網路的使用對單通道語音分離方法(或者更廣義地說,雞尾酒會問題)的性能有了顯著的提升,不過在多通道問題中的性能仍然不能讓人滿意。在這項工作中,我們提出了一種新的多通道框架來進行多通道的分離。在所提出的模型中,我們首先將輸入的多聲道混合信號轉換為使用固定波束模式的一組波束形成信號。對於這種波束形成,我們建議使用差分波束形成器,因為它們更適合於語音分離。然後,每個波束形成的信號被送到單通道錨定深度吸引子網路中來生成分離的信號。通過懸著每個光束的分離輸出來獲得最終的分離結果。
為了評估所提出的這個系統,我們創建了一個具有挑戰性的數據集,其中包含 2、3、4 個說話者的混合。我們的結果表明,所提出的系統在很大程度上改善了語音分離領域的現狀,對於 4、3、2 個說話者的混合,實現了 11.5dB、11.76dB、11.02dB 的平均信號與失真比的改善,其性能與使用 oracle 位置、源和雜訊信息等信息的模型相近或更好。我們還使用乾淨的訓練好的聲學模型對分離後的語音進行語音識別,在 4、3、2 個說話者完全重疊的語音上分別實現將相對詞錯誤率(WER)降低 45.76%、59.40%、62.80%。使用遠場講話聲學模型,WER 會進一步降低。
雷鋒網註:論文地址,https://arxiv.org/abs/1803.10924
※三星發布首款 AI 處理器 Exynos 8610:對標高通驍龍 700 系
※「指關節」觸控嵌入華為手機後,這家公司要助力消滅手機「劉海」
TAG:雷鋒網 |