鬧市中的科學問題

最新 04-03

請想像一下這樣一個場景：

在一個普普通通陽光明媚的下午，你獨自走在街上，前面有兩個人，他們正在討論著附近新開的一家便利店。突然，身後傳來了一陣急促的狗叫聲，「汪汪汪」，你趕緊回頭看看是怎麼回事。這時，街道的那頭傳來了警車的鳴笛聲，「嗚哇兒，嗚哇兒，嗚哇兒」。

過了一會兒，你晃過神來，發現狗的叫聲似乎並沒有停歇，而行人的討論聲依然還在耳旁，警車的鳴笛聲漸行漸遠。

你也許還沒有意識到，其實你剛剛遇到並輕鬆完成了一個困擾計算科學半個多世紀的難題——雞尾酒會問題。

圖

1.一個街道上的聽覺場景，圖片來自IEEE Spectrum

雞尾酒會問題（cocktail party problem），是英國認知科學家 Edward ColinCherry 於1953年在研究注意力機制時提出的。它指的是人類在複雜聽覺環境下的一種聽力選擇能力。

在多種聲音出現的情況下，人可以把注意力集中在某一個聲音刺激上，而忽略其他的背景聲音。也就是說，人類可以集中在某一個人的談話之中，而忽略背景中其他的對話或噪音。

回想一下剛才我們假設的這個場景，當警車鳴笛聲出現時，我們可能迅速將注意力集中到這個聲音上面，而忽略了其他聲音的干擾，比如說行人的說話聲和狗叫聲。當然，你可以隨意測試在多個聲源環境下的聽覺行為，事實會告訴你，你總是可以自然而完美地聽到你想要聽到的部分，但是卻總是無法同時關注到多個聲源。

圖片來自網路

事實上，面對複雜環境的聽覺注意力選擇能力是人類聽覺系統表現出來的一項驚人天賦。雞尾酒會效應的產生機制雖然複雜，但對於我們人類來說，在多個聲源之間轉換注意力是一件非常輕鬆的事，以至於我們甚至感受不到這個過程的存在。然而，對於我們的計算機或者各種智能設備來說，如何在複雜的環境中選擇想要聽的聲音，這就是一個很大的難題了。

針對這個問題，科學家們一直在進行分析和研究。在過去60年中，科學家們針對雞尾酒會問題提出了很多的方法。大致可以形成這三種不同的流派：基於信號處理的方法、基於規則的方法，以及基於分解的方法。然而，這些方法卻依然受限於其各自理想情況下的假設，或者較為穩定的數據條件。對於計算系統而言，真正較為複雜環境下的聽覺選擇仍然難以得到理想的效果。

幸運的是，隨著技術的發展和數據的積累，深度神經網路的方法也開始在解決雞尾酒會問題的領域大顯身手。

雞尾酒會問題旨在從被干擾的語音信號中分離出有用的信號，這個過程能夠很自然地表達成一個監督學習問題。深度神經網路作為當前監督學習最有力的一種方法，可以被用做學習一個從帶噪原始數據信號到分離目標（例如理想掩蔽或者感興趣語音的幅度譜）的映射函數。

日前，中科院自動化所聽覺模型與認知計算團隊在這方面有了新的進展。科研人員提出一種聽覺注意性選擇模型，將雞尾酒會的問題聚焦在「注意力」這一關鍵和出發點上。