解碼大腦信號直接合成語音，Nature新研究拯救失語者

新聞 04-25

為了讓失語者開口「說話」，神經科學家設計了一種可以將大腦信號轉換為語音句子的設備。這項研究發表在4月24日的Nature期刊上。

許多失去說話能力的人需要利用某種技術進行交流，這項技術要求他們做出微小的動作來控制屏幕上的游標，進而選擇單詞或字母。最著名的例子就是霍金，他使用的是一種利用臉頰肌肉激活的發聲裝置。但是由於使用者必須逐個字母打出自己要說的話，這種裝置通常速度很慢，每分鐘最多生成十個單詞，而正常說話者每分鐘平均要說 150 個詞，而這主要歸功於人類的聲道。

近日，來自加州大學舊金山分校的研究者發表了一項研究，他們設計了一種將大腦信號轉換為語音的設備，其原理為：將大腦活動映射到聲道發音運動進而轉換為聲音。聖地亞哥州立大學神經科學家 Stephanie Riès 表示，用這種方法創建出的語音比直接將大腦活動映射為聲音更加易於理解。

先來一段音頻感受一下：

音頻中包含兩個句子示例，每個句子第一遍由參與者朗讀，第二遍是利用該技術通過參與者的大腦信號合成出的語音。從音頻中可以聽出，這項技術已經可以合成完整的句子。但目前來看，該技術還不夠準確，無法完全脫離實驗室環境。

埃默里大學神經工程研究者 Chethan Pandarinath 表示，在此之前，科學家僅能利用 AI 將大腦信號轉換為單詞，而且這些單詞通常僅包含一個音節。「從單音節詞到句子的飛躍技術難度非常大，這也是這項技術令人印象深刻的原因所在。」

將大腦活動映射到發音運動

解碼大腦信號直接合成語音，Nature新研究拯救失語者

打開今日頭條，查看更多圖片

研究者將類似的電極植入參與者的頭骨以記錄他們的大腦信號。圖源：UCSF。

研究者將電極植入五名參與者的大腦表面，作為癲癇療法的一部分。首先，該團隊在參與者大聲朗讀數百個句子時記錄他們的大腦活動，然後將這些記錄與之前測定發聲時舌頭、嘴唇、下巴和喉部運動的實驗數據結合起來。

該團隊基於這些數據訓練了一種

深度學習

演算法，然後將該程序集成到解碼器中。該設備將大腦信號轉換為對聲道發音運動的估計，然後將這些運動轉換為合成語音。Chang 表示，聽了 101 個合成句子的聽眾平均能夠理解其中 70% 的單詞。

在另一項實驗中，研究者請一名參與者大聲朗讀句子，然後再只張嘴不出聲地默讀同樣的句子。Chang 表示，在只動嘴不出聲的情況下合成的句子質量比基於有聲語音創建的句子質量要低，但結果仍然令人振奮。

解碼器設計

這一新型解碼器共分為兩個階段，如圖 1 所示。

第一階段（見圖 1a–b）：將大腦信號轉換為聲道發音運動。使用雙向 LSTM 循環神經網路將連續的神經活動解碼為聲道發音運動特徵。

第二階段（見圖 1c-d）：將聲道發音運動轉換為合成語音。使用雙向 LSTM 將第一階段獲得的聲道發音運動特徵解碼為聲學特徵（圖 1c），然後將聲學特徵合成為語音。

解碼器的一個關鍵組成是中間發聲表示（見下圖 b）。這一步非常重要，因為 vSMC 在語音合成期間表現出穩健的神經激活，

語音合成

期間主要編碼發音運動。由於連續語音的發音追蹤在該研究的臨床環境中並不可行，因此研究者利用一種統計方法根據聲音記錄來估計聲道運動軌跡（嘴唇、舌頭和下巴的運動）以及其他生理特徵（如發聲方式）。這些特徵初始化了語音編碼器-解碼器中的瓶頸層，訓練該編碼器-解碼器的目的是重建參與者的言語聲學。然後用編碼器來推斷用於訓練神經解碼器的中間發聲表示。利用這種解碼策略，可以準確地重建語音頻譜。

解碼大腦信號直接合成語音，Nature新研究拯救失語者

圖 1：從神經信號中合成語音。

語音合成性能

該研究作者、加州大學舊金山分校神經外科醫生 Edward Chang 表示，使用該方法後，聽了 101 個合成句子的聽眾平均能夠理解其中 70% 的單詞。

具體性能見下圖，其中 b 展示了每個句子的平均詞錯率（WER）分布情況。

解碼大腦信號直接合成語音，Nature新研究拯救失語者

圖 2：合成語音的被理解程度，及其針對特定特徵時的性能。

下表展示了聽眾在一定詞錯率範圍內的轉錄文本：

解碼大腦信號直接合成語音，Nature新研究拯救失語者

為了驗證解碼器是否依賴參與者的語音，研究者進行了一項對比實驗：研究者請一名參與者大聲朗讀句子，然後再只張嘴不出聲地讀同樣的句子。結果表明，後者的合成語音頻譜與前者具備相似的頻譜曲線。

解碼大腦信號直接合成語音，Nature新研究拯救失語者

圖 3：只動嘴不發聲的情況下，該方法的語音合成結果。

方法局限

華盛頓大學神經工程研究者 Amy Orsborn 認為，目前尚不清楚這一新型語音解碼器是否能夠處理人們腦海中的辭彙。「這篇論文很好地證明了該方法適用於動嘴不出聲的情況，但是當一個人沒有動嘴時，它能否理解其想說的話呢？」

美國西北大學神經學家 Marc Slutzky 同意這種觀點，並認為該解碼器的性能仍有改進空間。他指出，聽眾現在是通過從一組詞中進行選擇來識別合成語音，隨著詞數量的增加，人們在選擇準確辭彙上會更加困難。

這項研究「是非常重要的一步，但距離輕鬆理解合成語音還有很長的路要走。」Slutzky 表示。

論文：Speech synthesis from neural decoding of spoken sentences

解碼大腦信號直接合成語音，Nature新研究拯救失語者

論文鏈接：https://www.nature.com/articles/s41586-019-1119-1

摘要：將神經活動轉換成語音的技術對於因神經系統損傷而無法正常交流的人來說是革命性的。從神經活動中解碼語音難度很大，因為說話者需要對聲道發聲部位進行非常精準、快速的多維度控制。本研究設計了一個神經解碼器，顯式地利用人類大腦皮層活動中編碼的運動表示和聲音表示來合成語音。首先用

循環神經網路

直接將記錄的大腦皮層活動解碼為發音運動的表示，然後將這些表示轉換為語音。在封閉的辭彙測試中，聽眾可以識別和轉錄出利用大腦皮層活動合成的語音。中間的發音動態即使在數據有限的情況下也能幫助提升性能。解碼後的發音運動表示可被「說話人」極大地保存，使得解碼器的組件可在不同參與者之間遷移。此外，該解碼器可以在參與者默念句子時合成語音。這些發現提升了使用神經假體技術恢復交流能力的臨床可行性。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※AI先驅、A×演算法發明者Nils Nilsson去世
※喬布斯十年前預言：Intel的十年之約已到，ARM將挑起大梁

TAG:機器之心 |