藉助 RNN 從腦電波還原語音，Nature 論文呈上新款「腦機介面」

新聞 04-26

雷鋒網 AI 科技評論按：近日，來自加州大學舊金山分校的研究者開發出了一種能將大腦信號轉換為語音的虛擬假體語音系統，可幫助癲癇和其他神經性疾病患者還原語音能力。這項研究成果於 4 月 24 日發表在《自然》雜誌上，並得到了多家媒體的報道，其中就包括《紐約時報》。雷鋒網 AI 科技評論將《紐約時報》的這篇報道編譯如下。

「我在腦海中將每一個句子都過十遍，或刪掉一個單詞，或再添加一個形容詞，並通過背誦來逐段地琢磨我的文字。」Jean-Dominique Bauby 在他的回憶錄《潛水鐘和蝴蝶》中這樣寫道。作為一位記者兼編輯，Bauby 在這本書里回憶了那次讓他的全身都幾乎無法動彈的癱瘓性中風之前和之後的生活。他眨著眼皮，逐字將書中的內容讀出來。

成千上萬的人由於在事故或爭鬥中受傷，或患上中風或肌萎縮側索硬化（ALS）等神經退行性疾病而喪失說話能力，都同樣地遭遇著溝通困境。

而現在，科學家們在報告中提出，他們已經開發了一種虛擬的假體語音系統，該系統能夠解碼大腦的說話意圖，並將它們轉化為基本可以理解的言語，而不需要移動任何肌肉，甚至是口腔內的肌肉。（物理學家兼作家斯蒂芬 · 霍金，曾經就使用他臉頰上的肌肉在鍵盤上打出字元，然後計算機再將這些字元合成為語音。）

佛羅里達州傑克遜維爾市梅奧醫學中心（Mayo clinic）的神經科醫生兼神經科學家 Anthony Ritaccio 博士並非該研究組的成員，他表示：「這（AI 科技評論註：解碼大腦信號）是一項艱巨的工作，它推動我們進入了語音還原的另一個層次」。

實際上，此前研究人員就已經開發出了其他的虛擬語音輔助工具。它們都通過解碼負責識別字母和單詞以及口頭表示的大腦信號來實現語音輔助，但是這些方法在自然語言表達的速度和流動性上尚顯不足。

這個新系統的相關工作於周三發表在《自然》雜誌上，它譯解了大腦在說話期間用來指導聲帶運動（如舌頭與口腔的碰撞、嘴唇縮窄等）的控制命令，產生的句子在可理解的同時，也接近於說話者自然的說話節奏。

專家們認為，這項新的工作成果代表了一次「原理論證」，它預示著某些事情經過進一步的實驗和提升後可能實現的目標。研究者在能正常說話的人身上測試了該系統，不過還尚未將其放在那些身患造成解碼難度或無法實現的神經性疾病或重傷（例如常見的中風）的患者身上進行測試。

針對新的試驗，加州大學舊金山分校和加州大學伯克利分校的科學家們招募了五名在醫院接受癲癇手術評估的患者。

藉助 RNN 從腦電波還原語音，Nature 論文呈上新款「腦機介面」

打開今日頭條，查看更多圖片

ECoG 電極矩陣由能夠記錄大腦活動的顱內電極組成（圖源：加州大學舊金山分校）

藉助 RNN 從腦電波還原語音，Nature 論文呈上新款「腦機介面」

Gopala Anumanchipalli 是加州大學舊金山分校的神經學家，他正拿著一個跟在當前研究中所使用的電極矩陣非常相似的電極矩陣（圖源：加州大學舊金山分校）

許多癲癇患者都由於藥物治療效果不佳而選擇接受腦部手術。在手術前，醫生必須首先找到癲癇在每個人的大腦中發作的「熱點」，這通過在大腦中或大腦表面上放置電極，並聽取明顯的電風暴 (electrical storms) 來完成。

對此位置進行精確定位可能需要耗費數周時間。在此期間，患者通過在涉及到運動和聽覺信號的大腦區域裡面或附近植入電極來度日。這些患者往往會同意在這些植入物體上搭載其他額外的實驗。

加州大學舊金山分校的這五名此類患者就接受在他們身上測試虛擬語音生成器。研究者在他們每個人的大腦中都植入了一個或兩個電極矩陣：郵票大小的襯墊包裹了數百個被放置在大腦表層的微小電極。

當每個志願者在背誦數百個句子時，電極就會記錄下運動皮層中神經元的發射模式。研究人員將這些模式與患者在自然說話期間所發生的嘴唇、舌頭、喉部以及下頜的微妙運動聯繫起來。之後，研究團隊再將這些運動轉譯為成口頭表達的句子。

另外在實驗中，研究者還讓以英語為母語的人聽取句子來測試虛擬語音生成器的流暢度，最終發現虛擬系統說出的 70% 的內容都是可理解的。

藉助 RNN 從腦電波還原語音，Nature 論文呈上新款「腦機介面」

Edward Chang 博士致力於研究大腦如何產生和分析語音，他開發了一個為癲癇和其他神經性疾病患者還原語音能力的假體。（圖源：加州大學舊金山分校）

這項新研究工作的論文作者、加州大學舊金山分校神經外科教授 Edward Chang 博士表示，「實驗顯示，我們通過解碼指導發音的大腦活動模擬出來的語音，比根據從大腦中提取出來的聲音表示而合成的語音更準確，也更自然。」Edward Chang 博士的同事是同在加州大學舊金山分校的 Gopala K. Anumanchipalli 以及同時在加州大學舊金山分校和加州大學伯克利分校任教的 Josh Chartier。

以前基於植入物的通信系統，每分鐘可生成大約 8 個單詞。而這項新成果每分鐘能以自然的說話節奏生成約 150 個單詞。

研究人員還發現，其他人可以使用和調整基於某個人的大腦活動的合成語音系統——這就暗示著現有的虛擬系統在未來某一天都能夠對外開放。

該團隊正計劃展開臨床試驗以進一步測試該系統。而臨床試驗面臨的最大挑戰，可能是尋找合適的患者：讓人類喪失說活能力的中風，往往也會損害或影響到支持語音發音的大腦區域。

儘管如此，眾所周知，腦器介面技術（相關技術可查看雷鋒網 AI 科技評論此前的一篇相關報道）領域正在迅速發展，世界各地的研究團隊也正在改進這項技術，未來有可能實現對特定傷患進行腦器介面技術的量身定製。

埃默里大學、喬治亞理工學院的生物醫學工程師 Chethan Pandarinath 和 Yahia H. Ali 在一篇附隨評論中寫道：「隨著這項新技術的持續進步，我們能夠期待有言語障礙的人能夠（憑藉這項技術）重新獲得自由表達個人想法的能力，並與其周圍的世界重新建立聯繫。」

論文：《Speech synthesis from neural decoding of spoken sentences》
下載地址：https://www.nature.com/articles/s41586-019-1119-1

摘要：將神經活動轉換成語音的技術對於因神經系統損傷而無法正常交流的人來說，是革命性的。從神經活動中解碼語音極具挑戰性，因為說話者需要對聲道發聲進行非常精準、快速的多維度控制。這項新研究設計了一個神經解碼器，以顯式地利用人類大腦皮層活動中進行了編碼的運動表示和聲音表示來合成語音。首先，用循環神經網路直接將記錄的大腦皮層活動解碼為發音運動的表示，然後將這些表示轉換為語音。在封閉的辭彙測試中，聽眾可以識別和轉錄出利用大腦皮層活動合成的語音。中間的發音動態即使在數據有限的情況下也能幫助提升性能。講話者可以較大程度地保存經過解碼的發音運動表示，從而使得解碼器的組件可在不同參與者之間遷移。此外，該解碼器還可以在參與者默念句子時合成語音。這些發現都提升了使用神經假體技術還原語音交流能力的臨床可行性。

via：https://www.nytimes.com/2019/04/24/health/artificial-speech-brain-injury.html

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※周鴻禕版兄弟情：十米之外，送齊離開
※挑戰 Intel 和英偉達，高通發布 Cloud AI 100 邊緣推理晶元

TAG:雷鋒網 |