華裔教授實現腦機介面突破，首次實時解碼「問答對話」神經信號

新聞 08-06

今年 4 月，Nature雜誌曾發表腦機介面領域一項重大突破，加州大學舊金山分校神經外科華裔教授 Edward Chang 及同事開發出一種可以將腦活動轉化為語音的神經解碼器。該系統通過解碼與人類發音相關的腦信號，成功合成出受試者想要表達的語音，解決了癱瘓和失語患者所面臨的重大挑戰，為在失語者中恢復語音功能奠定了基礎。

時隔三個月，Edward Chang 教授再一次在腦機介面領域取得重大突破，不僅要實時識別和合成想要發出的語音，這次研究人員還實現了實時識別和合成正在聽到的語音。

這篇研究論文於 7 月 30 日發表在Nature Communications上，題為《利用人類大腦皮層活動實時解碼問答對話》。在研究中，Edward Chang 團隊成功解碼受試者聽覺和回答問題相關的大腦神經信號，並實時生成對應的文本記錄。

圖丨Edward Chang 教授（來源：UCSF）

這是第一次僅基於受試者對話期間記錄的神經信號，就識別出受試者何時正在傾聽或說話，並預測出受試者正在聽到或想要說出的內容。

此外，該神經解碼系統還能聯繫上下文語境，通過解碼問題的信息來提高解碼答案的準確性（因為某些答案僅對應著某些問題）。最終測試結果表明，該系統能夠解碼產生和感知的語音，準確率分別高達 61％和 76％。

這項研究，也意味著科學家們幫助那些不能說話的人實現通過「思想」進行交流的努力，離現實更進了一步。

「目前，由於癱瘓而失語的患者只能用殘留的眼球運動或肌肉抽搐來控制電腦界面，緩慢地拼寫單詞。但在很多情況下，他們的大腦中仍然存在著產生流利語言所需的信息，而現在我們需要通過新的技術讓他們表達出來。」Edward Chang 教授表示。

「多年來，我的實驗室主要專註於通過大腦信號如何識別和產生語言，隨著過去十年我們在該領域所看到的進展，我們很清楚，我們或許能夠利用這些發現來幫助失語患者。」

識別腦電波合成語音

「說話」簡直是一件極其簡單且毫不費力的事情，但實際上「說話」卻是人類執行的最複雜的活動之一。

失去說話的能力，是極其不幸和難以挽救的。因中風、肌萎縮側索硬化（霍金即患此病）或其他神經系統疾病而喪失語言功能和溝通能力的患者，亦不在少數。

如何讓這些失語者再次獲得「表達」的能力，是許多科學家們正在努力的事情。目前有一些用於大腦控制打字的腦機介面技術，通過監測頭部或眼睛的殘餘非語言運動，控制游標以逐個選擇字母並拼出單詞的形式，來幫助癱瘓患者對外表達。

但看過霍金生前「說話」視頻的人，可能就能體會到那種一分鐘蹦幾個單詞的那種崩潰。

（來源：iStock）

2017 年，一直專註於解碼神經元實現人工語音合成的 Edward Chang 教授以及他的研究生 Claire Tang 曾在Science雜誌發表論文，闡述大腦皮層顳上回神經元在語言中的重要性。研究首次發現了人類大腦中用於辨別相對聲調變化的神經元，而這種神經元可以幫助人類在語言中明確表達感情、交流思想。

之後，在今年 4 月Nature發表的研究中，Edward Chang 教授團隊設計了一種神經解碼器，明確地利用人類皮層活動中編碼的運動學和聲音表徵來合成可理解的合成語音，實現了以流利說話者速度的語音輸出。

圖丨用於語音合成的腦機介面（來源：Nature）

傳統的語音合成研究採用了上圖 a 的方法，即使用腦電圖設備監測大腦語音相關區域的神經信號，並嘗試使用循環神經網路將這些信號直接解碼為合成語音。

而 Edward Chang 以及同事開發了一種不同的方法（上圖 b），將解碼分為兩個步驟：第一步，將神經信號轉換成聲道咬合部位的運動（紅色）；第二步，將聲道咬合部位的運動轉換成合成語音。

此外在一項不需要受試者出聲（僅做出發音動作）的測試中，通過解碼無聲言語的特徵也成功實現了一定程度的語音合成。

可以說，無論是在語音重建的準確性方面，還是在聽眾對所產生語句的辨識力方面，Edward Chang 及其同事的研究結果都為語音合成腦機介面的概念驗證提供了令人信服的證據。

更進一步的「靈魂交流」

既然通過解碼大腦信號，即可代替張嘴說話，人工合成想要說的語音，那麼如何進一步識別和解碼出耳朵聽到聲音時的大腦信號，是不是就能實現不用語言對話的「靈魂交流」了呢？

在 7 月 30 日發表的最新研究中，Edward Chang 及其同事就做了這樣的嘗試，以希望能夠在互動式會話環境中對語音的「說」和「聽」進行實時解碼。

在自然交流的聽和說過程中，不同的聽覺和發音運動相關的大腦區域參與其中。而以往直接從人腦解碼語音的嘗試，通常都是把聽或說任務孤立起來進行考慮。

而 Edward Chang 及其實驗室的研究人員開發了一種方法，可以實時識別受試者對話過程中的大腦信號，並解碼出正在聽到或想要說出的內容。

具體而言，當受試者執行自然對話過程中語音感知（聽到問題）和發音（大聲回答）任務時，研究人員通過從高密度皮層腦電圖（ECoG）陣列記錄神經活動（覆蓋聽覺和感覺運動皮質區域），檢測受試者何時聽到或說出話語，然後解碼這些大腦信號的內容。

圖丨受試者在聽到問題（藍色）和回答答案（紅色）期間的實時語音解碼的示意圖（來源：Nature）

在每次試驗中，參與者都會聽到一個問題，並在屏幕上看到一組可能的答案選項（上圖 a），當綠色提示出現在屏幕上時，受試者需要自由選擇並口頭給出其中一個答案（上圖 b）；

此時，植入於大腦皮層的ECoG電極實時獲取大腦皮層活動信號（上圖c），語音檢測模型通過獲取的大腦皮層信號來預測受試者是否正在聽到問題或產生了答案，或兩者都沒有（上圖d）；

當語音檢測模型檢測到「正在聽到問題」事件時，神經信號傳入神經解碼器進行解碼，並輸出所解碼出的問題（上圖e和f）；因為某些答案只對某些問題是合理的，因此研究人員使用解碼的問題可能性作為上下文動態更新每個答案的先驗概率（上圖g和h）。

當語音檢測模型檢測到「回答」事件時，神經信號被傳遞給一個答案解碼器，來解碼並計算可能的答案（上圖 i），上下文整合模型將這些答案的可能性與答案的先驗結合起來，從而產生答案的後驗概率（紫色），並輸入最終的解碼答案（上圖 j 和 k）。

（來源：NPG Press/YouTube）

「之前的大多數方法都只關注於解碼語音，但在這裡我們展示了解碼對話雙方的價值——人們聽到的問題和他們的回答。」Edward Chang 說。

測試結果表明，該系統實時解碼受試者聽到問題和給出答案的準確率，分別為高達 76％和 61％。這些結果也證明了在互動式會話環境中對語音進行實時解碼的可行性，對於為無法溝通的患者開發相應的腦機介面設備具有重要意義。

研究人員也表示，更好的演算法和更快的計算機也提高了研究中解碼的速度，過去需要幾周到幾個月的離線處理，現在可以實時完成。

腦機介面的商業押注

Edward Chang 團隊近期兩項經同行評議的腦機介面重磅突破研究，讓人不得不聯想起本月埃隆·馬斯克（Elon Musk）宣布他的腦機介面公司 Neuralink 所取得的進展。

7 月 17 日，馬斯克為其投資的腦機介面初創公司 Neuralink 召開了一場發布會，首次對外披露了這家公司在腦機介面上的最新技術進展以及未來展望：Neuralink 演示了其已經在小鼠身上實驗過的一款名為「縫紉機」（sewing machine）的探針設備，該設備可將 1500 個電子探針送入小鼠大腦，能夠同時從多個神經元中提取信息。目前，Neuralink 的這款設備已經在動物身上進行了至少 19 次手術，植入電線成功率達 87%。

圖丨Neuralink 的腦機介面設備宣傳圖（來源：Neuralink）

這次發布也是 Neuralink 成立兩年以來最重磅的一次成果發布。不過，這一舉動與學術界的慣例相悖，在發表論文之前，就進行了成果的新聞發布。在發布會上，馬斯克也表示，如果 FDA 批准，最快在明年年底，將能夠在患者身上使用這項技術。

雖然不少批評的聲音認為，這是馬斯克蘊含風險的瘋狂嘗試，但這也凸顯出近年來資本在腦機介面領域的商業關注。比如，Edward Chang 實驗室所開展的腦機介面研究，就是由 Facebook Reality Labs 資助。

腦機介面研究同樣是 Facebook 雄心勃勃的主要目標之一。2017年，Facebook 的腦機介面計劃研究總監 Mark Chevillet 在一次會議上，描述了一種能夠從大腦活動中每分鐘讀出 100 個單詞的非侵入性技術，在當時這種新的「大腦打字」計劃聽起來完全是瘋狂的。

如今，兩年過去了，Chevillet 似乎對這個目標更有信心。Edward Chang 團隊在Nature Communications發表的最新研究，的確讓 Facebook 開發可以控制而不必大聲說話的增強現實（AR）眼鏡的最終目標，更加現實。

（來源：Facebook）

似乎，Facebook 和 Neuralink 的舉動，讓人感受到了率先提供解碼大腦活動的商用腦機介面技術的競爭。不過，目前來看，實現這一目標的過程很可能是一個緩慢的過程。

Chevillet 在接受 IEEE Spectrum 採訪時表示，「我們還沒有任何實際的產品計劃，因為這項技術是如此早期的研究。」

而 Edward Chang 則表示，他希望能夠儘快為不能說話的人群帶來有意義的改變。到目前為止，該團隊的所有工作都是在會說話的志願者身上完成的，所以現在該團隊將花一年時間與一位失語的患者合作研究。

Edward Chang 也強調，所有與 Facebook 合作的結果都將發布，並向學術界開放。「我希望這不僅僅受益於我們所做的，而是受益於整個領域。」

-End-

參考：

https://www.nature.com/articles/s41467-019-10994-4#rightslink

https://www.nature.com/articles/s41586-019-1119-1

https://spectrum.ieee.org/the-human-os/biomedical/devices/brain-implant-decodes-dialogue-from-neural-activity

https://cosmosmagazine.com/biology/mind-reading-may-help-those-who-cannot-speak

https://neurosciencenews.com/speech-brain-signals-14610/

https://research.fb.com/blog/category/augmented-reality-virtual-reality/

坐標：北京·國貿

請隨簡歷附上3篇往期作品（實習生除外）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

※致幻真菌控制「殭屍」蟬：讓蟬瘋狂交配，根本停不下來
※高性能計算、數據爆炸到深度學習，從熱點話題變換看計算機行業的發展

TAG:DeepTech深科技 |