一個「毛骨悚然」的里程碑：華裔科學家AI解碼腦電波，準確率97％

科技 04-05

新智元報道

來源：sciencealert

編輯：張佳

世界才剛剛開始適應像谷歌和亞馬遜這樣的公司製造的虛擬助理所產生的力量，如果用一個詞形容這些虛擬助理識別我們語音的精準度，那就是「不可思議」。

而現在，一個更加讓人「毛骨悚然」的里程碑就在眼前：人工智慧系統可以將我們的大腦活動轉化為完整的文本，根本不需要我們說一個字。

這不是科幻小說。近幾十年來，腦機介面的發展突飛猛進，從動物到人類參與者，已經在嘗試這種事情。

日前，美國加州大學舊金山分校的科研團隊使用人工智慧解碼系統，把人的腦電波轉譯成英文句子，準確率高達97%。

論文地址：

這項研究3月30日發表在《自然·神經科學》雜誌上，題為「Machine translation of cortical activity to text with an encoder–decoder framework」（利用encoder-decoder框架，將大腦皮質活動翻譯為文本）。

Edward Chang

這項研究由華裔科學家、加州大學舊金山分校神經外科教授Edward Chang博士領導。Edward Chang博士的研究重點是言語、運動和人類情感的大腦機制，同時他也是加州大學舊金山分校和加州大學伯克利分校的合作單位——神經工程與假肢中心的聯合負責人。

人腦電波轉譯成句，準確率高達97%

為了提高準確性，研究團隊使用了一種新的方法來解碼皮層腦電圖：皮層活動中產生的電脈衝記錄，通過植入大腦的電極接收。

在這項研究中，四名癲癇患者戴上了這種植入物以監測癲癇發作，研究團隊進行了一項輔助實驗：讓參與者朗讀並重複一些固定的句子，同時電極記錄他們的大腦活動。

然後，將這些數據輸入到神經網路中，該神經網路會根據實驗的音頻記錄，分析與特定語音信號相對應的大腦活動模式，比如母音、輔音或嘴巴動作。

圖1：解碼過程

此後，另一個神經網路解碼了這些表徵（從重複的30–50個口語句子收集而來），並且使用它來嘗試預測正在說的話，完全基於語句的大腦皮層特徵。

圖2：解碼句子的單詞錯誤率

這個系統產生了一個單詞錯誤率(WER)，在最好的情況下，其中一個參與者將大腦信號轉換成文本的錯誤率只有3%。這可能是AI能夠獲得的最接近於讀取人類思想的結果，至少在嚴格意義上的實驗條件下是這樣的。

圖3：經過遷移學習訓練的encoder–decoder模型的解碼MOCHA-1句子的單詞錯誤率

在他們的論文中，研究團隊詳細列舉了大量參與者所說的參考句，以及神經網路產生的預測，有時是錯誤的，但並非總是如此。但是，當錯誤顯而易見時，它們似乎與人耳聽到的語音結果有很大不同（這可能是引入AI的數據集有限所產生的副作用）。

表1：錯誤解碼的句子示例（左邊是參考句，右邊是預測句）

在最不準確的情況下，這些錯誤實際上與所說的話沒有任何關係，無論是語義上還是語音上。比如，「she wore warm fleecy woollen overalls」（她穿著溫暖的羊毛工作服）被解讀成「the oasis was a mirage」（綠洲是一個海市蜃樓）。

儘管如此，儘管這些明顯的錯誤非常奇怪，但研究小組認為：總體而言，該系統可能構成了基於人工智慧的大腦活動解碼的新基準，而且在最好的情況下，與專業人類語音轉錄相當，單詞錯誤率為5%。

圖6：解碼過程的圖形模型

圖7：網路架構

當然，處理普通人說話的專業轉錄員需要應對的辭彙有成千上萬個，相比之下，這個系統僅需學習有限的短句中使用的大約250個單詞的大腦皮層特徵，所以這並不是一個公平的比較。

儘管有許多障礙需要克服，但研究小組認為，該系統有一天可能成為失去說話能力的患者使用語言修復的基礎。如果真的做到這一點就了不得了。

「在一個長期植入的參與者中，可用的訓練數據量將比本研究中使用的半個小時左右的語音大幾個數量級，」作者解釋說：「這表明該語言的辭彙量和靈活性可能會大大增加。」

參考鏈接：

https://www.sciencealert.com/new-ai-system-translates-human-brain-signals-into-text-with-up-to-97-accuracy

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 新智元 的精彩文章: