深度學習登台語音識別，AI趕超人類

科技 06-04

本文是《環球科學》總編、社長陳宗周先生撰寫的系列專欄「AI傳奇」的第五回。通過該專欄，陳宗周先生將帶領我們回顧AI在過去60年走過的風風雨雨，也前瞻AI將如何塑造人類社會的未來。

對專欄有任何建議和意見、對AI的歷史和發展有任何問題，歡迎在評論區留言，陳宗周先生會親自回復一些重要的問題，並有可能通過直播的方式，與讀者朋友一起討論AI的歷史與未來。

陳宗周是《環球科學》雜誌社社長，《電腦報》創始人。

《聖經》中記載著這樣的傳說，遠古人類都講一種語言，他們希望建造一座通往天堂的高塔，這就是通天塔，也叫巴別塔（Tower of Babel）。為了阻止人類的計劃，上帝讓人類說不同的語言，分成不同的民族，在語言上無法自由溝通，巴別塔計劃由此告終。

傳說有點悲涼，卻反映人類一直存在的美好夢想。重建巴別塔，也成了人類語言溝通和共識達成的象徵和代名詞。現在，AI讓人類的夢想一步步走向實現。

讓人類拆掉語言的樊籬，實現無障礙溝通，這項偉大的AI工程有三塊重要基石：語音識別、自然語言理解、語音合成。三塊基石是三大類技術，分別解決人類語言交流中三個問題：聽清楚別人說什麼、理解別人說什麼、根據聽到和理解的去回答別人。

語音識別，主要解決「聽清楚別人說什麼」這個難題，這是AI中的重要技術領域。近年來，由於深度學習技術的應用，語音識別取得了長足進步。

賈里尼克與統計語言學

就像AI領域中其他分支學科一樣，語音識別歷史同樣悠久。1952年，貝爾實驗室的K·H·戴維斯（K.H.Davis）等人研製了世界上第一個能識別10個英文數字發音的實驗系統。1960年，英國人彼得·迪恩斯（Peter Denes）等研製了第一個計算機語音識別系統。但是，從上世紀50年代到70年代，語音識別研究走了一個很大的彎路，那就是想簡單地用電腦模擬人腦，局限於人類學習語言的方式，認為必須先讓機器理解自然語言。在當時計算機能力受限的情況下，這樣的研究鮮有進展。

直到1970年後，統計語言學的出現打破了沉寂。而領軍人物，就是IBM沃森實驗室的弗雷德里克·賈里尼克（Frederick Jelinek）。

弗雷德里克·賈里尼克

賈里尼克是出生於捷克的猶太人。父親死於納粹集中營，他和母親移民到美國。他是靠為東歐移民特設的全額獎學金進了麻省理工學院學電機工程，在那裡遇到資訊理論創立者香農、語言學家羅曼·雅各布森（Roman Jakobson），以及鄰近的哈佛大學語言學家諾姆·喬姆斯基（Noam Chomsky）等。這三位大師在研究境界上比同齡人高出一籌，他們對賈里尼克後來用資訊理論解決語言問題產生了重要影響。

1972年，賈里尼克到IBM沃森實驗室做學術休假訪問時，無意中領導了語音識別實驗室，兩年後他選擇留在IBM。

賈里尼克等提出了統計語音識別的理論框架。語音識別之前被認為應該用模式匹配來解決，而賈里尼克用統計思路來解決，簡潔地用兩個隱馬爾可夫模型（Hidden Markov Model）——聲學模型和語言模型來清楚概括語音識別。這個框架至今仍對語音和語言處理有著深遠影響。

1999年，國際聲學、語音與信號處理國際會議（ICASSP）在鳳凰城召開，早已當選美國工程院院士的賈里尼克在大會上做了一個報告，題目是《從水門事件到莫尼卡·萊溫斯基》。這倒不是嘩眾取寵，而是兩件事都和語音有聯繫，而且兩件事時間跨度和語音識別同樣很漫長。

導致尼克松、柯林頓下台的水門事件和萊溫斯基事件，都與語音處理相關聯，這兩件事從發生水門事件的1972年，到因萊溫斯基事件彈劾柯林頓的1998年，時間跨度26年。隱馬爾可夫模型處理語音，也是從1972年開始，一直持續到賈里尼克作報告時還在進行，而且還將延續下去。

隱馬爾可夫模型最初是由L·E·鮑姆（L.E.Baum）和其他一些學者發表在一系列的統計學論文中，隨後在語音識別、自然語言處理以及生物信息等領域體現了很大的價值。這個模型源於20世紀初的蘇聯數學家馬爾可夫，20世紀70年代後美國的一些大學和研究所開始把這個模型用於語音識別，技術上集大成者是英國的劍橋大學。

對隱馬爾可夫模型的研究，不但鼓舞了語音識別研究者們，甚至也帶動了政府的關注。從1971年開始，DARPA (國防先進研究計劃署) 投入 1500萬美元，組織麻省理工學院、加州大學伯克利分校、卡內基梅隆大學、斯坦福大學、斯坦福研究所（Stanford Research Institute，SRI）等著名等高校研究機構，計劃用三年時間建立計算機連續語音識別系統。這是當時規模最大的語音識別項目，美國把語音信息研究作為戰略基礎研究。

劍橋語音的黃金十年

1984年，NIST（美國國家標準及技術研究所）和DARPA做了一件類似於後來圖像識別領域ImageNet的大事，它們決定出資開展語音識別評測標準的研究，希望能科學評估各種語音識別系統的性能。這件事影響了語音識別的歷史。

德州儀器公司（TI）、麻省理工學院和SRI合作構建了第一個聲學-音素連續語音語料庫，並制定了數據採集標準，成為世界第一個語音評測平台。這一被稱為TIMIT的資料庫應用至今，語音識別研究者們有了評測演算法的標準數據集。NIST舉辦的語音識別評測全球競賽由此開始。

NIST舉辦的語音識別評測全球競賽見證了劍橋語音的騰飛

語音識別所研究的數據類型歷經幾次升級，由最早的孤立詞語音發展到自然連續語音。然後，選取朗讀「華爾街雜誌」（Wall Street Journal）的語音錄成標準資料庫。這個數據集的辭彙量大約為5000到20 000，「大辭彙連續語音識別」就始於此。上世紀90年代中期以後，廣播新聞這樣自發產生的連續語音、電話對話語音、豐富的語音文本、多語種語音等等也不斷加入評測，NIST大賽越來越具有挑戰性。

大賽1988年開始，1992年擴大到美國之外，成為全球大賽，劍橋大學等非美國機構，在那一年加入。1993年，系統升級，測試難度陡然增加，劍橋大學卻奪取冠軍。一戰成名，劍橋語音成為全球語音識別界關注的焦點。

成功的秘密在於，從1989年起，劍橋大學工程系機器智能實驗室研究組就在史蒂夫·楊（Steve Young）教授的主持下開發「隱馬爾可夫模型工具包」（Hidden markov model Tool Kit, HTK）。HTK軟體包不是簡單的語音識別系統，而是完整的研究平台。在這個平台上，研究者可以方便地試驗各種新式演算法，搭建不同的語音識別系統。這樣，HTK很快就成為了語音識別研究事實上的標準。而擁有平台的劍橋語音研究人員，可謂近水樓台先得月。

於是，劍橋大學語音識別研究在大賽中連續十年取得優異成績，許多影響深遠的語音識別技術陸續在劍橋產生，並成為後來的主流經典演算法，這些成就轟動了全世界，被稱為劍橋語音的黃金十年。

商業化與Naunce壟斷

語音識別也逐漸開始商業化。1995年，IBM開發出離散辭彙聽寫軟體，也就是後來的語音識別軟體Via Voice的前身。IBM當時將語音識別率從70%提升到90%，同時識別詞庫的規模從幾百單詞上升到幾萬個，語音識別從實驗室走向實際應用。1997年，IBM推出了世界上第一個中文連續語音識別產品——Via Voice 4.0。該軟體成功突破連續語音、大辭彙量、非特定人的難關，據稱解決了漢語同音字多、有聲調、口音複雜等問題，可以幫助人們從鍵盤輸入中解脫出來，IBM認為這是漢字輸入的重要里程碑。

劍橋大學的HTK語音開發平台也開始商業化，由一家公司擁有，後來曾經被微軟收購。但幸運的是微軟重新把HTK核心技術的使用權送還給劍橋大學，全球語音識別開發者仍然可以自由使用。可是，再優秀的技術也有時間局限性，直到進入21世紀的頭十年，統治語音識別技術幾十年的，仍然是混合高斯-隱馬爾科夫模型（GMM-HMM），在數據量受限的大環境下，研究者們花費大量的時間優化GMM-HMM模型結構的細節，可能只是為了一到兩個百分點的性能提高。

語音識別專家、數據魔方智慧科技CEO張晴晴博士這樣描述當時的情況：「深度學習之前，做語音識別是門檻很高的事情。語音識別涉及到的技術模塊很多。信號處理、語音/語言建模、發音字典、解碼、後處理等等，每個模塊都足夠一個博士研究好幾年。這個領域的研究者，沒有十年八年的技術深耕，很難做出有價值的成果。」

在這樣的研究環境下，掌握核心演算法的公司很容易形成技術壟斷。美國語音巨頭Nuance就是這樣的典型案例。1992年創立，2005年在納斯達克上市的這家技術型公司，一直深耕統計方法的語音技術，擁有大量的核心演算法和數千件專利。蘋果Siri採用了他們的語音技術後，Nuance公司迅速走紅，語音識別方面的技術實力也浮出水面。這家名不見經傳、悶聲鑽研技術的公司瞬間被各大媒體相繼曝光。手機、家電、汽車等人機語音交互產品中，大量嵌入他們的語音識別系統，客戶都是蘋果、三星這樣的知名廠商。

Nuance擅長於利用自己在語音處理方面的知識產權打擊競爭對手，用訴訟手段削弱具有創新力的對手，然後低價併購或讓其破產，是Nuance的慣用手段。很長時間內，Nuance擁有絕對話語權，整個語音行業生態是——這棵大樹下寸草不生。

深度學習帶來歷史性突破

學術界尋求理論突破，產業界希望打破壟斷，這樣期待的氛圍中，深刻影響語音識別的重要角色在2006年出現了。沒錯，我說的是深度學習，或者說深度神經網路。

2006 年的一天，時任西雅圖微軟研究院研究員的鄧力看到欣頓的一篇關於深度學習的論文《關於深度置信網路的一種快速學習演算法》（A fast learning algorithm for deep belief nets），眼前一亮，感到自己絞盡腦汁沒有突破的問題，欣頓輕而易舉就解決了。

鄧力推動了語音識別研究向深度學習的轉變

鄧力在中國科技大學本科畢業後，到美國念完博士，當時在微軟研究院領導一個小組研究語音識別。深度學習出現之前，他做了很多研究，包括計算人工神經網路、上世紀90 年代中後期開始流行的貝葉斯統計模型等等，但始終不理想，現在深度學習讓他看到希望。

鄧力很早就認識欣頓，上世紀90年代初，在加拿大滑鐵盧大學當教授時，他為博士生論文答辯聘請的外校評審教授，正是欣頓。

2009 年，鄧力邀請欣頓到西雅圖微軟研究院一起討論，從此微軟語音識別研究轉入了深度學習方向。鄧力與俞棟合著的《解析深度學習——語音識別實踐》也成了全球很多地方大學本科或研究生語音處理課程的經典教科書或參考書。

谷歌稍晚了一點，但追趕得很快。出門問問公司CTO雷欣回憶，當年他在谷歌語音識別組擔任研究科學家時，2011年夏天，欣頓的博士生納瓦迪普·杰特列(Navdeep Jaitly)來語音識別組實習，建議用深度神經網路來替代高斯混合模型做聲學模型。短短的夏季實習時間裡，納瓦迪普在實驗中獲得了顯著超出谷歌產原系統的識別結果。之後，谷歌工程師們很快在幾個月里將實驗工程化產品化，2012年初發布在谷歌Voice Search主產品中。這是業界首次將深度學慣用於大辭彙量語音識別產品中。2012年下半年，雷欣負責將深度神經網路發布至Android JellyBean版本中，這也是業界首次將深度學慣用於嵌入式語音識別產品。

微軟語音識別研究取得驚人突破。2016年10月18日，由微軟首席語音科學家黃學東博士帶領的語音團隊在權威的產業標準 Switchboard 語音識別基準測試中，實現了對話語音識別詞錯率5.9%，首次達到與專業速記員持平而優於絕大多數人的表現。這被認為是AI領域歷史性的突破。黃學東博士自豪地表示：在對話語音識別中，我們有史以來第一次讓計算機有了和人類同等的水平。

百度也不示弱，事任首席科學家的吳恩達立即發推特祝賀微軟的語音識別突破，同時話中有話地介紹一年前百度在中文語音識別上就達到的成績。百度的Deep Speech2的短語識別的詞錯率已經降到了3.7%，也達到或超過人類水平。微軟也很快作出回應，認為短語識別與對話識別，場景不同，後者難度要大很多，不可同日而語。雙方暗藏機鋒。

未來：語音應用場景創新的沃土

這樣的交鋒，說明巨頭們都高度重視用深度學習解決語音識別問題，這帶來了產業格局的變化。美國一下子出現了幾十家應用深度學習的語音識別技術公司，識別率不斷提升並且趨於同一水平。同時，專利和演算法作用越來越小，場景應用能力和客戶數據資源在競爭中變得越來越重要。於是，曾挾核心技術在語音領域呼風喚雨的Nuance，壟斷地位迅速被瓦解，業績不斷下滑，江河日下，淪落到不時傳出被收購消息的尷尬境地。

在語音識別應用場景創新方面，亞馬遜的Alexa語音交互平台非常成功。用Echo互動式藍牙音箱，語音通過內置介面，進入 Alexa平台進行語音交互。2014年Echo推出後，兩年多時間內應用場景爆炸性增長，從同步語音數據、播放音樂發展到幾十種家電的智能家居設備控制，再發展到語音購物、語音支付、語音叫外賣、語音打車等多場景應用，還可以和家人分享音樂庫、電子商城購物車、工作計劃表、日程等。語音購物品種已經擴大到百萬種，而且還可以語音切換賬戶、語音追蹤商品物流情況。亞馬遜利用自己的優勢，讓語音識別軟硬體在互聯網環境下融合，並進入物聯網的廣闊天地。亞馬遜的Alexa人機語音交互玩得出神入化，以至於有人驚呼：「這就像是試圖成為語音方面的谷歌或者語音方面的Windows操作系統，亞馬遜是要拿走整個市場。」

Echo用藍牙音箱進行語音交互，涉及到語音識別的遠場識別。與貼近話筒近距離說話不同，Echo的語音識別屬於遠場識別，由於遠處聲源聲波的多次反射產生的回聲混響，好像由獨唱變成了多人多聲部合唱。同時，遠場識別雜訊增大。這些，都大大提升識別難度，語音處理自然複雜很多。

這些特殊應用場景，成為語音識別的新方向，也成為創業者的新機會。

張晴晴博士這樣分析語音識別的創業環境：「語音識別的門檻正快速降低。在大數據和雲計算的推動下，深度神經網路開始體現出強大的數據記憶能力，由此大大降低了語音建模難度。深度學習在數學原理上並不複雜並擁有大量開源工具，讓初學者能夠很快上手。語音行業從核心演算法的壟斷，轉向對數據的壟斷和對應用場景的理解和把握。語音識別的戰場從科研界轉向企業界，這給新來者提供難得的彎道超車機會。語音識別行業創業的春天已經到來。」

非常可喜的是，中文語音處理行業也迎來新機遇。一個很有趣的現象是，今天全球AI領域華人專家眾多，尤其在語音領域更為密集，名人就能夠數出來一大批。為什麼這麼多華人科學家從事語音科學？一個原因是，長期以來語音識別等領域研究工作十分艱苦，華人勤奮好學鑽研、吃苦耐勞工作的精神，讓他們堅守在這裡。另外一個原因是，中文語音處理市場非常廣闊。

2017年剛入選微軟院士的黃學東博士說：從語音識別角度講，中文識別更容易，中文只有約四百個音節（不考慮聲調因素）。微軟分別評測過中英文，中文識別率要高一些。在所有語言裡面，義大利文、西班牙文、中文，這三種語言，語音識別率比法文、英文之類要高，其中法文最難。當然，語義理解對任何語言都很難。

這是最有挑戰的課題。這也是中國人面臨的機遇與挑戰。

依託中文市場，伴隨中文語音技術的迅猛發展，雲知聲、出門問問等新企業應運而生，一大批中國AI企業崛起。更可喜的是，除了知名中國互聯網科技公司在語音方面的進取外，以語音為特色的AI公司如科大訊飛等，也已經具備挑戰國際巨頭的能力。

在普及層面上，採用雲識別的中文語音輸入系統，已經漸漸成為手機和各種應用設備人機交互界面標配，語音技術不但已經解放了雙手，還正在更廣泛地進入、改變我們的生活。

重建巴別塔的第一塊基石已經深深埋下。機器已經在聆聽，它聽得越來越清楚。

AI傳奇專欄回顧：

第四回 | 助飛的雙翼

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！