GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

新聞 05-27

全球機器智能峰會（ GMIS 2017 ），是全球人工智慧產業信息服務平台機器之心舉辦的首屆大會，邀請來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講。本次大會共計 47 位嘉賓、5 個Session、32 場演講、4 場圓桌論壇、1 場人機大戰，兼顧學界與產業、科技巨頭與創業公司，以專業化、全球化的視角為人工智慧從業者和愛好者奉上一場機器智能盛宴。

5 月 27 日，由機器之心主辦、為期兩天的全球機器智能峰會（GMIS 2017）在北京 898 創新空間順利開幕。中國科學院自動化研究所複雜系統管理與控制國家重點實驗室主任王飛躍為本次大會做了開幕式致辭，他表示：「如今人工智慧非常熱，有人說再過幾年人類甚至不如鞋底聰明，50% 甚至 70%工作被人工智慧取代。」王飛躍對此表示很震驚，但並不認同，他又說：「情況是，再過幾年，人類 90% 的工作由人工智慧提供，就像今天我們大部分工作是由機器提供的一樣。我們的工作就是儘快讓我們的鞋底也像人一樣聰明，而不是鞋底比我們聰明，並希望機器之心主辦的這次全球機器智能峰會讓我們知道人工智慧會提供一個更美好的未來。」。大會第一天重要嘉賓「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智慧官鄧力、騰訊 AI Lab 副主任俞棟、英特爾 AIPG 數據科學部主任、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智慧專家參與峰會，並在主題演講、圓桌論壇等互動形式下，從科學家、企業家、技術專家的視角，解讀人工智慧的未來發展。

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

俞棟在 GMIS 2017 現場發表演講

上午，騰訊 AI Lab 副主任、西雅圖人工智慧研究室負責人俞棟發表了主題為《語音識別領域的前沿研究（Frontier Research of Speech Recognition）》的演講，探討分享了語音識別領域的 4 個前沿問題。俞棟是語音識別和深度學習領域的著名專家。他於 1998 年加入微軟公司，此前任微軟研究院首席研究員，兼任浙江大學兼職教授和中科大客座教授。迄今為止，他已經出版了兩本專著，發表了 160 多篇論文，是 60 余項專利的發明人及深度學習開源軟體 CNTK 的發起人和主要作者之一。俞棟曾獲 2013 年 IEEE 信號處理協會最佳論文獎。現擔任 IEEE 語音語言處理專業委員會委員，之前他也曾擔任 IEEE/ACM 音頻、語音及語言處理彙刊、IEEE 信號處理雜誌等期刊的編委。

以下是俞棟演講的主要內容：

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

語音識別是一個有著悠久歷史的研究領域。在過去的幾十年里，研究人員從最簡單的小辭彙量閱讀語音識別問題 Read Speech 開始，逐漸走向更加複雜的 Broadcast Speech 和 Conversational Speech語音識別問題。如今，即便是在以前認為非常難的自由對話這樣形式的語音識別問題上，機器也已經達到甚至超過人的識別水準。但是我們要看到，雖然取得了這些進展，但是離真正的人與機器的自由交流還有一定差距，這也就是為什麼語音識別的研究前沿又推進了一步。

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

如今研究的問題越來越沒有環境、說話風格、口音、辭彙等限定（不像以前有非常多的限制），同時這也增加了語音識別的難度，研究的前沿也從近場麥克風轉向遠場麥克風，兩者的區別在於，在遠場情況下，當人的聲音傳達到麥克風時，聲音衰減很厲害。所以以前在近場麥克風很難見到的一些困難，在遠場麥克風就變得很明顯。如果不解決這些問題，用戶在很多的應用場合仍然會覺得語音識別效果欠佳。

所以今天在這樣的背景下，我介紹一下最近在語音識別當中的一些前沿的研究方向。

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

研究方向一：更有效的序列到序列直接轉換的模型

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

語音識別實際上是把語音信號的序列轉化為文字或詞的序列，所以很多人認為要解決這個問題，找到一個行之有效、序列到序列的轉換模型就可以了。

從前的絕大部分研究是通過對問題做假設，然後據此在語音信號序列到詞信號之間生成若干個組件，並逐步地轉換以生成詞的序列。在這些假設中間有許多假設，在某些特定場合它是合理的，但是在很多真實的場景下，它又是有問題的。這種模型實質上是說，如果我們去掉可能存在問題的假設，然後藉助數據驅動，就有可能找到更好的方法，使序列轉換更準確。

這樣做另外一個好處是整個的訓練也可以變短。

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

更有效的序列到序列直接轉換的模型目前來講主要有兩個方向：方向一：CTC模型。

CTC模型十分適合語音識別這樣的問題，因為它所要求得輸出序列長度比輸入序列長度要短很多。CTC模型還有一個優勢，傳統的深度神經網路與混合模型一般來說建模量非常小，但是在CTC模型裡面你可以相對自由地選擇建模單元，而且在某些場景下建模單元越長、越大，你的識別效果反而會越好。

最近谷歌有一項研究從YouTube上採用幾十萬小時甚至上百萬小時的訓練數據量。CTC的模型可以不依賴額外的語言模型就能做到識別率超過傳統模型。但由於訓練穩定性差，CTC模型相對於傳統模型仍然更難訓練。

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

更有效的序列到序列直接轉換的模型的第二個方向是：Attention 模型

Attention 模型首先把輸入序列、語音信號序列，轉換成一個中間層的序列表達，在這個中間層序列表達上面，能夠提供足夠的信息，然後就可以基於這個信息有一個專門的、基於遞歸神經網路的生成模型，這個方法在機器翻譯裡面現在成為了主流方案，但是在語音識別裡面它還是一個非常不成熟的技術，它有幾個問題在裡面。

問題1：只適合短語的識別，對長的句子效果比較差。

問題2：在做語音識別的時候，它的效果是相對來說非常不穩定的。

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

那麼如何解決這些問題？目前最佳的解決方案就是把 CTC 與 Attention 結合起來，這主要是因為CTC有持續信息，可根據後面的語音信號生成詞，這有助於 Attention生成更好的表達。兩者結合的最終結果既比CTC、Attention各自訓練效果更好，所以是一個 1+1 大於 2 的結果。

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

但是，即便把 CTC 與 Attention 兩種模型結合起來，其效果比傳統混合模型相比，依然沒有太多長進。所以我們仍然需要解決一些問題。

問題一：在這樣的架構下面，有沒有更好的一些模型結構，或者是訓練準則，能夠比現有的CTC或者Attention模型更好。
問題二：當擁有的數據較少時，有沒有辦法建造一個結構，使得語言模型和聲學模型緊密結合在一起。
問題三：如何利用各種語料的數據，整合起來訓練一個更好的序列到序列轉換模型。

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

研究方向二：雞尾酒會問題

人在雞尾酒會這樣非常嘈雜的環境中能夠把注意力集中在某一個人的聲音上，屏蔽掉周圍的說話聲或噪音，非常好地聽懂其要關注的那個人的說話聲音。現在絕大部分的語音識別系統卻沒有這個能力。這個問題在近場麥克風並不明顯，這是因為人聲的信噪比非常大，而在語音識別系統上，信噪比下降得很厲害，所以說這個問題變得非常突出，成為了一個非常關鍵、比較難解決的問題。

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

Label permutation問題目前有兩個較好的解決方案：

方案一：Deep Clustering。
方案二：Permutation invariant Training。

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

但是目前為止我們所用的一些信息，只用到了單麥克風的輸入信息。但是我們知道麥克風陣列可以提供很多的信息，所以一個很重要的問題是如何有效地利用多麥克風信息來繼續加強其能力。第二個就是有沒有辦法能夠找到一個更好的分離模型，因為現在大家用的還是LSTM，但是LSTM不見得是最佳模型。第三個問題是我們有沒有辦法利用其他的信息，能否利用這些信息來進一步提升它的性能。

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

研究方向三：持續預測與適應的模型

第三個大家關注的熱點是能否建造一個持續做預測系統。我們之前做了一個模型，它的好處是能夠非常快地工作，根據結果來改進下一個數據的識別結果。目前由於模型比較大，所以性能上很難訓練。

所以現在的問題是如何建造一個更好的模型，它能夠持續地做識別。它需要的特點是什麼呢？一個是它能夠非常快地做Adaptation，使得下一次再做識別的時候，我們有辦法把類似信息用更好的方式壓縮在模型裡面，所以在下一次可以很快做識別。

GMIS 2017大會俞棟演講：語音識別領域的四項前沿研究

研究方向四：前後端聯合優化

第四個研究前沿有關遠場識別以及如何做前端和後端更好的聯合優化。傳統來講，前端的信號處理技術一般只用到當前狀態下的語音的信號信息。而機器學習方法用到很多的訓練器里學到的信息，但是很少用到當前幀的信息，它不進行數據建模，所以我們有沒有辦法把這兩種方法比較好地融合在一起，這是目前很多研究組織發力的一個方向。

另外，我們有沒有辦法更好地把前端的信號處理跟後端的語音識別引擎做更好的優化。因為前端信號處理有可能丟失信息，且不可在後端恢復。所以我們有沒有辦法做一個自動的系統，能夠比較好地分配這些信息的信號處理，使得前端可以比較少地丟失信息，從而在後端把這些信息更好地利用起來。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※GMIS 2017｜國際頂級大咖聚首漫談機器智能
※機器之心 GMIS 2017

TAG:機器之心 |

您可能感興趣

※2018 IVRPA大會：獨家解讀中國VR領域
※2018谷歌學術影響因子發布：NIPS首次躍進Top 100，CVPR排名泛AI領域第一
※2017年度NLP領域論文TOP10
※2019年不容錯過的20大頂會時間表：覆蓋AI+ML+CV領域
※AI領域准獨角獸秀雅樂美森亮相NLP國內頂會SMP2018
※浩鯨科技徐曉軍：AI實現的5大基礎條件在交通領域全部具備 | CCF-GAIR 2019
※CES 2019前瞻：這六大領域值得關注
※報名 | AI領域年度最強賽事啟動，百舸爭流直通：英偉達GTC CHINA 2018
※AI領域年度最強賽事啟動，百舸爭流直通：英偉達GTC CHINA 2018
※肺癌領域LOXO-292、DS-8201、T-DM1重磅藥物大放異彩
※AI所有領域最優論文+代碼查找神器：966個ML任務、8500+論文任你選
※GTC 2019：NVIDIA依託GPU將人工智慧帶入多個領域
※深睿醫療5篇論文被MICCAI2019收錄，展示在醫療AI領域的卓越創新能力
※「TFBOYS」「新聞」190324 王俊凱的絕佳音樂領域，無束自由聲聲入心
※近九千人齊聚 NeurIPS 2018，四篇最佳論文，十大研究領域，1010 篇論文被接收
※2019 COMPUTEX 七彩虹展台揭秘涉足多項領域
※COMPUTEX 2019七彩虹展台揭秘涉足多項領域
※AI領域年度最強賽事啟動，百舸爭流直通英偉達 GTC CHINA 2018
※專業攝影領域新利器富士XF200/F2 R LM OIS WR遠攝定焦頭評測
※Siamese：CVPR 2019 接收論文作者為你解讀視頻跟蹤領域 | CVPR 2019