第四期「AI 未來說」帶你論道AI「聽」與「說」的語音技術專場

科技 05-02

2019年 4 月 27 日下午，「AI 未來說·青年學術論壇」的第四期語音技術專場，在北京市中國科學院大學中關村校區 3 號教學樓 S101 階梯教室舉行。

「AI未來說·青年學術論壇」系列講座由中國科學院大學主辦，百度全力支持，讀芯術作為合作自媒體。本次承辦單位為中國科學院大學學生會，協辦單位為中國科學院計算所研究生會、網路中心研究生會、人工智慧學院學生會、化學工程學院學生會、公共政策與管理學院學生會、微電子學院學生會。

讓計算機能聽、能看、能說、能感覺，是未來人機交互的發展方向，其中聽、說都是語音技術的範疇。智能語音技術也因此產生了最為茂盛的兩大分支：語音識別技術和語音合成技術。語音識別不僅包括語音轉文字，語音下命令這樣的應用場景，還包括聲紋識別、情緒識別、聲學事件監測等更有挑戰性的情感與特徵信息識別任務。語音合成從最早的波形拼接和很明顯的機械合成音，到現在能夠以假亂真、自然流利的真人發音，甚至能表達出方言、口音、情緒，技術上有了質的飛躍。

現在，我們能夠輕鬆地通過手機、智能音箱等設備與百度小度、蘋果Siri 等智能助理對話，日常生活中也更加經常地見到各種 AI 技術以語音交互的方式落地，智能語音技術已經飛入尋常百姓家，成為我們生活的一部分。

本次論壇包括 5 場嘉賓報告分享。包括來自中國科學院自動化研究所的陶建華研究員、來自清華大學電子工程系的吳及教授、來自小米的語音技術總監王育軍博士、來自百度的主任架構師康永國博士和來自中國科學院自動化研究所的劉斌博士。

陶建華研究員作「語音技術現狀與未來」的報告

作為中國科學院自動化研究所所長助理、研究員、博士生導師，模式識別國家重點實驗室副主任，中國科學院大學首席教授和人工智慧學院院長助理，國家傑出青年基金獲得者，國家萬人計劃領軍人才，陶建華研究員的報告主要包括語音技術的發展歷史，現有語音技術的特點，現有語音技術的應用形式和面臨的挑戰，以及未來的發展思路。報告陳述了語音技術在C 端、B 端的應用，並指出雖然現階段的語音理解只是機器做出符合期望的反饋，但是機器的擬人化反饋確實獲得了極大的突破。報告指出，語音識別在方言和多語言處理上仍然不夠好，語音識別結合表情等多模態的數據還可以有更好的表現，其中語音的情感識別以及帶有情感語氣的語音合成也是一項挑戰，語音合成可以推廣到音效場景的生成等實際應用中。

吳及教授作「音頻信號的深度學習處理方法」的報告

作為清華大學電子工程系副系主任、長聘教授、博士生導師，清華-訊飛聯合實驗室主任，中國語音產業聯盟技術工作組組長，認知智能國家重點實驗室學術委員會委員，中國計算機學會語音對話與聽覺專業組委員，吳及教授的報告主要包括音頻信號領域的研究方向介紹和將深度學習方法引入音頻信號處理中的嘗試。報告給出了音頻信號處理的基本框架，包括音頻特徵提取和特徵序列建模兩部分。在特徵提取上，一是可以構造頻域濾波器組的神經網路，根據需要引入形狀約束；二是改進端到端的音頻特徵提取方法，提出了可學習頻點、可學習基函數的採樣傅里葉變換模塊。在特徵序列建模上，提出了基於傅里葉變換的時間轉移模塊，並通過數據分段重組、隨機跳幀等方法進行數據增廣，還提出了時間注意力和記憶注意力的LSTM 模型。

王育軍博士作「小愛背後的小米語音技術」的報告

作為小米人工智慧部門人工智慧實驗室語音技術總監，王育軍博士的報告主要圍繞 AI 助手小愛同學的發展過程，介紹了一系列在小米內部探索語音技術的經驗和感悟。報告提到了電視是小米做語音識別的突破口，兒童手錶與兒童語料是重要的應用場景。在技術細節上，報告提到了通過熱啟動項目獲得數據，通過自動識別和人工標註輔助訓練，通過數據增廣和引入注意力機制來提高識別率等指標。

康永國博士作「AI 時代的百度語音技術」的報告

作為百度主任架構師，CCF 語音對話與聽覺專業組常委，康永國博士的報告包括百度語音的進展與落地應用、百度語音在識別技術上的創新和在工業界解決問題與在學術界的區別等三部分。百度語音不僅在百度APP、百度輸入法、百度地圖、度秘以及合作廠商中得到應用，還提供了開放平台供開發者使用。主要應用包括語音喚醒、語音識別、語音合成三塊。在語音識別上引入分段的流式處理、多級注意力模型等技術提高了準確度。在語音合成上引入emphasis 建模等技術，應用到語音播報、有聲閱讀、音響助手、虛擬人物等方面。

「AI未來說·青年學術論壇」系列講座以貫徹落實國家人工智慧發展規劃和推動我國人工智慧技術水平進步為目標，通過業界專家、青年學者和優秀學生介紹領域前沿技術成果和分享教學、科研和產業化經驗，促進產、學、研結合，助力我國人工智慧行業的蓬勃發展。

劉斌博士作「基於聯合對抗增強訓練的魯棒性端到端語音識別」的報告

作為中國科學院自動化研究所語音方向的博士、ICASSP 2018 最佳學生論文獲得者，劉斌博士首先介紹了端到端的聲學建模技術，介紹了常見的CTC 、注意力模型等方法，並介紹了語音識別所面臨的雜訊和語音畸變問題，以及 GAN 應用於語音增強、魯棒性語音識別的模型。然後，劉博士提出了一種語音增強與識別模型聯合對抗訓練的框架，該框架將以往分開進行的語音增強和語音識別兩個模塊進行聯合優化，並通過生成式對抗網路提升模型的魯棒性。劉博士給出了該模型的實驗參數與結果，表示未來將在更大的數據集上進行實驗，以及探索基於麥克風陣列的前後端融合在魯棒性端到端聲學建模上的應用。

第一期數據挖掘專場回顧

第二期自然語言處理專場回顧

第三期計算機視覺專場回顧

留言點贊發個朋友圈

我們一起分享AI學習與發展的乾貨

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 讀芯術 的精彩文章:

※嗶，兩類科技公司成功秘籍，請查收

TAG:讀芯術 |

第四期「AI 未來說」 帶你論道AI「聽」與「說」的語音技術專場

第四期「AI 未來說」帶你論道AI「聽」與「說」的語音技術專場