亞馬遜科學家將人工智慧助理日常化的夢想照進現實

科技 09-26

「我覺得有些奇怪，你看上去就像真人，但其實只是電腦發出的聲音。」

「我能理解你作為一個正常人，在洞察力方面的局限性，你會習慣的。」

——《Her》

2013年，一部美國電影《Her》將人們帶入了人類與AI的交互時空，講述了未來世界，主人公Theodore和Samantha（人工智慧系統OS1）間帶了幾分科幻底色的奇異愛情。電影中的Samantha同現今常見的人工智慧助手一樣，沒有常規意義上的「身體」、氣味、乃至觸覺嗅覺這樣的人類特質，他們彼此單純依靠對話交流，因而有評論稱這更像是「兩個聲音的愛情故事」。從技術角度來看，我們更習慣稱之為「語音交互」——這是一種人機交互方式，即利用人類的自然語言給機器下命令，從而達到自身目的的過程，多被視作「下一代人機交互界面的主要功能」。

事實上，語音交互技術一直以來都是人工智慧賴以實現人機交互的重要途徑，更是近年來國內外各大廠爭相搶佔的市場方向。諸多人工智慧學者長期致力於讓機器「聽懂」外界所傳達出的信息並做出相應的反饋，識別對象跨越自然語言與情感信息，涉及拾音、語音識別、語義理解，語音合成等方面的技術要求，無疑是個極為複雜的過程。

語音交互主要分為近場交互和遠場交互。近場語音交互主要是指人類距離機器不超過30厘米範圍的語音識別技術，因其利用距離優勢迴避了真實場景下複雜的聲學問題，而被廣泛理解為一種「實驗室理想環境下的語音交互技術」。人們對近場語音識別的研究可追溯到上個世紀，但發展初期始終不得其法。90年代末，IBM推出了第一款商品化的語音識別系統ViaVoice，業界更是開始發出下一代語音交互界面的呼聲，然而過程中的頗多嘗試最終都以失敗告終。

2011年，手機語音助手Siri搭載iPhone4S成功發布，在全球範圍內引發強烈關注；2014年，微軟於Windows 8的發布會上正式推出Cortana……至此，近場語音交互開始廣泛走入公眾視野，一路行至今天，已然日趨成熟，例如國內較具代表性的幾款語音輸入，其識別準確率已高達95%。但在最初的新鮮感褪去之後，很多用戶發現這一功能就像嚼過的甘蔗一般僅余噱頭二三，甚是雞肋。即使在近場語音識別高度發展的今天，其在實際場景的應用中仍多逢壁壘。由此，越來越多的研究將目光投注至遠場語音識別技術。

遠場語音識別是指在較遠的距離條件下（通常是1m-10m），機器對語音加以識別的技術。該技術一般採用麥克風陣列的方式收集語音，廣泛運用於智能家居、車載導航、會議轉錄等場景。較之理想化情境下的近場語音識別，遠場識別更容易受到真實環境中的背景雜訊、多徑反射和混響，乃至人聲的干擾，遠場語音識別因此在準確率方面也會有大幅下降。遠場語音識別系統通常包含前端信號處理與後端語音識別模塊。前端部分旨在通過語音增強的手段，包括解混響（Dereverberation）、波束成形（Beam Forming）等方法來將含有雜訊和混響的語音儘可能地處理「乾淨」；後端部分與一般的語音識別系統相同，目的在於將處理「乾淨」的語音識別為文字。

2014年，亞馬遜發布智能音箱Echo，正式拉開了遠場語音交互的帷幕，更有評論稱其「打開了物聯網的重要入口，已然成為行業標杆一般的存在」。如今，Echo能夠依靠語音助手Alexa實現音樂播放、新聞搜索、外賣網購下單、在線叫車等一系列服務，在全球範圍內已累積千萬銷量。近年來，正是由於智能音箱可藉由語音交互提供內容服務、互聯網服務，以及場景化的家居控制能力，國內外巨頭在手機熱之後，紛紛投身智能音箱市場，加緊不局，力求在一片混戰中分一杯羹。

據CNBC 9 月19日報道，Amazon計劃於今年年底之前，推出至少8款由Alexa支持的交互新設備，包括微波爐、車載設備和高端家用音響設備（包括擴音器、接收器和低音炮）等，其中部分設備將直接搭載語音助手功能，意在繼續攻堅智能家居市場。但很顯然，智能語音服務的未來並不會止步於此，今日的科幻終將照進現實。

作為亞馬遜Senior Principal Scientist、Alexa & Echo技術負責人及團隊初創成員，Nikko Str?m擁有資深的語音技術背景，曾就職於多家世界著名的研究實驗室和企業，擁有20年的自動語音識別領域工作經驗。在麻省理工學院計算機科學實驗室擔任科學研究員兩年後，Nikko Str?m於2000年加入語音初創企業Tellme Networks，並於2007年轉入微軟核心語音識別團隊，推動最新技術的發展。2011年，他進入Amazon，擔任Senior Principal Scientist，領導語音識別及相關領域的深度學習團隊，繼而成為Amazon Echo團隊的創始成員之一。

1997年，Nikko Str?m在位於斯德哥爾摩的KTH語音通信實驗室攻取博士學位，期間所撰論文為說話人自適應（Speaker Adaptation）和人工神經網路（Artificial Neural Network）這兩個技術領域做出了重要貢獻。

作為論文工作的一部分，Nikko Str?m開發了世界上第一個瑞典語連續語音識別器。同時，他還發布了開源人工神經網路軟體（NICO Toolkit），並在全球收穫了數千名研究人員的下載。

1994年至1995年期間，他曾任日本京都國際電氣通信基礎技術研究所（ATR）的特邀嘉賓研究員，在這裡，他為說話人自適應領域的世界級研究做出了頗多貢獻。

作為業餘愛好，他還開發並發布了「Quite BASIC」（http://www.quitebasic.com/），一個完全基於網路的經典培基（BASIC）在線編程環境。

……

很快，在人工智慧領域深耕多年的Nikko Str?m就要來到中國和廣大AI開發者見面啦——11月8-9日，2018 AI開發者大會（AI NEXTCon）將於北京盛大召開。

作為由中國專業的IT社區CSDN與矽谷AI社區AICamp聯合出品的AI技術與產業年度盛會，本次大會將邀請到近百位中美頂尖AI專家、知名企業代表以及千餘名AI開發者齊聚北京，進行技術解讀和產業論證。這也是繼西雅圖、矽谷、紐約等城市成功舉辦五屆後，AI NEXTCon首次進入中國。Nikko Str?m將在大會上結合Amazon Alexa為大家講解其中蘊含的深度學習奧義。

10月12日前購買早鳥票，立享5折優惠！詳情請登錄大會官網：https://bss.csdn.net/m/topic/ai_nextcon/index

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 CSDN 的精彩文章:

※雷軍說，焦慮的小米找到了「AI + 物聯網 + 5G」的路
※阿里的程序員們如何解決複雜數據的查詢優化問題？

TAG:CSDN |