當前位置:
首頁 > 科技 > 亞馬遜科學家將人工智慧助理日常化的夢想照進現實

亞馬遜科學家將人工智慧助理日常化的夢想照進現實

「我覺得有些奇怪,你看上去就像真人,但其實只是電腦發出的聲音。」

「我能理解你作為一個正常人,在洞察力方面的局限性,你會習慣的。」

——《Her》

2013年,一部美國電影《Her》將人們帶入了人類與AI的交互時空,講述了未來世界,主人公Theodore和Samantha(人工智慧系統OS1)間帶了幾分科幻底色的奇異愛情。電影中的Samantha同現今常見的人工智慧助手一樣,沒有常規意義上的「身體」、氣味、乃至觸覺嗅覺這樣的人類特質,他們彼此單純依靠對話交流,因而有評論稱這更像是「兩個聲音的愛情故事」。從技術角度來看,我們更習慣稱之為「語音交互」——這是一種人機交互方式,即利用人類的自然語言給機器下命令,從而達到自身目的的過程,多被視作「下一代人機交互界面的主要功能」。

事實上,語音交互技術一直以來都是人工智慧賴以實現人機交互的重要途徑,更是近年來國內外各大廠爭相搶佔的市場方向。諸多人工智慧學者長期致力於讓機器「聽懂」外界所傳達出的信息並做出相應的反饋,識別對象跨越自然語言與情感信息,涉及拾音、語音識別、語義理解,語音合成等方面的技術要求,無疑是個極為複雜的過程。

語音交互主要分為近場交互和遠場交互。近場語音交互主要是指人類距離機器不超過30厘米範圍的語音識別技術,因其利用距離優勢迴避了真實場景下複雜的聲學問題,而被廣泛理解為一種「實驗室理想環境下的語音交互技術」。人們對近場語音識別的研究可追溯到上個世紀,但發展初期始終不得其法。90年代末,IBM推出了第一款商品化的語音識別系統ViaVoice,業界更是開始發出下一代語音交互界面的呼聲,然而過程中的頗多嘗試最終都以失敗告終。

2011年,手機語音助手Siri搭載iPhone4S成功發布,在全球範圍內引發強烈關注;2014年,微軟於Windows 8的發布會上正式推出Cortana……至此,近場語音交互開始廣泛走入公眾視野,一路行至今天,已然日趨成熟,例如國內較具代表性的幾款語音輸入,其識別準確率已高達95%。但在最初的新鮮感褪去之後,很多用戶發現這一功能就像嚼過的甘蔗一般僅余噱頭二三,甚是雞肋。即使在近場語音識別高度發展的今天,其在實際場景的應用中仍多逢壁壘。由此,越來越多的研究將目光投注至遠場語音識別技術。

遠場語音識別是指在較遠的距離條件下(通常是1m-10m),機器對語音加以識別的技術。該技術一般採用麥克風陣列的方式收集語音,廣泛運用於智能家居、車載導航、會議轉錄等場景。較之理想化情境下的近場語音識別,遠場識別更容易受到真實環境中的背景雜訊、多徑反射和混響,乃至人聲的干擾,遠場語音識別因此在準確率方面也會有大幅下降。遠場語音識別系統通常包含前端信號處理與後端語音識別模塊。前端部分旨在通過語音增強的手段,包括解混響(Dereverberation)、波束成形(Beam Forming)等方法來將含有雜訊和混響的語音儘可能地處理「乾淨」;後端部分與一般的語音識別系統相同,目的在於將處理「乾淨」的語音識別為文字。

2014年,亞馬遜發布智能音箱Echo,正式拉開了遠場語音交互的帷幕,更有評論稱其「打開了物聯網的重要入口,已然成為行業標杆一般的存在」。如今,Echo能夠依靠語音助手Alexa實現音樂播放、新聞搜索、外賣網購下單、在線叫車等一系列服務,在全球範圍內已累積千萬銷量。近年來,正是由於智能音箱可藉由語音交互提供內容服務、互聯網服務,以及場景化的家居控制能力,國內外巨頭在手機熱之後,紛紛投身智能音箱市場,加緊不局,力求在一片混戰中分一杯羹。

據CNBC 9 月19日報道,Amazon計劃於今年年底之前,推出至少8款由Alexa支持的交互新設備,包括微波爐、車載設備和高端家用音響設備(包括擴音器、接收器和低音炮)等,其中部分設備將直接搭載語音助手功能,意在繼續攻堅智能家居市場。但很顯然,智能語音服務的未來並不會止步於此,今日的科幻終將照進現實。

作為亞馬遜Senior Principal Scientist、Alexa & Echo技術負責人及團隊初創成員,Nikko Str?m擁有資深的語音技術背景,曾就職於多家世界著名的研究實驗室和企業,擁有20年的自動語音識別領域工作經驗。在麻省理工學院計算機科學實驗室擔任科學研究員兩年後,Nikko Str?m於2000年加入語音初創企業Tellme Networks,並於2007年轉入微軟核心語音識別團隊,推動最新技術的發展。2011年,他進入Amazon,擔任Senior Principal Scientist,領導語音識別及相關領域的深度學習團隊,繼而成為Amazon Echo團隊的創始成員之一。

1997年,Nikko Str?m在位於斯德哥爾摩的KTH語音通信實驗室攻取博士學位,期間所撰論文為說話人自適應(Speaker Adaptation)和人工神經網路(Artificial Neural Network)這兩個技術領域做出了重要貢獻。

作為論文工作的一部分,Nikko Str?m開發了世界上第一個瑞典語連續語音識別器。同時,他還發布了開源人工神經網路軟體(NICO Toolkit),並在全球收穫了數千名研究人員的下載。

1994年至1995年期間,他曾任日本京都國際電氣通信基礎技術研究所(ATR)的特邀嘉賓研究員,在這裡,他為說話人自適應領域的世界級研究做出了頗多貢獻。

作為業餘愛好,他還開發並發布了「Quite BASIC」(http://www.quitebasic.com/),一個完全基於網路的經典培基(BASIC)在線編程環境。

……

很快,在人工智慧領域深耕多年的Nikko Str?m就要來到中國和廣大AI開發者見面啦——11月8-9日,2018 AI開發者大會(AI NEXTCon)將於北京盛大召開。

作為由中國專業的IT社區CSDN與矽谷AI社區AICamp聯合出品的AI技術與產業年度盛會,本次大會將邀請到近百位中美頂尖AI專家、知名企業代表以及千餘名AI開發者齊聚北京,進行技術解讀和產業論證。這也是繼西雅圖、矽谷、紐約等城市成功舉辦五屆後,AI NEXTCon首次進入中國。Nikko Str?m將在大會上結合Amazon Alexa為大家講解其中蘊含的深度學習奧義。

10月12日前購買早鳥票,立享5折優惠!詳情請登錄大會官網:https://bss.csdn.net/m/topic/ai_nextcon/index


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 CSDN 的精彩文章:

雷軍說,焦慮的小米找到了「AI + 物聯網 + 5G」的路
阿里的程序員們如何解決複雜數據的查詢優化問題?

TAG:CSDN |