語音識別技術造就越來越多會聊天的平台

科技 02-08

市調公司Gartner曾經在兩年前預測，2018年所有與技術相關的人機互動中，大約有30%都來自與語音系統的對話。不久前。RBC Capital Markets的分析師也預期，亞馬遜(Amazon)的Alexa智能語音助理將在2020年前達到100億美元的銷售額。

語音識別是去年國際消費電子展(CES)的熱門話題，許多評論家認為2017年將是語音識別年。Gartner並指出，包括語音識別功能的對話平台將成為2018年前十大策略技術趨勢之一。語音識別預計將推動系統的典範轉移，不僅更能回答簡單的問題，例如「天氣如何？」同時還實現了越來越複雜的互動。對話平台之間的主要區別在於其對話模型的穩健性、應用程序編程介面(API)，以及用於存取、啟用和編排第三方服務以提供複雜結果的事件模型。

因此，語音識別技術正不斷發展以滿足這一需求，而投資人也看到了這個機會。例如英國的XMOS，以及卡米人工智慧(Kami Intelligence Limited)等公司最近幾個月都獲得了融資。XMOS去年9月從英飛凌(Infineon Technologies)、Amadeus Capital Partners、Draper Esprit、Foundation Capital和Robert Bosch Venture Capital募資了1,500萬美元。

位於倫敦和香港的Kami則在上個月從ARM創新生態加速器(Arm Innovation Ecosystem Accelerator；Softbank子公司)、香港X科技基金(X Technology Fund)和天富基金(Tin Fu Fund)等籌資170萬美元的種子基金。

XMOS去年初推出首款遠場語音處理器系列——XVF3000及其相關開發工具包。該公司聲稱是唯一一家獲得亞馬遜AVS認證的遠程線性麥克風數組開發工具包供貨商，能夠將亞馬遜的Alexa輕鬆地整合於智慧面板、廚房電器以及其他商業和工業電子設備。

語音識別技術造就越來越多會聊天的平台

XMOS最新語音處理器VocalFusion XVF3500在今年CES亮相（來源：XMOS）

在CES 2018，XMOS進一步展示其最新語音處理器，該處理器支持立體聲聲學迴音消除(AEC)和遠場線性麥克風數組解決方案。XVF3500語音處理器可提供雙通道全雙工聲學迴音消除功能，專為開發語音啟動的智能電視、家庭劇院、機頂盒(STB)和數字媒體配接器等市場的開發人員而設計，這些成長中的市場與應用都需要立體聲AEC支持「整個室內」的語音介面解決方案。該解決方案還支持可配置的AEC延遲，能夠精確校準AEC參考訊號並調整延遲，從而為現有的消費電子產品提供售後遠場語音配件。

即使是在複雜的聲學環境，該解決方案也能透過雲端語音識別系統處理，準確地在整個室內擷取指令。XVF3500語音處理器提供複雜的語音數字訊號處理(DSP)——包括具有語音干擾功能的全雙工聲學迴音消除器、讓用戶能夠中斷或暫停正在播放音樂的設備，以及追隨揚聲器的自適應波束形成器。即使是在嘈雜的環境中，更先進的去混響、自動增益控制以及雜訊抑制功能，也能提供清晰的語音互動體驗。

新一代可信任對話AI平台

專精於生產台式機、筆記本電腦、平板電腦、智能手機、寬頻、無線系統、遊戲機、連網設備、STB等消費電子產品的和碩聯合科技(Pegatron Corp.)最近宣布在其最新智能語音助理產品Martina中採用XMOS VocalFusion語音技術。Martina是和碩科技人工智慧(AI)產品解決方案的一部份，採用了Google雲端服務與自然語言辨識技術，可支持中文、英文、日文與韓文等。

和碩資深總監Joe Wu表示：「XMOS解決方案由於其卓越的遠場語音技術而被選用於我們的智能語音助理。Martina具有跨平台的兼容性和語音驅動的用戶介面，能夠使用簡單的語音命令連接和控制各種設備和服務。」

語音識別技術造就越來越多會聊天的平台

內建XVF3000語音處理器的和碩智能語音助理Martina

新創公司Kami則開發出使用神經網路和機器學習演算法的下一代可信任對話AI平台。其目標在於透過對話學習和建立知識、記住個人並自然地進行交流。其專利技術結合了神經網路和機器學習演算法。

Kami的種子輪投資方AIEA策略務發總監陳向軍說：「Kami開發出一款真正強大的推理平台，擁有超強的記憶和情緒關注分析能力。其專利的外部動態記憶網路技術和關注分析技術大幅地提高了對話情境追蹤和系統推理的能力。Kami獨特的後設語言夠透過分析情境和推理，跨多種不同的業務場景做出決策。」

Kami的產品包括Kami Relate和Kami Analytics。Kami Relate提供情境對話，因而能夠記住客戶說的話、理解內在的含義並且在架構之間自然地變換——就像與真人一樣交談。此外，它還支持文本和語音，並與Facebook Messenger、Skype、Kik、Slack和微信等主要的實時通信通道無縫整合。該架構並支持多種語言，節省了全球部署的時間和資源。

Kami Analytics透過言語和移動、創建模板並執行同類群組分析來區分用戶，並透過持續的用戶互動過程和語音優化，從而提高用戶的參與度、持續率以及對話，並為A/B測試提供可讓聊天機器人的效率優化的平台。在開發時透過軟體開發工具包(SDK)和「即插即用」模塊即可整合移動應用。

隨著亞馬遜和Google積極推動語音家用設備，如今有一點是確定的：更加準確的語音識別技術將繼續發展，並將進一步推動平台實現更複雜的人機對話，以及超越這些家庭設備以外的用戶介面。

編譯：Susan Hong

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 EET電子工程專輯 的精彩文章:

※本次CPU漏洞不是某一家的鍋，請共同面對
※自動駕駛火爆，汽車Tier one供應商開始研究深度神經網路

TAG:EET電子工程專輯 |