阿里全資收購先聲互聯前中科院聲學大牛付強帶隊加盟

新聞 05-03

付強博士

新智元報道

來源：阿里巴巴

編輯：克雷格

【新智元導讀】近日，阿里對先聲互聯進行全資收購，先聲互聯創始人、中科院聲學所前研究員付強博士入職阿里達摩院機器智能技術實驗室，負責語音交互前端處理技術和方案的研發。未來將籌建兩個實體聲學實驗室，隨著阿里在晶元上的戰略布局，也會在語音專用晶元上有更多進展。

阿里全資收購先聲互聯前中科院聲學大牛付強帶隊加盟

一支曾被媒體稱為「扼住了智能音箱咽喉」的研發團隊，近日加盟阿里巴巴。

近日，阿里對北京先聲互聯科技有限公司（以下簡稱先聲互聯）進行全資收購，先聲互聯創始人、中科院聲學所前研究員付強博士入職阿里達摩院機器智能技術實驗室，負責語音交互前端處理技術和方案的研發。

和付強一同入職的，包括先聲互聯創始團隊的多名資深專家，他們多為付強在中科院的原班人馬，其中有一位來自著名的杜比實驗室。

付強帶隊加盟，將成為阿里IoT場景落地的關鍵一環

先聲互聯是國內最早從事語音增強、遠講語音交互介面技術的團隊，曾為阿里、百度、小米等多家公司提供遠講語音交互軟硬體的解決方案。

付強及團隊在語音增強等領域創造了多項國內第一，甚至打破了國外的技術壟斷。創始人付強擁有二十餘年語音信號處理研發經歷，在美國OGI等語音研究機構從事過博士後工作，曾牽頭完成了國家自然科技基金國家、省部委幾十項科研課題，在包括IEEE Trans.在內的國際權威學術刊物上發表論文近百篇，發明專利近二十項，多項成果被相關部委列裝。

4月初，阿里宣布全面進軍物聯網領域。付強帶領聲學團隊加入，將成為阿里IoT場景落地的關鍵一環。

去年下半年，前寶利通首席工程師馮津偉加入阿里，進行上海地鐵語音售票機的研發，這是全球首個強嘈雜環境下的語音交互產品。

付強加盟後將整合資源，推動語音識別技術的場景落地，形成軟硬結合、端雲一體的商用方案。他還將籌建兩個實體聲學實驗室。

4月20日，阿里全資收購大陸唯一的自主嵌入式CPU IP Core公司中天微，很多技術也是面向IoT領域。

「阿里IoT戰略必須要做資源可控、技術可控、擁有核心競爭力的事情。」阿里巴巴CTO張建鋒說，這也是達摩院組建以來最重要的研究突破方向之一。

去年10月，阿里宣布成立以「達摩院」為名的全球研究院，目前已在全球多點設立科研機構，立足基礎科學、顛覆性技術和應用技術研究。

將來會在語音專用晶元上有進展

問：先聲互聯總計多少技術人員會加盟阿里？團隊陣容的介紹？

答：是全資收購，主要是技術、人才的收購。

加盟的技術人員加上我共5人，其中4人是聲學所原班人馬，也都是在該領域中技術沉澱較久，實際落地經驗非常豐富的。

團隊核心演算法人員包括我之前帶的學生和從杜比實驗室出來跟我一起創業的。他們的共同特點都是能文能武，既能寫出IEEE trans.這樣的領域內國際頂級刊物學術文章，又能深入到實際產品研發。對貫徹理論到實踐的統一理念，起了重要的作用，也使得我們技術有自己的原創特色，並非跟隨。

問：您為什麼選擇做聲學研究這條路線，為什麼後來選擇創業，為什麼選擇加入阿里巴巴？

答：做語音處理是碩士起就開始了，至今已有20多年了。那時談不上選擇，就是導師的課題需要做語音就開始做了，那時做語音也並不吃香，雖然有機會轉別的方向，不過我喜歡做事做透，就一直做下來了。

「和有情有義的人，一起做有價值的事」，一直是我堅持的原則。有機會去實現自己的理想，自然也就沒什麼猶豫，選擇創業是這樣，選擇加入阿里更是這樣。

問：先聲互聯此前研究和要解決的核心問題是？

答：語音交互，作為人機交互中最自然的方式，其真正的價值是讓人在無限制的場景說話，然而語音交互應用在實際的場合經常會受到背景雜訊、非平穩干擾、設備回聲、以及房間混響等聲學不利因素的影響。可以說，機器聽覺的雜訊魯棒性與人的聽覺機制比還是不少差距的。

先聲互聯綜合利用了多麥克風空間濾波、語音分離、解混響和聲源定位等多項基於物理建模的信號處理技術，並融合了基於機器學習的數據建模機制，甚至是語義層面的信息，為複雜聲學條件下的語音交互提供前端處理技術和方案。

問：目前您負責研究的這一技術，在全球行業內的相對位置是怎樣的？在這一領域，中國和世界處在同一起跑線嗎？我們的相對優勢有哪些？

答：國內的相關技術積累並不落後，但缺乏成功的產品帶動。

我們在中科院聲學所時，團隊在前端處理技術環節上就比較成熟了，相比於國外這些產品級的技術並不落後，在信號處理與喚醒和識別等語義層面的信息融合方面還是更進一步的，也暨此落地了不少實際產品，但由於語音交互技術鏈條很長，在缺乏對端到端交互系統流程把控和優秀的產品設計前提下，一些更好的想法很難體現出來。

相信在阿里這個大平台會有更好的機會發揮價值。

問：目前在機器智能技術實驗室，有哪些重點攻克的難題或研發項目可以透露？

答：短期目標是幫助語音交互技術在多種場景和終端上落地，在複雜環境下保持正確的識別率。

從PC時代、移動互聯網時代，到物聯網時代，對人機自然交互、沉浸式的體驗越來越高。這對語音交互前端處理技術的挑戰是不同的。如：

地鐵機場等場景：有人流聲音、有喇叭音，背景音嘈雜
家庭場景：噪音沒那麼複雜，但涉及到混響、回聲處理
車載場景：不遠不近、混響小，但涉及到胎噪、風噪等擴散場雜訊

在這些場景中，我們都有不同的終端產品已經或即將落地量產，在業界也都引起不小的影響。在這些已有成績的基礎上，我們會在技術深度和方案的可複製性上有更多的布局。

特別地，針對IoT化的智能家居的需求，我們正在研發基於小陣列語音增強技術的低功耗、低成本、高集成的端雲一體語音交互技術和硬體方案。隨著阿里在晶元上的戰略布局，我們也會在語音專用晶元上有更多進展。

問：關於未來，還有哪些計劃是可以透露的？

答：我和團隊最近在籌建專門用途的聲學實驗室。

這個聲學實驗室主要目的是用於複雜聲學環境下的語音交互系統在線端到端測試。

有別於現有的遠講語音交互測試認證方法，它的主要特色是基於多揚聲器系統聲場重建的原理在局部區域內建立真實的聲場，也就是說家庭、車載和戶外等場景的聲場條件，使得待測終端在實驗室內就能置於近似真實的聲場中。在此基礎上，更重要的是建立自動化的，包括前端信號處理能力、喚醒率、識別率乃至對話成功率的，全鏈路端到端測試系統和流程。該實驗室的建設和系統搭建，將會大大提升阿里對語音交互IoT終端設備賦能效率和產品質量。

問：目前我們機器「聽清」的能力，和人相比在一個怎麼的水平？機器的耳朵會比人更靈敏嗎？

答：現在實際的語音交互系統，尤其在遠講條件下，與人類的聽覺機制相比還是有不小的差距的，主要表現在極低信噪比和多人說話（所謂的雞尾酒會問題）的情況。

隨著多模態融合和深度神經網路建模技術的進展，這些問題會有更好的解決方案，阿里在這方面的技術布局也早就開始了。

【加入社群】

新智元 AI 技術 + 產業社群招募中，歡迎對 AI 技術 + 產業落地感興趣的同學，加小助手微信號: aiera2015_1 入群；通過審核後我們將邀請進群，加入社群後務必修改群備註（姓名 - 公司 - 職位；專業群審核較嚴，敬請諒解）。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！