智能語音市場迎來爆發潮,聲加科技以前端核心技術助力多場景智能走進語音時代
在萬物互聯的今天,信息交互工具經歷了物理手柄按鍵到鍵盤滑鼠,到觸摸屏,再到麥克風等語音設備的發展,終於將人類最簡單自然的交流方式——聽和說,隨處可見地應用到了日常工作和生活中。隨著聽覺系統在各種機器上的出現,「智能」的印象已經從高大上的機器人、自然語言理解、圍棋比賽等實驗室產品應用到了手機、家居、汽車、VR甚至是穿戴設備等消費電子產品上。語音識別的出現不但解放了雙手,且操作簡單便捷、快速有趣,還能適合多種環境和場景。
作為物聯網人工智慧的入口,智能語音產品已成為全世界最有錢的科技巨頭們的必爭之地。據中國語音產業聯盟數據顯示,目前全球智能運營市場規模已達到105億美元。隨著個人及家庭用戶的多場景支持,各領域應用帶動下的智能語音產業規模持續快速增長,預計2018年全球智能語音市場規模將超過140億美元。
據聲加科技創始人兼CEO邱鋒海介紹,目前隨著深度學習的引入以及在此基礎上派生的各類模型的組合,語音識別準確率確實得到了大幅度提升,智能音頻設備也呈現出多樣化和日常化。尤其是近一年來幾乎所有巨頭都涉足的智能音箱,一度賣到百元以下,今年上半年國內智能音箱銷量猛增;智能耳機市場也在蘋果推出Airpods後迅速引爆,華為、小米等都在尋求的數百元級解決方案。這些產品雖然大大普及了公眾對語音交互的認知和使用,但實際上由於真實場景使用下的複雜、不同設備體積限制對算力的要求等因素,語音產業的發展仍然受技術瓶頸的限制尚處在起步階段,業界依然共同面臨許多技術難題。
據了解,智能語音產品完成一次人機交互,需要經過四個主要技術環節:語音前端處理、語音識別、自然語言理解以及語音合成,即從聲音的拾取到轉換成文字,到理解其含義並作出反饋,再到將反饋說出。經過多年的技術積累,語音識別和語音合成已經獲得突破,目前基本可以滿足商用。而語音前端處理和自然語言理解依然是語音交互的核心瓶頸。
邱鋒海表示,雖然各項技術獨立發展,但從產品上無法割裂,同時需要在其它技術的配合下,才能形成完整鏈條具備市場化的終端產品。 目前的BAT、小米、京東、華為等巨頭企業,基本是從語音識別、語義理解應用後兩個環節切入。這主要源於語音識別演算法開源,技術相對普及,而巨頭們的海量數據和強大算力支撐有足夠的優勢。但作為流程第一步的聲學前端處理產品,因為教育環境下人才的斷層和稀缺(此前工程類項目多在科研院所)而有極高的技術門檻,因此,專註這個環節的企業基本集中在有中科大、聲學所、自動化所等科研背景的初創企業中。
聲加科技成立於今年年初,創始人兼CEO邱鋒海本科就讀於清華大學,碩士期間在中科院聲學所深造,畢業後長期在聲學晶元企業工作,曾帶領20餘人的研發團隊完成了世界級知名企業的音頻處理晶元演算法部分的開發,對聲學演算法的工程實現、演算法和晶元的結合等方面具有豐富的經驗;CTO王之禹,中科院聲學所博士後,長期從事語音信號處理和識別研究工作,實現多個科研項目的產業化,具有豐富的研發和企業合作經驗;演算法技術總監鄭成詩,聲學所研究員,德國埃爾朗根-紐倫堡大學客座教授,長期從事語音和音頻信號處理研究工作,曾作為項目負責人帶領團隊完成多個科研項目,並創新性地提出許多解決方案。
其核心團隊成員大多師出聲學所同門,平均在業界擁有超過十五年工作經驗,博士以上學歷人員佔比80%以上。在公司成立以前,團隊已有為國內多個巨頭企業的智能音箱、智能耳機等明星產品提供遠場麥陣模組設計方案、智能耳機麥陣演算法、智能耳機模組等實戰項目經驗,完全具備市場化營運能力。隨著公司的成立,將逐漸嘗試將最先進的技術應用在新產品上。目前,聲加科技的產品規劃分三個階段:第一步,為智能語音交互設備和通信設備提供語音前端處理演算法。第二步,在之前工作的基礎上,推出語音處理專用晶元。第三步,則是在語音處理專用晶元的基礎上,開發出各類麥克風陣列模組,給客戶提供語音前端處理的整體解決方案。當前第一階段的演算法產品已經通過了一些國內大廠的驗證,即將量產;晶元和模組產品也在快速推進當中。同期與國內巨頭合作的二代產品也將在下半年陸續上市,將成為其瘋狂增長的生態鏈中的重要一環。
據邱鋒海和聲加團隊的恩師,我國空氣聲學領域著名科學家、中國科學院聲學研究所研究員/博士生導師李曉東介紹,聲學前端技術在語音交互獲得突破之前,一直是冷門學科,學科設置非常少,全國每年畢業的博士總共不超過20人,每個博士最多也只專攻某一兩個細分的技術方向。而且聲學前端技術屬於應用類學科,需要大量的課題、項目來積累,培養一個聲學方面的專業人才,往往需要四五年甚至更長時間。因此,長期以來,從事聲學前端處理技術的高端人才都集中在國家相關科研院所內。即使對於不差錢的巨頭們,組建一個有實力的聲學前端處理技術的團隊也並非易事。
李曉東表示,儘管目前市場增勢良好,但現有聲學技術仍然處於商業初級應用階段,距離用戶滿意還有相當大的距離。比如以Siri為代表的近場語音識別要求必須是低雜訊、無混響、距離聲源很近的場景,用戶一定要對著手機講話才能獲得符合近場語音識別要求的聲音信號,環境稍微嘈雜一點語音識別引擎就失靈了;而以智能音箱為代表的遠場語音識別場景下,依然存在誤喚醒,方言、童音識別不準以及聲源移動中的識別率低下等問題。這些限制都需要聲學前端處理技術不斷改善,實現雜訊抑制、混響去除、人聲干擾抑制、聲源測向、聲源跟蹤、陣列增益等功能,提升語音信號處理質量,進而提高各種環境下的語音識別率。這也是聲加團隊要致力突破的方向。
據了解,此前聲加科技因其技術優勢和人才儲備已獲得中科創星千萬級和萬魔聲學數百萬級的天使輪融資;同時與萬魔聲學成為戰略合作夥伴,二者會在智能音頻設備上持續聯創。隨著產品的上市和進一步研發的需要,目前聲加科技正在進行下一輪融資。
萬魔聲學CTO黎懋紘透露,聲加科技提供的語音增強技術(ENC),在導入產品後很短時間之內,便成功在各項指標上超越現有產品的水平。這不但幫助萬魔在幾項熱點產品上迅速提升市佔,也為聲加科技營造了新創公司難得的聲勢和發展的動能。同時他強調,除優秀的技術實力之外,聲加科技核心團隊早已經過多年的協作,志同道合、默契十足,是一支專業、熱情、高效、有凝聚力的隊伍。
最後,邱鋒海從技術角度對行業表達出期望,「一直以來,人機交互充滿了想像,未來甚至可能和機器視覺、腦科學等融合,實現電影里的酷炫畫面。目前只有先解決語音識別的這些技術瓶頸,才能進一步有所作為。「
※i黑馬對話前PPTV CEO陶闖:我為什麼入局高精準地圖行業?
※馬化騰:人工智慧的「大社交」時代
TAG:i黑馬 |