AI語音交互引爆兒童終端市場 「專用芯」與「通用芯」的對決
作為語音交互的一大重要細分應用場景,兒童終端市場在經過過去兩年持續的試水和探索之後,2018年迎來新一波的增長高潮。從智能故事機、早教娛樂機再到兒童智能音箱,幾乎每一類都成為了當前市面上的爆品。兒童終端市場的火爆,也強勢拉動了智能語音方案及相關晶元的市場需求,隨著思必馳、微納感知、雲知聲、Rokid以及出門問問等越來越多語音方案廠商相繼布局AI語音晶元戰場,語音交互「專用芯」與「通用芯」的PK大戰也正式拉開帷幕。
應用轉型與場景需求「雙向」驅動 兒童智能語音市場「爆火」
受惠於智能語音技術的成熟及應用場景的快速擴張,今年以來,在各大頭部廠商的牽動下,兒童智能語音終端市場迎來新一輪噴發,成為語音交互眾多應用場景中的一道亮景。其中,增長最快的要數智能早教機、故事機和兒童智能音箱三類產品,業內預估今年國內早教機器人市場規模將突破50億,而兒童智能音箱在百度阿里等巨頭的推動下,目前也已佔據整個智能音箱市場的20%左右,達到百萬量級出貨,足見市場之火爆。
今年,做兒童機器人的公司就多達好幾百家,僅大大小小的智能故事機廠家也有一兩千家左右,數量比去年幾乎翻了一番,深圳市炭火智能科技有限公司市場經理許波表示:「其中,很大一部分廠商基本都是從別的行業過來的,例如有些廠商過去就是做車載後視鏡這類終端或者一些非智能類硬體產品,都想藉此市場良機賺錢。今年上半年受益於市場持續火爆,公司智能早教機產品目前的累計銷量已達到25萬台,相比去年有較為可觀的增長,下半年我們保守估計銷量能夠突破30多萬。如今,市面上只要是帶智能語音交互功能,且定價在千元以內外觀還可以的兒童機器人產品基本上都能達到月銷量幾萬台的水平。」
思必馳商務總監韓嘉璇
智能故事機市場,思必馳商務總監韓嘉璇也預計:「2018年整個故事機市場出貨量可能達到3000萬到4000萬台,其中會有一多半屬於智能故事機產品,市場巨大。當前的兒童智能終端領域,思必馳方案的整體市場佔有率約為20%-30%,依託於前端演算法的優勢,在Android系統的高端市場也擁有超過50%的市場佔有率,相關合作品牌包括步步高、火火兔、遙藍、小蘿蔔等兒童終端的出貨量均十分可觀。」
為何語音交互能迅速在兒童市場爆火?編者認為,其一主要是越來越多的智能音箱巨頭相繼發力兒童市場的原因,智能音箱向兒童市場的轉移,實現了很好的智能對非智能應用的「降維打擊」效果。事實上,早在今年4月份,亞馬遜就特意推出了一款Echo Dot兒童版,儘管硬體上與之前的Dot並無差別,但是在軟體層面,比如語音識別、兒童讀物等都是針對兒童進行量身打造的;緊隨其後的5月,阿里、百度、出門問問、喜馬拉雅等廠商也都紛紛針對兒童推出了專門的智能音箱,深耕兒童應用市場。兒童智能音箱的爆火,進一步帶動智能語音技術向更多應用場景擴散,早教機及故事機這類場景自然就成為了首發戰場。
另一方面,越來越多「頭部」廠商集中發力AI智能語音交互類硬體產品也是關鍵原因。許波認為:「『頭部』廠商的帶動,很大程度上使得現有非智能交互類產品尤其是傳統故事機市場快速萎縮,儘管這種產品在價格方面相比智能交互類硬體更便宜一些,但隨著智能交互類產品的大舉入侵,二者之間的價格優勢也正逐步淡化。更為重要的是,在智能化產品的打擊下,這類非智能的產品越來越沒有賣點,導致消費者不買賬。比如我們最近接觸的一家故事機銷售商,去年他們非智能產品的業務表現還相對比較強勁,但今年這塊產品的出貨量就不怎麼理想,現在庫存也比較多,很多產品也只能降價甩賣。」
聲智科技聯合創始人常樂
從應用場景需求本身的角度來看,鑒於中國兒童教育市場體量本身就十分巨大,加之智能語音交互與兒童終端產品近年來正快速融合,順理成章地推動了該場景對語音交互逐漸形成剛需。聲智科技聯合創始人常樂也表示:「隨著語音交互在技術端的逐步深化,如今的語音交互已不再是按鍵和觸控交互方式的輔助或補充,而是以更加獨立或者佔有主導權的交互模態呈現出來,進而降低了老人和兒童使用電子產品的難度。對於3歲以上的兒童來說,他們迫切需要用語言來表達觀點和獲取知識,而語音交互正好切中了這一訴求。聲智科技在2016年成立之時,就幫助奇虎360打造了多款兒童機器人和故事機系列產品,而隨著兒童智能音箱市場的爆發以及語音交互剛性需求的帶動,兒童故事機、陪伴以及早教等智能語音交互終端產品的市場體量會非常巨大。」
兒童應用場景挑戰多 演算法優化與內容適配是關鍵
誠如上述,在兒童教育類終端市場持續高漲的態勢下,智能語音交互的市場潛力可謂是不可限量。但就目前的應用現狀來看,與成人類語音交互場景不同,兒童場景存在著更多語音及語意方面的「不確定性」和「複雜性」,這也給語音交互廠商帶來了更多技術層面上的挑戰,首當其衝的就是語音交互系統、內容及相關演算法的適配。
深圳市微納感知計算技術有限公司市場總監程剛在接受本刊採訪時就坦言:「現階段經過訓練,市面上其實已經有很多產品可以做到對方言的識別,成人應用場景之前的很多難點都在逐漸被克服。但兒童交互產品的區別在於,產品要做到童音識別,除了需要解決孩子具備的更高音階以及不同的言語模式問題外,更為重要的是,孩子並不擅長按照機器能理解的方式與其交互,成年人建立的語音庫並不能很好的理解兒童的語言,即使包括Amazon Echo與Google Home在內的業內頂尖設備也都出現了在與兒童交互的場景下識別錯誤的現象。」
深圳市微納感知計算技術有限公司市場總監程剛
常樂對此也表示贊同,她認為:「對於小朋友來說,好奇心重,且思維邏輯不如成年人那般嚴謹,因此小朋友在對智能語音終端提出問題時常常是出其不意、前言不搭後語且猶豫反覆的。針對兒童的這種語音交互特性,常常需要做更多技術層面上的優化,比如我們就推出了Free-cut(隨時打斷,任意喚醒),Free-ask(支持識別猶豫及停頓)以及One-shot(一句連控,喚醒識別連續說)等技術,來提升兒童語音交互體驗。」
對於兒童不同於成年人的語音音階和言語模式等問題,常樂認為需要針對這些發音特點進行專業的模型訓練:「例如我們在幫助百度『小度智能音箱』打造『兒童模式』時,就構建了一個集合百萬級數據的兒童語音庫,針對兒童的發聲特點進行了專項優化,基於6000+個兒童數據模型和超過30000小時的童聲語音測試,打造出了兒童專用語音喚醒模型以及語音識別交互引擎,使得音箱在與兒童進行對話時,能夠提供更高的識別和喚醒的準確率、更快的反應速度以及更流暢且自然的語音交互。目前該方案已經能夠實現定製化,並經過360兒童故事機、兒童陪伴機器人以及兒童智能音箱等眾多終端產品的百萬級規模量產驗證,成本可控。」
除此之外,與成年人相比,小朋友雖然對智能語音交互產品的用戶體驗包容度要更高,但他們更為關注產品端所能提供的內容。常樂也認為,不同於成年人一樣具備清晰的邏輯思辨能力,小朋友往往會帶著求知和娛樂的心態使用智能語音交互產品,他們更關心的是智能語音產品的背後提供的內容,比如提問的百科問答是否能得到答案,或者想要聽的兒歌和故事是否可以播放等。因此,對於語音技術廠商來說,如何在提供足夠優質的兒童教育服務內容的同時,又能在語音交互系統及演算法層面上針對兒童這類特殊應用場景做更多的優化,提供更為靈活且符合兒童心理預期的定製化語音交互解決方案,將是市場決勝的關鍵。
通用「芯」VS專用「芯」 誰將「稱霸」智能語音市場?
當然,對於優質的兒童智能語音交互產品來說,廠商所能提供的軟體系統能力僅佔據一半的分量,硬體系統作為另一大核心板塊,也在其中發揮著十分關鍵的作用。眾所周知,在語音交互類產品當中,硬體系統的核心是晶元,主要負責處理海量的交互數據、各種語音指令以及其他關鍵功能的驅動等。從市場層面上來看,當前的兒童語音終端領域主要還是以通用主控晶元方案為主。不過,隨著近期越來越多語音交互方案廠商陸續開始布局AI專用語音晶元,一場圍繞應用端展開的「專用芯」與「通用芯」的較量也正式拉開帷幕。
就目前來看,通用方案採用的多為主控晶元外掛DSP的方式,應用環境有限不說,整體性價比實際上也不高。韓嘉璇認為:「兒童終端場景中通用語音晶元所佔成本還是略高的,而且目前的功耗還比較高,同時由於平台五花八門,這也給智能語音演算法的適配帶來了更高的難度。相比之下,AI專用語音晶元則可以提供高集成度、低功耗、低成本、可定製化等多重優勢。」
但從應用及市場的角度來看,兒童語音交互終端目前主要分為離線和在線兩大類,二者對晶元產品的需求表現上也迥異。常樂表示:「目前,在線更多還是基於ARM或者MIPS架構的通用晶元,而這個市場眾所周知現在已經是紅海競爭,對於語音專用晶元的市場需求不是太大。AI語音晶元現階段主要對標的還是離線類應用場景,由於低功耗和離線化的特性,面向的主要是兒童故事機等存量市場,但是這個市場由於成本較低,因此也很難保證很好的用戶體驗。」
除此,從成本方面來看,AI語音晶元主要還是技術優勢,在成本上現階段暫時還不會有明顯優勢,常樂認為:「主要是由於當前的市場容量還沒有爆發,很多產品的銷量並沒有起來。更為憂慮的則是,基於ARM或者MIPS的晶元已經非常便宜,所以市場上的智能音箱也已經把價格壓得很低,AI晶元剛誕生就可能面臨著巨大的價格戰壓力,而且語音晶元這個市場未來還會有更多玩家進入,真等很多晶元量產的時候競爭會更加巨大。現階段,AI公司如果只做晶元,沒有演算法和場景落地就容易碰到晶元生態問題,這事實上也是困擾晶元工業的核心問題。因此,在語音交互的市場還沒有達到億級以上的容量時,AI語音晶元的投入風險還是非常高的。」
總的來看,編者認為,在兒童教育市場高速成長的驅動下,兒童智能語音終端市場的「雪球」無疑會越滾越大,這也為業內廠商推動語音交互走向大規模普及創造了絕佳的機遇。當然,機遇與挑戰總是並存的,兒童語音交互市場需要比成人場景更為複雜且更具定製化特性的語音交互系統及演算法設計,同時在內容端也擁有更多的要求,這就需要廠商在軟體系統開發、演算法設計以及內容提供方面耗費更多的精力、成本以及資源。不過,隨著未來市場體量的不斷增大,這些成本問題也會逐步消散。
智能語音晶元方面,儘管當前市場仍主要是以ARM架構的通用主控晶元為主,但編者認為未來無論是兒童還是成人類智能語音設備市場,應用服務及內容的定製化都會成為主流趨勢。相比通用晶元設計廠商來說,語音方案商無疑更懂市場及用戶的需求,自研AI語音晶元能夠提供更佳的定製化和專業化服務。除此,還能夠在演算法、系統及晶元三端之間實現更好的適配,這對提升語音交互系統的整體效率和用戶體驗必將大有裨益。但不容忽視的是,晶元自研並不是一蹴而就的,需要足夠強大的硬體資源、專業技術經驗以及資金流,現階段在語音交互眾多應用市場的大門還未完全打開且真正突破更大體量的形勢下,語音交互方案商自研專用語音晶元會面臨巨大的挑戰,與專業的晶元廠商進行深度定製化晶元設計及量產方面的合作可能會是更佳的選擇。
歡迎訂閱華強微電子
更多行業資訊可訪問華強電子網-商情資訊欄目
歡迎關注華強微電子
《華強電子》雜誌贈閱活動
請發送「雜誌」或數字「2」了解
※英特爾適時低價「撿漏」 意在 「瘦死駱駝」eASIC的互補價值
TAG:華強微電子 |