智能音箱成新風口,蘋果、阿里、小米紛紛放大招,誰能搶佔你的客廳?
【智能音箱是AI席捲消費級場景的首個載體,已成為科技巨頭不約而同瞄準的新風口,一波波音箱發布呈井噴之勢,搶佔語音風口的戰爭剛剛開始。】
文/ 沈玉姍
7月26日,小米在北京國家會議中心發布首款AI音箱。在演示視頻中,小米家居生態「米家」旗下的掃地機器人、智能檯燈、空氣凈化器在「小愛同學」的語音操控下如常運轉。
這家在誕生之初曾引發中國互聯網地震的明星公司,在過去一年逐漸卸下光環,而由小米探索實驗室牽頭研發的AI音箱,承載著小米布局智能家居版圖、重塑硬體生態閉環的使命。
然而,這已是最近兩月間,各個公司發布的第N款音箱了。
繼谷歌與蘋果分別發布音箱產品Google Home和HomePod,7月5日阿里的「天貓精靈」徹底引爆了國內的智能音箱市場。
阿里「天貓精靈」智能音箱
而在此前一天,國內最早入局的京東則再次搶先推出叮咚音箱新品TOP,對標亞馬遜的輕量級產品Echo Dot。加上更早亮相的Rokid、喜馬拉雅FM,以及即將登場的騰訊,此前每年出貨量僅幾百萬台的音箱單品,已成為當下最火熱的網紅產品。
表面上,這是一場由Amazon Echo引發的智能音箱熱潮。實際上,產品背後基於語音交互技術打造的語音助手和生態體系,才是這場戰役的勝負關鍵。同一時間,騰訊、百度也相繼推出基於人機對話、面向軟硬體開發者和合作方的智能設備及服務開放平台。
元璟資本合伙人陳洪亮認為,聲音作為一種人機交互的無形界面,將成為下一個平台級入口,帶來變革性的機會。
「小米系」的順為資本副總裁段譽表示,家庭、車載等封閉環境下的語音助手路徑在業內來看已然清晰。從智能家居到自動駕駛,從前端硬體設備到後端內容服務,語音交互已升級為「風口級賽道」,被普遍視為能夠建立全新產業生態的下一代人機交互操作系統。
智能音箱是這場人工智慧革命席捲消費級場景的首個載體,搶佔語音風口的戰爭剛剛開始。
扎堆造音箱
中國音箱的集體大秀源於Echo的偶然成功。
2014年11月,亞馬遜上線業界第一款實現全語音交互的智能音箱產品Echo。基於全語音交互開闢的全新用戶場景和應用生態,Echo發售後在銷量和口碑上逐漸攀高,入口級地位開始顯現。亞馬遜隨後在首頁位置進行渠道強推,Echo最終在2015年的美國「黑五」期間迎來第一波銷售高峰。
同一時間,競爭對手谷歌、蘋果公司囿於各自強大的移動生態,仍將語音助手視為內置於手機、輔助觸屏交互的非核心功能。Echo由此獲得先發優勢,並最終成為亞馬遜史上最成功的硬體產品。
多名業內人士評價,Echo本身就是一次集天時地利人和的小概率事件。中國同行想要複製Echo卻不容易。
在Rokid創始人兼CEO祝銘明看來,當前基於語音交互的智能音箱,必須在用戶體驗上超出長期既有、搭載於屏幕的視覺交互,才能完成產品替代和用戶遷移。
祝銘明此前擔任阿里巴巴M工作室負責人,牽頭深度學習、視覺和自然語言處理的研發工作,2014年7月創辦人工智慧公司Rokid,是國內最早研究消費級語音交互場景的先行者之一。
Rokid 公司智能音箱新產品 Pebble (月石)
事實上,音箱早已被視為是語音交互的理想終端,只是早期的產品形態大都在體驗上不盡如人意。玩家們需要圍繞國內用戶的使用習慣和場景進行產品的深度打磨,才能完成智能音箱的中國式轉身。
首當其衝的是確保音箱在音樂點播場景下的真實可用。Rokid北京A-Lab負責人高鵬告訴《21CBR》記者,對標音樂APP的個性推薦功能,語音交互的優勢在於高效直接。
無論是「我要聽歌」還是「下一首」,底層演算法引擎和音樂產品策略,時刻接收用戶指令,並綜合時間、曲庫等外部因素變化以及用戶的使用偏好,不斷糾正、生成個性化的推薦歌單。除了音樂曲庫,通過與喜馬拉雅FM合作,兒童故事、小說相聲也在Rokid的內容體系之列。
海量內容是各家音箱在這場年中大秀上的亮點,也是喜馬拉雅FM涉足音箱硬體的背後邏輯。6月,喜馬拉雅FM聯合多方發布「小雅」音箱,主打基於「一雲多端」的斷點續播功能,能夠在多台設備上記錄並續播此前沒有聽完的內容。
喜馬拉雅「小雅」音箱
其副總裁李海波向《21CBR》記者解釋:「喜馬拉雅FM活躍用戶日均使用時長已經超過128分鐘,(通過手機)已經相當高了,必須用小雅拿下更多的用戶時間。」
與歐美國家的音樂消費主流不同,國人在有聲讀物方面表現出巨大的收聽熱情。李海波介紹,喜馬拉雅FM的激活用戶數有3.7億,有聲內容達6000多萬條,並且以每天百萬條的速度不斷增長。音箱成為有聲內容向多個生活場景延展的理想載體,但如何讓6000多萬條音頻順利到達用戶?
移動電台的有聲讀物標題動輒長達二三十字,音箱是每次都把字一個個讀下來,還是一旦完成檢索、識別就自動停下來開始播放?產品策略人性化與否,常常體現在細微處。
團隊為此對平台上的音頻數據進行前端優化,包括語音搜索引擎的推薦排序以及內容標題的關鍵信息提煉。小雅音箱的語音技術提供方——獵戶星空的投資人傅盛因此感慨:「人工智慧,有多少智能,就有多少人工。」
相比基於PC、手機觸屏的視覺交互,語音交互一定程度上降低了此前交互效率低的缺點,更適合不擅長使用手機的兒童及老人。各家廠商紛紛將故事兒歌、相聲戲曲列為重要內容構成。
京東為此聯合新東方,於2015年10月推出了內置泡泡少兒英語教材的「叮咚音箱」教育定製版。而在當年5月,京東與科大訊飛組成的合資公司「靈隆科技」才剛剛推出國內首款智能音箱「叮咚」。
教育版「叮咚」很快成為新東方線下課堂的重要教輔工具。學生使用音箱完成教材規定的朗讀作業,雲端將音頻傳輸至為老師定製的手機APP,再將打分點評的結果自動返回給學生。
此前,這樣的課後作業環節大多以學生錄製微信語音,再由家長代為上傳到班級微信群中的方式完成。靈隆科技CEO魏強告訴《21CBR》記者,教育版音箱在新東方全國的主要網點推廣試用後,受到了家長的普遍歡迎,學生購買比率超過50%。
2016年,叮咚音箱在中國智能音箱市場佔比超過80%,魏強表示今年的銷量仍以100%的速度增長。Rokid也宣布,其日活躍度超過50%,用戶平均使用時長達1小時以上,為現有公開的音箱品類中最高。
然而,中國智能音箱行業的整體出貨量仍在百萬級別,在消費電子市場並非可觀的品類,用戶也尚未養成使用語音的習慣,中國智能音箱秀尚需迎接來自更廣泛的市場和用戶的檢閱。
祝銘明說:「現階段最迫切的問題是,除了內容點播、天氣、鬧鐘等工具類功能之外,語音交互到底還適用於哪些細分場景。」
讓音箱「開口說話」
祝銘明認為,要實現自然的人機語音交互,首先要像對待朋友那樣,以兩個字的稱呼喚醒機器。
業內對於喚醒詞的定製規則通常是4-6個漢字,音節覆蓋越長,相鄰音節差異越大,誤喚醒率越低。事實上,為保證實際使用時的喚醒效果,包括谷歌、蘋果在內的國內外廠商都將喚醒詞設置為3-4個音節,比如「OK,Google」和「Hi,Siri」。
高鵬告訴《21CBR》記者,為了讓雙音節喚醒詞「若琪」達到「可用水平」,Rokid團隊耗時近一年,將不斷收集的天使用戶語料用於喚醒詞的演算法模型訓練,同時調整相關的產品策略,比如在本地和雲端添加多道驗證,最終將室內環境下10米以內的「若琪」喚醒率提升至90%以上,響應速度控制在500毫秒。
喚醒詞門檻的高低對於用戶的習慣養成意義重大, 喚醒詞的背後實際上是一條完整的語音交互技術鏈:從遠場交互技術、麥克風陣列,到語音識別、理解、合成的相關演算法,對應著音箱從「聽清」、「聽懂」到最終「開口說話」的一系列步驟和相關軟硬體生態。
阿里巴巴人工智慧實驗室負責人陳麗娟就將天貓精靈稱為「鏈路最長的產品,任何環節出錯都會被乘數級放大」。
Rokid是業內少有的自主研發語音技術及把控產品全程鏈路的公司,而更多玩家則以組隊的方式「打怪升級」,逐個擊破。
Echo被視為最重要的硬體革新,主要在於產品頂部的6+1環形麥克風陣列設計,配合降噪處理、聲源定位等技術,能夠實現360°語音信號採集和5-10米半徑內的語音識別效果,大大提升了遠場語音交互體驗。
Echo的6+1環形麥克風陣列設計,大大提升了遠場語音交互體驗(圖片來源:極客公園)
Echo發售不久,國內語音技術服務商便迅速跟進。科大訊飛為首款叮咚音箱配備了8個麥克風的環形陣列;思必馳則推出國內首個與Echo同源的麥克風陣列,並為天貓精靈、小米提供相應的麥陣軟硬體、語音識別等技術方案。
思必馳CMO龍夢竹告訴《21CBR》記者,語音交互產品涉及各方面因素,包括環境、用戶和產品本身,「以演算法降噪為例,麥克風的距離角度、聲源的定位、音箱的選型,從任何一個出發點考慮,都會生成很多情況,是對語音交互能力的綜合考察,甚至可能推翻產品原有的工業設計方案」。
語音識別的演算法提升,也得益於深度學習近年來在問答式語音場景中的應用。通過收集海量語音數據,採用深度神經網路的端到端訓練方法,各家在語音識別的準確率、速度等性能表現日趨逼近,數據石油的開採逐漸從通用領域走向垂直場景。
喜馬拉雅FM僅針對喚醒識別一項功能就錄製了超過8萬條「小雅小雅」,阿里巴巴為了讓天貓精靈適應家居場景則收集了大量與玻璃、木材、金融等材質相關的噪音。
語音合成也離不開數據準備。音箱能夠自然地「開口說話」,背後是大量的語音合成工作。Rokid北京A-Lab科學家孟猛曾表示:「高品質的語音合成需要精心挑選聲優,還要專業的錄音師、監聽員,資源耗費多,產品周期長。語音識別能收集到上萬小時的數據,語音合成能有100小時就很不錯,需要通過演算法把難度降下來。」
不過,多名業內人士向《21CBR》記者解釋,數據驅動的深度學習在帶有一定識別規則的任務式對話中表現突出。然而,一旦進入自然語言理解環節,尤其多輪對話的應用中,需要機器調動更接近人類思維模式的認知和推理能力,深度學習便威力不再,音箱時常表現出「沒有聽懂」。距離自主學習、實現真正意義上的「智能」,音箱還有很長一段路要走。
風口來臨
儘管現階段的智能音箱仍需突破技術難關,其背後初具雛形的語音平台已經讓眾多的科幻電影場景成為現實。人們看到了語音交互在消費級市場的巨大潛力,紛紛布局生態,滿城儘是「開放平台」,風口似乎來了。
一位投資人向《21CBR》記者描繪了這樣一幅生活場景:「當我問音箱今天什麼天氣,喚醒的可能是墨跡;要聽兒童故事,背後有的是咔噠(一款兒童有聲故事App);聽歌則是網易雲音樂。語音本身成為新的入口,這與移動互聯網時期的手機端入口概念是不一樣的。」
從硬體到技術,從內容到數據,各家看到了語音交互商業變現的種種可能,實際建立起生態體系時,在方向和邏輯上卻不盡相同。
廠商普遍提及的首要任務是搭建語音技能平台。截至目前,Echo銷量突破1000萬,Alexa平台上的語音技能(Skills)已達1.5萬種,布局成果超出眾人預期,亞馬遜也憑藉Echo在硬體市場打了一記翻身仗。後來者紛紛效仿Alexa,加碼生態建設,比拼技能數量,試圖以更豐富的語音技能應用拉攏更多用戶。
Echo通過Alexa平台,可控制家庭環境內的其他智能產品(圖片來源:極客公園)
不過,根據AI觀察機構Voicebot的統計,Alexa平台上擁有最多評論的前10%技能佔據了80%的總評論數,包括音樂、教育、資訊等大類技能,其餘絕大多數技能則乏人問津。
從研發階段、產品化到開放給第三方開發者,Alexa跑通這條路花了5年時間。祝銘明認為,技能並非越多越好,相比接入大量技能,現階段專註於核心技能的體驗優化更為重要。
思必馳則橫向輸出技術,定位為人機交互的智能解決方案平台。2015年,思必馳面向硬體合作方推出AIOS人機對話操作系統,封裝了核心的語音技術和對話交互邏輯。
7月7日,思必馳宣布打造DUI(Dialogue User Interface)開放平台。相比AIOS,DUI更像是解決方案的自選超市,提供可定製的語音技術全鏈能力,「相當於AIOS的升級版。」龍夢竹稱。
與科大訊飛一樣,思必馳是國內僅有的兩家具有全套語音技術產權的公司之一,專註智能硬體領域的技術輸出。
創業公司在垂直領域挖掘平台深度和轉身空間,大公司則試圖一網打盡、打造航母級生態體系。
2015年9月,李彥宏在百度世界大會上推出基於移動端的語音助手「度秘」。2016年下半年,百度加速語音賽道布局,將度秘改名為DuerOS,成立單獨事業部,轉型技術輸出。今年7月5日,在百度首屆開發者大會上,度秘事業部總經理景鯤正式發布DuerOS開放平台,表示DuerOS將是人工智慧時代的安卓系統。
百度的DuerOS開放平台賦能智能家居行業
京東、阿里、騰訊也先後發布平台計劃:開發語音助手,建立硬體和技能平台。與百度的不同之處則是增加了終端的音箱產品。BATJ均表示要以低門檻賦能智能語音設備,似乎都指向了一幅更大的生態圖景:智能家居。業內普遍認為,語音交互是智能硬體的關鍵入口,智能硬體又是語音交互的主要應用,二者天然契合。
魏強告訴《21CBR》記者,通過與京東智能家居接入平台「微聯」對接,叮咚音箱後台已接入智能家居設備超過1000款,覆蓋燈具、空調、電視、廚具等21個品類,能夠進行跨平台、跨品牌的連接控制,「未來,終端與平台的關係不是1:N或N:1,而是N:N。」
更有布局硬體生態三年的小米,欲藉此激活新的業務增長點。在6月的米家年度發布會上,小米聯合創始人劉德透露,小米硬體生態鏈平台MIOT已連接6000萬台智能設備,米家做的是「明天」的產品。
研究機構Statista的統計數據顯示,2016年全球智能家居市場規模已達168億美元,預計到2021年,中國市場比重將從7%上升至17%。
在祝銘明看來,語音交互能夠實現的多機協作、個體認知,將帶來跨設備、跨場景的狀態遷移,「虛擬的若琪是跟著人走,而非跟著設備走,最終將是一個無處不在的AI」。屆時,承擔語音入口功能的或許也不再是音箱了。龍夢竹認為,Echo只是Alexa生態孵化出的第一個產物,「音箱只是語音的一個載體,核心是對話交互」。
智能音箱承載著人們對人工智慧和未來生活的眾多想像,但能否成為「爆款」還有待市場的檢驗。
※小米之家被學生包場,《王者榮耀》不背這個鍋
※為何死磕激光?小米萬元眾籌新品曝光
※小米5X銷售火爆,無辜躺槍的這款手機簡直不要太慘
※小米5X正式發布,隱藏慢動作缺陷曝光
TAG:小米 |
※智能音箱:巨頭新戰場,蘋果憑藉音質能否後來居上?
※蘋果:智能手錶大賣,潛力如何?
※有史以來最優秀的主流智能音箱?蘋果智能音箱終於來了!
※大佬們的三款智能音響大比拼:蘋果、谷歌和亞馬遜
※買蘋果智能音箱的都是什麼心態?
※靠智能音箱搶佔客廳,蘋果這次算盤不好撥
※蘋果手機變卡,可能是電池的鍋?
※手機越來越貴,怎樣才能降低被蘋果、華為等廠商薅羊毛的頻率?
※三星、小米、蘋果手機最大痛點有可能被解決!革命性電池技術曝光
※蘋果叫板谷歌,智能音響誰能稱雄?
※表情包又成為新智能手機新戰場 三星、蘋果已搶跑
※蘋果安卓的屏幕鏡像大有來頭,智能電視還能這樣玩
※未來的手機長這樣!你能分辨出蘋果、小米、華為嗎?
※蘋果、三星、華為降價大亂斗,你更看好誰?
※在蘋果、谷歌之後,微軟的智能耳機離我們還有多遠?
※「電池門」之外的蘋果:瘋狂挖角大牌,奮力插足時尚圈
※小電池的手機也不怕沒電啦,手機續航大突破!三星蘋果都沒辦成!
※小米新機性能曝光敢與蘋果X對比的手機?
※華為蘋果放招:不用手機也能打電話 你更支持誰?
※蘋果出品智能音箱 新智能家居時代逐漸成型