為什麼國內智能音箱難敵 Amazon Echo和Google Home?
AI研習社按:本文作者陳孝良,工學博士,聲智科技創始人。AI研習社獨家文章,轉載請聯繫授權。
智能音箱需要生態鏈打磨,功夫決定體驗,不能忽視任何細節。很多時候我們給予大數據和深度學習過高的讚譽,反而讓眾多的研究人員犯了懶,這個世界從來不是搞搞數據就能明白的,對物理世界的探索,對人類哲理的思考,才是推動社會進步的力量。
隨著 Google Home 的發布,智能音箱鼻祖 Amazon Echo 再次成為關注焦點,這款產品儼然成為了新時代智能硬體的代表。當然,Amazon Echo 確實也不負眾望,不僅銷量攀升到千萬級別,而且研發力量也超過了千人,前幾日又開放了 400 人規模的職位招聘。
一般來說,國外成功的模式或者產品,最多一年左右時間,國內就會成功複製甚至快速趕超。但是Amazon Echo 卻是個例外,自從 2014 年發布以來,國外只有谷歌花了近兩年的時間才推出 Home 這樣的競品,由於剛剛發售,具體銷售情況我們還要拭目以待。但是國內情況怎樣呢?國內花了兩年多時間也仿製出了幾款產品,然而都沒有複製出 Amazon Echo 這種能被大眾普遍接受的產品。
這也是國內很多廠商百思不得其解的問題,為何同樣花了很多功夫,但做出來的產品就是得不到用戶的認同呢?國內同類產品慘淡的銷量,也讓很多國內互聯網巨頭始終無法下定決心投入研發類似 Amazon Echo 的這樣的智能音箱產品。這到底是為什麼呢?
智能音箱需要生態鏈打磨,功夫決定體驗,不能忽視任何細節
智能音箱,作為語音智能助手的家庭入口,遠遠超出了音箱定義的範疇,這是硬體?軟體?還是平台?很難界定,智能音箱涉及了語音交互的完整生態鏈。如果不把這款產品作為戰略產品來投入研發,估計做出的產品難免差強人意。雖然國內很多廠商都自認為投入巨大,但是相比 Amazon Echo 來說,這就有點小巫見大巫了。Amazon 不僅投入上千人研發,還可以把 Echo 廣告做進超級碗。這和手機之間的競爭非常類似,國產有些品牌手機也自認為不錯,但是用戶拿到手中,心中自然就會有個衡量區分。事實上,公司之間競爭,不在於投入 20% 實現的 80%,而在於投入 80% 才換來的 20%。大多時候,往往就是這 20% 決定了公司競爭的成敗。但是國內願意投入這 80% 的畢竟還是少數,特別是面向新興市場的產品,若不能做到精緻的用戶體驗,傾注足夠的心血,得不到用戶認同也就在情理之中。
事實上,Amazon Echo 的誕生也不是一帆風順的。
承擔 Amazon Echo 研發任務的是 Amazon 126,這個公司成立於 2004 年,主要擔負 Amazon 硬體產品的研發任務。Amazon 126 曾經同時研發了四款產品,Echo 是處於 Kindle、Fire Phone 和 AR 之後的 D 類研發任務,甚至其研發成員主要也是 AR 項目組分出來的,2010 年末啟動的時候想必沒人會看好這個音箱。Amazon Echo 也不是最初的名字,而是 Amazon Flash,甚至 2014 年發貨前夕還是這個名字。Echo 也是幸運的,由於 Fire Phone 的失敗,AR 項目被停止,這讓 Echo 直接受益,短暫的內部調整後大大增強了研發力量,但是即便這樣,內部還是存在不少爭議,這讓剛剛面世的 Echo 不敢公開銷售,轉而採取邀請購買的方式試水市場。
Amazon Echo 雖然研發多年,對於技術的追求也是一種極致,但這並沒有挽回 Echo 在 2014 年發布時候的尷尬,當時的用戶體驗也就是一個演示模型而已,從演算法到內容,都存在不少問題。當然,隨著用戶規模的不斷擴大,以及研發力量的持續增加,Echo 也有了長足的改善,其內容聚合也因為其開放策略而迅速發展,這也為後來 Echo 屢次拿到 100 美元以上產品銷量冠軍打下了基礎。
Amazon Echo 的本質屬性仍然是個音箱,雖然 Echo 的音質差強人意,但是在當前 HiFi 音箱衰落,藍牙音箱當道的時代,音質對於大部分消費者來說已經不是第一要素。使用簡單、外觀漂亮才是用戶購買無線音箱的主要動力。雖然 Echo 的造型設計中規中矩,但是 Echo 卻是聲學和智能相配的結合,智能僅是 Echo 的擴展屬性,而刻意去掉的顯示屏更凸顯了 Amazon 對於語音交互的信心與執著。這種戰略意識國內還是普遍缺乏的,過分聚焦於 Echo 的功能差異確實很難複製 Echo 的成功,更何況國內產品設計和策劃方面確實還不如 Echo 精緻。
這裡說的精緻,真的是需要用心體驗的。
舉一個例子,語音喚醒,國內總喜歡標榜超過了 Alexa,然而,如果真拿指標這件事情說事,國內的產品虛警率飄高,莫名其妙的就誤喚醒,這蠻討厭,突然間一個音箱說話回應你一個莫須有的問題,這種事情偶爾發生也是受不了的。至於工藝設計方面,每個人都有一個審美標準,很難評判 Echo 和 Home 為何看著舒服,但是至少要比垃圾桶的音箱造型好看一些。
精心打磨一個生態鏈產品,除了需要考慮多方面的細節,還需要集中自家的優勢資源。比如說語音交互,國外巨頭不斷收購相關公司壯大實力,而國內公司總是喜歡自家組建小團隊搞定一切,試問精力如此分散如何才能超過國外的巨頭?何況語音交互壓根也不是搞搞深度學習就能解決的,這本身就需要對聲學和智能都有深刻的理解和長期的積累才能做好。
語音交互的現場感和即時性是關鍵因素,但是目前還是欠點火候
語音交互毋庸置疑是繼鍵盤、滑鼠和觸摸屏之後的主流交互方式,但是距離真正走入千家萬戶還總是差那麼一點。
這裡面有很多因素,比如說廠商總覺得語音交互根本沒有智能,事實確實也是如此。世界上還沒有任何一家公司能讓語音交互做到不傻,語音智能的水平仍舊停留在關鍵詞的內容識別和上下文分析,所謂的語法和語感學術界都還沒有清晰的思路。這需要長久的研究突破,不僅限於當前火熱的機器學習和大數據,更需要考慮物理世界的概念和模型,最起碼也要明白嬰兒學習語言的過程。從這個思路來看,現在的人工智慧距離實現真正的智能語音交互還差著十萬八千里。
很多時候我們給予大數據和深度學習過高的讚譽,反而讓眾多的研究人員犯了懶,這個世界從來不是搞搞數據就能明白的,對物理世界的探索,對人類哲理的思考,才是推動社會進步的力量。
上述或許只是個共性,Amazon Echo 其實也面臨同樣的困境,甚至還有很多人批評 Echo 的語音合成也不夠好,因為人類總希望自己的話語能得到類似的回應。不能說 Amazon 不重視這個問題,事實上 Amazon 強化了另一層面,不是語音合成的自然程度,而是語音回答的反應速度。語音合成當前確實很難做到如同人類一樣自然,但是距離這個目標也不太遙遠。上個月 Google 發布 WaveNet 引起語音合成領域的震動,這是一個新的思路。在此之前,語音合成已經很長時間沒有任何實質性的進步,無非就是參數化和拼接式兩種方法。這幾種方法筆者在《如何評價谷歌的語音合成 WaveNet 和微軟的語音識別 「里程碑」?》做了對比分析,不過,事實上這不是現階段用戶關心的重點。
事實證明,Amazon Echo 的押注選擇是正確的,用戶更為關心的是人機對話的現場感,從指標上來分析,其中一個重要參數就是機器的響應速度,Echo 剛開始是 5 秒,後來壓到 1.5 秒,再後來就是 1 秒以內,注意這是平均響應時間,而不是國內的峰值指標。
人機對話的現場感挺有意思,有時候也會說成沉浸感,這從人類語言對話的發展歷程可以窺得一斑。我們知道,語言交流是人類交互最主要的方式,是人類交換信息、學習知識最主要的途徑,但是由於語言太過時效性,記載功能太差,與之伴隨逐漸就形成了文字。由於語言的時效性,所以語言交流往往是面對面即時完成的。當然,現在人類擁有了電話,但是即便有了電話之後,語言交流仍然保持著即時性。也就是說,電話其實就是人類語言交流的距離拓展,但是沒有改變語言交流的即時屬性,所以電信和互聯網的發達本質上來說仍然是在享有這種紅利。
當然了,電信和互聯網的技術還很難做到人類語言交流的水平,很多時候破壞了這種即時性。技術上常常稱為單工或者雙工模式,單工的時候對話者的語言是 「互斥」 的,不會出現聲音的重疊和打斷。顯然,以 Siri 和 Echo 為主的人機語音交互,就是這種單工模式。單工模式無法提供面對面交流時的暢快感和現場感,也就缺少一部分 「對話」 的體驗。雙工模式實際上是希望改變這一點,但是目前來看與人類還是有不少差距的,這些都是需要技術去克服的難點。
既然語音交互的現場感當前還無法做到人類水平,自然就希望先把機器回答的時間縮短,再次提醒這個指標要用平均時間,而且必須穩定可靠。這是至關重要的,試問你會和一個半天時間才冒出一句的機器對話嗎?應該不會,這會讓你崩潰,即便對方是人類也不行,或許還會涉及到尊嚴問題。顯然,當前階段人工智慧還不能追求模仿人類智慧,這有太多的物理和哲學難題沒有解決,也不要杞人憂天爭論什麼 「奇點理論」,機器威脅人類還是漫長的過程,考慮這些之前,不如先想想如何解決產品中的每個關鍵問題。
東西方的文化差異也制約了國內語音智能交互技術的發展
國內外對於智能音箱的理解或許還有更多差異,但是當東方人嘗試使用智能音箱的核心——語音智能助手的時候,這裡還有個文化阻礙的問題,這或許是東西方文化差異的結果。理解這點之前,我們先把語音和語言區分一下,語音(Speech)是語言(Language)的信號載體,語音是人的發音器官發出的,承載一定的語言意義,而語言才承載人類的智慧。通俗的講,語音是天生就存在的,嬰兒的咿呀咿呀也算是語音,甚至其哭聲也代表一定的意義,而語言則是需要學習不斷進化的。人機語音交互實際上就是語言的交互,即便語音識別做到 100%,對於理解語言來說也沒有具體意義,何況語言總是個性的、場景的和情緒的。
語言是社會文化的產物,離開了文化就沒什麼語言可言了。語言又是社會文化的寫照,不僅反映社會文化的形態,而且語言結構也反映了人們的價值觀念。顯然,不同國家的語言習慣是千差萬別的,由於各民族生活的環境不同,由此而形成的文化內涵和語言習慣自然不同。毫無疑問,東西方由於文化的巨大差異,其語言表達方面也存在巨大的差異。而這種差異也決定了類似 Echo 這類語音智能助手的普及速度。
東方文化總是含蓄的,和西方直接表述不同,我們總喜歡拐彎抹角的表達意思。「是」 時不說 「是」,卻說 「不是」。「不是」 時不說 「不是」,卻總說 「是」,這讓熱戀中的東方男生時不時的就會崩潰。事實上,東方人的處事哲學中最重要的一點就是 「話到嘴邊留半句」。這可苦了語音智能助手,很多時候當東方人面對 Echo 這類智能音箱的時候,據我們大量實驗觀察,真的是還需要仔細思考一下才會出口。
這已經超越了任何技術的範疇,相比西方人來說,東方人使用語音智能產品面臨著更大的心理障礙。與西方人覺得機器不夠聰明不同,而東方人面對這類產品的表現更為含蓄和尷尬。再加上當前語音交互的現場感和即時性確實還不夠好,更是加劇東方人這種心理上的障礙。這種障礙導致東方人使用 Echo 這類語音智能產品的時候,很難連續說出超過十句不同的表述。
事實上,東西方的二次元文化差異也折射了語音智能助手在東西方的不同地位。西方的動漫,比如說變形金剛,實際上就是典型的人機語音交互,而諸如鋼鐵俠、星球大戰等等都有人和機器人的自然語音交互。反觀東方的二次元文化,比如聖鬥士星矢和最終幻想,更多的還是強調人人之間的交互和表達。從這個層面來看,東方相比西方,整體來說,人機對話和人工智慧方面的普及教育要差很多,自然,東方大眾對於語音智能助手的認同就不如西方。
國內的智能音箱或者說語音智能助手還在早期市場教育階段,前面還有一段滿是荊棘的小路去趟,即便明知有坑,或許也會跌落不少先驅,但是腳步必須邁出去,前景必然是美好的。趟路的過程,或許需要很大的犧牲,才能培養出一大波的技術人員、營銷人員,積累出一大批鐵杆用戶。這個戰略布局國外已經提前走了一步,國內也不要總幻想著彎道超車,哪有那麼多彎道,別人也不傻,踏踏實實地邁出堅實的步伐即可。
國內互聯網發展其實也這樣走過,BAT 也並非各個領域最早的開拓者,而是踏著先驅再不斷發展壯大。不好預計這個趟路過程需要持續多久,畢竟不是預測國足的比賽結果,但是相信會比互聯網和移動互聯網的過程都會更快。
聲智科技CEO陳孝良說:
「語音是最簡單、最自然的人機交互方式,同時也是技術難度最大的交互方式,特別是語音交互從近場走向遠場落地到真實場景,必須考慮雜訊、混響、回聲等聲學問題,以及數據差異引入的機器學習模型問題,這些都是保證自由人機交互的核心技術。但是由於橫跨聲學和計算機學科的教育資源太少,造成了這個行業的人才奇缺。
馮大航博士是我們聲智科技的聯合創始人和CTO,著名的遠場語音交互專家,長期研究聲學技術和深度學習技術,培養了眾多人才,業內擁有極高的口碑。雷鋒網聯合AI慕課學院開設遠場語音交互技術這門課程,率先普及和推廣這項前沿技術,對於語音交互的行業發展有著很大貢獻,希望能培養更多聲學方面的人才。」
實戰特訓:遠場語音交互技術
「實戰特訓:遠場語音交互技術」 課程開課啦!
深入了解 AI 設備語音交互關鍵技術,更有價值1999 元的開發板放送!
※英偉達股價暴漲17%、5大AI新品,GTC上黃仁勛都講了啥?
TAG:唯物 |
※蘋果 Apple HomePod 智能音箱 圖集Soomal
※蘋果 Apple HomePod 智能音箱 圖集「Soomal」
※Bose 推出支持 Google Assistant、Alexa和AirPlay 2的Portable Home 音箱
※Monitor Audio SoundFrame 2 In-Wall嵌壁式音箱
※Google Home 智能音箱即將加入 Apple Music 支持
※谷歌 Google Home Mini 智能音箱使用體驗報告Soomal
※谷歌 Google Home Mini 智能音箱使用體驗報告 [Soomal]
※打開彩色音樂世界:Gallo Acoustics Droplet Micro SE音箱
※Bose推出新品家用智能音箱 Google Assistant代替Alexa
※輕薄設計:SpeakerCraft Profile Accufit Ultra Slim One吸頂式音箱
※Invoxia Triby:支持Homekit和Alexa的智能攜帶型音箱
※Google Home Mini 智能音箱開箱簡評
※獨特的Freedom接地技術:Audiovector R8 Areteé落地音箱
※新品 | 輕薄設計:SpeakerCraft Profile Accufit Ultra Slim One吸頂式音箱
※「器材測評」扮誰,像誰:Audiovector SR3 Avantgarde落地音箱
※新品 | 打開彩色音樂世界:Gallo Acoustics Droplet Micro SE音箱
※傳奇再現:Sonus Faber Electa Amator III書架音箱
※傳 Apple Music 將登陸 Google 智能音箱
※新品|獨特的Freedom接地技術:Audiovector R8 Areteé落地音箱
※更容易驅動了:Stenheim Alumine Two SE書架音箱