如何打造一款中國的Alexa?
如何打造一款中國的Alexa?
2017-05-17 矽谷密探
如今的Amazon Alexa是一個龐大的系統:軟體端有7000多個第三方語音Skill應用,硬體端嵌入了Alexa的產品幾乎覆蓋了智能生活的每一個方面。
可早在2015年,Alexa Skill Kit剛開放,Skill Store只有10來個技能,Alexa自己也只能完成為數不多的任務,例如:簡單問答,播放音樂,讀電子書,設置鬧鐘,設置提醒,遙控一兩款智能燈和智能開關。總之就是比Siri能做的事情少,又沒有Google那麼能聊。
可是用戶對Echo的評論卻出乎意料地好。用戶們並不在意Alexa的陪聊能力到底有多高,他們的期望很簡單:我不用走到你跟前,給你個簡單指令,你照做。
Echo很好地達到了這個期望值。首先,它是一個音箱而不是「機器人」,用戶理所當然地明白它要能播放音樂。有了這些,Echo作為音箱算是及格,用戶的反饋也就相對積極,再接上實用的讀電子書和控制智能家居功能,就已經超越用戶預期了。
反觀在「人工智慧」被過度宣傳的這幾年,不少產品過度哄抬了自己的能力,導致用戶期望值過高,最終連及格也達不到。想想那些年我們調戲過的Siri,似乎可以做很多事情的樣子,可是除了被調戲,有多少人能準確說出它還能幹些啥?
一定要有功能性,滿足剛需
那麼,如何打造一款中國的Alexa? 我們採訪了驀然認知的CEO 戴帥湘。
戴帥湘是前百度主任架構師,曾長期擔任百度Query理解方向負責人,曾榮獲百度語義技術的最高獎。他在2010年提出「Query改寫模型」方案,提升了百度引擎的搜索相關技術,帶來大幅廣告收益;他擁有20多項專利技術,分布在自然語言處理、語義搜索、自動問題求解等多個領域。
在to C的智能音箱產品上中國市場已經撕的不可開交,而to B這一塊,語音產品廣泛的應用前景。戴帥湘認為切入to B領域,通過語音服務來滿足用戶的痛點是一片藍海。
智能語音服務能夠滿足的剛需
對於語音產品,我們非常看好以下場景:
智能硬體:非常看好傳統硬體的品類升級,比如智能耳機和智能音箱。又比如筆記本和電視上加上語音功能,可以想像的一個場景是,通過遙控器來控制電視機來選電視欄目或者電影效率遠遠低於直接語音輸入。
智能安防:簡單的說,可以給所有的攝像頭加上麥克風陣列,增加語音模塊。
智能醫療:語音在這個領域有諸多應用,一個例子是電子病歷,簡單的說就是醫生在診斷過程中語音輸入便可以直接形成病歷。另外一個例子是醫學檢測有些是通過聲音檢測來完成,那麼直接加上語音模塊既能完成交互又可以檢測,可以淘汰掉屏幕等交互方式。
教育:可以將麥克風陣列應用於多媒體教室,另外一個應用領域則是遠程家教。
智能玩具:具有語音交互功能的玩具更吸引孩子們的注意,但是考慮到玩具成本以及孩子的習慣,單麥識別演算法是當前比較適合的方案,例如360兒童機器人,360故事機等
汽車市場:在手和眼鏡都被佔據(no hands no eyes)條件下,語音是個最好的交互方式,汽車上的語音產品是兵家必爭之地。
語音將成為下一代智能設備重要的交互方式是一個確定的事情,隨著行業的進步,更優質的語音產品將會更低成本進入生活方方面面,為我們的生活和工作帶來更多便利。
驀然認知在上述領域已早有布局,比如最近驀然宣布和暴風合作推出對話交互電視X5 ECHO。戴帥湘表示,除智能電視代表的智能家居之外,驀然認知還在布局智能車載、智能客服等領域,目前展現在暴風TV上的功能只是冰山一角,智能交互決策引擎Mor 還在繼續開發和不斷優化中。
(驀然認知AI對話交互 TV原型系統演示)
智能語音服務需要解決的技術難點
那麼要滿足這些需求,驀然認知的CEO 戴帥湘表示一個智能語音服務需要克服三大技術難點:
第一是自然語音交互。想讓機器理解人的語義,需要將人類的自然語言變成程序講義,讓機器理解程序變為一個執行過程。機器必須先聽明白用戶在表達什麼,才能進行對話。
第二是知識的表示和推理。人類發送指令的時候,意義未必明確,目前機器的淺層次理解仍停留在搜索引擎。往往當用戶對機器發出「我要聽周杰倫」的指令時,它只是列舉周杰倫的歌單罷了。但知識的表示和推理是一套連續的驗證和推理過程。
在知識的表示和推理背後需要知識圖譜,我們可以將每個垂直領域的覆蓋看作是垂直知識的構建,但是並不是場景越多,規則就要越多,而是儘可能使用更抽象更通用的規則。
每個人的思維路徑是有差異的,同樣是選餐廳,有的人會優先考慮團購信息,有的人會優先考慮菜系。所以在面對人類的思維時,弱化規則,只在必要的節點處設置規則,這樣既能保證對話應用的任務導向性,又能給予對話足夠的靈活度。
第三是自動服務對接。訂餐、訂票、接音樂、接電視……此類服務需求量級巨大。僅音樂一項就有多少個軟體?網易、酷狗、QQ、蝦米……每一個軟體都是不同的介面,傳統的對接方式需要耗費大量人力。
做自動服務對接,戴帥湘對此有獨特的理解,戴帥湘曾在「框計算」領域中深耕多年(「框計算」即用戶只要在「框」中輸入服務需求,系統就能明確識別,並分配給用戶最優的內容資源或應用提供商)。自動方式能夠節省資源和時間,而做智能語音服務如果能夠開發程序實現讓機器自動讀取、選擇介面接入可以事半功倍。
多輪對話的重要性
相比微軟的小冰和小娜、蘋果的Siri、谷歌的Google Now、百度的度秘等交互引擎,戴帥湘團隊開發的Mor引擎一大特點就就在於上下文關聯的多輪對話,並且具有場景移植性。
語音助手為的就是在對話中完成服務,如果你想獲取信息,它能給你有效的信息,如果你想讓它幫你完成任務,它能高效準確地完成。
從這個角度,有很多場景需求需要多輪對話,並能準確地理解連續上下文才能最終達到用戶預期的服務。
但戴帥湘同時也表示,多輪對話並不是輪次越多越好,能不能通過對話的方式,幫助人獲取信息、完成任務,對話精準和服務精準才是終極目標。
強調生成模型
戴帥湘認為目前在自然語言理解領域裡要求大量訓練樣本的深度學習適用場景比較有限,他們更多的是使用小樣本的生成模型。
(驀然認知創始人戴帥湘)
自然語言理解領域的語義表示是有組合性,而推理的建模強調因果性,很多時候自然語言理解需要有目的、有計劃的有步驟的優化過程,而且強調步驟之間的邏輯關係,而現階段的深度學習更像是一個黑盒子,他只可解決自然語言的中的部分問題,特別當涉及到對話領域,上下文的理解時,深度學習的黑盒子就顯得局限很多。
目前比較適合的機器學習演算法是生成模型,但是生成模型需要針對問題去建模,其強調的是建模的重要性。利用此類方法建模,一般需先針對問題中的子問題進行「元模型」建模,然後通過有限的推理方法來組合成更大的模型,其推理過程體現的因果關係清晰可見,可以從結果反饋來追本溯源,逐步優化推理中的每個環節,即使在小樣本集上往往也能訓練出好的效果;而且生成模型推理過程中涉及的參數比較少,一般都對應具體的物理含義,具有很好的可解釋性。
遷移學習和增強學習
交互的目的是為了決策,而決策需要記憶和學習。
長期的記憶是用戶的個性化習慣或者用戶畫像的學習,短期的記憶則是對話中最小的可復用的單元,需要去捕捉,這也是建立在前面提到的多輪對話之上。
而在學習方面,戴帥湘在強調遷移學習和增強學習的重要性。
對於人來講,在特定場景學習到的知識,人類並不會選擇將其固著在唯一的場景中,知識的場景遷移能力使人在學習新知識時理解起來更加容易,掌握起來更加迅速,即使是從未接觸過的領域和場景,人類也能完成知識遷移。
比如找餐廳的任務,它可能需要地理位置知識、菜系、交通信息等。如果只是單項知識的簡單疊加,而不能認識到各領域知識之間的關係,缺乏知識的推理能力,那麼當面臨更為複雜的任務時就失效了。
從被動到主動
現在絕大部分的系統都是被動交互型,以現在非常流行的閑聊為例,其只能依賴於用戶說的話,根據之前大量對話實例的訓練,來生成一句似是而非的回答,以此消磨時間,抑或點燃情緒。
對話式決策系統一個非常重要的功能是需要對環境變換能做出感知,進而轉化為語言的表示,來和用戶進行主動交互。
如果用戶剛在家中通過語音助手找到了附近吃日料的A餐廳,走上車啟動車載系統,車載系統中的語音助手如果根據上下文位置變化及開車這一動作進行主動發問:「主人,請確認是否為您導航到A餐廳?」,這種情況下,系統的主動發問是一個非常智能的表現。
類似的主動服務可能是語音助手的一大競爭力。
從軟體到服務
在未來屏幕交互的方式不再是主流,屏幕進一步變小,甚至消失,取而代之是更接近人與人之間的交互方式,語音,動作,以及各種感測器的自動檢測,也因為如此,在不同場景下不同的智能設備得以出現,承載了一種或多種應用能力,軟體之間的邊界消失了。
曾經的軟體供應商退化成服務提供商,專註於提升其核心數據和演算法的質量,軟體的開發成本降到最低,但是其使用效率卻得到了極大提升,智能化得以極大體現,這是一個機器逐步模仿,並最終超越人類的時代。
的精彩文章:
※LOL美服7.11補丁千珏雷克塞重做!荊棘甲移除額外反傷
※這些花,只有在農村生活過的人,才認識!
※謝楚余,你不一定知道這個名字,但你絕對見過他的畫作!
※修施捨功德,熏善行種子,玉成其事——彌陀寺大雄寶殿開始內裝飾
※為什麼你和他總是吵架,情侶如何避免爭吵?
※定製大師 Ziv Lee 邀你一起打造更有型的 Air Max
※Angelababy的同款丸子頭怎麼打造?
※只因為一雙 Vans Authentic 44 DX,Patta 就打造這個 Lookbook
※Laure Baume:打造一座最有中國思維的機場
※設計師打造 Virgil Abloh x Air Jordan 1 Low 客製鞋款,如果有機會市售,你們會想買嗎?
※打造一款有獨立個性的機器人,英國AI公司Emotech是怎麼做的?
※沒有 OW x VaporMax?那自己打造一雙 OFF-BLACK 吧!
※莆田鞋到了定價258!這款採用雪碧主題打造的Nike Air VaporMax 「Sprite」
※Supreme 和 Nike 打造了一輯 「Grandpa Shoe」
※SonarPen:一支專為舊款iPad和iPhone打造的壓感繪圖筆
※亞馬遜為了Alexa開始打造「Smart Home」的樣板房
※雪山再現!中國三方團隊聯手打造 Supreme x TNF x Air Foamposite One !
※colette Forever!這雙專屬打造colette x Air Jordan 1上腳秒殺fragment聯名?!
※這雙AJ球鞋,是Jordan Brand內部聯名打造的嗎?
※Bose SoundWear Companion打造只屬於你的個人交響曲
※Nike 為 colette 打造獨一無二的專屬紀念 Air Jordan 1
※定製打造!這雙 Nike Zoom Fly SP 不一樣!
※Slam Jam 為 Air Max Day 打造玩趣特輯
※John Elliott x Nike 打造聯乘款 Air Force 1 Low
※設計師打造 Virgil Abloh x Air Jordan 1 Low 客製鞋款