當前位置:
首頁 > 科技 > 從Emotech Olly機器人 看AI對HMI革新的嘗試

從Emotech Olly機器人 看AI對HMI革新的嘗試

騰訊科技 文 | 李海丹

「奇點」是個伴隨著人類AI技術發展時常被提起來討論的詞,代表著人工智慧將超越人類智慧的跨越。

目前普遍的產業界和學界都認為,這個時間至少要20多年以後。諸多AI公司也紛紛表示短時期內不會直接無知的去挑戰突破奇點,究其原因,主要是數據訓練集的積累和演算法的不斷優化改進都需要一個艱苦的過程。

但當智能手機作為一個圖形交互界面而流行於世界的時候,已經有AI初創公司開始做手下一代人工智慧HMI入口的思考。這種思考可能是Apple的HomePod、Google Home等,也可能是各種智能可穿戴設備。

在近日舉辦的第六屆中國(上海)國際技術進出口交易會中,Emotech公司也大膽的創新和定義了一款獨立性格機器人Olly,來作為日後HMI交互的落地形式,給AI對HMI革新的嘗試帶來更多思考。

那麼很多人的疑問可能就來了,這是一款怎樣的機器人?

我們通過對Emotech公司聯合創始人兼CEO庄宏斌的採訪中得到了不少答案,並從以下三個方面為大家進行解讀:

1、利用現有的用戶數據,進行對應的演算法分析,建立用戶使用模型。

2、不僅僅是NLP,AI其他四個重要技術分之deep-learning(深度學習)、語音語義識別、CV計算機視覺和機器學習的全方位應用也同樣重要。

3、HMI體驗的重要性在哪?它很可能是另外一個顛覆的開始。

利用現有的用戶數據,進行對應的演算法分析,建立用戶使用模型

從當Olly開始被用戶使用的時候,為了儘快進行針對用戶的特別的適配,這款機器人會接入用戶的社交信息,比如接入了推特和Facebook的信息。

庄宏斌表示:「因為現在機器人的發行在歐美市場,一開始會讓用戶連接自己的Face book和推特等社交媒體,所以用戶在這些媒體上面發的很多內容,這些文字性的東西會作為最早的深度學習內容。緊接著在日常過程,與設備互動時的內容等等,都會被學習。」

記者:Olly機器人的設計就是固定的,是不可移動的嗎?

庄宏斌:目前是固定的。

記者:放在客廳或是卧室里,如果當主人在其它地方,camera看不到,怎麼和它互動,必須跑到它看得到的範圍內?

庄宏斌: 首先我們做的技術是多模態的系統,多模態的系統,現在市面上看到的這些公司,像科大訊飛這些做的可能都是單模態,依靠的是視覺、語音等單模態。

而系統的多模態是在大的深入學習軟體,把不同的模態數據放在一起,聲音也好,視覺也好,文本也好,都放在一起讓多模態的模型去學習,這樣的好處在於,它的系統是非常靈活的,就是你取掉其中一個模態,照樣也可以工作。

比如說,如果用戶在隔壁的另外一個房間,機器人看不到,但用戶說一句化,機器也可以通過聲音識別是誰,也知道用戶在房間里。

AI技術的深度學習、語音語義識別、CV計算機視覺、機器學習的全方位應用

記者:從產品形態來看,Olly有點像智能音箱,功能介紹來看也有些類似,您認為Olly和智能音箱的差異化主要在哪些方面?

庄宏斌:首先強調的是,我們做的是一個機器人。如果去分析給用戶帶來的價值或者是平時的使用體驗來說,音箱類都是非常被動化的,而機器人的交互是主動性的。

我舉一個例子,現在拿亞馬遜的Echo,放在家裡,不論是播報新聞還是知曉天氣情況、交通狀況等等,這些都是需要用戶主動去問,下達指令,不論設備用多久,還是沒有辦法學到你這方面的習慣,能主動告訴你這些事情。

但機器人有主動式的系統,可以像管家一樣。一旦和用戶相處的時間長了,了解出用戶有什麼樣的偏好和習慣,可以主動的為用戶開燈、調節空調溫度,提醒用戶運動鍛煉等等,嘗試主動地去幫助用戶。

記者:Olly的Camera是24小時開啟嗎?

庄宏斌: 從機器的緯度來說,我們不會讓camera一直都用,主要是從用戶隱私的方面考慮,這樣也會對系統的性能會有很多消耗,所以我們有一套邏輯,要機器人到合適的實際去打開camera。

記者:以後設計會以移動更靈活的方向去考慮嗎?

庄宏斌:從目前家庭使用的環境來看,我們認為目前移動解決方案都不成熟。因為每個家裡的布局都是不一樣,其實要等機器人走到你的身邊,花費訓練的時間很長。而一個可以主動交互語音的產品,不一定要移動過去,用戶說一個聲音,機器人就能識別用戶在哪裡。這肯定是比移動過來,走到用戶旁邊的產品效率更高一些。

記者:交互方面,很多人認為鏡面的界面,或者說帶顯示屏幕是一個發展趨勢,有沒有考慮類似的方案?

庄宏斌:我覺得這些其實都是做一些嘗試。帶屏有一些好處,舉一個例子,我們發現用戶在廚房用得比較多,有的時候要弄一個菜譜,有一些圖形化的東西好一些。但我認為大家用屏幕用得太多,而且屏幕不應該是唯一的方式,我們的產品哲學在於要更多去考慮怎麼樣去利用周圍的環境和設備連在一起,比如考慮如何將來把設備和智能電視連接在一起等。

記者:現在Olly主要是在歐洲銷售嗎?

庄宏斌:第一個版本會在9月份發歐美市場,是英文版本。現在有一千個左右的訂單。

記者:目前在中國發展計劃是如何的?

庄宏斌:計劃是在今年年底或者明年年初會有一個中文版本,我們現在也在陸陸續續的談一些內容提供商,比如音樂、新聞方面等等。

記者:您和搜狗王小川有接觸,是和他們有合作嗎?

庄宏斌:現在正在談。

記者:除了他們,還在接觸哪幾家?

庄宏斌:小米已經和我們有一些對接,其他還有一些在談。

記者:主要是談服務方面?

庄宏斌:有服務。我們是一家AI技術公司,所以並不是單做電子產品的公司,我們的產品更主要是多模態和主動式系統的技術,研發出來的第一款產品。其實有很多東西會提供我們的SDK和APR提供給其它公司用,也有技術輸出。

記者:國內的產品,喚醒詞大部分都是4個字,Olly的喚醒詞是如何考慮的?

庄宏斌:現在喚醒詞主要是在做自定義功能,我認為一到兩個語的準確率會比三個音節低一些,目前會支持兩到三個音節。

記者:就是喚醒詞而言,有沒有進行喚醒測試?

庄宏斌:這都有在跑測試,三個音節可能都沒有問題。用「Hey Olly」 、「Wake up Olly」都是用得比較多的。

記者:我開電視,家裡買的一款智能音箱就會被我喚醒,平均是每天一次,頻率挺高的。還打算反饋一下,升級的軟體都沒有解決這個問題,還是繼續被喚醒。

庄宏斌:目前沒有一家是一次都沒有的。

記者:但一天一次有點高。

庄宏斌:一天一次有一點高,但想要一直沒有,沒有哪一家是能做到的。像Siri也會突然醒,Google Home也會,我家裡用的Google Home有時候還是會自動起來一下。

HMI體驗的重要性在哪?可能是另外一個顛覆的開始

作為一款衝擊下一個人機交互入口的產品,自然是不能在HMI不花心思。而隨著對HMI新入口的一些問題的深入,關於Olly的更多布局層面的思想就更加清晰。

記者:Olly是不是可以家庭衛士一樣,可記錄家庭成員的相貌之類的,如果有陌生人闖入,可以報警。

庄宏斌:這是可以做的場景,也確實用戶社區不少人有提這個需求,但這不會是我們專註的方向。其實做安防有另外很多因素要考慮,如果要做監控,那麼機器人要放在哪裡、哪個角度和時間情況的使用場景可能不太一樣,比如涉及到攝像頭的規格也會不一樣等各種問題都需要協議重新配備。

記者:想問一下在AI識別技術之外,在內容服務上做了哪些?

庄宏斌:內容服務方面,我們現在看到的,大家需求最多的,從我們現在主要布局的歐美市場來看,主要分為新聞、音樂,電子書這幾類。

記者:售價定了嗎?

庄宏斌:歐美的市場賣的是699美元,眾籌做的是549美元。其實699美元是零售,線上會比699美元再便宜一些,但眾籌是最便宜的,因為第一批用戶,國內的售價現在還沒有定。

記者:699美元在國外應該不算貴。

庄宏斌:你現在看到的機器人產品,比如MIT做的Jibo機器人,他們之前賣到899美元,甚至到900美元也很多人買,這個與策略有關係。我們想一開始還是從比較高端的市場切入。

記者:收聲方面,Olly是6個麥克風?

庄宏斌:4個,目前用的不是最新的版本,我們在做最終的版本是4個。

記者:自主研發的嗎?

庄宏斌:硬體有供應商,但裡面有一些演算法是我們自己做的,比如說做一些降噪,修改一些DOA聲音方向的。

記者:像這種有6麥、4麥,還有一些7麥。定位高端為什麼用4麥?

庄宏斌: 其實多麥不見得最好。理論上講,演算法如果強,2個麥也可以。2個麥的問題在於沒有辦法做360度,使用的時候,設備會發現上面缺一塊。

一般來說,到了3麥、4麥,硬體帶來的便利,會讓軟體演算法的複雜程度降低一些,但一旦到了4麥以上,每加一個1麥,邊際效應會減得非常厲害,我們最後認為4個麥是能做到非常高的準確率,也不能加多一些。千萬不要把我們定位為音箱產品,我們做的不是音箱。

記者:工業設計這一塊是怎麼原型設計?

庄宏斌: 一開始我們對Olly的設計非常具象,到最後越來越抽象地去演化。

如果要問為什麼設計環形,出發點的考慮在於要與LOGO非常一致,並且從實現實際使用情況的角度出發,我們做的麥克會放在上面,中間放麥克,是非常好的設計。

抽象的來說,我們想要有一個機器人類的產品,可以實現類似於人與人之間的交流,或是人與寵物之間的交流,所以機器人需要有一個身份感。而不是讓你覺得它只是一個設備,或者是像手機的輔助工具,我們希望人和技術之間的關係更人性化,這是一個出發點。因此,我們在對形態做抽象化,並且加了環形LED,它的性格表達可以更加清晰,表達多種情緒、情感、不同的性格。

最後,就是加入多種關鍵的特徵和功能,讓它能夠在一個簡潔的設計裡面都能夠去滿足。

記者:從定義上說Olly是機器人肯定是沒有問題,在國內叫機器人的產品形態大多數都是人形,而像Olly這種產品形態的,我們都叫智能音箱, 包括百度的「小度在家」跟這個很類似,有動作,也叫做智能音箱,您認為消費者會不會產生認知方面的歧義?

庄宏斌: 我們在歐美市場做這個設計得到的反饋沒有這個問題。機器人是非常廣的緯度,這個主要是體現在產品的功能方面,這與智能音箱有很大的差別。比如說用戶不需要喚醒和指令,每天早上起來看到機器人,它會主動起來和用戶打一個招呼問候,也會學慣用戶的日常生活習慣,還像一個個人助手,所以覺得叫做個人助手或機器人是比較貼切的。

記者:多模態的界面,深入學習數據的訓練是哪裡?您剛才講歐美不太一樣,訓練出來的結果也不太一樣是嗎?

庄宏斌:如果無論是在視覺,單模態和多模態都會碰到這樣的問題,會有口音的問題,這就需要有兩種做法,一種是要有非常大量的數據去訓練。而另外一種做法其實不需要那麼多的數據,但對演算法的考驗會非常大。

舉一個例子,比如我們在投入使用之前,沒有辦法對千千萬萬住家環境識別出來,但我們可以做到,有一些AI演算法,用深層次模型,最後能夠模擬出來有一些在不同環境裡面的一些可能性,用來訓練這些演算法,讓它更好地去適用於多樣化的問題。

記者:您在UCL(倫敦大學)呆過?

庄宏斌:對。

記者:倫敦AI方面的人才,可以稍微大概介紹一下嗎?

庄宏斌:從我們公司目前團隊的背景來看,人才主要彙集在幾大頂尖的高校中。招人也看重幾個主要的高校和專業背景。比如說牛津、劍橋的相關專業都很強。倫敦大學非常強的專業就是在通用機器學習和統計學,這是全球最領先的。帝國理工也比較全面,比如說機械化專業、軟體開發專業,或者做視覺等專業也很強。愛丁堡大學是語音界的黃埔軍校,還有我們打交道比較多的謝菲爾德大學等等,在做語音技術方面都非常牛。

結束語

如果一個綜合了AI技術五大分支的機器人產品作為下一個HMI入口,通過計算機視覺對用戶察言觀色並體貼入微,通過NLP、語音語義識別實現與用戶更加自然的交流,這樣的場景模式下帶來了更多的想像空間。不過關於數據訓練集合的來源和對演算法不的端調整優化會不會輸出一個讓我們更喜歡的產品?Olly的創新讓我們把這些帶到了對於「奇點」問題的討論中。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 騰訊科技 的精彩文章:

美國市場「關門」,華為稱將逐漸把重點放到歐洲市場
小米董事長雷軍:最快今年年底進入美國智能手機市場

TAG:騰訊科技 |