當前位置:
首頁 > 新聞 > 阿里發布AliGenie2.0系統,「百箱大戰」用上視覺武器

阿里發布AliGenie2.0系統,「百箱大戰」用上視覺武器

新智元報道

作者:張乾

【新智元導讀】昨天,阿里巴巴人工智慧實驗室總經理淺雪宣布天貓精靈銷量已經突破200萬台,更重要的是,最新的AliGenie2.0系統增加了視覺能力,並具備多模態交互能力。2018年的「百箱大戰」一個重要的趨勢就是視覺化、屏幕化,幾乎所有的巨頭都會讓AI音箱「長眼睛」。

天貓精靈X1的升級版X2沒有預期出現,而人機交互系統AliGenie升級到最新的2.0版本,功能強大。

3月22日,阿里巴巴人工智慧實驗室總經理淺雪(陳麗娟)發布AliGenie2.0系統,它最大的改進是在1.0的基礎上增加了視覺能力,並引入多模態交互能力,只需要另外增加一些輔助設備,就能讓天貓精靈具備視覺能力。同時,淺雪還宣布,天貓精靈銷量已經超過200萬台。

四年前,亞馬遜推出Echo,將AI音箱大戰引發;去年,亞馬遜又推出帶屏幕的音箱Echo Show,音箱視覺化、屏幕化成為一種趨勢。除了AliGenie2.0外,京東叮咚Play以及百度即將發布的「小度在家」都具備視覺能力,AI音箱終於要拼視覺了。

AliGenie2.0:增加圖像識別、物體檢測、人臉識別能力

去年5月,阿里人工智慧實驗室(AI Labs)發布天貓精靈X1,內置AliGenie1.0系統。

AliGenie1.0已經建立了超強的知識體系,在這個知識體系當中擁有1個億的實體理解能力,構建了近10億的關係。同時AliGenie1.0演算法也在升級,阿里AI Labs發布了一個全新的序列標註模型,這個序列標註模型能解決有自動糾錯的能力,可以幫助語音理解有更強的容錯性。AliGenie還具備主動學習能力,每一次跟用戶的交互過程當中,系統都會自動完善。

淺雪發布的AliGenie2.0系統,是在1.0的基礎上形成具備視覺、語音等多模態交互能力的新一代的人機交流系統。它不僅會具備聽覺能力,還有視覺能力和情感反饋能力。

其中,視覺能力中又分為圖像識別、人臉識別、物體檢測三大技術。

同時,阿里AI Labs還把語音能力和視覺能力進行了融合,形成多模態交互的過程,從而構建一個更聰明的人機交流系統。

淺雪認為,人機交互遠遠不僅語音,「我們覺得在未來人機交互不僅有聽覺,還有視覺、嗅覺,以及有更強的情感反饋能力。」

阿里AI Labs去年在自然語言理解等方向投入諸多,並在去年10月宣布引入微軟亞洲研究院首席研究員聶再清博士、谷歌 Tango 和 DayDream 項目技術主管李名楊博士。目前聶再清負責阿里AI Labs北京研發中心的各項研發工作,並重點突破知識圖譜和自然語言理解這兩個領域。李名楊任 AI Labs 機器視覺傑出科學家。

阿里AI Labs北京研發中心負責人聶再清

在接受專訪時,聶再清表示,天貓精靈具備情景感知、主動學習能力。自然語言理解很大的難點是因為自然語言的多樣性,一句話可能有無數的意思,這就需要通過大數據,讓開發人員跟大數據的交互主動進行挖掘,主動找到路徑讓開發人員跟用戶一起交互,把語言的各種意思都完善了,才能讓機器聽懂,這也是阿里AI Labs 技術上的優勢。

阿里AI Labs做硬體的邏輯:親手打造更懂跨界,AliGenie系統將來或開放

雖然天貓精靈X2沒有發布,但更小巧尺寸的天貓精靈曲奇、天貓路由器、天貓魔屏 S1 無屏電視以及周邊配件等諸多硬體同時亮相。

阿里最擅長做平台,這次一口氣發布多款硬體產品,並非要轉變路線,其背後的邏輯非常現實:做硬體比軟體難的多。

淺雪說,阿里AI Labs在做天貓精靈之前,就已經嘗試跟行業的一些合作夥伴共同研發硬體,但在合作過程中碰到了非常多的挑戰,畢竟軟硬體這兩個不同領域跨界合作,相互之間並不清楚裡面存在的問題。

一般來說,如果自己只做服務、系統,交給第三方做硬體的話,不容易掌握品控、製造周期等環節,這也是AI Labs去年自己著手打造硬體的原因。

不過,阿里做平台的基因沒有變。淺雪希望AliGenie這個系統將來做的更好,讓硬體的合作夥伴可以做(相關產品),應用AliGenie這套技術。

此外,淺雪還宣布,現在天貓精靈的銷量已經突破200萬台。

百箱大戰繼續升級:增加視覺能力,實現更多場景

2014年亞馬遜的Echo問世,點燃了AI音箱大戰的導火索,谷歌Home、蘋果的Home Pod以及國內的阿里天貓精靈、小米的小愛同學、獵豹AI音箱等紛紛入場;去年亞馬遜發布帶屏幕的音箱Echo Show,將AI音箱帶入另一個競爭階段:視覺化。

雖然這次天貓精靈並沒有推出帶屏幕的音箱,但AliGenie 2.0將視覺能力落地,推出了「精靈火眼」:外置一台XHolder(類似手機支架),放置裝有天貓精靈手機APP的手機後,能夠讓天貓精靈具備視覺認知能力。

這種做法類似當年穀歌在推出VR產品時,外設的Google Cardboard,能夠在實現視覺功能的同時,最大限度節省成本。

但「友商」們更激進。在今年CES上,京東智能音箱叮咚Play亮相,這款產品配備了8英寸的液晶顯示屏,能夠實現視頻通話、人臉識別等功能。百度近日也宣布,將在下周發布「小度在家」智能視頻音箱。

進入2018年,視覺化、屏幕化讓「百箱大戰」進入到新的競爭階段。與單純的語音音箱而言,加入了視覺功能的音箱能夠實現更多場景。以「精靈火眼」為例,阿里與出版業合作,通過圖像識別書本後,「精靈火眼」能夠實現智能語音互動、聲音朗讀,幫助兒童讀書、識字,商業化空間巨大。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

Jeff Dean等提出自動化分層模型,優化異構環境,性能提升超 60%
2018年的第一場火,還是第一場泡沫?

TAG:新智元 |