當前位置:
首頁 > 科技 > 阿里巴巴華先勝揭秘城市大腦落地實踐和踩坑經驗

阿里巴巴華先勝揭秘城市大腦落地實踐和踩坑經驗

撰稿 | Debra

採訪嘉賓 | 華先勝

視覺識別和視覺搜索是視覺智能中兩項最為常見和重要的任務。基於內容的圖像檢索技術——視覺搜索由於應用前景廣闊、能為用戶帶來更便捷、更優化的體驗而越來越受到研究和應用領域的青睞。然而,在技術和應用層面,雖然視覺搜索在有些領域取得了巨大突破,在更廣泛的領域還面臨著諸多挑戰。阿里巴巴視覺智能計算團隊重點研究的「城市大腦」項目,就在視覺搜索技術上擁有很多落地實踐和克服困難的經驗。他們踩過哪些坑呢?對於視覺搜索這項技術,他們的看法是什麼?

視覺搜索,又稱基於內容的圖像檢索,成為近年來計算機視覺的一個熱門研究領域。視覺搜索不同於文字搜索,可以以圖像的形式直觀地搜索所需內容,因此在社交媒體、電商搜索等實際應用場景中非常受歡迎,如社交軟體 Snapchat 上線了「相機搜索」,通過這一功能,用戶可以長按識別圖片或短視頻中的商品、歌曲、條形碼等;eBay、淘寶、京東等電商平台也紛紛推出圖片搜索功能,用戶可以通過拍照找到想要的商品,提高搜索效率,提升用戶體驗。

阿里巴巴視覺智能團隊的重點研究方向「城市大腦」項目,就包含了基於圖像搜索的技術而達到「智慧城市」的目的,並且在落地場景中獲得了很多經驗和突破。

據悉,阿里巴巴視覺智能計算團隊目前的重點在四個方向:城市大腦,醫療 AI,工業視覺和智能設計。其中「城市大腦」致力於通過雲計算和人工智慧技術去解決依靠人腦無法解決的城市治理和發展問題。圍繞這一目標,阿里巴巴目前的重點研究方向包括:多模態城市感知、交通預測與干預、並行異構計算加速、基於視頻的行人與行為搜索識別、大規模城市視覺計算平台等。

基於視頻的城市對象感知幾乎是所有工作的基礎,也是阿里率先取得突破的技術方向之一。在過去一年,阿里巴巴視覺智能計算團隊先後取得了 KITTI(全球權威機器視覺演算法排行榜)比賽中車輛檢測和行人檢測兩項測評的冠軍。在行人再識別任務中,也在公開數據集 Market-1501 上取得了當前最好成績(97% 首位命中率),並在實踐中得以廣泛應用。

阿里巴巴在其他方面,如深度模型壓縮等也有突破。智能設計當中最為突出的是電商場景的二維廣告圖設計,基於深度學習和強化學習的方法,可以高效地設計出初級設計師水準的廣告圖,並在雙 11 等場景中得以大規模應用。

「城市大腦」如何工作?

阿里巴巴的「城市大腦」項目需要處理整座城市的海量數據,這一挑戰的難度可想而知。

「城市大腦」是如何處理整個城市的視頻數據呢?使用到了哪些計算機視覺 AI 演算法進行優化和決策?

城市大腦人工智慧技術負責人華先勝為我們揭開了謎底:「簡單來講,城市大腦可以分為這麼幾個步驟,首先是數據的匯聚,通過數據管道將各個部門的數據匯聚到我們的數據平台上來。第二步是數據的認知,當然其中主要是視頻數據要通過我們的認知平台進行認知,要把整個城市發生的事情了解的一清二楚。這其中包含的視覺演算法很多,從常見的分類、檢測、跟蹤、分割,到特徵學習、視覺檢索、異常檢測等等都會用上。第三步是在認知的基礎上,進行決策和優化。當我們對城市的整個交通狀況有了了解之後,我們就可以進行紅綠燈配時的優化,或者交通事件、事故的實時報警。在前面幾步的基礎上,第四步我們把城市的要素,車、人、事、物全部放到搜索引擎裡面去,進行快速的查找。例如對肇事車輛、特定目標的查找。當然也可以挖掘這些數據的聯繫,從而發掘事故事件以及一些交通現象背後的發生的原因。第五步是預測,預測城市的發展趨勢是什麼樣子的。比如說半個小時以後路口的車流或者一個大型商場周邊的人流的情況。第六步是干預,因為有了預測以後,我們就可以進行對應的處理,例如說如果我們知道一個小時以後的人流和車流會出現顯著地增加,那我們可以提前部署緊急人力甚至是醫療資源來應對一些突發的事件。」

總結來說,從數據匯聚、數據認知、決策優化、搜索挖掘、預測到干預,整個一條流程是整個城市大腦的主要功能的體現。華先勝還透露,這些功能都是基於一套大規模視覺智能計算開放創新平台而得以實現,而這個平台在剛剛結束的杭州雲棲大會上對外發布,近期會開放出來,讓更多的人能夠在城市這個規模進行視頻的分析和視頻大數據的價值挖掘。

華先勝表示,實時處理整個城市的視頻數據確實是一個非常艱巨的任務,團隊遇到的主要困難之一是計算資源的消耗。「即使我們已經擁有雲集群、GPU 等很強的算力,但是如果不經過任何優化,在合理的機器成本下,依然無法實時處理整個城市的海量視頻數據。因此我們從多個方向發力來解決這個問題,首先是模型的精簡和加速,眾所周知深度學習模型的通病之一是參數量大、推理時間長,因此我們利用了矩陣分解、稀疏量化等技術進行模型精簡和加速。其次我們也和 Intel、英偉達等硬體廠商進行深度合作,從底層硬體角度進行計算加速,將硬體的性能發揮到極致。再者,在單個計算節點上的調度,也是提升整體效率的有效方法。另外,我們也開發了基於流式計算平台的智能調度模塊,通過並行處理、彈性調度等方式進行處理流程優化。這些技術將單台伺服器的處理能力提升了 20 多倍。同時我們也在布局低成本的解決方案,比如專用 FPGA 晶元等。」

圖像搜索如何改進?

圖像搜索是計算機視覺、多媒體領域的一個很經典的問題,近些年隨著深度學習演算法的發展,這個領域也取得了很快速的發展,但是隨著實際應用場景的擴展、數據規模的擴大,也有很多可以優化的地方。

那麼,阿里巴巴是如何從技術層面和應用場景層面上改進圖像搜索技術的呢?

華先勝表示,阿里巴巴曾在三年前克服了很多技術難題,研發出商品拍照搜索應用「拍立淘」,而城市視覺元素的搜索,因其數據的複雜度和數量,則是更為困難的一個問題。

「從技術層面來說,首先我們需要一個更好的特徵模型,來學習細粒度的圖像特徵。除了目前比較火的 local feature、attention 等技術外,一個比較有趣的方向是,在特定的圖搜任務下,如何引入一些人類的先驗知識,比如車輛的剛體結構、人的骨架信息等等。其次,視頻數據會比圖像數據具有更豐富的表徵,如何利用視頻數據進行檢索也是一個很有潛力的方向。

基於深度學習的圖像搜索依賴大量的標註數據,這其實很大程度上限制了演算法在實際應用場景下的擴展,如何利用半監督、弱監督、無監督演算法提升演算法性能是一個關鍵問題

其次真實場景下的數據規模很大,在海量的圖像庫中進行歐式距離的計算會帶來很高的延時,限制了演算法在實時場景下的應用,因此高效的向量索引技術也是在實際場景中落地的必備組件。」

由此可見,圖像搜索技術還有很多有待提升的空間,有望改進搜索精度不夠、搜索結果不匹配等在實際應用中經常出現的問題。

華先勝認為,未來,視覺搜索在眾多場景中具有非常大的商業化潛力,城市大腦就是一個很大的應用場景。

「城市對象的感知其實是城市大腦的一個基礎組件,而城市對象的視覺特徵提取就是感知的重要組成部分。通過對城市對象進行特徵提取,我們可以在海量的數據中搜索出特定目標的移動軌跡。在交通場景下,可以幫助我們構建精確的車流、人流數據,從而服務上層的流量預測與干預應用。阿里巴巴的漸進式視覺搜索引擎已經在衢州投入使用,可以幫助有關部門尋找走失人口,保障平民生命財產和資源安全。」

講師簡介

華先勝,現任阿里巴巴集團 Distinguished Engineer,副總裁,阿里巴巴人工智慧核心研發機構達摩院機器智能技術實驗室副主任,城市大腦人工智慧技術負責人。華博士是美國電氣與電子工程師協會會士(IEEE Fellow),美國計算機協會傑出科學家(ACM Distinguished Scientist);2008 年獲 MIT 技術評論「全球 35 個 35 歲以下傑出青年創新者」稱號(TR35)。1996 年和 2001 年畢業於北京大學數學學院,分別獲學士和博士學位;之後分別工作於微軟亞洲研究院,微軟美國必應搜索引擎,以及微軟美國研究院,從事多媒體、計算機視覺和機器學習方面的研發工作。2015 年 4 月加入阿里巴巴,任搜索事業部資深總監 / 研究員;2016 年加入阿里巴巴 iDST,負責雲上視覺智能計算的技術研發。他的研發興趣在大規模視覺人工智慧領域,包括視覺分析、識別、搜索和挖掘等。華博士在國際主流會議和期刊上發表論文 200 余篇,擁有專利 90 余項。曾擔任多個學術期刊的副主編以及 ACM Multimedia 等頂級學術會議的程序委員會主席,並獲得多個國際會議及期刊的最佳論文獎。華博士將擔任多媒體智能領域頂級國際學術會議 ACM Multimedia 2020 年大會主席。

華先勝將會在 12 月份 AICon 全球人工智慧與機器學習技術大會上擔任聯席主席,想要跟華老師進一步交流的童鞋可到現場面基。

另外大會還邀請到了來自Google、Twitter、Netflix、BAT、360、京東、美團、小米、今日頭條等 40+ 國內外一線 AI 技術負責人前來分享他們的機器學習落地實踐經驗,除此之外,還有知識圖譜、NLP、語音識別、搜索推薦、計算機視覺、AI 架構等熱門技術,乾貨滿滿。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 InfoQ 的精彩文章:

硬碟出故障、機房被雷劈,雲服務能不能靠點兒譜?
Facebook為何放棄ZooKeeper轉用自研配置管理系統?

TAG:InfoQ |