CVPR專訪阿里iDST華先勝:電商搜索與城市大腦,本質上都是視覺系統問題
雷鋒網 AI 科技評論按:在 CVPR 2017 ,雷鋒網 AI 科技評論看到了非常多的工業界人士來到現場。這個計算機視覺領域的學術會議吸引了如此多的企業研究院大牛,他們對工業界與學術界的融合有何看法?又是如何理解自家業務在視覺領域的地位和創新點的?為此,雷鋒網 AI 科技評論與阿里 iDST 視覺計算組負責人華先勝在 CVPR 的現場進行了一次交流。
華先勝,北京大學應用數學博士、IEEE Fellow、ACM 2015 年度傑出科學家、MIT TR 全球 35 位 35 歲以下的傑出青年創新人物,曾擔任 ACM Multimedia 等大會程序委員會主席,是視覺識別和搜索領域的國際級權威學者。於 2016 年 7 月加入阿里人工智慧研究機構iDST科學家團隊,帶領視覺計算團隊的研發工作。
華先勝認為,CVPR 這個會議整體上還是非常成功的。計算機視覺領域的研究大多傾向於實用,與工業界的聯繫也比較緊密,企業參與到學術會議中,實際上也能了解學術研究的整體發展狀況。就像 SIGGRAPH 一樣,當工業界的參與程度非常高的時候,這個會議也變得越來越紅火。「這類會議成功與否的一個重要標準在於,它能不能對工業界產生影響力。如果只是學術圈自己在推進,這個領域可能會變得越來越封閉。」
雷鋒網 AI 科技評論也發現,不論是贊助商日趨增加的 AAAI 2017,或是應用研究開始嶄露頭角的 ACM 計算經濟學會議,與工業界的融合和溝通已經越來越頻繁,而尤其是在計算機視覺這個領域,學術界和工業界的界限也變得模糊起來,很多文章可能都是高校與企業研究院一同合作的課題。
以本次被 CVPR 錄用的論文《Video2Shop: Exact Matching Clothes in Videos to Online Shopping Images》為例,第一作者是西南交通大學的博士生程治淇,他在阿里實習期間與視覺計算組負責人華先勝、高級演算法專家劉揚及他的導師、西南交通大學的吳曉教授合作完成了這一論文。論文提出了一個名為 AsymNet 的深度神經網路,通過學習衣物序列特徵並對其進行編碼,能夠檢測並追蹤衣物,用戶在觀看視頻的時候,便可以輕鬆地選購明星同款服裝。
這一研究自然是著眼於阿里的老本行——電商領域,華先勝最初的工作也一直關注的是像「拍立淘」這樣的產品系統。而目前,華先勝作為阿里 iDST 視覺計算組的負責人,目前所負責的城市大腦項目,也同樣有著視覺的需求。
在本次 CVPR 的 workshop 環節,華先勝作為 Target Re-Identification and Multi-Target Multi-Camera Tracking 的特邀演講嘉賓之一,發表了《Practices of Large-Scale Target Re-Identification》的演講。
華先勝告訴雷鋒網 AI 科技評論,這一主題和電商的商品搜索及城市大腦項目都有著緊密的聯繫,因此將阿里整個集團與目標重識別的業務綜合地做了一個介紹。搜索(search)的範圍相對寬泛一些,只需要找到符合要求的內容,甚至是相似的內容就可以了,比如以圖搜圖,可能會有很多相近的結果;而重新識別(Re-Identification)則需要精準匹配,比如在整個城市裡找到某輛車,目標就非常明確了(只有一個)。不過,商品的搜索與城市大腦項目所涉及到的幾個關鍵步驟是很相似的,本質上也就是做一個視覺搜索系統(visual search system)。「這與拍立淘的系統其實是很像的,只不過關鍵點的差別是在 feature 上。對於電商而言,要找的就是同一個商品或是相似的商品;而對於城市大腦的話,我們目前要找的主要集中於三種對象:車、人,和騎車的人。」
阿里從淘寶起家,後來也投身支付寶和菜鳥的業務,但實際上並沒有跳脫出電商的本質。目前,城市大腦項目組的推行,則讓很多人看到了阿里的另一個野心:雲計算。「阿里推行城市大腦項目最關鍵的地方在於,希望能通過大計算去挖掘大數據背後的價值。」華先勝告訴雷鋒網 AI 科技評論,不論是交通或是安全,城市是一個非常大的數據載體,或者說是聚合體。包括視頻信號、GPS 信號、微波信號等多種類型的數據每天都在積累,但其中的價值還遠遠沒有充分挖掘出來。「阿里城市大腦中很關鍵的一個任務就是要解決視覺信號的問題,這實際上是對城市的一個感知。」
城市在沒有攝像頭的時候,一開始可以說是處於一個「無感無知」的情況;後來城市裡有了攝像頭,但缺乏這些數據的分析和研究,這個狀態就是所謂的「感而不知」;而在海康威視、大華為代表的公司在攝像端演算法上發力,逐漸往「感而略知」發展;如今以阿里等企業牽頭所做的城市大腦項目,則是希望做到「感而全知」。
「全面知、全局知、全時知,」華先勝以這三個詞概括了城市大腦的主要特點。全面知指的是除了車和車牌之外,我們可以了解城市中包括人與非機動車的一些情況;全局知指的是整個系統有強大的計算能力,得以從多個方面宏觀了解城市的情況;全時知則是實時、及時地把握城市在交通、安全等方面的情況。
此前華先勝在接受雷鋒網採訪的時候也提及,自己並不認可企業只關注演算法的商業模式,「城市大腦項目的推進得益於強大的計算能力和 AI 技術的發展,阿里在做的其實是一個平台、一個生態,歡迎各個企業也能夠加入其中,這樣一來,數據的價值也能更好地體現。」
而在 CVPR 2017 交流期間,華先勝也了解到,比起學術界,工業界能接觸到的數據量確實有著質的差距。「我昨天看到一個 poster,用了大概 20 個攝像頭、上百個人的數據,就算得上是大數據的研究了(large-scale),但阿里在演算法研發中自測數據集基本上是上千個攝像頭,上萬個人的體量,這個數字在學術界可能是無法想像的。」不過,華先勝也指出了工業界的上線壓力和快節奏的特點,這也導致很多研究無法做得更加深入,需要學術界的自由度和前瞻性來彌補。
華先勝也告訴雷鋒網 AI 科技評論,他在參會時感受一個明顯的需求,就是提升深度學習 inference 的計算效率。不管是 embedded device 上的需求,還是雲上大規模計算的場景,如何降低計算成本成為了一個熱點。「以阿里 iDST 的城市大腦項目為例,需要處理的數據量非常大,從成本的角度出發,對效率也提出了更高的要求。阿里 iDST 同樣在做相關的優化工作,也希望從本次 CVPR 上獲取一些效率提升的研究靈感。
此外,阿里這次來到 CVPR 現場,同樣有著不小的招人需求。正像雷鋒網 AI 科技評論在此前報道中所提及的,本次的贊助商達到了 127 家,總贊助費超過 85.9 萬美金。與其他工業界展商一樣,阿里一方面是為了介紹自己的研究成果,另一方面也著眼於在人才濟濟的學術會議上招攬優秀的老師和同學們加入阿里 iDST 。我們也期待,阿里 iDST 在未來能夠給我們帶來更多的城市大腦應用,將數據的價值體現得淋漓盡致。
※比蘋果更美的穿戴!Fitbit Alta HR智能手環測評
※21萬元RMB的床,你在上面能睡得著嗎?
※?這裡有一則來自馬來西亞的艷遇,你接不接
※緬懷iPod nano,家族只剩touch獨苗
TAG:雷鋒網 |
※ET城市大腦三項視覺技術論文入選CVPR:不改變攝像頭,提高視頻識別技術
※INDEMIND以AI視覺接管機器人「雙腿」與「大腦」
※跨界大咖齊贊vivo NEX,王昱珩:TA才是最強大腦
※CMU&谷歌大腦提出新型問答模型QANet:僅使用卷積和自注意力,性能大大優於RNN
※NLP新標杆!谷歌大腦CMU聯手推出XLNet,20項任務全面超越BERT
※SyncThink使用VR對運動員進行大腦健康分析
※MGC+AI 新華社發布媒體大腦「MAGIC」智能生產平台
※面對GOT7超強大腦JB,SHINee KEY直呼:我尊重您
※Surgical Theater技術提供大腦VR視圖
※用生成對抗網路解決NLP問題:谷歌大腦提出MaskGAN
※谷歌大腦重磅研究:神經結構搜索發現全新特徵超越Mask R-CNN
※NOWRE x YOHOOD 「最潮大腦」結果公布!
※谷歌大腦提出NAS-FPN:一種學會自動架構搜索的特徵金字塔網路
※FT專欄:馬斯克的腦機介面技術很危險,Neuralink將大腦控制權讓給AI無異於自殺
※為機器人裝上「大腦」:曠視在AIoT時代的宏圖
※專訪英特爾AIPG全球研究負責人Casimir Wierzynski:物理學、隱私和大腦將根本性塑造AI
※馬斯克的腦機介面來了,USB 連大腦,用 iPhone 操控
※谷歌大腦提出NAS-FPN:這是一種學會自動架構搜索的特徵金字塔網路
※DeepMind、谷歌大腦、MIT等作者重磅論文
※Science重磅:史上首次!MIT研究用AI控制動物大腦活動