華人科學家一人斬獲三篇CVPR論文!曾主持天貓精靈開發,技術成果或將產品化
近日美國夏威夷颳起了「阿里旋風」。繼淘寶的「拍立淘」讓外國工程師大呼好用之後,又傳來阿里巴巴人工智慧實驗室共有三篇論文入選 CVPR 2017 的好消息。
CVPR被譽為科技界中的「春晚」,是近十年來計算機視覺領域全球最有影響力、內容最全面的頂級學術會議,由全球最大的非營利性專業技術學會IEEE(電氣和電子工程師協會)主辦。2017谷歌學術指標(Google Scholar)按論文引用率排名, CVPR位列計算機視覺領域榜首。據CVPR評委會披露,今年CVPR審核了2620篇文章,最終收錄783篇,錄取率為29%。
阿里巴巴人工智慧實驗室此次入選的三篇論文均有傑出科學家王剛的深度參與,分別針對深度學習和計算機視覺所涉及的上下文模擬、場景分割、行為理解等問題提出了解決辦法。 王剛向記者表示,「這三篇論文都來自於深度學習中的應用場景,未來或將通過人工智慧實驗室進行落地,例如運用到家庭安全監測場景中」。
王剛於2017年3月加入阿里巴巴人工智慧實驗室,擔任傑出科學家,負責機器學習、計算機視覺和自然語言理解的研發工作。他此前曾是南洋理工大學的終身教授,同時也是人工智慧領域最頂尖雜誌IEEE Transactions on Pattern Analysis and Machine Intelligence的編委 (Associate Editor),曾多次受邀成為人工智慧頂級學術會議如International Conference on Computer Vision的領域主席,在深度學習演算法領域具有深厚的研究積累和國際權威。2016年,他還因在深度神經網路設計上的卓越貢獻,成為當年《麻省理工技術評論雜誌》評選出的10名亞洲區35歲以下青年創新獎得主之一。
以下是對三篇論文的解讀
1. Deep Level Sets for Salient Object Detection
結合深度網路的水平集方法在顯著性目標檢測中的應用
簡介:
如圖,a是輸入圖像,b是對應saliency區域的ground truth,c、d對應使用BCE loss訓練的深度網路和使用水平集方法的效果,e對應論文的方法;可以看到e在分割細節方面和ground truth最為接近,效果更好,在細節方面提升明顯。
顯著性目標檢測能夠幫助計算機發現圖片中最吸引人注意的區域,有效的圖像分割和圖像的語意屬性對顯著性目標檢測非常重要。由南洋理工大學和阿里巴巴人工智慧實驗室合作,共同提出了一種結合深度網路的水平集方法,將分割信息和語意信息進行結合,獲得了很好的效果。水平集方法是處理封閉運動界面隨時間演化過程中幾何拓撲變化的有效的計算工具,後來被用到圖像分割演算法當中。深度學習能夠很好的建模顯著性目標的語意屬性,進而進行顯著性目標檢測,但更多的語意屬性信息導致分割邊界的低層信息不準確。論文巧妙的結合了深度網路和水平集方法(Deep Level Sets),同時利用圖片低層的邊界信息以及高層的語意信息,在顯著性目標檢測領域獲得了state-of-art的效果。
2. Global Context-Aware Attention LSTM Networks for 3D Action Recognition
將全局上下文注意力機制引入長短時記憶網路的3D動作識別
簡介:
如圖,3D動作識別能夠幫助計算及更好的理解人體動作(最左側的文字),未來可以作為人機交互的一種補充。
3D動作識別能夠幫助計算機更好的分析人的動作以及為多樣化的人機交互提供更多的選擇。一個好的3D動作識別系統需要很好的處理動作在時間(動作需要一定時延)、空間(結構)上的信息。LSTM(長短時記憶網路)能夠很好的建模動態的、相互依賴的時間序列數據(如人的3D動作序列),注意力機制能夠更有效的獲取數據中的結構信息,並排除掉雜訊的干擾。由南洋理工大學、北京大學、阿里巴巴人工智慧實驗室合作,論文結合LSTM和上下文注意力機制,提出了一種新的LSTM網路:GCA-LSTM(Global Context-Aware Attention LSTM);用來建模動作序列中有效的全局上下文信息(時間信息+空間信息),進而進行3D動作識別。同時,論文為GCA-LSTM網路提出了一種循環注意力機制來迭代提升注意力模型的效果。論文方法在3個主流的3D動作識別數據集上都達到了state-of-art的效果。
3. Episodic CAMN: Contextual Attention-based Memory Networks With Iterative Feedback For Scene Labeling
引入迭代反饋的上下文注意力機制記憶網路在場景分割中的應用
簡介:
如圖,這是場景分隔在自動駕駛中的應用,通過對路面場景進行分割,可以幫助無人車分析那部分區域是可行駛區域(如圖粉紅色部分)。
場景分割有著廣闊的應用前景,比如自動駕駛汽車通過場景分割獲取可行駛區域,比如室內機器人通過場景分割獲知室內物體的分布。場景分割對待分割區域周圍的區域以及全局信息有較強的依賴關係,但這種依賴關係是動態變化的(即使同一區域在不同的場景中對周圍信息的依賴是不同的),因此動態的獲知不同區域的依賴關係以及圖像全局上下文特徵的使用至關重要。由南洋理工大學,伊利諾伊大學厄巴納-香檳分校,阿里巴巴人工智慧實驗室合作,論文通過一個可學習的注意力機制網路來刻畫不同區域之間的依賴關係,並獲取包含上下文信息的特徵。進一步,論文通過引入迭代反饋的方式對注意力機制網路的輸出進行調節,以獲得更好的包含上下文的特徵。上述方法在場景分隔任務中獲得了和當前state-of-art演算法相當的效果。
※專訪閱面科技童志軍:FDDB、LFW雙奪冠的人臉識別技術
※重磅講座預告:黃鐵軍、陳雲霽等專家齊聚CCF ADL,分享類腦計算與深度學習處理器
※看完立刻理解GAN!初學者也沒關係
※報告解讀:醫療AI應用將貢獻年增長率的40%,總市場將達100億美元
※「異鬼Ⅱ」Bootkit木馬藏身甜椒刷機軟體 騰訊電腦管家精準攔截
TAG:雷鋒網 |
※LG開發基於人工智慧解決VR暈動病的技術
※VRCORE創始人兼CEO劉品杉:鏈接全球開發者,共建VR生態圈
※VR+智能家居APP開發
※AI早報:FB挖谷歌晶元開發主管;科學家研製出完全DNA構成的人工神經網路
※IBM與蘋果達成合作 聯手開發人工智慧服務
※IBM與蘋果達成合作 聯手開發人工智慧服務
※為殘障人士開發科技產品 蘋果榮獲人道主義獎
※DARPA啟動化學人工智慧項目,開發用于軍事用途的新化學分子
※Cell:中國科學家開發出有望根治成人惡性腦瘤的新療法!
※VR家居APP開發功能優勢
※Cell:科學家開發出了一種革命性技術 有望對大腦特定區域的所有細胞進行成像研究
※NTK新的人工智慧模型的開發帶來一場革命
※科研人員開發第一例DNA兼容的C-H官能團化反應
※割掉JB唐斯開發新技能!聯盟最貴二人組竟不是庫里+KD?
※天主教會組織居然開發了一款VR手游「神奇上帝 GO」
※三星決定與中國政府合作開發人工智慧技術
※Cell:重磅!中國科學家開發出有望根治成人惡性腦瘤的新療法!
※歐司朗攜手合作夥伴啟動IBELIVE研究項目,開發小型化光學元器件
※模仿人類行為自我編程 NVIDIA開發機器人學習技術
※Vuzix與多家OEM達成合作 開發AR技術產品