當前位置:
首頁 > 新聞 > 「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

新智元推薦

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

本文將深度解析本屆CVPR熱門研究。第一部分是五大前沿領域的重點文章解析,包括低中層視覺、圖像描述生成、3D視覺、計算機視覺與機器學習、弱監督下的圖像識別等。第二部分是CVPR及我們計算機視覺團隊簡介等。接下來的兩篇文章中,我們將對頂級會議ACL和ICML做類似深度解讀,敬請期待。

騰訊AI Lab去年四月成立,今年是首次參展CVPR,共計六篇文章被錄取(詳情見文末),由計算機視覺總監劉威博士帶隊到現場交流學習。

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

騰訊AI Lab展台及CV科學家在Poster環節介紹論文

從研究領域和前沿思考出發,我們重點關注了五大領域的前沿研究,以下為重點論文評述。

低中層視覺問題

Low-Level and Mid-Level Vision

在計算機視覺領域裡,低中層視覺問題更關注原始視覺信號,與語義信息的聯繫相對鬆散,同時也是許多高層視覺問題的預處理步驟。本屆CVPR有關低中層視覺問題的論文有很多,涵蓋去模糊、超解析度、物體分割、色彩恆定性(Color constancy)等多個方面,方法仍以深度學習為主。

其中在超解析度有關的工作中,較為值得關注來自Twitter的Ledig等人所著文章[1]。這是第一篇將生成對抗網路(Generative Adversarial Network,簡稱GAN)思想用於圖像超解析度的研究(具體結構見下圖)。以前的超解析度方法,大都使用平均平方誤差(Mean Square Error,簡稱MSE)導出的損失函數(loss),直接最小化MSE loss雖能得到不錯的超解析度結果,但難以避免細節上的模糊,這是MSE本身設計問題導致的。

[1]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network. Ledig C, Theis L, Huszár F, et al. In Proceedings of CVPR 2017.

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

雖然後來阿斯利康DNA測序機構的Johnson與斯坦福大學的Alahi等人[2]在ECCV 2016時中提出使用Perceptual loss替代MSE loss,獲得了細節更豐富的超解析度結果,但仍然有進步的空間。而Ledig等人的這篇論文在Perceptual Loss基礎上加入GAN loss,約束超解析度結果需符合自然圖像分布規律,使超解析度結果獲得了非常逼真的細節效果。此方法也並非全無缺點,由於GAN loss考慮的是自然圖像的整體分布,與具體輸入圖像(即測試圖像)無關,因此恢復的圖像細節可能並不忠實於原圖,類似「捏造」出假細節,因此不適用於一些追求細節真實性的應用。

[2] Perceptual Losses for Real-Time Style Transfer and Super- Resolution. Johnson J, Alahi A, Fei-Fei L. In Proceedings of ECCV 2016.

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

使用GAN loss生成的結果(黃色方框)能夠落在自然圖像分布上(紅色方框集合)。MSE loss雖能獲得平均意義上的最小誤差(藍色方框),但卻沒落在自然圖像分布上(紅色方框的集合),因而丟失了很多圖像細節。

未來,將GAN loss引入到視頻超解析度的解決方案中是一個很自然的擴展,相信很快會有研究工作出現。值得一提的是,Twitter的這批研究人員在本屆CVPR還有一篇關於視頻超解析度的論文[3],雖未引入GAN Loss,但通過更好幀間對齊方法提升了視頻超解析度的可視化效果。

[3] Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation. Caballero J, Ledig C, Aitken A, et al. In Proceedings of CVPR 2017.

圖像/視頻描述生成

Image or Video Captioning

粗略統計,本屆CVPR有16篇視覺描述生成相關論文,其中有8篇圖像描述生成相關論文,其他論文多集中在視頻描述生成方向。我們重點關注了其中幾個較有代表性的研究:

1)SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

這篇論文由騰訊AI Lab和浙江大學等機構合作完成,主要討論了視覺注意力模型在空間與通道上的作用。該模型能動態提取隨時間變化的上下文注意力信息。傳統的注意力模型通常是針對空間設計的,例如在產生圖像的描述的過程中,模型的注意力模型會注意圖像的不同區域。但會忽略CNN中的通道和多層中的信息。這篇論文提出了一個全新模型SCA-CNN,可針對CNN中的空間和通道信息設計新的注意力模型。在圖像描述生成任務中,該模型表現出了良好性能。

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

2)Self-Critical Sequence Training for Image Captioning

IBM Watson研究院發表的這篇論文直接優化了CIDEr評價標準(Consensus-based image description evaluation)。由於此目標函數不可微,論文中借鑒基礎的強化學習演算法REINFORCE 來訓練網路。 該文提出了一個新的演算法SCST(Self-critical Sequence Training),將貪婪搜索(Greedy Search )結果作為 REINFORCE 演算法中的基線(Baseline),而不需要用另一個網路來估計基線的值。這樣的基線設置會迫使採樣結果能接近貪婪搜索結果。在測試階段,可直接用貪婪搜索產生圖像描述,而不需要更費時的集束搜索(又名定向搜索,Beam Search)。除了SCST,此論文也改進了傳統編碼器-解碼器框架中的解碼器單元,基於Maxout網路,作者改進了LSTM及帶注意力機制的LSTM。綜合這兩個改進,作者提出的方法在微軟的圖像描述挑戰賽MS COCO Captioning Challenge佔據榜首長達五個月,但目前已被其他方法超越。

3)Deep Reinforcement Learning-based Image Captioning with Embedding Reward

由Snapchat與谷歌合作的這篇論文也使用強化學習訓練圖像描述生成網路,並採用Actor-critic框架。此論文通過一個策略網路(Policy Network)和價值網路(Value Network)相互協作產生相應圖像描述語句。策略網路評估當前狀態產生下一個單詞分布,價值網路評價在當前狀態下全局可能的擴展結果。這篇論文沒有用CIDEr或BLEU指標作為目標函數,而是用新的視覺語義嵌入定義的Reward,該獎勵由另一個基於神經網路的模型完成,能衡量圖像和已產生文本間的相似度。在MS COCO數據集上取得了不錯效果。

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

4)Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning

弗吉尼亞理工大學和喬治亞理工大學合作的這篇論文主要討論自適應的注意力機制在圖像描述生成中的應用。在產生描述語句的過程中,對某些特定單詞,如the或of等,不需要參考圖像信息;對一些片語中的單詞,用語言模型就能很好產生相應單詞。因此該文提出了帶有視覺哨卡(Visual Sentinel)的自適應注意力模型,在產生每一個單詞的時,由注意力模型決定是注意圖像數據還是視覺哨卡。

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

在圖像描述生成方面,本屆CVPR還有很多其他方面的研究工作。包括在《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》中,微軟亞洲研究院將複製功能(Copying Mechanism)引入圖像描述生成學習新物體,《Attend to You: Personalized Image Captioning With Context Sequence Memory Networks》一文用記憶網路(Memory Network)來定製個性化的圖像描述生成。

近年來,由於視頻數據大大豐富,也有一系列的工作討論視頻描述生成,包括復旦大學與英特爾合作的《Weakly Supervised Dense Video Captioning》,和杜克大學與微軟合作的《Semantic Compositional Networks for Visual Captioning》等。

3D計算機視覺

3D Computer Vision

近年來,3D計算機視覺快速發展,被廣泛應用在無人駕駛、AR或VR等領域。在本屆CVPR,該研究方向亦受到廣泛關注,並體現出兩大特點:一方面其在傳統多視圖幾何如三維重建等問題上有所突破,另一方面它也和現今研究熱點,如深度強化學習等領域緊密結合。我們將對以下兩個方向做進一步介紹:

1) Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation From Single and Multiple Images

這篇論文為騰訊AI Lab、約翰霍普金斯大學及加州大學洛杉磯分校合作發表,作者主要討論從二維圖像中進行人造物體(如汽車、飛機等)的三維結構重建問題。事實上,絕大多數人造物體都有對稱性以及曼哈頓結構,後者表示我們可以很容易在欲重建的人造物體上找到三個兩兩垂直的軸。如在汽車上,這三個軸可為兩個前輪、兩個左輪及門框邊緣。作者首先討論了基於單張圖片的物體三維結構重建,並證明了僅用曼哈頓結構信息即可恢復圖像的攝像機矩陣;然後結合對稱性約束,可唯一地重建物體的三維結構,部分結果如下圖所示。

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

然而,在單張圖像重建中,遮擋和雜訊等因素會對重建結果造成很大影響。所以論文後半部分轉到了多張圖像基於運動恢復結構(Structure from Motion, 簡稱SfM)及對稱信息的物體三維重建中。事實上,SfM演算法涉及到對二維特徵點進行矩陣分解,而添加對稱性約束後,我們並不能直接對兩個對稱的二維特徵點矩陣直接進行矩陣分解,因為這樣不能保證矩陣分解得到同樣的攝像機矩陣以及對稱的三維特徵點坐標。在文章中,作者通過進一步利用對稱性信息進行坐標軸旋轉解決了這個問題。實驗證明,該方法的物體三維結構重建及攝像機角度估計均超出了之前的最好結果。

2) PoseAgent: Budget-Constrained 6D Object Pose Estimation via Reinforcement Learning

本文由德國德累斯頓工業大學(TU Dresden)與微軟聯合發表,主要通過強化學習估計物體6D姿態。傳統姿態估計系統首先對物體姿態生成一個姿態假設池(a Pool of Pose Hypotheses),接著通過一個預先訓練好的卷積神經網路計算假設池中所有姿態假設得分,然後選出假設池中的一個姿態假設子集,作為新假設池進行Refine。以上過程迭代,最後返回得分最高的假設姿態作為姿態估計的結果。

但傳統方法對姿態假設池Refinement的步驟非常耗時,如何選擇一個較好姿態假設子集作為姿態假設池就變得尤為重要。本文作者提出了一同基於策略梯度的強化學習演算法來解決這個問題。該強化學習演算法通過一個不可微的獎勵函數來訓練一個Agent,使其選取較好的姿態假設,而不是對姿態假設池中的所有姿態進行Refine。

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

強化學習的步驟如上圖所示。首先給強化學習Agent輸入一個較大初始姿態假設池,然後該Agent通過對其策略採樣,選擇一個新的強化學習池,並對其進行Refine。上述過程達到一定次數後,最後求得的姿態假設池中得分最高的姿態假設即為所求得姿態。實驗表明該方法在大大提高運行速度時,還得到超出此前最佳演算法的估計結果。

計算機視覺與機器學習

Computer Vision & Machine Learning

計算機視覺與機器學習歷來聯繫緊密,隨著深度學習近年來在視覺領域取得的空前成功,機器學習更是受到更廣泛的重視。作為機器學習一個分支,深度學習依然是計算機視覺領域絕對主流。但與前幾年不同的是,純粹用深度學習模型「單打獨鬥」解決某個視覺問題似乎不再流行。

從近兩屆CVPR論文看,深度學習模型與其它傳統的機器學習分支模型的融合漸成趨勢,既利用深度學習模型的優異性能,又利用傳統模型的成熟理論基礎,取長補短,進一步提高性能並增加了深度學習模型透明度。本屆CVPR上這種融合趨勢可分為兩個具體方向:一個是傳統機器學習模型方法與深度學習模型深度融合,讓後者能設計更好模型;另一個是用傳統機器學習理論解釋或闡述深度學習模型性能。我們關注到相關的重點論文如下:

一、傳統機器學習模型方法與深度學習模型深度融合

1)On Compressing Deep Models by Low Rank and Sparse Decomposition

矩陣的低秩稀疏分解是經典機器學習方法,假設一個大規模矩陣可分解為兩個或多個低維度矩陣的乘積與一個稀疏矩陣的和,從而大大降低原矩陣表示元素個數。在這篇由優必選悉尼AI研究所、新加坡理工大學和悉尼大學共同完成的論文中,該方法被用來模擬深度學習的濾波參數矩陣,在保證模型性能同時,大大降低了參數個數,這對深度學習模型的進一步推廣,尤其是智能手機端應用會有很大推動作用。類似文章還有杜克大學的這篇[1]。

[1] A compact DNN: approaching GoogLeNet-Level accuracy of classification and domain adaptation

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

2)Unsupervised Pixel–Level Domain Adaptation with Generative Adversarial Networks

領域自適應(Domain Adaptation)是遷移學習(Transfer Learning)的一種,思路是將不同領域(如兩個不同的數據集)的數據特徵映射到同一個特徵空間,這樣可利用其它領域數據來增強目標領域訓練。深度學習模型訓練需要大規模數據,這篇由谷歌發表的文章,提出的思路是對真實物體進行渲染(Rendering),製造大量人造渲染圖像,從而幫助深度學習模型訓練。

然而,渲染圖像與真實圖像之間有很大差異(比如背景差異),直接用渲染圖像訓練得到的深度學習模型並沒有產生很好識別性能。本文將渲染圖像和真實圖像看作兩個領域,並結合當前流行的生成對抗網路修正渲染圖像,得到更加貼近真實圖像的渲染圖像(如下圖所示:加上類似的背景)。最後再利用這些修正後的渲染圖像訓練深度學習模型,取得了很好效果。

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

二、傳統機器學習理論解釋或闡述深度學習模型性能

1)Universal Adversarial Perturbations

在現有研究和實際應用中,深度學習模型被觀察到對樣本雜訊或擾動比較敏感,比如在原始圖像上加一些很小的雜訊或變形,都可能造成誤分類。但對什麼類型、多大幅度的雜訊或擾動會引起這種錯誤,我們還知之甚少。洛桑聯邦理工大學和加州大學洛杉磯分校合作的這篇論文對此問題進行了初步探索。

文章基本思想是圍繞機器學習中的分類邊界和間隔,在原始圖像特徵空間中計算出一個最小擾動向量,使原始圖像跨過分類邊界造成誤分類。計算得到的這個最小擾動向量被稱為通用擾動向量,因為該向量值與模型相關並與具體的圖像獨立。作者分析了VGG、GoogLeNet和ResNet-152等多個主流深度學習模型,發現其對於相對應的通用擾動向量非常敏感。這項研究對了解深度學習模型的分類邊界和模型魯棒性有很大幫助。

2)Global Optimality in Neural Network Training

常用深度學習網路中,往往會用到很多非線性函數,如Sigmoid激勵函數和ReLu激活函數等,所以整個網路可被看做是一個非線性複合映射函數。這樣的函數很大可能是非凸函數,在優化過程中存在很多局部最優解,增加了模型訓練難度。但約翰霍普金斯大學的這篇論文證明,在網路構成函數滿足一定假設時,能保證得到全局最優解。背後原理是使整個網路的搜索空間只包含全局最優解和平台解,而不存在局部最優解(如下圖所示)。

該文的證明運用了機器學習中的矩陣分解和對應的優化理論。這項研究工作展示了全局最優解在深度神經網路中存在的條件,為我們設計更加容易訓練的模型提供了有價值的指導。

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

弱監督下的圖像識別

Weakly Supervised Recognition

深度學習成功的一大關鍵因素是大量訓練數據,但現實場景中對海量數據作精細數據標註需要大量人力和財力,這就回到了計算機視覺中的基本問題:目標檢測 (Object Detection)和語義分割(Semantic Segmentation)。本屆CVPR也有論文關注弱監督下該問題的解決,我們將介紹兩篇僅依賴圖像級別標註的相關研究。

1)Deep Self-taught Learning for Weakly Supervised Object Localization

這篇最具代表性的目標檢測論文由騰訊AI Lab和新加坡國立大學合作完成。在檢測器訓練時,該文提出了一種依靠檢測器模型自主動態挖掘高質量正例樣本的方法。鑒於CNN檢測器有強大的擬合訓練樣本能力,錯誤訓練樣本 (False Positive)同樣能獲得較高類別置信度。但當檢測器訓練其它正例樣本時,錯誤訓練樣本獲得的類別置信度增量 (Relative Score Improvement) 較小,因此當檢測器在訓練其它Positive樣本時,一個Object Proposal獲得的類別置信度增量大小可有效反映該樣本的真實質量 (True Positive或False Positive)。依賴類別置信度增量動態挖掘高質量訓練樣本,可有效增強檢測器性能。 該文在PASCAL VOC 07和12目標檢測任務上取得了目前最先進的效果。

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

2)Object Region Mining with Adversarial Erasing: a Simple Classification to Semantic Segmentation Approach

這篇有代表性的語義分割論文來自新加坡國立大學,提出了用分類網路解決語義分割的新方法。分類網路能提供目標物體的顯著區域 (Discriminative Part),但語義分割要求對目標物體全部像素的精確預測,該文利用了一種逐步擦除顯著區域方法,不斷提高分類網路預測難度。當擦除顯著區域和重新訓練分類網路交替,按從主要到次要的順序逐漸獲得目標物體全部區域,訓練出一個高性能語義分割網路模型。該方法在PASCAL VOC 07和12語義分割問題上取得了目前最佳效果。

「騰訊計算機視覺團隊首次曝光」AI Lab深度解讀CVPR五大前沿

一分鐘速讀CVPR

CVPR是近十年來計算機視覺領域全球最有影響力、內容最全面的頂級學術會議,由全球最大的非營利性專業技術學會IEEE(電氣和電子工程師協會)主辦。今年會議於7月21日至26日在美國夏威夷舉行。

在評估會議的學術影響力指標上,本次會議均創新高 —— 論文有效提交數為2620篇(40%↑)、錄取數為783篇(22%↑)、註冊參會人數4950人(33%↑),並在新發布的2017谷歌學術指標中,成為計算機視覺與模式識別領域影響力最大的論文發布平台。

在產業影響力指標上,會議贊助金額近86萬美元(79%↑),贊助商高達127家(30%↑),囊括了Google、Facebook及騰訊等科技巨頭,也有商湯、曠視等眾多初創企業。

錄取論文涉及領域佔比最高的五類是:計算機視覺中的機器學習(24%)、物體識別和場景理解(22%)、3D視覺(13%)、低級和中級視覺(12%)、分析圖像中的人類(11%)。

大會共設44個研討會(workshop)、22個教程輔導(tutorial)和14場競賽,覆蓋語言學、生物學、3D建模和自動駕駛等計算機視覺的細分領域。

現場論文展示分三種形式:12分鐘長演講(Oral)4分鐘短演講(Spotlight)和論文海報展示(Poster),長短演講共215場,海報展示112個。在參會心得上,我們建議重點參加口述演講,會對精選文章做長或短的進一步解讀;而海報展示數量多、內容雜,只在固定時段有,要用好地圖和會程指引,有選擇地、集中地參加此環節。展會區囊括各類企業,會從研究到應用進行展示講解,可選擇性參加。

關於騰訊AI Lab及其計算機視覺團隊

騰訊AI Lab成立於2016年4月,專註於機器學習、計算機視覺、語音識別和自然語言理解四個領域「基礎研究」,及內容、遊戲、社交和平台工具型四大AI「應用探索」,提升AI的決策、理解及創造力,向「Make AI Everywhere」的願景邁進。

騰訊AI Lab主任及第一負責人是機器學習和大數據專家張潼博士(詳情可點鏈接),副主任及西雅圖實驗室負責人是語音識別及深度學習專家俞棟博士。目前團隊共有50餘位AI科學家及200多位應用工程師。

計算機視覺團隊(CV團隊)是最早組建的研究團隊之一,目前有十多位基礎研究科學家,大多擁有國內外院校博士學位,並與一個較大的應用工程師團隊緊密合作,由計算機視覺和機器學習專家劉威博士領導。我們很注重對青年研究者的培養,團隊中應屆畢業的博士接近半數,也將繼續在海內外招募不同級別的優秀研究者。

在基礎和前沿研究方向上,CV團隊聚焦中高層視覺,尤其視頻等可視結構數據的深度理解,同時也在重要的交叉領域發力,如視覺+NLP、視覺+信息檢索等。正在進行或計劃中的研究項目兼具了挑戰性和趣味性,包括超大規模圖像分類、視頻編輯與生成、時序數據建模和增強現實,這些項目吸引了哥倫比亞和清華等海內外知名大學的優秀實習生參與。

團隊在本屆CVPR上有六篇文章被錄取,下面論文一提到的實時視頻濾鏡技術已在騰訊QQ手機版上線,實現了基礎研究到產品應用的迅速轉化,正是我們「學術有影響,工業有產出」目標的體現。

騰訊AI Lab共六篇論文入選本屆CVPR

論文一:Real Time Neural Style Transfer for Videos

本文用深度前向卷積神經網路探索視頻藝術風格的快速遷移,提出了一種全新兩幀協同訓練機制,能保持視頻時域一致性並消除閃爍跳動瑕疵,確保視頻風格遷移實時、高質、高效完成。

論文二:WSISA: Making Survival Prediction from Whole Slide Histopathological Images

論文首次提出一種全尺寸、無標註、基於病理圖片的病人生存有效預測方法WSISA,在肺癌和腦癌兩類癌症的三個不同資料庫上性能均超出基於小塊圖像方法,有力支持大數據時代的精準個性化醫療。

論文三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

針對圖像描述生成任務,SCA-CNN基於卷積網路的多層特徵來動態生成文本描述,進而建模文本生成過程中空間及通道上的注意力模型。

論文四:Deep Self-Taught Learning for Weakly Supervised Object Localization

本文提出依靠檢測器自身不斷改進訓練樣本質量,不斷增強檢測器性能的一種全新方法,破解弱監督目標檢測問題中訓練樣本質量低的瓶頸。

論文五:Diverse Image Annotation

本文提出了一種新的自動圖像標註目標,即用少量多樣性標籤表達盡量多的圖像信息,該目標充分利用標籤之間的語義關係,使得自動標註結果與人類標註更加接近。

論文六:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images

基於曼哈頓結構與對稱信息,文中提出了單張圖像三維重建及多張圖像Structure from Motion三維重建的新方法。

* 本文獲授權轉載自微信騰訊AI實驗室(tencent_ailab),特此感謝!

點擊閱讀原文可查看職位詳情,期待你的加入~

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「CVPR 2021主席出爐」譚鐵牛、虞晶怡當選,未來4年6位華人主席
拿下人臉識別「世界盃」冠軍!松下-NUS 和美國東北大學實戰分享
全球計算機H-index TOP 10華人Philip S. Yu】從深度學習到廣度學習
「AI硅腦」超越GPU,FPGA、ASIC和更智能的手機
李飛飛深情回顧ImageNet 8年:改變AI和世界的數據

TAG:新智元 |

您可能感興趣

何愷明團隊計算機視覺最新進展:從FPN、Mask R-CNN 到學習分割一切
CVPR PAMI青年研究員獎Andreas Geiger:自動駕駛中的計算機視覺
CVPR PAMI青年研究員獎得主Andreas Geiger:自動駕駛中的計算機視覺
AIS機械取栓患者術前平掃CT-計算機輔助ASPECTS評分
uSens推出手部骨骼追蹤AR SDK,基於計算機視覺和深度學習
本季度ARM計算機上的「始終連接」Windows
香儂科技獨家對話AAAI、ACM、ACL三會會士UT Austin大學計算機系教授Raymond J.Mooney
NVIDIA 發布了世界上「最大」的 GPU,與一款「小型」計算機
谷歌發布Cloud TPU Pod以實現按需的AI超級計算機
Digi-Capital報告中國AR和計算機視覺投資激增
《Pokemon Go》開發商收購AR與計算機視覺公司Escher
OPPO何朝文:AI視頻理解將成為計算機視覺的聚焦方向
計算機硬體之NVIDIA顯核
論如何騙過計算機視覺AI網路,UCLA專家為你支幾招
MobileNetV2:下一代設備上計算機視覺網路
中國計算機協會YOCSEF TDS「知識圖譜」專題探索班
用「SD卡」思路做可插拔AI晶元組,中科物棲推RISC-V晶元、Jeejio超微計算機
微軟 SURFACE PRO LTE評測:真正的移動計算機,和蘋果比你覺得如何?
GluonCV—計算機視覺的深度學習工具包
Google 帶來新版 AIY 計算機視覺動手組裝套件