港科大教授權龍:為什麼三維重建才是計算機視覺的靈魂?
作者 | 微軟亞洲研究院
轉載自微軟研究院AI頭條(ID: MSRAsia)
編者按:在「全民計算機視覺」的今天,其發展歷程卻鮮少有人追溯。梳理研究的過去將能讓我們更好地探索未來。權龍教授為我們介紹了三維重建的歷史發展與應用前景,也為大家在研究學習、職業選擇等方面給出了一些實用建議。
//
對 話 嘉 賓
權龍
香港科技大學計算機科學與工程系教授
三維重建平台Altizure公司創始人
ICCV 2011、CVPR 2022主席
IEEE Fellow
主 持 人
王井東
微軟亞洲研究院資深研究員
ACM傑出會員
國際模式識別(IAPR)學會會士
//
王井東:您的主要研究方向是三維重建,它的發展現狀和應用前景如何,您為什麼看好它?
權龍:說三維重建首先要從計算機視覺講起。計算機視覺包含兩個基本方向,物體識別和三維重建。圖像識別的突破性進展源自於2012年卷積神經網路(CNN)的興起。在此之前,計算機視覺的核心研究方向是三維重建。因為在當時,對於圖像的特徵提取主要是通過三維重建的方法來定義和實現的。自2012年以來,圖像的特徵便逐漸由神經網路來自動學習。
三維重建的應用是很廣泛的,對於自動駕駛、VR、AR等應用領域應用來講,三維重建是核心技術,並且實時三維重建是必然趨勢,因為我們生活在三維空間里,必須將虛擬世界恢復到三維,我們才可以和環境進行交互。所以僅僅研究識別肯定是不夠的,計算機視覺下一步必須走向三維重建,並且把三維重建和識別融為一體。
古建築修復與重建是三維重建的一個具有代表性的應用,比如近期被燒毀的巴黎聖母院,如果通過三維模型(https://www.altizure.cn/project-model?pid=57f8d9bbe73f6760f10e916a)進行數字重建,應該能夠達到原汁原味還原其真實面貌的目的。目前在我們的三維重建項目中,名勝古迹的三維電子存檔是很重要的一部分。從表面上看,三維重建似乎沒有自動駕駛那麼複雜,其實它比自動駕駛更難,因為自動駕駛的三維感知是給車識別,而VR、AR中的三維重建場景是提供給人類感知的,所以對三維重建的結果要求非常高。總體來講,三維重建是計算機視覺的靈魂。
王井東:三維重建在計算機視覺中確實非常重要,您可以帶大家回顧一下計算機視覺和三維重建的發展歷程嗎?
權龍:1987年在倫敦舉辦的第一屆國際計算機視覺大會ICCV可以作為現代計算機視覺研究的一個開端。之前很多人認為做圖像處理就是計算機視覺,其實是二者是有區別的。
計算機視覺的目標是對圖像進行理解。準確來講,計算機無法做到「理解」,只能做到「認知」。我們的研究目的是從圖像中獲取視覺特徵,有了視覺特徵才能開展一系列的工作。因此回顧計算機視覺的發展歷程,根據算力條件的不同,我們可以看到一個特徵提取的演化過程。
80年代,人人都在做以edge為主的邊緣提取,有了edge之後,再把它高層化後的線段元做簡單的統計分類或者三維重建。Edge在數學上很容易定義,在定義了很多優化準則後,到1986年John Canny提出了Canny edge detection之後,這個研究方向就到頭了。
90年代,人們對三維重建愈加重視,當時歐洲比美國要領先。幾何也追求特徵提取,但一維的edge不適合幾何計算,幾何最本質的元素是點,所以很多工作開始圍繞點的特徵去展開,對點的特徵進行描述,然後就可以把很多東西變成矢量的無序集合,再做統計。三維重建的終極目標是用非標定相機(uncalibrated camera)進行重建。
1992年,Oliver Faugeras和Richard Hartley各自獨立地解決了非標定相機兩張圖像下的三維重建問題,引入了基於七點演算法的基礎矩陣(Fundamental Matrix)概念,這標誌著三維視覺的崛起。
1994年,我提出了六點演算法(Invariants of six points and projective reconstruction from three uncalibrated images),解決了非標定相機三張圖像下的三維重建,進而在理論上徹底解決了多視重建的幾何問題(multi-view geometry)。這兩項工作共同奠定了三維重建的理論基礎,對計算機視覺的發展起到了決定性的作用。
到了2012年,卷積神經網路(CNN)的出現對於特徵提取和圖像識別都是一個顛覆性的飛躍,從而觸發了新一波人工智慧高速發展的浪潮。事實上,卷積神經網路在1989年就應用於圖像識別問題,它是今天所有卷積神經網路的鼻祖模型。
從誕生到2012年的十幾年之間,發生變化的並非卷積神經網路的架構,而是:(一)GPU的出現提升了計算力;(二)斯坦福大學教授李飛飛創建的ImageNet,她把上百萬張照片發到網路上進行標註。這兩件事促成了卷積神經網路在2012年的復活。CNN的本質其實是兩點,第一點是提取特徵,第二點是標準分類器。所以本質上還是提取特徵,只不過特徵的表達能力比之前的手工定義要高得多。
所以從特徵提取這條線索上看,雖然目前計算機視覺看似處於一輪新的熱潮,但事實上一直以來大家都在做同樣的事情,只不過在不同的階段,提取的特徵和採用的方式有所不同。
王井東:現在主流的計算機視覺研究主要集中在歐洲、美國和中國。您認為這三者的發展現狀和未來將如何?
權龍:確實是三足鼎立。上個世紀八九十年代,歐洲的計算機視覺發展迅速,研究人員在一定意義上把計算機視覺當作一個應用數學的問題。三維重建需要大量傳統數學知識,這批研究人員都有非常好的應用數學基礎,那就用數學工具去解決這些視覺問題。
同期,美國計算機視覺的研究人員也非常活躍,但主要集中在應用領域,研究方向並不是非常清晰。隨著2012年這一波由卷積神經網路引發的人工智慧的再次崛起,美國在應用方面突飛猛進,歐洲依然保持紮實的基礎研究的風格。後起之秀就是中國了,飛速發展的經濟和創新氣氛使得計算機視覺的研究和商業應用在極短的時間內快速發展起來了。
王井東:您不僅在計算機視覺的研究上一如既往,也創立了專註三維重建的公司Altizure,那麼關於學術和產業的選擇,您能為同學們分享一些經驗和建議嗎?
權龍:每個人都有不同的理想和發展方向,有的人可能更適合做應用,有的人更適合做學術研究,這是因人而異的。沒必要每個人都要去做科研當教授,也沒必要每個人都去創業,只要能發揮自己的特長,選擇哪一條路都是非常好的。在這個多元化的社會,大家都在從不同的角度推進科技的進步。
王井東:當時是什麼促使您從學術界「跨界」進入產業界?
權龍:很簡單,我一直在研究計算機視覺三維重建,以前的結果還不成熟,而到了某一個時機它終於能投入應用了,那我們當然要做應用,這是研究的最高境界。研究就是這樣,可能在很長時間裡效果都不夠理想,那我們就要繼續研究,但當它有了用武之地時,我覺得投入實踐是順理成章的。
王井東:您認為一個計算機視覺方向的學生應該學好哪些知識,才能做更好的研究?
權龍:我對所有的人的建議是,打好應用數學和計算機的功底。應用數學是理論基礎,計算機是實現手段,兩方面的能力缺一不可。我不太贊同大學開設人工智慧專業的做法,其實人工智慧在一定意義上就是應用數學,尤其是卷積神經網路,本質上是數學優化和統計,你要有很好的應用數學功底。
王井東:很多人說深度學習和計算機視覺到了瓶頸期,您認為目前最大的問題是什麼?您最期待的突破又在哪裡?
權龍:「瓶頸期」不是一個合適的辭彙。因為它本質上是一個應用科學,現在有了卷積神經網路這樣強大的工具,所有的應用方向都可以重新去摸索。剛才講到特徵提取,提取完特徵後去做具體的應用,很多東西是可以繼續改進的,差別在於進步有多大。
卷積神經網路的特徵提取已經是一個很大的突破了,在這個基礎之上,我想會有一系列新的應用出現。如果實在要說突破,那就是硬體和算力的突破。目前大熱的自動駕駛領域將很大力度地推進算力的發展,VR、AR也是同樣。有朝一日,如果算力能夠有一個顯著的突破性進展,很多無法想像的事情將會發生。
(*本文為 AI科技大本營轉載文章,轉載請聯繫原作者)
※IEEE「撐不住」了?聲明解除對華為評審限制
※李理:為什麼說人工智慧可以實現?
TAG:AI科技大本營 |