一花一樹一城，走進三維重建的絢麗世界｜專訪權龍

新聞 04-15

本文轉載自|公眾號賽先生，未經授權不得二次轉載

打開今日頭條，查看更多圖片

撰文 | 邸利會

二月的聖地亞哥陽光明媚，春暖花開。

2019年CVPR（IEEE國際計算機視覺與模式識別會議）的領域主席會議後，30多名華人主席在拉荷雅海灘邊的一個中餐館聚餐，回顧近40載的計算機視覺研究，頗為感慨——

八九十年代參加CVPR會議的華人寥寥無幾，而2019年的CVPR，華人的領域主席就有40多位，可謂「三分天下有其一」，還有2位程序委員會主席，1位總主席。在這一領域，華人的實力已是今非昔比。

篳路襤褸，以啟山林。在有影響的華人研究者中，不乏我們耳熟能詳的名字，如馬頌德、譚鐵牛、沈向洋、張正友、朱松純、馬毅、湯曉鷗、李飛飛、孫劍等等。權龍教授更是最早的少數幾個為整個領域所熟悉的華人教授。

從1988年第二屆國際計算機視覺大會（ICCV）開始，權龍教授就開始在這些視覺頂級會議上發表論文，他長期擔任該會的領域主席，2011年還擔任了該會的大會主席，2022年將再次出任CVPR大會主席。

三維重建的歐洲力量

權龍的計算機視覺研究始於改革開放後的八十年代。1984年畢業於北方交通大學（現北京交通大學）後，同年考取教育部派遣的留學生赴法留學，在法國國家信息與自動化研究院（INRIA）獲得博士學位，加入法國國家研究中心（CNRS），他也是1990年建立的INRIA Grenoble計算機視覺組最早的成員。

在法國國家實驗室INRIA 任職多年後，2001他回國加入香港科技大學，建立計算機視覺研究組。幾十年來，他一直活躍在學界和產業界前沿。

在計算機視覺領域，權龍教授建樹頗豐。

他在九十年代視覺三維重建（3D reconstruction）的基礎理論奠基方面做出了傑出貢獻。在2000年以後，他又在三維重建應用領域做了一系列基於圖像的建模（image-based modeling）的工作。最近，他還和學生創建了Altizure公司，打造了世界上最好的三維重建平台。

計算機視覺是非常寬泛的研究領域，涉及多個學科（如演算法、幾何、光學、機器學習等）的交叉。在各個時期，計算機視覺研究也有著非常顯著的不同。2012年後的主要風尚毫無疑問是以卷積神經網路為代表的深度學習下的識別。但在此之前的相當長時間裡，計算機視覺研究的中心問題是三維重建。

權龍教授曾介紹說，計算機視覺中的三維重建的核心問題就是通過多目的視差獲取三維信息，識別不同視角下的圖像，對每一個像素進行識別與匹配，然後進行三維重建。在完成幾何三維重建後，再進一步對三維信息進行語義識別，這也是重建的最終目的。

回顧計算機視覺的發展，1992年Olivier Faugeras的論文「What Can be Seen in Three Dimensions with an Uncalibrated Stereo Rig」發表，標誌著三維視覺的崛起。到2001年Richard Hartley和Andrew Zisserman 的教材「Multiple View Geometry in Computer Vision」出版，標誌著三維視覺領域的基本理論框架確立。這十年是三維視覺群星閃耀的十年，湧現了Oliver Faugeras，Richard Hartly，Andrew Zisserman，Luc Van Gool 等等一系列以歐洲學者為代表的如雷貫耳的名字。

當時在法國國家實驗室INRIA工作的權龍、張正友（現騰訊 AI Lab 主任）就是這群星當中的華人代表。

六點演算法

權龍教授的代表作是他1995年發表的六點演算法（「Invariants of six points and projective reconstruction from three uncalibrated images」）。

90年代計算機視覺領域的第一熱點是三維重建，而用非標定相機（uncalibrated camera）重建則是三維重建的終極目標。Oliver Faugeras和Richard Hartley在1992年各自獨立地解決了非標定相機兩張圖像下的三維重建問題，引入了基於七點演算法的基礎矩陣（Fundamental Matrix）的概念。也正是這項工作開創了三維視覺的黃金時代。

權教授的六點演算法解決了非標定相機三張圖像下的三維重建，進而也在理論上徹底解決了多視重建的幾何問題（multi-view geometry）。因為更多的圖像並不引入新的幾何約束和結構，而更少的兩張圖像並不具有重建的唯一性。所以這項工作和Oliver Faugeras，Richard Hartley的工作一起奠定了三維重建的理論基礎。

權教授1995年的這篇論文可以說完全是一篇幾何學論文，論證嚴密，思路清晰，富有技巧。在計算機視覺領域這種風格的論文並不多。

這篇文章從幾何不變數的角度研究三維重建，首次建立了六個三維點的不變數和它們在圖像中的投影點的不變數之間的一個雙線性方程，並構造性的給出了在三張輸入圖像下三維點的不變數的代數閉式解（closed-form solution），最終從這些不變數推導出相機的三維姿態和重建的三維點的坐標。

這篇論文奠定了非標定相機三維重建的最小數據與重建的唯一性，即六個點和三幅圖像。幾乎所有的基於非標定相機的三維重建都是基於這個演算法。

在很長一段時間，權龍教授實驗室的三維重建演算法在性能上處於遙遙領先的地位。然而，了解這項工作的年輕學者並不太多，一方面是因為論文太數學，不好懂。另一方面，現代數碼相機的標定相對容易，因此很多後繼實際工作都可用David Nister於2004年提出的定標下的五點演算法。但這些都不能掩蓋六點演算法在計算機視覺三維重建的理論貢獻、數學優美和歷史地位。

一花一樹一城，走進三維重建的絢麗世界｜專訪權龍

從頭髮到城市

在三維重建的基本問題得以解決以後，一個最自然而然的應用就是用圖像來建立物體的完整幾何模型。這個應用就是所謂的基於圖像的建模。它是計算機視覺和圖形學的結合以及共同關注的問題。

權龍教授實驗室利用領先和強大的三維重建演算法與技術，將基於圖像的建模推到了一個新的高度。

2005年，權龍教授實驗室發表了第一篇基於圖像的對細小物體頭髮的建模。緊接著，又在2006年、2007年分別發表了基於圖像的植物、樹木建模。到了2008、2009年更是把這個基於圖像的建模拓展到了街道、城市的規模。

這一系列論文都發表在圖形學界的頂級刊物SIGGRAPH大會，標題整齊劃一，都是統一的「Image-based X modeling」。X從2004年的hair一直變換到2009年的city。這些工作引起了圖形學界的驚嘆。

權教授很多學生都是計算機視覺領域的佼佼者。

在INRIA Grenoble時他指導的學生Peter Sturm和Maxime Lhuillier，如今是引領法國視覺界的知名教授。1998年，Peter Sturm在權教授指導下的博士論文獲得了法國首屆最優計算機博士論文獎。權教授的學生還有在三維視覺與機器人領域頗出色的譚平教授、自動駕駛公司AutoX 創始人肖健雄、Altizure CEO 聯合創始人方天、北大教授曾剛，曠世上海研究院負責人危夷晨，微軟研究院資深研究員王井東、袁路，大疆張宏輝等等，可謂桃李滿天下。

除了學術研究、培養學生，權龍教授近年更是把這些計算機視覺重建科研成果轉化成產品，和學生共同創辦了Altizure人工智慧初創企業。普通用戶可以通過手機或是無人機拍攝圖像，並通過Altizure的雲平台識別圖像以及從圖像中重建出高質量的三維模型。這一雲平台更發展為大規模城市重建以及智慧城市時空平台的核心。

作為三維重建領域的頂尖學者，權龍教授還被邀請在各個場合向業界、公眾普及計算機視覺，尤其是三維重建的研究與應用。在最近雷鋒網舉辦的「第二屆中國人工智慧安防峰會」中，權龍教授發表了「三維視覺重新定義人工智慧安防」的演講。在演講結束後，權龍教授接受了《賽先生》的獨家專訪（Liao tian），聊了聊他眼中的計算機視覺、三維重建以及可能對我們產生的影響。

《賽先生》：您剛開始是怎樣走上計算機視覺研究的路？

權龍：我是80年上北方交大的，1984年畢業考取教育部赴法留學生。八十年代，人工智慧也是熱點，和現在有點像，我當時去法國第一志願就是「人工智慧」。八十年代，當年法國的PROLOG作為人工智慧語言引領人工智慧以及第五代計算機的發展。

那個時候我本來是想做人工智慧的研究，在修「人工智慧」這門課時，發現講來講去實質上就是一些搜索演算法，並沒有太多我所期待的「智能」。我其實對這樣定義的人工智慧是比較失望的。

法國那個大的研究中心有做語音的、圖像的、邏輯的、專家系統的，什麼都有，當時已經在做神經網路，也叫連接性或連接主義（connectionism）。我同辦公室的兩個法國同學就是做的神經網路，當時拿不出很好的結果，還不夠有說服力。

我選擇研究方向時，因為我小時候在太原市少年宮學美術，我對圖像和空間有著濃厚的興趣，就決定做圖像理解，就是計算機視覺了。

1987年的時候，我的博士導師Roger Mohr教授去參加了第一屆在倫敦舉辦的國際計算機視覺大會（ICCV），第一屆會議論文集我現在還保留著。第二年，第二屆的國際計算機視覺大會在美國佛羅里達的坦帕（Tampa）舉辦，我發了一篇論文。當時我們視覺小組在我導師的帶領下一行四人，Mohr、Tombre、Masini，先乘火車到盧森堡，再飛到佛羅里達。那也是我第一次從法國到美國。

《賽先生》：當時歐洲計算機視覺研究狀況是怎樣的？

權龍：最早很多人認為計算機視覺就是一些圖像處理，但其實圖像處理和計算機視覺還是不一樣的。歐洲計算機視覺發展飛快。他們可能更加理性與笛卡爾主義，在一定意義上把視覺當作一個應用數學問題。

歐洲當時有歐盟的聯合基礎研究項目，三維視覺其實就是在這些歐盟的聯合項目中發展起來的，當時比較活躍的有法國的INRIA、牛津大學、瑞典KTH,、比利時 KU Leuven 等等。三維重建需要更多的傳統數學知識，這批研究人員都有非常好的應用數學基礎，那就用數學工具去解這些視覺問題。

在美國一直有著最大和最活躍的視覺研究人員與學生，大家一直也在嘗試不同的方向，在應用領域比較活躍，但方向並不是非常清晰。這要等到2012年之後的這一波人工智慧，大部分視覺分類，識別與特徵提取與表述的任務都被卷積神經網路重新定義了。

卷積神經網路發明者LeCun是1987年從法國獲得博士學位。他能夠在神經網路沒有被視覺界接受時，能相信、堅持與發展卷積神經網路，太值得我們研究人員的學習與尊敬。2012年之前，所有計算機視覺文章裡面，如你用了神經網路，可能直接就被拒掉了。而今天是反過來，如果你文章中沒有神經網路，審稿人可以懷疑你的創意。

《賽先生》：但不少學者也表示，深度學習引領的計算機視覺也有很多挑戰，比如對雜訊不敏感、穩健性不好、缺乏可解釋性等？

權龍：當然有這樣的問題。計算機視覺研究是個反向逆問題， ill-posed, 沒有完美的答案。研究是不會有止境的，需要持續往前走。需要更好的理論來解釋現在取得的成果。三維重建的應用，主要是兩個問題，一個是設備，說的是數據採集是不是方便；另外就是算力也是不夠的。現在很多視覺的應用，比如自動駕駛、AR、VR都需要實時三維重建，要做到實時三維重建，哪個不酷？問題是算力跟不上。

《賽先生》：演算法不是那麼太重要，是吧？

權龍：不是。演算法最重要！但要達到實用，只有演算法是不夠的，還要有算力。從1998年到2012年，那個卷積神經網路演算法和模型基本上沒有太大的改動。不過，工程實現上的進步也非常偉大。如此龐大的數據量和如此大規模高維的優化或學習演算法能夠收斂成功也確實是創舉。

其實，現在很多演算法先是考慮結果。所以，實踐者是先行者，先把這些演算法設計和調試出來，然後再去驗證，然後希望在數學上能夠得到更好的解釋與證明。路漫漫，還有很多理論工作需要完成。

《賽先生》：深度學習這一波還會持續一段時間，下一步有沒有看到一些苗頭，突破在哪裡？

權龍：沒有人可以預測未來。社會對人工智慧的熱情，這是一件好事，全社會各行各業都在關注，推進人工智慧的發展。但作為一個研究人員，我們也要講究嚴謹，可能會更趨向保守一些，因為我們確實知道現時的深度學習能夠做什麼事情，做不到什麼事情。有太多的事情現在並做不到。

《賽先生》：感覺好像還沒有殺手鐧式的落地的例子？

權龍：落地應用已有很多，但也要看我們的期望。視頻監控以前沒有深度學習也照樣監控，不是嗎？監控裡面一個關鍵問題是如何採集數據，如果可以高效地採到高質量的數據，許多問題也將不是問題。

《賽先生》：怎麼看自動駕駛？

權龍：你應該問問AutoX的肖健雄（參見無人車即將落地，但可能不是你想的那樣｜專訪Professor X）。我個人認為自動駕駛現在理論、技術上是成熟的，關鍵是成本問題。如果放幾百萬昂貴的感測器放進車裡，許多問題都不是問題了。

《賽先生》：您培養了很多優秀的學生，在培養學生方面有什麼樣的訣竅？

權龍：沒有訣竅，要有最優秀的學生，然後方向正確即可。要有好的學校，這樣才有可能招到優秀的研究生。如果要在學術的最高層次去創新的話，最優秀的學生是必須的。

《賽先生》：具體怎麼培養？

權龍：因為你自己要非常清楚這個領域的發展，你知道問題所在，你可以指出正確的方向。差別就在這裡，世界上搞研究都是這樣的，你是不是知道問題在哪裡，不是這樣嗎？確實是外行看熱鬧，內行看門道。

《賽先生》：說說您創立的公司Altizure，當初創辦這樣一家公司的想法是怎樣的？

權龍：三維重建中數據的來源是關鍵。硬體的普及是最大的推動力。相機已是相當普及，每個人的智能手機都有一個像機，並且足夠好可以用於重建。不只是手裡的相機，消費級無人機的出現，也改變了我們的視野，有了會飛的像機，利用無人機數據採集可以完全自動化，推出了許多激動人心的應用場景。地面上現在車載相機也在推動著無人駕駛這個極為廣泛的市場。

《賽先生》：現在每個人上傳照片以後，就可以合成一個三維圖像，感覺很好玩，但從產品或者服務形態上，力道似乎不夠？

權龍：你看到的這個網站只是我們面向消費者的一個門戶，首先我們希望無人機飛手慢慢把整個地球一塊一塊的要重建出來，打造一個眾包的Google Earth。

面向消費用戶只是一個方面，更多的應用是面向企業和政府，2B和2G。

我們在做城市級的實景三維，它是智慧城市和安防的基礎，市場巨大。我們也為企業提供數據處理，這些大規模數據更多是來自測繪和地理信息行業。

《賽先生》：學術界和產業界之間如何建立一個良好的互動？

權龍：計算機視覺的初期由於演算法和算力，應用場景局限大，更偏向於學術研究。現在的計算機視覺，它的應用場景非常寬，市場也很龐大。

這個變化是好事，科學與技術的發展如能夠提高生產力，產生實用價值，這才是它的終極目標。當然另一方面也會影響學術氣氛，學術純凈度會降低，因為也參雜了資本和市場的干預。總的來說，我認為學術界、產業界人才互相流動是好事，有助於領域的健康發展。

《賽先生》：所以您對學生也不做什麼推薦，比如說留在學界或者去產業界？

權龍：沒有。我覺得所有東西都是一個自然發展，每個人的追求是不同的，有些人可能更喜歡走學術，另外一些人可能更喜歡走工業界，這都是很自然的。但你要看到這個現實，幾年前計算機視覺在工業界是沒有市場的，那做的好的唯一能幹什麼，不就是到學校去嗎？現在有了這樣的市場，多了一份選擇，我覺得對學生來講是好事。

《賽先生》：現在建設港粵港澳大灣區，您怎麼看？

權龍：這是非常好的一件事。香港培養那麼多人才，是因為之前經濟發達有條件建了一些好學校，可以培養好學生，這些學生出來可以活躍在這些行業。

廣東本來的學術是偏弱的，深圳也沒有太多的研究性的高校，沒有北京上海那麼多。因為人才畢竟會考慮學術和生活的兼顧，如果有一個生活不錯的地方同時可以靜下心來做研究，才是比較理想的。從宏觀角度來講，大灣區的建設是非常好的一件事情。現在大家都是一家灣區人，我覺得大灣區是非常有生命力的，欣欣向榮，甚至比矽谷更有生命力，要相信人，相信資本，相信市場，只要給他好的條件，其實很多東西你不需要去管它，就會生長。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※香港金融科技集團WeLab獲第四張虛擬銀行牌照
※如何用體驗贏取用戶信任？讓 Waymo 來教教你

TAG:雷鋒網 |