菲爾茲獎得主芒福德為三維人臉識別和配准獻上神助攻
三維人臉曲面研究一直是計算機視覺的基本問題之一。
撰文
顧險峰(紐約州立大學石溪分校計算機系終身教授,清華大學丘成桐數學科學中心訪問教授)
通常情況下,對於人類經過生物進化而習得的先天能力,機器學習可以勝任或者超過人類;對於人類經過科學積累而建立的抽象理論體系,機器學習目前依然無法和人類匹敵。三維人臉識別和三維人臉曲面配准這兩個計算機視覺領域的經典問題,就給出了這樣的例子。
人臉識別問題是給定一張人臉曲面,判定此人的身份;三維人臉曲面配准問題是給定兩張人臉曲面,在人臉間找出點點對應關係,也就是求出它們之間的一個光滑雙射(微分同胚)。三維人臉曲面配準的技術更為精細,它要求給出逐點對應,特徵點對齊,全局某種形狀畸變最小,因而既考慮局部信息,又牽扯整體幾何。相對於基於圖像視頻的人臉識別,三維人臉識別對於光照條件的變化、不同表情的變換、化妝方式的變化、頭部姿態的變化更加魯棒,識別性能有所提升。三維人臉識別可以用監督學習達到比人類更為精準的地步。但是,對於三維人臉曲面配准問題,目前機器學習的方法無法直接奏效。首先,人類對於兩張人臉曲面間的特徵點和它們之間的對應關係,具有良好的直覺,可以毫不費力地標註出來;但是對於曲面間的映射,或者稠密點之間的對應關係,並沒有明確的直覺,手工標註非常困難。因此,數據準備工作幾乎無法實現。相反地,微分幾何方法為曲面間的配准問題提供了強有力的模型,特別是菲爾茲獎得主、代數幾何泰斗、計算機視覺大師芒福德(David Mumford)早期的研究領域——模空間——非常適用於這一問題的研究。
芒福德當年在哈佛上本科的時候,在扎里斯基(Zaraski)的代數幾何課上,產生了奇思妙想,最終催生了他得菲爾茲獎的工作。但這個想法不太容易解釋,即便是初淺地描述也非常抽象。給定一張人臉曲面,我們通常只考慮皮膚構成的部分,去除眼睛和嘴的內部,同時將解剖意義下的特徵點(例如眼角、嘴角、鼻尖)標註出來。因此人臉曲面實際上是帶邊界和特徵點的拓撲複雜的曲面。給定兩張這樣的曲面,給定邊界之間和特徵點之間的對應關係,則我們所求的映射應該滿足這些預定的對應關係。數學上,這意味著我們固定了曲面間映射的同倫類。固定一張拓撲曲面,考慮曲面上所有的黎曼度量。兩個度量,被稱為是共形等價的,如果存在一個保角的微分同胚,數學上這意味著存在一個標量函數:,使得微分同胚誘導的拉回度量和初始度量之間滿足等式。圖1給出了人臉曲面到平面圓盤之間的一個保角變換,保角變換亦被稱為是共形變換。兩個度量彼此等價,被記為,度量的共形等價類被記為。那麼,曲面上所有黎曼度量的共形等價類構成的空間被稱為是曲面的模空間(Moduli Space)。
圖1. 曲面間的保角映射:三維曲面上任意畫兩條相交曲線,映到平面上後,平面曲線的交角等於原來三維曲面上曲線的交角。
圖2. 人臉表情變換不是保角變換。
一般情況下,人臉表情變化會帶來黎曼度量的變化,這種變化不是保角變換。圖2給出了一個實例。我們將帶邊界的人臉曲面保角地映到平面的多孔環帶上,多孔環帶的內圓半徑和圓心的構型是曲面的共形不變數。兩張曲面的共形不變數不同,因此不存在共形變換。因此,這兩張臉在模空間中代表不同的點。模空間的定義具有兩級抽象,首先將黎曼度量分成共形等價類,這是一級抽象;然後,所有的共形等價類構成了模空間,這是第二級抽象。直觀而言,模空間涵蓋了所有可能的形狀,其本身是帶有奇異點的黎曼流形,存在黎曼度量,模空間中任意兩點之間可以定義距離,也可以定義測地線。換言之,任意兩張帶度量的人臉曲面可以被視作是模空間中的兩個點,可以用模空間的度量測量它們的相似程度;也可以計算它們之間在模空間內的測地線,就是它們之間某種微分同胚,使得角度畸變最小。
圖3. 帶有特徵點的兩張人臉
圖4. 帶有特徵點的兩張人臉之間,角度畸變最小的微分同胚,也可被視作是模空間中的測地線
圖3、圖4解釋了這一觀點。圖3中,給定了兩張人臉曲面,上面標註了特徵點。兩張曲面之間不存在保持特徵點間對應關係的保角變換,但是存在唯一的一個微分同胚,將角度畸變降到最小,如圖4所示,即所謂的泰西米勒映射(Teichmuller Map)。這一映射將源曲面上的無窮小圓映到目標曲面上的無窮小橢圓,所有的橢圓具有相同的偏心率。整張曲面上,最大的偏心率可以作為角度畸變的一種量度。在所有可能的微分同胚中,泰西米勒映射使得這種角度畸變達到最小。由此,泰西米勒映射給出了模空間中的測地距離和測地線。
圖5. Beltrami微分的幾何解釋:無窮小橢圓的偏心率和主軸方向
一般的微分同胚,將無窮小圓映到無窮小橢圓,局部上每一點處的橢圓偏心率和主軸方向定義了一個複數值的函數,即所謂的Beltrami係數;在流形上,在各個局部坐標系下定義的Beltrami係數給出了整體的Beltrami微分,記為。粗略而言,微分同胚和Beltrami微分彼此一一對應,我們考察微分同胚等價於考察Beltrami微分。在模空間的任意一點(代表一族共形等價的曲面),每一個Beltrami微分都給出了曲面的形變,因此,曲面上所有可能的Beltrami微分定義了模空間在該點處的切空間。
曲面的一個葉狀結構(foliation)就是將曲面分解成一族曲線,每一條曲線被稱為是一片葉子(leaf)。葉子沒有自相交,彼此也不相交。曲面上的任意一個葉狀結構都可以用一個所謂的全純二次微分(holomorpic quadratic differential)來描述。曲面上的所有全純二次微分構成一個線性空間,如圖6所示。
圖6. 曲面上的葉狀結構。前兩個葉狀結構之和等於底3個葉狀結構。
給定模空間中的一個點和一個Belrami微分,那麼對於一切,決定了一個微分同胚,將點映射到模空間中的另外一點。由此,我們得到了模空間中的一條曲線,。這條曲線在0點處的切向量,亦即曲面的形變「趨勢」,由Belrami微分對曲面上全純二次微分的作用所決定。這種說法比較抽象,我們下面給出一個實例來詳細解釋這種說法的直白意義。
假定我們給定一張人臉曲面,臉上我們用機器學習方法求得了特徵點,如圖3所示。我們在每個特徵點處戳一個小洞,得到了帶有空洞的曲面。帶空洞的曲面上有全純二次微分,,它們構成了所有全純二次微分空間的一個基底。更進一步,對每一個特徵點我們可以選取一個相應的全純二次微分。給定一個Beltrami微分,對應的微分同胚是, 那麼經過重整化後(normalization),特徵點位置的變化率為:
。
對此,老顧師兄劉克峰給出了精闢的概括:全純二次微分空間是模空間的餘切空間。一針見血,一語中的。
通過以上討論可見,模空間理論給出了三維人臉曲面配准問題的理論模型,或者更為寬泛的求解一般大形變曲面間的微分同胚問題的理論模型。其形狀空間,這一空間的黎曼度量,映射空間的切空間、餘切空間、測地距離、測地線,等黎曼幾何概念明晰,最優映射的存在性和唯一性具有理論保證。迄今為止,我們只應用到了模空間的黎曼幾何性質。其實,芒福德的最令人驚異的貢獻在於:他看出了模空間實際上是一個代數流形,模空間可以表示成多項式方程組的零點集合。模空間的代數性質會為曲面配准問題帶來哪些更為深刻的指導作用,這是一個饒有興味的未知問題。
根據老顧的師兄、數屆國際計算機視覺和模式識別大會(CVPR)主席、加州大學洛杉磯分校統計學和計算機科學系的朱松純教授提出的計算機視覺科研範式:模型、演算法和實現,我們用模空間的黎曼幾何層面給出了曲面配准問題的理論模型。從演算法角度而言,將抽象的純粹數學理論轉換成離散的演算法,這本身就非常具有挑戰性。經過多年的努力,老顧與其眾多合作者們,特別雷諾銘教授、曾薇教授、Mayank Goswami教授在丘成桐先生的指導下系統地發展了計算擬共形幾何方法,提出了擬共形映射,泰西米勒映射的演算法[1][2][3]; 近期和雷娜教授發展了全純二次微分和曲面葉狀結構的演算法,鄭曉朋博士起到了關鍵的作用[4]。在醫學方面,三維人臉配准對於牙齒整形、顱面整形、美容手術、皮膚黑色素瘤預防診治等領域都會有所幫助;在動漫動畫領域,三維人臉配准對於表情捕捉、特效製作等極具潛力。
雖然三維人臉配准問題的近期解決方案依賴於微分幾何方法,但是從長遠來看,機器學習的方法不可或缺。模空間理論給出了所有可能出現的曲面形狀,和所有可能的微分同胚。但是所有真實的人臉,和真正能夠物理上實現的表情變化應該只是其中的極小部分,有可能是一個子流形。我們需要一個定義在模空間上的概率密度來刻畫物理可實現的人臉曲面和人類表情,更為精細地,我們需要得到正常人臉表情和反常表情(例如自閉症患者的表情)的概率描述。這些概率密度的獲取一方面依賴於物理建模和力學模擬,但是更為切實可行的方法是應用機器學習來獲取。
綜上所述,我們看到對於三維人臉曲面識別、配准、表情分析而言,微分幾何方法和機器學習方法,各有千秋,相輔相成!
後記
2016年是深度學習方法迅猛發展的一年,更是資本全面介入這個學術領域的一年。機器學習方法正在顛覆傳統計算機視覺領域的科研範式,取而代之的是一種基於海量數據,統計演算法和計算資源的暴力範式。在這種暴風驟雨般的革命狂潮下,許多經典計算機視覺問題都已經接近解決,至少是突飛猛進,漸漸逼近了商業實用的成熟程度。
學術成果的迭代周期從數年縮短至數周,傳統的學術會議和學術期刊的審稿周期遠遠長於迭代周期,因此絕大多數論文都提交到無審稿的公開archive。因為學術界的計算資源和數據資源匱乏,許多新穎的神經網路模型的驗證工作直接交給工業界的巨無霸公司,例如FaceBook,來直接驗證。學術空氣中充滿了躁動亢奮的荷爾蒙氣息,數十年的學術經驗的積累讓位於初出茅廬的駭客精神,理論修養的積澱難敵參數調節的技巧。機器學習的狂潮幾乎席捲了幾乎所有年輕學子的心靈,很少有人會願意花費數年學習微分幾何的理論,而是熱衷於短期就可以掌握機器學習的技能,從而早日投身到工業界的人工智慧革命之中。
與全民狂熱的氛圍相反,老顧身邊的同事和朋友們表達了各自的隱憂。老顧的同事Dimistris Samaras教授說道:「現在的孩子們上來就學機器學習,遇到任何問題就套用機器學習的範式:準備數據、訓練網路、調整參數。他們學會了機器學習,同時頭腦被僵化,用機器的蠻力代替了智力的分析。」老顧的另一位同事,醫學圖像領域的大師Allen Tanenbaum教授說:「在醫學領域,精準醫療的宗旨是同樣的病症,針對不同的病人的遺傳密碼和後天發展情況,要用不同的藥物治療。基於大數據統計的機器學習方法無法反映不同病人的特質,無法揭示藥物療效的因果律,因此機器學習方法近期內在醫療領域難以被廣泛接受並應用。」醫學圖像領域的知名學者王雅琳教授這學期教授計算共形幾何,他向老顧抱怨道:「做機器學習的學生壓根就不想花功夫學習幾何,下功夫的也很難短時間學會。這實在是一個困境,這麼難學的東西,學會之後也很難進一步發展新的成果,所以我的碩士生全都要跟我學機器學習。」
老顧的師兄朱松純教授在前不久發布的檄文《正本清源:初探計算機視覺的三個源頭,兼談人工智慧》中重新強調了傳統計算機視覺的研究範式:模型、演算法和實現。朱教授是計算機視覺大師芒福德的高足,在計算機視覺領域,更是繼承了芒福德的衣缽。當年,老顧初到哈佛的歲月,同在芒福德的門下,朱師兄給予了無微不至的關懷和照顧,在計算機視覺的學術方面,更是老顧的啟蒙人。朱師兄對於視覺有著狂熱的熱愛,和成熟的哲學體系,並且投射成卓有成效的計算體系。
芒福德是代數幾何泰斗,菲爾茲獎得主,他在代數幾何領域建立的豐功偉績令人嘆為觀止。芒福德思想的深刻和廣博,人格的正直和高尚,令老顧由衷地覺得他是一位真正的英國貴族。芒福德高大健碩,面目俊朗,舉止優雅,紳士體貼,無一不體現蘇格蘭貴族的風範。特別是他對功名利祿的藐視,對幾何真理和計算機視覺真理的追求,令周圍的同事和學生都無比欽佩。芒福德在哈佛大學數十年,每年都將全部數十萬的工資全部捐回數學系,分文不取。芒福德非常欣賞一位年輕教授在計算機視覺方面的研究,認為其學術水平到達哈佛終身教授的水平。但是在那個年代,哈佛大學從不會提拔年輕教授成為終身教授。芒福德為此壓上身家性命,公開宣稱如若哈佛拒絕授予終身教授的職位給那位年輕人,他就當即辭職離開哈佛。最終,刻板保守的哈佛依然拒絕了那位年輕人,芒福德毅然決然地離開了哈佛,加入到布朗大學。芒福德的俠肝義膽深深感動了數學領域和計算機視覺領域的學者們。臨行前,芒福德和老顧深談數次,朱師兄也和老顧談了他在計算機視覺研究方面雄偉藍圖。最終芒福德將老顧推薦給丘成桐先生學習微分幾何。數十年後,朱師兄多用統計方法研究計算機視覺,老顧則偏好非主流的微分幾何方法。
參考資料
[1] WeiZeng, Xianfeng Gu, Ricci Flow for Shape Analysis and Surface Registration -
Theories, Algorithms and Applications, Series Springer Briefs in Mathematics, Publisher: Springer New York, ISBN978-1-4614-8780-7, 2013.
[2] Lok MingLui, Xianfeng Gu, Shing-Tung Yau: Convergence of an iterative algorithm for Teichmuler maps via harmonic energy optimization. Math. Comput. 84(296),2823-2842, (2015)
[3] Mayank Goswami, Xianfeng Gu, Vamsi PrithamPingali and Gaurish Telang, Computing Teichmuller maps between polygons, Foundations of Computational Mathematics, 2015.
[4] Na Lei, Xiaopeng Zheng, Jian Jiang, Yu-Yao Lin and Xianfeng Gu, Quadrilateral andHexahedral Mesh Generation Based on Surface Foliation Theory, Computer Methods
in Applied Mechanics and Engineering, In Press, 2016.
延伸閱讀
VR/AR背後的弄潮兒(1):微分幾何之逼近理論
VR/AR背後的弄潮兒(2):微分幾何之數據壓縮理論
VR/AR背後的弄潮兒(3):微分幾何之曲面映射理論
深度神經網路會產生人這樣的智能嗎? 人工智慧專欄
※專訪張聖容:一代華裔數學算傑的艱辛和持守
※《海風下》:海洋世界的一麴生命讚歌
※捕獲暗物質:宇宙中的神秘幽靈
※這個簡單的圖形,為何讓最傑出的數學家和建築師著迷?
※你是我的眼——清華大學李雪明與電鏡的不解之緣
TAG:賽先生 |
※牆面漆顏色與空間色彩搭配准測
※甜美少女林允兒衣品爆棚,跟著她學這些搭配准沒錯
※基於可移動角點的航空和地面LiDAR數據配准
※五一假期遊玩,美眉們這樣著裝搭配准沒錯,時尚優雅又有名媛范兒
※衣服怎麼才能穿出「高級」的時尚感?按照這樣的套裝來搭配准沒錯
※秋季OL裝還不知道怎麼穿?跟著這些日系麻豆搭配准沒錯!
※氣場與氣質同在,穿這幾款寬鬆顯瘦型搭配准沒錯!
※九月穿什麼?入秋30套穿衣搭配,照著搭配准沒錯!
※娘man風正流行,跟著劉芸Look學搭配准沒錯!