他在35歲時英年早逝，卻為人類開啟了第二雙眼睛

科技 07-09

本文是《環球科學》總編、社長陳宗周先生撰寫的系列專欄「AI傳奇」的第十回。在這一回中，陳宗周先生將為我們帶來計算機視覺在近半個世紀的發展歷程。這個從MIT實驗室走出的全新領域，正逐步走進普通人的生活，成為我們認識這個世界的第二雙眼睛。

陳宗周是《環球科學》雜誌社社長，《電腦報》創始人。

2017年央視的315晚會上，出現了一段頗有技術含量的精彩插曲。這段對高科技「打假」的節目，立刻引起了熱議。

為避免有人通過視頻或動態圖矇混過關，人臉識別系統除了人臉比對，還包含了活體檢測程序。而在晚會中，主持人現場演示了攻破檢測程序的手段。通過技術處理，一張現場觀眾的靜態照片轉變成立體的人臉模型。隨後，主持人對準手機鏡頭，將觀眾的3D臉模套在自己的臉上。隨著主持人根據人臉識別系統的要求，做出眨眼、側頭、轉頭、微笑等規定動作，屏幕上的臉模也同步做出這些動作。完成這些動作後，識別系統居然沒有察覺，隨著系統顯示識別成功，全場嘩然，主持人就這樣騙過了號稱黑科技的人臉識別系統。

場內一片嘩然，場外更是如此。AI專家，尤其是計算機視覺與人臉識別專家們群體行動，對央視的表演進行反打假，證明人臉識別系統沒有那麼弱智，要攻破現在已廣泛應用、安全係數極高的「刷臉」驗證技術，也沒有那麼容易。百度在節目播出後5分鐘內迅速作出回應，邀請百度深度學習實驗室主任林元慶，在百度科技園的人臉識別閘機做一次親身驗證，模仿央視315晚會的場景，看自己公司的人臉識別系統能否被一段視頻、一張照片騙過，結論當然是否定的。阿里巴巴的支付寶也很快作出回應：「你們都覺得我躺槍了嗎？」阿里很有信心，支付寶的人臉識別準確率超過99.6%，結合眼紋等多因子驗證，準確率能達到99.99%，超過人眼識別97%的準確率。而且，在實際應用中，支付寶還有其他輔助手段保證安全。否則，馬雲敢在2015年的漢諾威CeBIT大展中，為德國總理默克爾演示支付寶的刷臉消費？

上海中科計算研究所所長人孔華威反應更為激烈，他甚至認為，央視315晚會的報道是片面的，實際上構成了對AI新技術的打壓。

央視打假與被專家反打假，餘波還會持續下去。但不爭的事實是，央視這段節目，使人臉識別這樣的AI新技術，得到前所未有的關注與普及。

從MIT走出

人臉識別，是計算機圖像識別的重要應用。而圖像識別，又是計算機視覺領域中的重要技術。

計算機視覺（Computer Vision，CV）是AI中的一門交叉學科，主要解決讓機器看的問題。人類認識世界，有耳朵和眼睛這兩個重要感覺器官。計算機語音技術讓人耳聰，計算機視覺技術使人眼明。計算機視覺研究如何用攝像機等視覺感測裝置代替人眼對物體進行識別、跟蹤和測量，並由計算機處理這些視覺信息，從而達到像人眼一樣對事物進行感知和認知。簡單說來，計算機視覺是看的科學。計算機視覺可以看成人類的第二雙眼睛。

人類獲取的外界信息，80%來自視覺，我們得到的所有信息中，視覺信息最豐富且複雜。經過長久進化的生理構造，使我們很容易能夠看清楚並理解身邊的場景，但是要讓計算機處理這些視覺信息，卻非常困難。所以，與AI中一些學科相比，計算機視覺是起步比較晚的新興學科。

20世紀50年代，計算機開始用來進行一些二維圖像的分析和識別，如光學字元、顯微圖片、航空圖片等，這類工作，被劃入模式識別。而模式識別本身也很年輕，到60年代才成為獨立學科。至今，計算機視覺和模式識別仍然是聯繫得很緊密的學科。

也是在60年代，MIT的羅伯茨（Roberts）才開始用計算機程序分析三角體、立方體等簡單物體，雖然只是研究辨識度很高的簡單白色積木玩具，但卻使計算機視覺進入了三維空間，有人把計算機視覺的這一時期稱為積木時代。

到了20世紀70年代中期，MIT大名鼎鼎的AI實驗室，第一次開設了「機器視覺」這門課程，由頗有名氣的伯特霍爾德·霍恩（Berthold Horn）教授授課。定名為機器視覺非常自然，因為計算機視覺發展一直受到機器人學科推動，機器視覺始終是機器人的關鍵技術之一。

當時，MIT的AI實驗室主任是明斯基，由於他的聲望，吸引了國際上許多知名學者參與計算機視覺的研究工作，戴維·馬爾（David Marr）就是其中一位，他在這裡建立了計算視覺的理論框架。

馬爾1972年在劍橋大學腦科學專業博士畢業後，1973年受明斯基邀請來MIT的AI實驗室做訪問學者。1980年，他在這裡成為正教授，不久因白血病不幸去世，年僅35歲。他的生命，在這短暫時間內完成升華——他奠定了今天紅遍全球的計算機視覺學科的基礎。

1977年，馬爾第一次系統描述了計算視覺（Computational Vision）這個領域，其中包含了計算機視覺（Computer Vision）和計算神經學（Computational Neuroscience）兩個分支學科，他的工作對認知科學（Cognitive Science）也產生了深遠影響。

馬爾思想的精華，都匯聚進一本書里。得知來日無多，他爭分奪秒整理，想完成這部著作。但令人遺憾的是，他仍然沒能親眼看見自己的開創性著作出版。這本名為《視覺：從計算的視角研究人的視覺信息表達與處理》（Vision：A Computational Investigation into the HumanRepresentation and Processing of Visual Information），在他去世後兩年，1982年由學生和同事修訂出版。

儘管生前未能目睹，馬爾卻因這一名著而不朽。他對計算機視覺的貢獻，加州大學洛杉磯分校的著名學者、統計和計算機教授朱松純教授這樣評價：基本上，他定義了這個學科的格局。

左圖：學生時代的馬爾；右圖：馬爾（圖中左一）與同事

馬爾對計算機視覺的貢獻是開創性的。他提出了解決視覺問題的三個層次——計算（表達）、演算法、實現；理清了視覺到底要計算（表達）什麼，並給出了包括紋理、立體視覺、運動分析、表面形狀、光照、深度等一系列表達。他還把計算機視覺處理描述為三階段，第一階段將輸入原始圖像抽取出角點、邊緣、紋理、線條、邊界等基本特徵，特徵的集合稱為基元圖；第二階段由輸入圖像和基元圖恢復場景可見部分的深度、輪廓等，這還不是真正的物體三維表示，稱為二維半圖；第三階段由輸入圖像、基元圖、二維半圖，恢復和識別三維物體。

這一理論大大推進了計算機視覺科學的發展，為紀念他的貢獻，從1987年第一屆國際計算機視覺大會（ICCV）開始，連續20年以馬爾的名字來命名最佳論文獎，這是計算機視覺學科最高的榮譽。

馬爾主導了計算機視覺多年，直到現在，還有學者不斷研究馬爾的著作，常常會產生新的感悟。他的書於2010年再版，在亞馬遜仍然是暢銷書。

從工業走向生活

理論框架建立後，計算機視覺取得了長足的進展。進入20世紀80年代，光電感測器等硬體取得了很大的突破。1969年由貝爾實驗室發明的CCD（電荷耦合器件）感測器，在80年代解析度得到很大提高，高質量的CCD光電感測器應用於攝像機等設備。90年代，CMOS（互補金屬氧化物半導體）光電感測器開始登場。CMOS採用大規模集成電路工藝生產，不但體積小、成本低，還能與電路中的其他元器件融合，製成CMOS單晶元光電感測器微系統。這樣，高質量、價廉的CMOS感測器得以大量應用於手機、照相機、攝像機、攝像頭等設備。曾經昂貴的圖像和視頻信息採集手段，達到人人擁有、無處不在的空前普及程度。DSP（數字信號處理）晶元的出現，則大大提升了圖像處理的質量和速度。同一時期，互聯網熱潮興起，隨著互聯網的普及，尤其是圖片和視頻網站的發展，人類社會的圖像信息以驚人的速度得到積累，達到圖像爆炸的程度。這造成了兩方面的影響，一是計算機視覺技術必須有所突破，才能滿足需求；二是圖像大數據的積累，也為計算機視覺發展打下深厚基礎。

在應用方面，20世紀90年代之後，計算機視覺技術已經開始廣泛應用於工業製造過程監控、機器人、安全防護等廣闊領域。

2001年，有兩個轟動性的事件促進了計算機視覺的發展。在當年的國際計算機視覺大會（ICCV）上，Paul Viola 和 Michael Jones發表了實時圖像識別論文，並把攝像頭對準大家，圖像中現場所有人的臉都被圈出來。這在當時引發了轟動，人們第一次看到圖像識別有了實際應用成果出現。另一個爆炸性事件則是911。911後美國政府為了反恐，要求在各種場合普遍使用攝像頭視頻監控系統。因此，計算機視覺技術得到大量的經費支持。

20世紀的第二個十年，期待已久的突破出現了，極大影響計算機視覺的明星AI技術終於登場，這就是我們今天已經非常熟悉的深度學習。在2012年的ImageNet圖像識別大賽上，欣頓的學生採用深度學習技術，獲得了顛覆性的勝利，改變了學術界和企業界。從那以後，深度學習深刻影響了AI的幾乎所有領域。計算機視覺，是受到深度學習最大影響的學科之一。

與每個人工作生活密切相關的人臉識別，是計算機視覺的重要應用，越來越廣泛地應用在安全監控、醫療健康、銀行保險、電子商務等領域。所以，央視315晚會從保護消費者利益出發，選擇對人臉識別「打假」，有一定道理。

攻擊人臉識別的技術並不新鮮，2016年CVPR前夕，一篇由德國埃爾朗根-紐倫堡大學、馬克斯?普朗克計算機科學研究所、斯坦福大學3家學術機構5名科學家撰寫的論文《實時人臉捕捉和再扮演—— Face2Face》就曾經引起科技圈的關注。CVPR全稱為計算機視覺和模式識別大會（Conference on Computer Vision and Pattern Recognition），是一年一度的視覺領域最高學術會議。這篇引起熱議的論文結論是：通過密集光度一致性技術，實現跟蹤源和目標視頻中臉部表情的實時轉換，由於間隔的時間很短，使得複製面部表情成為可能，但現在還沒辦法將聲音也一樣模仿出來。

由於論文指出了在特殊條件下，攻擊人臉識別系統存在一定可能性，現在對安全要求極高的應用中，人臉識別系統同時採用多重手段進行交叉驗證，確保萬無一失。AI專家們想讓公眾知道這一點，他們群體發聲，還想讓大家了解人臉識別的技術含量。

讓機器自主識別

人臉識別屬於人體生物特徵識別，與其他生物特徵如指紋、虹膜等一樣，與生俱來。但是，與指紋、虹膜識別相比，由於人臉會隨著年齡而變化，人臉識別難度要高很多，必須集成應用眾多的AI技術。所以，人臉識別是圖像識別技術成熟的標誌，甚至被認為是弱人工智慧向強人工智慧轉化的標誌之一。

正由於這項工作的挑戰性和廣闊的市場前景，吸引了全球科學家的研究興趣。與計算機語音一樣，計算機視覺也是華人科學家雲集的AI研究領域。在他們的共同努力下，中國與此相關的學術研究和產業發展成就引人注目。

訊飛、百度、阿里等中國AI領頭公司正在緊追微軟、谷歌、臉書等國外同行，一批新興的計算機視覺創業公司同時在中國湧現，產生以「一桶筐湯」（依圖、格靈深瞳、曠視、商湯）為代表的創業公司群體。對於這些公司的國際競爭力，總部在西南重慶地區的中科雲叢科技CEO周曦這樣描述: 國產人臉識別在實際應用中已遠超德日廠商。像周曦這樣有國外留學背景並在全球頂尖AI機構工作過的創業者，已經成為計算機視覺行業和其他AI領域創業公司的主力。

國家也大力支持AI項目，國家發改委公布2017年重點支持AI項目，雲叢與百度、騰訊、訊飛等民營高科技企業同時出現在名單中，成為AI「國家隊」。中國計算機視覺產業的未來，前景可期。

在計算機視覺技術應用方面，中國也有諸多創新。2017年3月《光明日報》客戶端上線了「小明AI兩會」功能，首次將圖像交互等AI技術應用於兩會報道。用戶通過手機拍攝或者從《光明日報》刊載過的圖片中選取一張全國兩會代表委員照片，「小明」就能識別出照片中的人物，並顯示這名代表委員在履職期間關注的主要領域，以人物圖譜的形式，展示與其關注同樣領域的其他代表委員。同時，還可以通過文字的方式介紹以往對這位代表委員的報道。《光明日報》應用計算機視覺技術，是媒體行業的一種嘗試，事實上，還有很多行業有待於用這項技術去開拓。如果說語音交互可以使萬物互聯，圖像交互同樣可以實現萬物識別、萬物交互。甚至，計算機視覺和圖像視頻處理、VR、AR等技術結合，可以實現真實世界和虛擬世界的交互。

計算機視覺有了這些驚人的發展，但仍在方興未艾之中。2012年，谷歌公司的一篇論文在全球引起轟動，他們的谷歌大腦（Google Brain）通過自己觀看視頻，認出了一隻貓。

谷歌大腦由吳恩達領頭創建。2010年，時任斯坦福大學副教授的吳恩達加入谷歌開發團隊X實驗室（XLab）。2011年，吳恩達建立了谷歌大腦項目，項目為分布式計算的大規模人工神經網路。吳恩達團隊用了16000個GPU晶元，構建了有10億突觸的人工大腦，儘管與人類大腦突觸數目還差幾個數量級，但這已經是一個很龐大的深度學習神經網路系統。項目開創後不久，吳恩達離開谷歌公司去了百度，並在那裡創建了百度大腦。

谷歌大腦可以完成很多的工作，圖像識別也是其中之一。那麼，能不能在沒有幫助的情況下實現自主識別呢？谷歌的研究小組開始了最初的嘗試，讓計算機自己去發現貓。從小在越南鄉村長大、父母是普通農民的Quoc Le主持研究工作。他們在視頻網站YouTube上找到數百萬幀靜態視頻圖片，這些圖片都沒有經過任何標註。然後，他們讓谷歌大腦自己去看這些視頻圖片。谷歌大腦神經網路的感覺中樞開始運轉計算，從眾多圖片得來的信息中分離出了一個穩定的模型。最後，這一模型毫不猶豫地識別出貓的臉。就像小孩辨認出貓那樣喜悅——那是一隻貓。

識別貓臉前，谷歌大腦對貓的定義和知識一無所知。神經網路自己直接與現實世界交互並且抓住了「貓」這一概念。研究者發現，貓的臉部陰影會激活谷歌大腦的人工神經元。

谷歌大腦能通過視頻圖片自主學習到貓這樣的高級概念並能自動識別，是計算機視覺和AI歷史上了不起的成就，這隻特殊的貓，就成為著名的谷歌貓（Google Cat）。

谷歌貓這樣的故事，打開憧憬計算機視覺未來的一扇窗口。隨著AI技術突飛猛進的發展，計算機視覺這人類的第二雙眼睛，正在被我們擦亮。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 環球科學 的精彩文章:

※全球首見！琥珀藏著雛鳥化石
※沒人看就可以隨便長了？深海生物的生存法則
※1977年神秘信號Wow：並非來自外星人而是彗星
※在大型強子對撞機中，根本沒有強子對撞？
※只要嗅覺差，怎麼吃都吃不胖？

TAG:環球科學 |

您可能感興趣

※5月的第一個月滿之日前，這些星座人將鵬程萬里，開啟錦繡前程！
※9歲登基，40歲退位，54歲去世，傀儡皇帝31年後，開啟幸福人生
※18年男神羅晉將開啟霸屏時代，一起來圍觀他今年的作品吧
※2018年7月新番速報！《進擊的巨人》第三季開啟，不看你將損失一個億！
※這幅430年前手繪的世界地圖，開啟你的時間之旅
※早起60天，瓜分萬元獎金＃早起開啟新一年！
※出道時才15歲，嫁大14歲著名男歌手，現開啟二胎辣媽模式
※殲20到底有多火？第四條生產線即將開啟年產兩個團 F22卻早已停產
※緬甸「時光機」即將開啟，帶你回到50年前，100年前，1000年前
※45年前摩托羅拉開啟了人類首次通話 45年後已沒有存在感
※此人開啟造反先河，他死後五百年造反不斷，每隔50年就一人篡位
※今日小年，送你孔雀開屏，開啟你2018一整年的好福氣！
※哪些面相在40歲後開啟人生巔峰？
※拿女人年齡開玩笑有多嚴重，她悶死皇帝開啟了中國近兩百年亂世
※此人開啟造反先河，他死後五百年內造反不斷，每隔50年就一人篡位
※十二星座中的這三個星座，2018下半年將開啟超神模式
※大年初二財神到，送你100朵有錢花，開啟你2018一整年的好財氣！
※唏噓！自由市場開啟14天，場均20＋6榜眼終於有人要了，公牛報價2年4千萬
※有趣的「時間膠囊」，6938年開啟愛因斯坦的，還有一個要等5萬年
※易烊千璽2018年請開啟爆紅模式，這是我們的新年願望