當前位置:
首頁 > 知識 > 視覺研究的前世今生(下)

視覺研究的前世今生(下)

視覺研究的前世今生(下)



大數據文摘基於大數據垂直領域50萬粉絲的優勢

想要發起一次眾包的行業調研。


我們誠摯的邀請您用5分鐘填寫


《大數據行業從業者調研報告》


共同促成整個大數據行業的一次調研

本文作者 王天珍(武漢理工大學)


授權轉載自 人機與認知實驗室


作者用一篇近三萬字的長文,從古希臘開始,娓娓道來了人類在視覺研究上的前世今生。鑒於一條圖文可以推送的字數有限,大數據文摘在本周末分兩條推送王天珍老師的這篇長文,與各位共賞,文章的前半部分在大數據文摘同日第一條推送可以看到。


視覺研究的前世今生(四)


§4 視覺研究的信息時代

§4-1 概述


50年代末Bell實驗室的B. Julesz設計了隨機點立體圖對,發現即使沒有單眼線索,只要左右眼圖像有視差,實體鏡下一樣能產生深度感。這樣引起了立體視覺理論的革命:學術界過去一直以為,只有先識別物體才能產生深度感,現在發現只要有視差,就能在實體鏡下恢復深度感,不是先識別後產生立體視覺,而是立體視覺產生在識別之前。這一重大發現使得MIT 人工智慧實驗室的Marr 和Poggio 等想到,可以利用攝像機獲得的兩個有視差的圖像,測量對應點之間的視差就可以恢復物體和景物的深度,從而重建並識別圖像中的物體,完成視覺的任務。Marr依此建立了他的3D重建的計算視覺理論,發表在他的遺作」視覺計算理論「一書中,這本書很快風靡學術界,不但影響了計算機視覺也影響了神經生理學,神經心理學等有關的學科,複雜的視覺過程變成了可以用計算機處理的信息加工過程,視覺研究進入了一個新的時代-信息加工時代,在某種意義上在更高的層次上,重新回到笛卡兒派的數學學說。


但計算機視覺理論界還沒有來得及高興,工程上巨大的計算困難,3D重建表象理論邏輯上的混亂,遮擋問題的心理物理實驗研究發現的立體視覺產生不完全依賴視差的結果,神經生理學,解剖學的新發現等問題,一起使得重建理論在新世紀初漸漸退出了學術界的視野,其中90年代國際知名雜誌「CVGIP:IMAGE UNDERSTANDING 」組織的兩次大的討論(1991,1994)起了很大的推進作用。但是該理論至今在心理學表象研究中還是有一定影響,計算機視覺中也還有少數人仍然在嘗試有沒有新的演算法來挽救這種理論。


由於Marr把視覺信息加工過程分成了三個階段,提倡對視覺表像的重視,80-90年代西方學術界掀起了表象研究熱。對什麼是合適的視覺表像,從心理,生理,病理,計算各個學科全方位的進行了研究。除了Marr外,I biederman ,T. Poggio , S. Edelman , MJ .Tarr ,logothetics等學者,也都加入到對視覺表象的研究中。眾多的模型在90年代後期開始被系統的分類,主要按照坐標系來分成兩大類:一種以物體為中心,以Marr,I biederman為代表提倡這種模型;另一種以觀察者為中心,以logothetics等在電生理一線工作的科學家為主,支持這種理論。


2005年被Marr等嘲笑,批評幾十年的祖母細胞有了新的實驗證據。在加州理工學院的RQ Quiroga,C Korch和UCLA 的I Fried ,MIT 的G Krieman,一起在癲癇病人的中顳葉用微電極發現了會對著名人物和景物發放的細胞。如對影星安妮斯登發放的細胞,這些細胞有著概念細胞的功能,不論刺激是該影星的正面,側面,背面,不論服飾和照明,只要是有關該影星的刺激,該細胞都會放電,這些細胞被視為腦中物體的不變的視表象。

雖然以Barrow為代表的一線工作的不少知名的神經生理學家,幾十年用眾多實驗事實一貫支持祖母細胞說,但因為無法合理解釋祖母細胞的工作原理,無法說明單個細胞不會引起組合爆炸問題,尤其因為Marr的批評,祖母細胞說而被長期冷落,但舊的理論完全無法解釋現在的發現,Quiroga等的工作使對祖母細胞的研究重新回到了學術界的聚光燈下。


1994年武漢汽車工業大學(武漢理工大學)的王天珍提出了版式並行檢索演算法(Plate Parallel Retrieval Hypothesis)用在漢字識別上,2001年王在IEEE的神經網路聯合大會上提出可以以此演算法來解釋我們的神經系統是如何用單個細胞在腦中表示一個物體的,利用這種演算法完全可以避免組合爆炸問題。


2013年王利用接近聯想法則,原則上解釋了祖母細胞的信息加工機理,認為


不變的視表象可能是今後視覺研究的工作方向。

§4-2 Julesz 的RDS


Bela Julesz是Bell 實驗室的匈牙利籍的計算機工程師,在處理航測數據時,他知道利用立體圖對可以從偽裝中很容易的發現目標。例如對英國40 年代用飛機和氫氣球從兩個鄰近點拍攝的德國科隆萊茵河浮冰立體圖中,可以看到在浮冰中挾帶著有趣的深度表面,尤其是在橋的防波柱附近。但是當他讀了一些心理學有關立體視覺的文獻時,大吃一驚的發現,當時心理學界流行的觀點是立體視覺需要先單眼識別。50年代末,剛好Bell 實驗室有了大型的計算機,為了證明自己的觀察(工程界的常識),他用計算機設計了有視差的隨機點立體圖對(RDS-random-dot stereogram),這些單眼看起來完全無序的圖像到了立體鏡下,就出現了設計要求的各式各樣的深度圖案。證實立體視覺前於識別,甚至能夠改變原來的單眼圖形。


晚年Julesz在談到自己的工作時,說他之所以能設計RDS,是因為他是一個計算機工程師。他認為RDS的出現是兩種文化的衝突,兩種語言的交匯(工程和心理學),他不埋怨K Ogel。他說對於一個年輕的科學工作者來說被一個有名的學者作為學術上的對手,比有一個有力的支持者更有益。


RDS很快被生物物理所的鄭竺英介紹到到中國來,她與海軍總院的的眼科醫生彥少明合作,一起把RDS用到立體視覺的檢查上,在1985年出版了國內第一本「立體視覺檢查圖」,成了中國特有的顏氏標準。


§4-3 Marr 的視覺計算理論,3D 重建表象的前因後果


§4-3-1 Marr 的視覺計算理論


RDS的出現引起了立體視覺理論的革命,RDS使人們認識到立體視覺產生在識別之前,只要有視差,不需要單眼形式知覺,就能產生立體感。這一重大發現使得麻省理工大學(MIT)人工智慧(AI)實驗室的Marr 想到,可以利用攝像機獲得的兩個有視差的圖像,測量對應點之間的視差,就可以恢復物體和景物的深度,從而重建並識別圖像中的物體,完成視覺的任務。他提出了模型,對視覺問題進行了理論分析,但他得了白血病,在1980年35歲的英年早逝。他的同事和朋友將他的遺作整理出版,書名為「Vision:A Computational Investigation into the Human Representation and Processing of Visual Information」 翻譯成中文名為」視覺計算理論「(1988,譯者:姚國正,劉磊,汪雲九。)


Marr1945年出生在英國,畢業於劍橋三一學院,本科,碩士主修數學,博士方向是理論神經科學,畢業論文(1969-1971)關於哺乳類的腦功能。他關於小腦,海馬的論述,直到30年後依然能為解剖,生理數據檢驗。1973年他來到MIT 的AI研究所作為訪問學者,77年得到心理系的教職,80年成為終生教授。


他的學術背景,使他能用數學方法去研究腦的功能。考慮到視覺研究一直被認為是了解腦功能的突破口,所以從七十年代他開始了對於視覺模型的理論研究。


在視覺計算理論一書中,Marr回顧了從Lattvin的青蛙小蟲偵察器,Gross 的手檢測器,Barlow的神經元教義,祖母細胞等五十,六十年代生理學的研究,指出七十年代後有關研究報告中斷,說明祖母細胞的不足憑信。對圖像處理專家A Rosenfeld的經驗法也表示了批評。提出要在更高層次,一般的考慮問題。他從信息理論的角度,確定視覺是一種信息處理過程。他認為要對這種過程分析,首先是要了解外部的景物和物體在腦內部是如何被表象(表徵,representation)的。(譯文在有關表象內容的翻譯有些含糊,因此中文的「視覺計算理論」給理工科出身的工程計算方面的研究者帶來很多困惑。按照心理學百科全書的解釋,表象(征)可以理解為信息在長時記憶中的存貯方式,這樣問題就比較清楚了。)


他指出任一個信息處理機需要三個層次的工作:1,計算理論;2,表象和演算法;3,硬體實現。他指出了即然視覺是一個信息處理問提,就可以被看作一個信息的表象問題,也是一個如何推導出這種表象的計算問題,和如何執行上述兩種任務的計算機體系結構的問題。經過分析他認為視覺的任務就是從圖像中得到一個完全確定的形狀描述。需要三個表象階段:(1),二維圖形性質的表象,例如光強度的變化。(2)以觀察者中心的坐標系中的可見表面性質的表象,其中包括表面朝向,離觀察者的距離,以及朝向和距離的不連續性;表面的反射情況,以及對主要照明情況的某種粗略的描述。(3)被觀察形狀三維結構和組織的以物體為中心的表象,以及在這種坐標系下對物體表面性質的一些描述。


全書的重點在表面性質的表象,被稱為2.5維表象。計算的依據是Julesz的RDS 實驗結果:只要視差不需要單眼形狀識別,就能從隨機點立體圖對中得到物體的立體視,換言之得到物體各點上的深度。方法就是依據位置略有差別的兩幅景物立體圖片,找出其中對應物體特徵點的視差,用簡單幾何的計算恢復深度。困難就在於尋找立體圖中的對應點,被稱為對應性問題。Marr 為此作了一些假設。唯一性,連續性,內極線等並把遮擋存在時雙眼不對稱區作為雜訊拋棄。


這本書站在哲學,心理學一般理論的高度,通過對立體視覺,神經生理學,病理學的實驗結果分析入手,拿出具體的計算理論和方法,這對於多年在一線工作,而找不到一個一般理論指導,僅靠經驗和試錯法計算機視覺界來說,於同甘露,一時人心拯奮,以為不出十年通用的計算機視覺系統就會出現。據上海交通大學圖像所的李介谷教授1992年回憶(PR AI 266-271),1984年他在加拿大蒙特里爾召開的國際模式識別會議上,不止一次地聽到國外有關人士以興奮的口氣說起:「用不了五年,人們一定可以創造出類比於人類視覺的計算機視覺系統。」


§4-3-2Marr 的視覺計算理論引起的計算機視覺理論之爭


但是後來不論是在理論還是在實踐方面,3D重建理論所碰到的麻煩是當時完全沒有想到的。


1988年,IEEE會刊組織了第一個有關計算機視覺的專題。其中馬里南大學自控所的Rosenfeld在介紹計算機視覺的3D 模式時,就專門介紹了Marr的理論,結構框圖中專門介紹2.5維表面朝向,不過他將Marr的重建歸結於「形狀從X」方法類。而 Rosenfeld 的同事Aloimonos就在他的視形狀計算一文里,指出Marr的一般理論在實際工程中是無能的,因而在開發實際系統時用形狀從X(陰影,紋理,輪廓,運動,立體視)比較現實,提出了主動視覺。但是,Aloimonos的文中還是強調要按照Marr的精神做,可見過了6年,工程學術界已經發現Marr的理論的一些問題,尤其是一線的做識別,導航,避障系統的研究人員,但此時,誰也還沒有公開指責這種一般高大全的理論。


在這個專題中,賓州大學計算機系系主任Ruzena Bajcsy系統介紹了主動視覺,將其作為知覺的控制策略和模型。密西根大學電機及計算機系的Q Stout 為了解視覺問題,提出匹配視覺演算法到並行結構。另外,圖像的並行演算法也在此專題的多篇文章里被提出。而Marr 的同事和合作者T Poggio 則解釋早期視覺是個病態提出的問題,都是不適定的,需要專門的演算法和並行的硬體,他通過研究,引入一種特殊的正則化方法來解這個問題。


1991年一月,吃夠了3D重建苦頭的計算機視覺界的怨氣,在國際知名的雜誌「CVGIP:IMAGE UNDERSTANDING」組織的第一次有關計算機視覺理論和實踐的討論中大爆發。實際工作者對當時的理論誤導實際研究工作反映強烈。密西根大學電機及計算機系的Ramesh Jain 及斯坦福大學Thomas Binford寫了計算機視覺中的「無知,近視及天真」一文批評計算機視覺界既缺少理論也缺少實驗,過分重視用形狀從X的研究上,認為像路燈下的醉鬼,和皇帝的新衣(因為交叉學科效應,大幅度的跨學科,以至一個領域的專家(計算機)會被另外領域(數學,心理學)的忽悠,發生從眾效應,沒有重視分割和信息的表象問題的研究。


這次討論中,馬里南大學的Aloimonos和 Rosenfeld大致同意 Jain 及Binford的看法,認為Marr的重建理論對機器視覺系統來說是太高,沒有必要。但是,他們為Marr的理論辯解說,理論與實踐的脫節是因為計算量太大,太複雜。他們認為計算機視覺的目的是為了研究完成某一任務需要哪些視覺信息,並且如何從圖像中獲得這些信息,即在複雜場景中運動和識別有關物體,不必要完全恢復客觀世界,換言之,需要有目的的定性視覺完成導航和識別。


中國學術界迅速回應了這次討論,1992年12月「模式識別與人工智慧」雜誌組織了一個對應的專題,由國內計算機界著名學者發表了一組文章,參加的有宣國榮,李介谷,吳立德,邊肇祺等。這組專題認為計算機視覺幾十年的工作還是有成積的,出了不少專用系統,如游泳運動員訓練系統,漫步機器人,占斧式巡航導彈等。Marr的理論還是應該得到充分肯定,爭論是有益的,計算機視覺要更多的面嚮應用。


但是計算機視覺的問題並沒有解決。實際工作者的批評聲音越來越大,主動視覺,定性視覺,目的視覺大有取代3D重建理論之勢。3D重建理論學派坐不住了,1994年七月由耶魯大學心理系的Michale Tarr及計算機系的 Michael Black聯合在CVGIP:IMAGE UNDERSTANDING發文,捍衛重建學派。引起了計算機視覺理論界第二次大專題討論(對話),一共十一篇文章,因為關係計算機視覺各流派理論的生死存亡,也是最重要的一次討論。


第一篇文章是Michale Tarr 和 Michael Black的」對話:在視覺中表象角色的計算與演化展望「(「DIALOGUE: A Computational and Evolutionary Perspective on the Role of Representation in Vision」),文中,他們指出目的學派近來一直批評一般視覺的重建理論無成果和不實際,想以強調功能和任務的目的視覺取而代之,但是重建研究是可行的,為理解和模型人類及機器的一般目的視覺提供框架,從演化展望的視覺目的去檢驗,包括光流的恢復都支持這種假說。一些具體情況下,目的研究可能是合適的,但是它對人類廣泛的視任務,就不足了。他們強調要理解視覺,認為視覺問題是反光學問題,本身就是病態提出的,參考和限制本身就是不可避免的,主動視覺是好的,他們也不拒絕目的視覺研究,認為他是視覺研究的一個流派但是更適合說明青蛙的行為,而不是人類,,如果目的視覺是一個一般視覺的限制版,當然更好。


早就憋了一肚子氣的目的學派的Aloimonos作了回答。在我學習到什麼(What I Have Learned)一文中,他首先尖銳提出,視覺是什麼?他說他理解的視覺就是識別過程,是聯想,解釋,指導,及選擇的過程,與重建沒有一毛錢的關係。他批評說,Marr認為視覺是一個從給定圖像中得出完全精確景物和性質的表象的過程,這是一個一般的建議,而一般只存在在理論中。而人的視覺是生物視覺的特例,而按蜜蜂視覺研究專家Horridge 的觀點,人和蜜蜂在視覺控制行為中沒有什麼不同,人類不計算光流。光流方程中,一個方程兩個未知數。不加附加限制根本不可解。視覺有目的,目的就是行動。目的,定性,主動三位一體,一個回答作什麼,第二怎麼做,第三怎麼獲得數據。


13篇論文中,最有意義的是Simon Edelman 的,他提出了解決的方案:沒有重建的表象。


他首先指出,從哲學上來說,重建的表象可以追索到Aristotle,Hume,及Berkeley,他們認為景物的表象是能夠適應任何視覺任務的被表示物體的幾何複製。他批評說,重建的表象,從實用主義的角度來說,是一種可憐的選擇,理由有三個:第一,實際工程的計算說明從沒有任何限制的真實數據中恢復簡直是不可能的;其次,即使可以計算,也沒有必要;第三重建的景物只有白痴才能理解。然後他給出了解決的辦法,他從洛克的「人類理解論」中找到了靈感。洛克在智力表象的語義問題部分建議,一個概念能夠表象(示)一個物體,不需要像Aristotle提出的在任何意義上類似該物,只要他能被該物自然可預測的激發就行。


他介紹用微電極作的電生理實驗發現猴MT ( Middel temporal,中顳)細胞對視域中特定物體發放。而近年D Perrett等在靈長類IT(inferotemporal cortex)上再次發現能對面孔發放的面孔診察細胞指出面孔可能是被表徵在IT。


他最後提出可以在Gibson 的直接知覺和Marr的重建表象中間找一個合適的位置。由沒有重建的表象在視覺理論中起關鍵作用。在Brook 極端的沒有表象的目的視覺,和Marr沒有目的的重建法式間作一個調和。


整個討論專題以主流的重建學派接納目的學派為結束。


這是從80年代來計算機視覺學術界針對主流理論最強的一次論戰。他以目的學派挑戰重建理論開始,從理論上找出了重建理論的致命點-重建,結束了重建理論一統天下的局面。


讓人不解的是,國內這次遲遲沒有回應。國外這次討論兩年後,大約是96年,當筆者在華科大圖像所的資料室CVGIP雜誌上看到這一組討論,在全國雜誌上搜,都沒有找到相關的報道。不得已,花了差不多一年時間消化這一組廣泛涉及哲學,心理學,神經生理學,神經病理學,數學,計算機,通信,自動化的論文專題,寫了有關的綜述。開始還找不到地方發,某國內一級學報,回答說他們不搞理論,歡迎演算法,軟體和系統的研究。只到了98,99年有關的綜述才開始得以在學校(武漢汽車工業大學,現武漢理工大學)的學報以及『模式識別和人工智慧』,「信息與控制」上發表。國內學術界迴避對主流理論的批評和討論可見一斑。


Simon Edelman在2001年在為社會及行為學的國際百科全書介紹Marr的生平時說,對Marr的引證的比對他理解的多,他對理論神經生理學的影響比人們估計的更大。他的在神經生物學的主流雜誌上被作為腦計算理論的創始人。Marr的學派曾經堅持特殊的視覺計算理論,認為執行視覺任務需要在系統內重建一個內部模型。現在的研究者使用在70年代還沒有出現的技術和概念作研究,大量神經生物學和行為學的新發現的積累,提供了新的理論出現的基礎,說明視覺並不要求幾何重建。


Marr的重建表象的實驗基礎來源於Julesz用RDS作的立體視覺實驗,RDS實驗說明不需要單眼形體知覺,只要有視差,就能引起深度感。Marr正是依據這一點,用立體幾何的方法推出根據立體圖對兩幅圖中對應點的視差計算該點深度的,這個方法的關鍵就是要從立體圖對中找到同一實際點的對應點,稱為對應性問題,是重建理論工程實現的中最關鍵問題。也就是說,Marr的表象之所以是原物的重建(複製),不僅是因為Aristotle的哲學和70-80年代計算機圖論的影響,而且是因為有Julesz用RDS作的立體視覺實驗,有從初看起來有可能實現的計算基礎。


但這一個基礎被80年代末以來關於遮擋問題的研究幾乎完全否定了。1,在Marr的理論中被當作雜訊拋棄的單眼區,經過一代人的心理物理實驗的證實是產生深度感的最重要原因,是不能被拋棄的,視差連續性條件不能滿足。2,加拿大約克大學的Hiroshi Ono 和他的同事們用實驗定量的測量了雙眼融合時遮擋物體和背景的變化,得出了雙眼融合時,由於遮擋圖像的線索,視閾的一部分位移和壓縮完成融合。武漢理工的王天珍提出了雙眼融合時的視動反饋模型,不但將解剖上發現的兩個視系統有機聯合起來,也合理解釋了遮擋存在時雙眼融合產生立體視,競爭,或者引發復視的原因。這樣Marr約束性條件中的唯一性也就不存在了;3,多倫多大學及約克大學生理學家用RDS實驗發現(2003,Strabismus,11,1,9-16)腦搜索匹配圖像在整個2D網膜區,而不是沿著內極線,這樣Marr的信徒們提出的內極線假說也沒有了實驗依據。


2002年的歐洲視知覺會議(ECVP『02),舉辦了一個關於Marr的理論的專題討論:標題為「MARR『S VISION-20 YEARS AFTER」,S Ullman 作了一個回顧,他說Marr的觀念,在80年代是領先的,90年代已經被2 D直接研究替代,但是他定義視覺研究的三個層次,但在一些特殊領域的經典工作仍然是有意義的。


從2002年到現在,又是10 多年過去,視覺機理的研究依然還在路上,但是Marr的3D重建理論雖然已經淡出了,但是他提倡的,不能就事論事,要用表象來一般性地研究視問題,卻大大推動了視覺理論研究。


§4-4 視覺表象研究


§4-4-1概述


Marr在視覺計算一書中強調,視覺研究不能老是就事論事憑經驗,用胡湊法解具體問題,需要高端大氣上檔次,要探索一般視覺的規律,要研究物體如何在視系統中被表象,雖然他的重建表現已經漸漸淡出,但是他提倡對視覺表象研究的重視,卻被視覺理論界廣泛接受。


從80年代以來,不少學者對於視覺表象進行了深入的研究,著名的研究者除了Marr以外,還有Irving Biederman,Michael Tarr,NK Logothtis,T Poggio,Shimon Edelman等。通過系統的研究,學者們對什麼是視覺表象,已經有了哪些模型,怎麼分類,在90年代逐漸清楚起來。表象模型的分類主要是是按視覺表象坐標中心的選取來分(DI Perrett)。按此標準,表象理論分為兩大類,一類是物體中心(又稱為視圖不變,視圖獨立)模型,代表人物是Marr和 Biederman。模型大部分是80年代或者更早一些時候提出,因為受CAD(計算機輔助設計,Computer Aided Design )及計算機圖論(Computer Graphics)的影響認為視覺表象(視覺系統中存貯的物體信息)是物體和景物的複製,或者是有關標準基元的組合關係。最著名的是Marr的3D重建表象和Biederman用基元識別理論(RBC-Recognition by Components)。


Marr的3D重建表象沒有得到心理物理的實驗結果支持(S Edelman,1994);基於視差的計算又被遮擋問題的研究所挑戰;計算機視覺的實踐也不支持,現在漸漸被淡忘。但是Biederman的識別被基元理論由於得到他本人和其他學者心理物理實驗部分結果的支持,還有市場,Biederman本人也還在堅持這方面的工作。


另一種表象模型的坐標系建立在觀察者處,稱為觀察者中心表象(視圖特定),也稱為視圖相關模型,這樣的模型,將從每一個特殊角度看到的某個物體的不同圖像作為不同物體看待,從理論上講,要求系統的內存是個天文數字,改進的辦法是用幾個特殊的特徵視圖用插值法作為計算模型的基礎。這部分模型的支持者不少是從事實際實驗研究的的神經生理學家,如DI Perrett,NK Logothetis,對3D重建模型持批評和改進態度的Edelman,T Poggio 也在其中。


§4-4-2物體中心模型


因為學術界認為物體識別就是比較感官輸入信息與物體內部信息的過程,內部的表象應該能夠說明一個物體的恆常性,能從改變的2D網膜圖像中抽取不變的3D 結構。但是觀察者中心理論將物體的每一個投射到網膜上的2D圖像作為一個新的不同物體,使得存儲量達到天文數字,克服這個缺點的辦法就是用物體中心理論,物體中心模型系統的坐標不是以觀察者為參考系的,而是以物體本身作為長軸。


視覺的物體中心模型來源於一個共同的假設,認為視系統中存儲的世界的表象就是物體的幾何複製。主要的流派是Marr的3D重建模型和Biederman的RBC。Marr的3D重建表象前面已經介紹的很多了,這裡主要簡單介紹Biederman的基元識別理論(RBC-Recognition by Components)。


這個理論又稱為基元結構描述理論(GSD-Geon-Structural-Descriptions)。基元結構描述理論假設人類的視系統,是用原始的稱為基元(geons)的體積基元間的結構關係來表示基本層的物體類的。它的關鍵特點是,同樣物體被推出的表象就與觀察點無關,只要是出現在圖像中知覺特徵有同樣的構造。因此單個物體的表象必須包括幾個特徵或者質的視圖,每一個組成一個不同的GSD,每一個的觀察點僅僅為著一個有限範圍的觀察點。


2007年MJ Tarr 在心理學進展(Annu. Rev. Psychol. 58:75-96)雜誌上回顧從80年代來視物體識別的進展,評價Marr的模型,說他提不出實驗支持,但是Biederman的RBC 因為作了實質性的改進,得到自己和其他人的心理實驗支持。但是作為一個80年代基本層可行的識別模型,僅僅解釋觀察者如何識別基本層的物體,但無法應用到一般物體識別方面,還是不能適應時代的進步。


Biederman本人一直到2014年還有文章和書出版,還在堅持自己的基元結構描述理論(GSD),認為神經生理學在猴的IT (inferior temporal cortex )和FMRI決定的人的LOC(lateral occipital complex)缺損,細胞表示的高度不變性都支持他的理論。


§4-4-3觀察者中心模型


觀察者中心表象理論考慮3D物體作為該物體2D 視圖的集合。心理物理和神經生理學的實驗結果基本都支持這種理論。觀察者中心理論編碼依賴觀察者相對被識別物體的位置,觀察者中心描述物體是從物體被看見的特殊觀察點著眼的,因此觀察者中心表象需要能從各個不同的透視圖識別物體。這樣的編碼提出了一個問題,一個物體不同的視圖可能被當作不同的物體存儲,為了識別需要的2D視圖就將是一個天文數字。NK Logothtis等通過大量心理物理和電生理實驗,發現動物和人識別的能力(誤差率和反映時)是物體網膜投影的函數,即與新視圖偏離熟悉視圖的角度有明顯的函數關係。解決的辦法是找一些分開一定角度的基本視圖作為框架,利用數學插值法構建模型。NK Logothtis,T Poggio,Michael Tarr,等都是支持者。


§4-5 祖母細胞-不變的視表象


近代科學史上幾乎沒有任何概念,像「祖母細胞」一樣在理論上,受到如此長期的謾罵攻擊,但它反映的現象又被如此多的實驗神經生理學家反覆用實驗證實,引起一場長達40多年的祖母細胞之爭,延續至今,沒有定論。


一切可以追溯到1947年加拿大腦外科醫生Penfield 的報告,他在報告中說他在1938年治療癲癇病人時發現,患者過去的視聽經驗能被手術電極激活。此後刺激皮層時會引起過去視聽經驗的現象多次發生,到了60年代,已經能定位在顳葉皮層。從那時起神經外科醫生,神經生理學家就注意上了顳葉,知道那兒的細胞有著特殊的再現視場景的功能。


1967年經歷過二戰,且有過在軍隊里處理大量頭部負傷病人經驗的波蘭條件反射學派的神經心理,生理學家,Jerzy Konorski 寫了「腦的整合活動」一書,書中他推測腦中一些特殊的部位存在一些細胞,單個神經元能對複雜的視刺激,如:臉,手,感情表示,活動物體,地點敏感,他稱之為靈性細胞(gnostic),並指出了它們分布的區域,例如,面孔區就在腹顳皮層(ventral temporal cortex)空間域在後頂皮層(posterior parietal cortex),這都為後來的行為實驗和電生理實驗證實。


1969年MIT的神經生理學家Jerry Lettvin 在「知覺及知識的生物學基礎」課堂上為了調動學生的興趣,即興根據有關靈性細胞的研究編了一個「母親細胞「的故事,故事裡的母親細胞有這樣的特點:第一,它們分布在腦中一定部位;第二,數量大約18000多;第三,它們只對特定的事物母親發放,切不論顯示的圖像中母親的髮型,衣著,場合,照明,是正面還是側面,這些細胞不僅對母親的圖像發放,對母親的聲音,名字也發放,有語義功能,像概念。故事中主人公腦中的母親細胞都被切掉,因此,他失去了母親的概念,故事中的神經外科專家只能研究祖母細胞了。


這個小品立即引起年輕學生極大興趣,故事不脛而走,「祖母細胞」很快風靡了神經生理學界,就連大名鼎鼎的英國皇家學會會員Barlow 也是這個故事的粉絲,在他的「知覺心理的神經元教義」一文中直接引用了「祖母細胞」這個概念。


其實在「祖母細胞」流行之前,就已經有不少科學家發現猴的IT 細胞對一些特定視物體發放。


科學發現的路艱辛又漫長,不象一些人看見的在斯德哥爾陌領獎會上的榮耀。根據CG Gross 2007年的回顧,從65年開始,他們研究團隊就發現在猴的IT 部位,一些細胞對面孔敏感,手臉檢測器也相繼被戲劇性地發現。他們的發現最開始登載在「科學」(1969)和「神經生理」(1972)雜誌上,但是很長時間無人再理會他們,直到12年後DI Perrett 開始報告IT的面孔選擇細胞。


雖然年輕學生,和一線有關神經科學家們(生理學家,神經工程師,外科專家)對祖母細胞偏愛有加,但是反對的聲音立刻出現。除了前面提過的計算視覺理論界的泰斗Marr 的嘲笑和批評,PDP(並行分布式處理-parallel distributed processing)理論的創始人McClelland,及其他一些心理學,神經生理學的理論界人士也紛紛著文反對祖母細胞說。祖母細胞的問題在於它的信息加工機制是不明確的,反對之聲到了LH Finkel能在與Barlow為了書評爭論時,公開指責他相信臭名昭著的祖母細胞(nature 1988),大名鼎鼎的Barlow只能舉出Gross,Perrett Roll等同事的實驗工作來回擊。正如1973年Colin Blackmore 說的這一爭論已經變為一場曠日持久的所謂祖母細胞問題之爭。


一邊是一線工作的神經科學家,另一邊是一些所謂的理論學家,這一爭論持續了40多年,其間FMRI技術使用給了科學家們很大的幫助,神經生理學,神經解剖學,神經病理學有了長足的發展。兩條視通道的假說(what,where)被證實。但是這並不能說服祖母細胞的反對者。


到了2005年,Nature刊登了加州理工的RQ Quiroga,C Korch和UCLA 的I Fried ,MIT 的G Krieman的文章,報道他們如何在癲癇病人的中顳葉用微電極發現了會對著名人物和景物發放的細胞,如對影星安妮斯登,對總統柯林頓,對悉尼大劇院發放的細胞。這些細胞有著概念細胞的功能,不論刺激是該影星的正面,側面,背面,不論服飾和照明,甚至是有該影星名字的圖片,只要是呈現有關該影星的視刺激,該患者的某些IT細胞就會放電。這些細胞和Lettvin故事中的祖母細胞完全一致,視圖不變,且有語義功能。但是就是發現這個現象的Quiroga也不敢稱這些細胞是祖母細胞。這些細胞被稱為「腦中視物體的不變的視表象。Charles Connor 在評論這個研究時,說沒人願意被說成相信臭名昭著的祖母細胞,但是現在事實擺在這兒,大家不得不改變看法,但是祖母細胞只是一種稀疏編碼的極限,從實驗結果看來這些細胞不是關於視表象的,不是視結構的幾何變換,不是編碼基於視覺表觀的記憶,而是編碼基於概念的記憶。但是他質疑個別細胞層次能夠形成這樣的抽象的,記憶基於的表象。


2009年Bristol 大學實驗心理系的Jeffrey Bowers,在心理學回顧雜誌上發文頂祖母細胞,認為祖母細胞所反映的局域模型在生物上是可行的,引起了新一輪的論戰。參加的不但有神經網路的創始人之一的McClelland,還有Quiroga和他的團隊。這樣正常的學術爭論反映一個問題,祖母細胞的信息加工機理是不清楚的,祖母細胞到底是怎樣表象一個外部物體的。


王天珍在2001年IEEE的國際神經網路大會上發文,根據她對視頻圖像的研究,提出了一個模型,解釋祖母細胞是如何形成的。她首先根據對視頻流的心理物理實驗(口頭報告法)提出物體在腦中表象的形成遵循兩個法則:一個是時空連續性法則;另一個是多感官接近聯想法則。通過這兩個法則就能把同一個物體不同條件下的圖形以至聲音文字聯繫起來。其次,她根據她在90年代初為漢字識別提出的版式並行檢索法解決了多幅圖像存貯檢索時天量存貯量的問題。04年她的研究小組又做了視頻跟蹤研究,解決了視頻流中人物確定的問題,從原則上解釋了祖母細胞是如何形成的。06年根據對遮擋問題的研究,她提出了視動反饋模型,將腦中兩個視通道聯繫起來。從神經生理和神經解剖的角度解釋了祖母細胞的信息加工的具體路徑。


視覺研究的前世今生(五)


§5 視覺研究在中國


§5-1中國古時侯的視覺研究


中國有史以來最早的視覺研究可以追朔到孔子。先秦鄭國人列禦寇(公元前450-公元前375年)著「列子」,其中「列子湯問」記載孔子東遊時,看見兩個小孩爭辯,是中午還是早上太陽離人近?」一個說:我認為太陽剛升的時候離人近,因為像傘蓋一樣大,而中午遠,因為看起來只有盤子大。另一個說:不對,太陽剛升時天很涼,到了中午像煮開了鍋一樣熱。所以中午近,孔子不能回答。「這個故事不僅非常有哲理,而且在自然科學研究方面也含義深長。前面一個小孩說的有關距離知覺,至今,就是一些專家也不能回答的很周全。後一個不僅關於視覺,更主要涉及天文,氣象,地理,也是個大問題。孔子專攻人際關係,社會學,不能回答很自然。但說明春秋時期,學者對視覺的思考和研究就很深入了,不會比希臘差。但是漢武帝罷黜百家獨尊儒術,使得中國的自然科學研究包括視覺研究落後了。但是有關應用方面還是有不少亮點,比如眼鏡的發明,一般科學史上都提到義大利,但是依據北宋沈栝(1031-1095)的夢溪筆談,可知那時就對凸凹鏡成像原理解釋得很清楚,而且1260年馬可波羅遊記中描敘了中國老人戴著眼鏡看小字的景象,因此也有人認為眼鏡是從中國傳到歐洲的。


§5-2中國近現代視覺研究


滿清末年西學東漸,柏克萊的「視覺新論「也在1934年被關文運教授翻譯出來,在1935年由商務印書館出版,我個人認為這算是現代視覺研究在中國的開始。該書在57年由於批判的需要被再版,至今沒有新的譯本出現。該書的出版使中國學生知道了距離知覺研究的過往,了解了距離知覺產生的原因。對中國現代知覺心理學有影響。


後來戰事連連,直到解放後,科學院建立,視覺研究才由貝時璋主持的生物物理所和潘菽主持的心理所從新開始。


貝時璋不但是科學大家也是戰略科學家,他高瞻遠矚主要表現在兩個方面:1,生物物理所成立時人員的選用:所成立時錄用人員不拘於生物學科,使得大量不同學科的人員(物理,數學,自動化,計算機)能在同一個研究機構工作,有利於新發明,新思想產生;2,生物物理所建立時選址:生物物理所選址與心理所相鄰。我去時,兩所不僅相鄰,而且從一所的草坪就可以直達另一所,一所的研究人員散步思考問題時就可能和另一所的研究人員交流,53年院系調整後理工科的學生不懂文科的缺陷,看來就由地理位置的優勢得到了改善,生物物理本來就是交叉學科,再與心理學研究接鄰,不同學科思想碰撞出成果的可能就更大,現在看來正是一步高棋。生物物理所的視覺研究組就是在這樣的背景下,79年由原來由貝時璋院士親自抓的理論組(59年,生物控制論組,仿生組)基礎上成立,組長為鄭竺英教授。當時正是世界上視覺研究熱,經過文革的洗禮,重新成立的理論組的方向就定義為視覺研究。


鄭竺英是中國名教育家鄭曉滄的女兒,貝時璋的關門弟子,浙大1950年生物系畢業。中國的視覺研究能有今天的水平,她功不可沒。中國有句成語,「海納百川,有容乃大,壁立千仞,無欲則剛」。用這句話來形容鄭竺英教授是很合適的。


1959年她擔任生物物理所理論組組長,當時的目標是生物控制論,但由於時局的緣故很快改名為仿生室,下分生物原形組,數學模擬組,電子模型組。進了很多年輕人,78年後改為視覺的信息加工研究室,她擔任室主任,目標視覺信息加工,最多時下設十個課題組,由於她心胸豁達,業務精湛,外語好又善於協調人際關係,能夠調動各方面的力量,該室成績斐然:


1,姚國政,劉磊,汪雲九翻譯了Marr 的「視覺計算理論」引領了中國計算機視覺研究;


2,鄭竺英從80年代開始不僅將Julesz的RDS引入國內,引導了國內立體視覺的研究,而且與海軍總醫院的顏少明醫生合作提出了立體視覺的顏氏檢測標準;


3王書榮鳥類峽核研究,刁雲程貓視皮層細胞方向研究,郭愛克關於果蠅的研究都走在當時國內的前沿。


4,吳新年關於遮擋問題的研究,吳新年研究遮擋問題時,已經退休了,副研究員。


為了把Gillam 等關於遮擋問題的研究介紹進國內,他以汪與九的名義帶博士生,填補了國內這方面研究的空缺,敬業和追求真理的精神令人敬佩,後來接著他對遮擋問題研究的有王天珍和中南民族大學生醫所的楊仲樂。


鄭竺英老師除了引領了生物物理所的視覺研究,也指導了浙江大學的視覺研究,王天珍後來在遮擋問題上的研究,也是因為她的指引。


視覺研究小組後來由郭愛克,刁雲程負責,郭后來到上海神經所,刁生病後,視覺研究室也就慢慢地取消了,代以腦與認知研究國家實驗室,負責人是陳霖院士,他因80年代堅持整體識別而著名。腦與認知研究國家實驗室主要以FMRI 為實驗手段研究人類的認知功能,包括視覺,其中用FMRI對成千中老年人的海馬隨年齡萎縮的概率統計研究,對漢字識別時腦區活動情況的研究都在國內外領先。但是現在國外對FMRI研究也有不同看法認為解析度太低,無法精準說明視覺信息到底是如何加工的。


心理所的荊其誠教授從60年代就研究年代就研究距離知覺,研究雙眼輻合,87年出版了專著「人類的視覺」。對視覺研究在中國的發展起了推動作用。


80年代心理所在漢字識別方面作了不少工作,漢字是表意文字,形音義結合,和拼音文字的學習機理不同,它的視知覺研究很有意義,當時有個俞柏林研究員作了很多研究工作,很有意思但英年早逝,非常可惜。


北京大學心理系的系主任沈政教授養了一群猴子,用微電極實驗研究IT上細胞對圖形的反映,實驗結果猴子的顳葉細胞對熟悉的研究員和飼養員放電。在國內一直領先。但不知他退休後工作是否還能繼續?


華東師範大學的郭可敬在漢字認知的信息處理方面做了很多工作。讓學術界知道漢字認知和拼音文字不同,反映視覺和聽覺加工腦機制的不同。


在南方引領視覺研究的是復旦的生命科學院,院長壽天德教授,學術淵博,治學嚴謹,他原來在中國科技大學工作,後來調來複旦,研究貓關鍵期的視剝奪對貓的皮層腦細胞功能的影響,是中國第一本神經生理學的作者,影響很大,很多從事視覺研究的博士說,我們是讀著壽老師的書入門的。著有「視覺信息處理的腦機制」等專著。


計算機視覺國內影響比較大的是自動化所的馬頌德老師。


另外軍事醫學科學院的徐廣第教授,64年發明的雙眼合像視標解決了飛行員的高空近視,著有『眼科屈光學「一書。


而溫州醫學院視光學院的王光霽主編的「雙眼視覺學「填補了這方面的空白。



總的來說,改革開放後,視覺研究突飛猛進,但是第一流的研究並不多。自己的感受,國外對於學術爭論很開放,你再有名,別人不同意你的觀點,只要言之有理有椐,就可以批評,就像CVGID 90年代組織的兩次大論戰,言辭的尖銳,在國內是不可想像的。


但是國內學術界的內耗也是外界不能理解的。有的人擔任行政職務時間比較長,得罪了人,研究做得再好,院士就是上不去。有的人開始共事不錯,後來為了一些事,硬是把另外人排出單位去。這二十年就更厲害,勝者為王,當了領導,人家的成績都是他的,通吃。現在的院士有幾個不是先當官後當院士。如此下去怎麼能有一流的成績出來呢?老的大師不提,現在只要多幾個鄭竺英,壽天德,學術研究就會更有成績。


總算在年前趕完了,就是它了,30年的工作基本在這兒,我儘力了。不足錯誤肯定有,輸入文字和標點符號更不用提,現在顧不得這些,先拿出來,是驢子是馬先溜一溜。



請您繼續閱讀更多來自 大數據文摘 的精彩文章:

中科院陳潤生院士:精準醫療數據處理中的挑戰
生活在全息宇宙中是一種什麼樣的體驗?
基於大數據的人體組織微結構的解析與構建
首次!海豚間像人類一樣的交談被水下麥克風記錄
當你改變世界卻沒有人注意

TAG:大數據文摘 |

您可能感興趣

V1視覺攝影 陳旭一生
世界級的視覺盛宴(二)
世界級的視覺盛宴(一)
CSIG | 智能駕駛與機器視覺前沿講習班(清華)第2期
1 月新番《珈百璃的墮落》TV 動畫聲優陣容與主視覺圖公布
視覺上的生命觀照 玉雕-孩童
視覺中國公布大批明星無P照,感覺每一張都可以上社會民生新聞
世界級的視覺盛宴-2
就是今年夏天了!《妄想學生會》劇場版主視覺圖和預告公開
2018春夏上海時裝周主視覺的誕生
今日手游:視覺錯位藝術的再現《紀念碑谷2》
美國老婆登場,《魔法科高中的劣等生》公開新 PV 與新視覺圖
《交響詩篇艾蕾卡7 HI-EVOLUTION》全新主視覺圖及預告影像曝光,第一部將於9月16日在日本展開上映!
《四月是你的謊言》 視覺圖及追加CAST公開
《進擊的巨人》最新視覺圖公開 第二季動畫4月1日開播
《聖鬥士少女翔》TV動畫最新視覺圖公布
世界級的視覺盛宴-1
2017秋冬上海時裝周主視覺是如何誕生的?
上帝的視覺:從太空中看下去世界七大奇蹟的模樣,前所未有的震撼!