當前位置:
首頁 > 新聞 > 計算機視覺(及卷積神經網路)簡史

計算機視覺(及卷積神經網路)簡史

本文為 AI 研習社編譯的技術博客,原標題 :

A Brief History of Computer Vision (and Convolutional Neural Networks)

作者 | Rostyslav Demush

翻譯 | 鱷魚艾德克、小先生愛你

校對 | 醬番梨 審核 | 約翰遜·李加薪 整理 | 立魚王

原文鏈接:

https://hackernoon.com/a-brief-history-of-computer-vision-and-convolutional-neural-networks-8fe8aacc79f3

計算機視覺(及卷積神經網路)簡史

儘管計算機視覺近期突然興起(重大突破時刻發生在2012年,那時AlexNet網路贏得ImageNet的冠軍),它確實不是以一個新的科學領域。

世界範圍內的計算機方面的科學家在過去的六十年一直嘗試尋找使得機器能夠在視覺數據中提取出含義,計算機視覺的歷史是非常令人著迷的,這個方面是大多數人所不了解的。

在這篇文章中,我將會嘗試介紹現代計算機視覺系統是如何通過卷積神經網路驅動的。

我將會從一個二十世紀五十年代出現的,和軟體工程毫不相關的作品開始。

計算機視覺中最有影響力的論文之一由兩位神經生理學家David Hubel和Torsten Wiesel於1959年發表。他們的出版物題為「貓的紋狀皮層中單個神經元的感受野」,描述了視覺皮層神經元的核心反應特性。以及貓的視覺體驗如何塑造其皮質結構。

兩人進行了一些非常精細的實驗。他們將電極放入麻醉貓腦的初級視皮層區域,觀察或至少試圖在該區域進行神經元活動,同時向動物展示各種圖像。他們的第一次努力沒有結果——他們無法讓神經細胞對任何事情做出反應。

然而,在研究的幾個月後,他們注意到,一個神經元在他們將一個新的幻燈片滑入投影機時被發射,而不是偶然。這是一次幸運的意外。經過一些初步的混淆,Hubel和Wiesel意識到讓神經元興奮的是由玻璃片的鋒利邊緣的陰影所產生的線條的運動。

計算機視覺(及卷積神經網路)簡史

https://goodpsychology.wordpress.com/2013/03/13/235/

研究人員通過實驗發現初級視覺皮層含有許多簡單和複雜的神經元,並且視覺處理過程總是從類似特定方向邊緣的這類簡單結構開始。

聽起來是不是挺熟悉?這就是隱藏於深度學習之後的核心準則。

計算機視覺歷史中下一個值得關注的是第一台數字圖像掃描儀的發明。

在1959年,Russell和他的同學研製了一台可以把圖片轉化為被二進位機器所理解的灰度值的儀器。正是由於他們的成果,我們現在能夠用不同的方法處理數字圖像。

第一張被數字掃描的圖片是Russell的嬰兒照。它僅僅是一副5cm*5cm的關於30976(176*176)個像素所構成的圖片,但它變得舉世聞名是因為原始圖片被保存在波特蘭藝術博物館。

計算機視覺(及卷積神經網路)簡史

https://www.engadget.com/2010/06/30/russell-kirsch-helped-create-them-now-he-wants-to-kill-square-p/

接下來討論Lawrence Roberts的「三維固體的機器感知」,這本在1963年出版的書被廣泛認為是現代計算機視覺的前導之一。

在他的博士論文中,Larry描述了從二維圖片中推導三維信息的過程。他把視覺世界所看到的簡化為幾何形狀。

計算機視覺(及卷積神經網路)簡史

http://www.packet.cc/files/mach-per-3D-solids.html

他在論文中描述和編寫程序的目的是將二維圖像處理成線條,然後利用這些線條建立起三維重示,最終顯示物體移除了所有隱藏線條的三維結構。

在三維到二維展示之後,Larry寫下了二維到三維的構造是計算機輔助三維繫統的一個良好開端,他完全正確。

我們應該注意到Lawrence並沒有在計算機視覺這方面花費太多精力,相反他加入了DARPA,現在以網際網路發明被人所熟知的項目。

在1960s,AI成為了一門學科,一些研究人員關於這塊領域的未來非常樂觀,他們相信用不了25年時間就能造出和人類一樣智能的計算機。同一時期,MITAI實驗室的Seymour Papert教授決定啟動夏季視覺項目,並在幾個月內解決機器視覺問題。

他認為一小群MIT的學生在夏天開發了視覺系統的重要組成部分。Seymour和Gerald Sussman協調學生將設計一個可以自動執行背景/前景分割,並從真實世界的圖像中提取非重疊物體的平台。

這個課題沒有成功,50年之後,我們仍然在向解決計算機視覺前進。據許多人說,這個項目是計算機視覺作為一個科學領域的正式誕生的標誌。

在1982年,一個英國神經學家David Marr發表了另一篇有影響的論文-「願景:對人類表現和視覺信息處理的計算研究」。

基於Hubel和Wiesel的想法(他們發現視覺處理不是從整體對象開始),David給了我們下一個重要的見解:他確定了這個願景是等級的,視覺系統的主要功能是創建環境的3維表示,以便我們可以與之交互。

他介紹了一個視覺框架,其中檢測邊緣,曲線,角落等的低級演算法被用作對視覺數據進行高級理解的鋪墊。

David Marr的視覺代表框架包括:

  • 圖像的原始草圖,其中表示邊緣,條形,邊界等(這顯然受到Hubel和Wiesel研究的啟發);

  • 2?維的草圖表示,其中表面,圖像上的深度和不連續性信息拼接在一起;

  • 根據曲面和體積基元分層組織的3維模型。

David Marr的成果在當時是開創性的,但它非常抽象和高級。 它沒有包含任何可以在人工視覺系統中使用的數學建模的信息,也沒有提到任何類型的學習過程。

大約在同一時間,日本計算機科學家Kunihiko Fukushima也受到Hubel和Wiesel的啟發,建立了一個自組織的簡單和複雜細胞的人工網路,可以識別模式並且不受位置變化的影響。 網路Neocognitron包括幾個卷積層(通常是矩形的),他的感受野具有權重向量(稱為濾波器)。

這些濾波器的功能是在輸入值的二維數組(例如圖像像素)上滑動,並在執行某些計算後,產生激活事件(2維數組),這些事件將用作網路後續層的輸入。

Fukushima的Neocognitron可以說是第一個神經網路; 它是今天的神經網路的祖父。

幾年後,在1989年,一位年輕的法國科學家Yann LeCun將一種後向傳播風格學習演算法應用於Fukushima的卷積神經網路結構。 在完成該項目幾年後,LeCun發布了LeNet-5--這是第一個引入我們今天仍在CNN中使用的一些基本成分的現代網路。

在他面前的Fukushima,LeCun決定將他的發明應用於角色識別,甚至發布了用於閱讀郵政編碼的商業產品。

除此之外,他的工作創建手寫數字的MNIST數據集 - 這可能是機器學習中最著名的基準數據集。

1997年,一位伯克利教授Jitendra Malik(以及他的學生Jianbo Shi)發表了一篇論文,描述了他試圖解決感性分組的問題。

研究人員試圖讓機器使用圖論演算法將圖像分割成合理的部分(自動確定圖像上的哪些像素屬於一起,並將物體與周圍環境區分開來)。

他們沒有走得太遠; 感知分組的問題仍然是計算機視覺專家正在努力解決的問題。

在1990s,計算機視覺作為一個領域,在很大程度上改變了它的關注點。

大約在1999年,許多研究人員停止嘗試通過創建它們的3維模型(Marr提出的路徑)來重建對象,而是將他們的努力轉向基於特徵的對象識別。 David Lowe的作品「來自局部尺度不變特徵的物體識別」特別表明了這一點。

文章描述了一種視覺識別系統,該系統使用對旋轉,位置和部分照明變化不變的局部特徵。 根據Lowe的說法,這些特徵有點類似於在顳下皮層中發現的神經元的特性,這些特徵涉及靈長類視覺中的物體檢測過程。

不久之後,在2001年,Paul Viola 和Michael Jones推出了第一個實時工作的人臉檢測框架。 雖然不是基於深度學習,但演算法仍然具有深刻的學習風格,因為在處理圖像時,它了解哪些特徵(非常簡單,類似Haar的特徵)可以幫助定位面部。

計算機視覺(及卷積神經網路)簡史

https://www.researchgate.net/figure/Haar-features-used-for-Viola-Jones-face-detection-method_fig1_268348020

Viola / Jones面部探測器仍被廣泛使用。 它是一個強大的二元分類器,由幾個弱分類器構成; 在學習階段,在這種情況下非常耗時,使用Adaboost訓練弱級分類器的級聯。

為了找到感興趣的對象(面部),模型將輸入圖像分割成矩形塊並將它們全部提交給弱檢測器的級聯。 如果補丁通過級聯的每個階段,則將其歸類為正數,否則,演算法會立即拒絕它。 該過程在各種規模上重複多次。

該論文發表五年後,Fujitsu 發布了一款具有實時人臉檢測功能的相機,該功能依賴於Viola / Jones演算法。

隨著計算機視覺領域不斷發展,社區迫切需要基準圖像數據集和標準評估指標來比較其模型的性能。

2006年,Pascal VOC項目啟動。 它提供了用於對象分類的標準化數據集以及用於訪問所述數據集和注釋的一組工具。 創始人還在2006年至2012年期間舉辦了年度競賽,該競賽允許評估不同對象類識別方法的表現。

2009年,另一個重要的基於特徵的模型由Pedro Felzenszwalb,David McAllester和Deva Ramanan - 可變形零件模型開發。

從本質上講,它將對象分解為部分集合(基於Fischler和Elschlager在20世紀70年代引入的圖像模型),在它們之間強制實施一組幾何約束,並將被模擬的潛在對象中心視為潛在變數。

DPM在對象檢測任務(使用邊界框用於本地化對象)和擊敗模板匹配以及當時流行的其他對象檢測方法方面表現出色。

你可能聽說過的ImageNet大規模視覺識別競賽(ILSVRC)始於2010年。繼PASCAL VOC之後,它也每年舉辦一次,包括一個賽後研討會,參與者討論他們從中學到了什麼。 最具創意的作品。

與只有20個對象類別的Pascal VOC不同,ImageNet數據集包含超過一百萬個圖像,手動清理,跨越1k個對象類。

自成立以來,ImageNet挑戰已成為跨越大量對象類別的對象類別分類和對象檢測的基準。

在2010年和2011年,ILSVRC的圖像分類錯誤率徘徊在26%左右。 但是自從2012年,來自多倫多大學的一個團隊進入了一個卷積神經網路模型(AlexNet)進入競爭,這改變了一切。 該模型與Yann LeCun的LeNet-5結構相似,誤差率為16.4%。

這是CNN的突破性時刻。

在接下來的幾年中,ILSVRC中圖像分類的錯誤率下降到幾個百分點,自2012年以來,獲勝者一直是卷積神經網路。

正如我前面提到的,自20世紀80年代以來,卷積神經網路已經存在。 那麼為什麼它們需要這麼長時間才能變得流行呢?

那麼,我們當前的CNN流行有三個因素:

由於摩爾定律,與20世紀90年代發布LeNet-5相比,我們的機器現在速度更快,功能更強大。

NVIDIA的可並行化圖形處理單元幫助我們在深度學習方面取得了重大進展。

最後,今天的研究人員可以訪問大型,標記的高維視覺數據集(ImageNet,Pascal等)。 因此,他們可以充分培養他們的深度學習模型,避免過度擬合。

結論

儘管最近取得了令人印象深刻的進展,但我們仍然沒有接近解決計算機視覺問題。 然而,已經有多家醫療機構和企業找到了將由CNN驅動的計算機視覺系統應用於現實問題的方法。 這種趨勢不太可能很快停止。

想要繼續查看該篇文章相關鏈接和參考文獻?

點擊【計算機視覺(及卷積神經網路)簡史】或長按下方地址:

https://ai.yanxishe.com/page/TextTranslation/1518

AI研習社今日推薦:雷鋒網雷鋒網雷鋒網

李飛飛主講王牌課程,計算機視覺的深化課程,神經網路在計算機視覺領域的應用,涵蓋圖像分類、定位、檢測等視覺識別任務,以及其在搜索、圖像理解、應用、地圖繪製、醫學、無人駕駛飛機和自動駕駛汽車領域的前沿應用。

加入小組免費觀看視頻:https://ai.yanxishe.com/page/groupDetail/19

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

IBM :實現機器學習的「量子優勢」還任重道遠,但在特徵映射方面的努力將見成效
AI晶元獨角獸誕生!地平線完成6億美金左右B輪投資

TAG:雷鋒網 |