當前位置:
首頁 > 科技 > 計算機圖像識別能力到底有多強?這份報告再次超越人類想像

計算機圖像識別能力到底有多強?這份報告再次超越人類想像

本文由騰訊數碼獨家發布

現在如果你打開谷歌照片,輸入「海灘」兩個字,就可以看到你過去去過的各個海灘的照片,奇怪的是你從來給這些照片分類或給它們貼標籤,相反谷歌根據照片的內容識別出海灘。這個看似很普通的功能其實是基於一種叫做深度卷積神經網路的技術,該技術允許軟體以一種很特別的方式理解並分析圖像,在以前的技術是達不到的。

近年來研究人員發現,隨著網路越來越深層次,軟體背後的資料庫也越來越龐大,軟體的準確性也越來越高。同時也使得人們對計算能力產生了越來越高的需求,幾年前谷歌開發了自己的定製神經網路晶元,其他公司爭相效仿谷歌的做法。

以特斯拉為例,特斯拉已聘請深度學習專家Andrej Karpathy負責其自動駕駛系統項目,特斯拉目前正在為未來的自動駕駛儀神經網路操作系統開發一款定製晶元。當然還有蘋果,最近幾款iPhone的核心晶元A11和A12都包含神經引擎,優化了圖像和語音識別。

在2012年之前,深度神經網路在機器學習領還處於起步階段,之後Krizhevsky和他多倫多大學的同學們在競賽中展示的一份圖像識別作品,該成品以往任何都要精確得多,幾乎一夜之間,深度神經網路成為圖像識別的主要技術。

接下來我們將深入探討解釋什麼是神經網路,它們是如何被開發的,以及為什麼它們有如此高效的計算能力。然後具體解釋一種特殊類型的神經網路,深度卷積網路,特別適用於圖像識別。

一個簡單的單神經元的例子

如果單提神經網路大家可能感覺有點難以理解,所以讓我們舉一個簡單的例子,假設你要用神經網路來決定一輛車根據交通信號燈的綠燈、黃燈和紅燈行駛。神經網路用單個神經元就可以完成這項任務。

神經元的每個輸入值(1表示打開,0表示關閉),將其乘以相關的權重,並將所有權重值相加。然後確定神經元激活的閾值。如果輸出結果是正的,神經元就已經被激活了,反之就沒有被激活。這個神經元等價於不等式「綠-紅- 0.5 > 0」,也就是說綠燈亮,紅燈暗,車輛就可以行駛。

在真實的神經網路中,人工神經元又多了一步,將加權輸入相加並加入偏差後,神經元再應用非線性激活函數,一般是sigmoid函數,它是一個S形函數。

激活函數的使用不會改變紅綠燈模型的結果(除了使用0.5而不是0的閾值),但是非線性激活函數對於更複雜的神經網路的建模是必不可少的。沒有激活函數,每一個神經網路不管多麼複雜,都可以簡化成它的輸入的線性組合。線性函數不能模擬複雜的現實現象,非線性激活函數能使神經網路能夠接近任何數學函數。

神經網路

當然,有很多方法可以近似函數,而神經網路的特別之處在於,可以用微積分、數據和大量的計算能力來訓練它們,而不是程序員直接設計神經網路的特定的任務,我們可以構建軟體,用一個通用的神經網路開始,然後修改和調整神經網路,越來越定製化。

1986年,三位研究人員發表了一篇關於反向傳播的里程碑式論文,反向傳播演算法是一種幫助訓練複雜神經網路在數學上更簡化操作的技術。

為了直觀地了解反向傳播演算法是如何工作的,我們來看看Michael Nielsen描述的一個簡單的神經網路。這個網路的目的是採取28×28像素圖像代表一個手寫的數字,正確辨識出數字0,1,2,等等。每個圖像有28個×28 = 784輸入值,Nielsen構建了這樣一個神經網路:

在這幅圖中我們可以看到,中間和右邊的每一個圓都是代表一個神經元,就像我們在上一段說的,每個神經元取其輸入的加權平均值,加上一個偏差值然後再應用一個激活函數。注意左邊的圓圈不是神經元,這些圓圈代表的是輸入值。雖然圖像上只有8個輸入圓圈,但實際上有784個,每個像素對應一個。

每個神經元從它前面一層的神經元輸入,所以中間這15個神經元每一個都有784個輸入值,這15個神經元中的每一個都有一個權重參數,對應它的784個輸入。意味著這一層只有15×784 = 11760加權參數。同樣輸出層包含10個神經元,加另一個15×10 = 150加權參數。除此之外,這個網路還有25個偏差變數,每個偏差變數對應25個神經元,如上圖所示。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科技酷玩探索家 的精彩文章:

這些手機都將支持谷歌DayDreamVR 看看你的愛機有沒有
Gartner報告:2022年前全球可穿戴設備市場可提升三倍

TAG:科技酷玩探索家 |