人類:你識誰?機器人:我識你的局部美小科愛
文章僅為閱讀體會,
切勿當作正式科普。
看到標題>點開文章>繼續下拉……
這些你可以輕而易舉做到的動作,是現在科學界最想做出突破的研究。通過攝像頭、圖像識別,讓機器人「看」已經實現了。
但機器人和人類看到的畫風完全不同,例如同樣是看到一條手臂。
人看到的總是別出心裁
一本正經的機器人看到的
這一堆搞得人頭暈目眩的數字,到底是什麼來頭?
它代表每一個小區塊的亮度,愈大的數表示愈亮,愈小的數表示愈暗。每一數字的變化就是一個信號源,機器人以此識別物體,以及與物體的距離。
對於人則是眼睛收到信號,然後快馬加鞭傳遞給大腦總部,總部負責這片兒的部門以釋放神經纖維的激活率作為反饋。
不然不能準確及時的識別物體,可能人一頭就奔牆上撞去還不自知。
機器要做到識別這一點非常困難,剛出生的小孩總是橫衝直撞,因為她分不清物體邊緣和背景的區別。
物理世界映射到人眼中的是一個由許多小陰影碎片搭成的圖案,而大腦需要通過「實時構圖」讓這些碎片產生真實連接(建模)。
放在機器理解程序里,就是要尋找大數和小數相接的地方。那堆數字是立體的,隨著物體擺放位置的改變,代表物體厚度、高度和形狀的相應數字都在變化。
GIF
通過對距離、光暗和陰影的識別,可以準確定位出物體大小和位置。
第二步需要知道物體的材質了,例如眼睛如何區分薯條和漢堡?
GIF
照到視網膜上光的數量,不僅取決於物體的灰暗度,還有光本身的明亮度。
有一條我們吃貨才懂的理論,薯條和漢堡放在一起,喜歡薯條的人總覺得它比漢堡更亮眼……
經我邊吃邊思考分析,除了食味作用,和視覺對色澤反光的反饋很有關係。
薯條+包裝就紅黃兩色,視覺能很快識別,依據懶是人類天性的特點,薯條就友好多了,所以先看好它喲。
GIF
渾身全包的漢堡,撕開是錯綜複雜的色澤,這讓眼睛識別有點費神啊,所以相比薯條,它只能排其次了。
對於正常生活需求而言,我們只需要視覺分清它是薯條或漢堡就可以了。如此我們意識中對顏色和亮度的感知就能和物理世界保持一致。
如果細較分解的話,物理世界投射到我們視網膜上的色狀鏡像分類非累死人不可,這就是我們視覺系統的神奇設計之處。
GIF
眼睛只能負責收集三維世界的信息,轉化為二維的視網膜圖像,背後則必須由大腦來操刀。
視網膜是一個單純無邪的孩子,在它看來,你手裡的一張紙幣和遠方的金山銀山一樣,大小相同。
要回味這種神經機制的運作現象,盯著燈泡看幾秒,眼前暫時就會出現一小塊白色,盯著書看這塊白色有幾厘米大,盯著牆看會有幾米,盯著天空就更大了。
機器識物最直接的方式是建模,就像篩子一樣,只有等於或小於篩孔的沙子才能穿過去。這種方式比較雞肋,例如手寫不太規範的A,機器就不認親了。
GIF
人工智慧發展到現在,雖然有40多年,但目前也僅能識別規範的、已知的物體。對於現在這個變化莫測的世界,人工智慧在很多方面就一籌莫展了。
所以科學家想的對策是識別關鍵部位,比如出入一家小區,它不會將人從頭到腳識別個遍,只掃描虹膜或視網膜血管的清晰形狀就得(dei)了。
而我們大腦就厲害了,看過的該記的和不該記的,可以看的和少兒不宜的,都能快速有條理的歸檔,想用又能隨時調用。
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
TAG:葉水悠 |