UCSB研究發現計算機與人類視覺差異，用人眼搜索策略提升計算機視覺

新聞 09-30

2017 年 11 月 8 日，在北京國家會議中心舉辦的 AI WORLD 2017 世界人工智慧大會開放售票！早鳥票 5 折搶票倒計時 9 天開搶。還記得去年一票難求的AI WORLD 2016盛況嗎？今年，我們邀請了冷撲大師」之父 Tuomas 親臨現場，且谷歌、微軟、亞馬遜、BAT、訊飛、京東和華為等企業重量級嘉賓均已確認出席。

UCSB研究發現計算機與人類視覺差異，用人眼搜索策略提升計算機視覺

在繼續閱讀之前，請觀察下圖，找出圖中所有的牙刷。

UCSB研究發現計算機與人類視覺差異，用人眼搜索策略提升計算機視覺

你注意到圖中左邊那支巨大的牙刷了嗎？可能沒有。根據加州大學聖巴巴拉分校心理學與腦科學系的科學家們的說法，這是因為當人類在尋找一個特定的物體時，經常容易看漏大小與場景的其餘部分不相匹配的物體。

科學家們正在研究這一現象，試圖更好地理解人類和計算機在進行視覺搜索時的區別。他們的發現發表在最新一期 Current Biology 雜誌上。

藏在眼皮底下

「當某些東西以不同尋常的大小出現時，你會更經常地看漏，因為你的大腦會自動忽略它，」UCSB教授Miguel Eckstein說，他專門研究計算人類視覺（computational human vision）、視覺注意力和搜索。

該實驗使用的是計算機生成的圖像中的普通物體的場景，這些圖像的顏色、角度和大小不一，並混進「目標缺失」的場景。研究人員要求60名被試者在這些圖像中搜索特定物品(例如：牙刷、停車計時器、滑鼠)，並使用眼球追蹤軟體監控他們的視線。

研究人員發現，當物體大小與尋常大小差別很大（太大或太小）時，人們往往會更容易忽略目標，哪怕他們已經直直地盯著目標對象。

相比之下，根據科學家們的報告，計算機視覺不會出現這個問題。但是，在實驗中，研究人員發現，最先進的計算機視覺技術——深度神經網路——也有其自身的局限性。

人類搜索策略可以改進計算機視覺

UCSB研究發現計算機與人類視覺差異，用人眼搜索策略提升計算機視覺

深度學習演算法將紅色框里的鍵盤錯誤地識別為手機（來源：UC Santa Barbara）

例如，一個CNN深度學習神經網路錯誤地將計算機鍵盤識別為手機，它基於形狀的相似性，以及物體相對手的位置（手機經常被拿在手中）。但對人類來說，這個物體的大小（相對於人的手）顯然與手機是不一致的。

研究人員在論文中指出：「這種策略可以讓人在快速做決策時減少失誤。」

Eckstein說：「我們的想法是，當你第一次看到一個場景時，你的大腦會在幾百毫秒甚至更短的時間裡快速處理這個場景的信息，然後你會使用這些信息來引導你尋找物體出現的典型位置。」「同時，你也會把注意力集中在那些與你所尋找的物體大小一致的物體上。」

也就是說，人類的大腦利用物體間的關係來引導他們的眼睛——這是一個快速處理場景信息的有用策略，可以消除干擾，減少誤報。

根據研究人員的說法，通過利用大腦用來減少誤報的一些技巧，這一發現可能對改善計算機視覺有所啟發。

未來的研究

Eckstein說：「有一些理論認為，患有自閉症譜系障礙的人更關注局部的場景信息，而不是整體的結構。」Eckstein正在計劃一項後續研究，他說：「因此，有一種可能性是，患有自閉症譜系障礙的人可能更不容易看漏那些被錯誤放大的物體，但在我們進行這項研究之前，尚沒法確定這一點。」

接下來，研究人員將關注當我們看到錯誤放大的物體時發生的大腦活動。

博士後研究員Lauren Welbourne說：「有許多研究已經確定了大腦中處理場景和物體的區域，現在研究人員正在努力了解這些場景和物體的哪些特定屬性被呈現給大腦的這些區域。」目前的研究主要集中在物體是如何在大腦皮層上呈現，以及場景背景如何影響物體的感知。

他說：「所以我們要做的是找出這些大腦區域對在一個場景中正確或錯誤地縮放的物體是如何做出反應的。這可能有助於我們確定哪些區域對使我們看漏被錯誤放大的物體有影響。」

論文：Humans, but Not Deep Neural Networks, Often Miss Giant Targets in Scenes

UCSB研究發現計算機與人類視覺差異，用人眼搜索策略提升計算機視覺

摘要：

即使機器視覺方面取得了巨大的進步，仍然無法比得上動物在複雜場景的視覺搜索方面的能力。動物，從蜜蜂、鳥類到人類，他們學習視覺環境中的統計關係，並利用來指導和幫助他們尋找目標。在這個研究里，我們調查了人類利用來快速獲取有關場景的信息的一種新方式，即利用目標物體的一般大小來指導搜索。我們發現，當物體的大小與場景的其餘部分格格不入時，他們往往會忽略該目標。即使目標變得更大、更突出，觀察者即使盯著目標也無法察覺。相反，我們發現，最先進的深度神經網路在搜索大小不一致的目標時不會表現出這樣的缺陷，但與人類不同的是，它們會被目標形狀的干擾所迷惑。因此，當目標物體與場景的大小不一致時，看漏了目標並不是人類的缺陷；相反，它是一種有用的策略的副產品，即大腦能夠快速減少潛在的干擾物的影響。

原文：http://www.kurzweilai.net/human-vs-deep-neural-network-performance-in-object-recognition

【掃一掃或點擊閱讀原文搶購五折「早鳥票」】

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※功成身退：Yoshua Bengio宣布即將終止Theano的開發和維護
※前IBM Watson首席科學家周伯文博士加盟京東擔綱人工智慧平台研發
※「雙節長假開啟」Hired軟體工程師薪酬報告：美國年輕人更願意做合同工
※創業公司如何宣布融資，才能有效增加知名度並吸引人才？
※「深度」中國頂級AI Lab探訪：今日頭條、訊飛、阿里、騰訊、姚班都在做什麼

TAG:新智元 |