當前位置:
首頁 > 新聞 > 用0.046%的訓練樣本超越2013 Kaggle貓狗識別競賽領先水平

用0.046%的訓練樣本超越2013 Kaggle貓狗識別競賽領先水平

一個大學學了一年半社會學然後輟學、自學編程的傢伙,用6張圖作為訓練樣本,超過了4年前Kaggle貓狗識別競賽的優勝者。

新智元編譯

來源:medium.com

作者:Radek

編譯:neko

【新智元導讀】2013年,Kaggle舉辦過一個很受歡迎的貓狗識別競賽(Dogs vs. Cats),比賽內容是識別圖像中的是貓還是狗。當時獲勝的準確率是82.7%,使用13000張圖像進行訓練,使用25000張圖像訓練取得98.914%的準確率。本文作者僅使用6張圖像作為訓練樣本,取得89.97%的準確率。

GitHub:https://github.com/radekosmulski/dogs_vs_cats

2013年,Kaggle舉辦過一個很受歡迎的貓狗識別競賽(Dogs vs. Cats)。比賽的目標是訓練一種能夠檢測圖像中是否包含貓或者狗的演算法。

當時,正如比賽官網宣布的,在使用13000張貓和狗的圖像進行訓練後,最先進的演算法分辨貓狗的準確率是82.7%。

我的結果

我應用了遷移學習的方法,這是一種訓練模型完成其他類似任務,然後重新訓練它來完成當前的任務的技術。

我微調了一個VGG19模型,使用6張隨機選擇的圖像(如下圖):

在經過41 epochs的訓練後,我的模型達到了89.97%的準確率。驗證集大小是24994。

你可以在我的GitHub倉庫找到所需要的所有東西來重現這個實驗:https://github.com/radekosmulski/dogs_vs_cats

這個結果是完全出乎意料的。我所使用的技術在fast.ai的「Practical Deep Learning for Coders」課程的第一節課就被介紹過,在課程提供的Jupyter筆記中,它需要7行代碼來執行遷移學習。

這意味著,任何會在電腦上移動文件的人都能夠學會將這一前沿技術應用到他們選擇的問題上。醫學診斷、異常檢測、圖像識別的工業應用,等等。是的,你仍然需要一些數據,你也需要對監督學習是什麼以及它的工作原理有一些高層次的理解。但所需要的也就這麼些。

小結

結果令人吃驚。我沒有應用數據增強(data augmentation),也不需要調整學習率,也不用擔心正則化。我甚至沒有測試不同的架構——這就是我嘗試的第一個架構。

是的,有人可能會說,從照片中將貓和狗辨別出來並非什麼艱深的科學。但我得提醒你,人類在40年前就已登上月球,但40年後的今天我們仍然無法告訴計算機如何執行這個看似簡單的任務,將準確率提高到85%以上。是的,我選擇拿來微調的這個模型本是訓練來執行視覺識別任務的,並且表現出色。

但是請稍等一下,請再閱讀一下這篇文章的前兩段。我打破了4年前這個任務上最先進的結果,並且毫不費力。我在雲上運行一台超級計算機,費用為每小時約0.2美元(這是我付給Amazon租虛擬機的費用)。這是非常意義重大的。

這表明,今天的深度學習應用的局限不再是由技術驅動的——我們已經擁有所需的硬體和軟體。是的,對於某些任務,我們需要更快的處理器,或者更多數據,或者更好的演算法。但是,今天深度學習存在非常大的尚待被發現的應用範圍,而限制因素是該項技術相關知識傳播的速度。

以上來自一個在大學主修一年半社會學後輟學,自學編程但絕不是一個編程大師的人,只花了一個下午的時間的工作突破了4年前的最先進的結果,並且使用的數據只有它的2166分之一。那麼我提出的問題是:你將應用這項技術來做什麼讓世界變得更好的工作?

PS. Phillipe Golle 的 Machine Learning Attacks Against the Asirra CAPTCHA 這篇論文是2013年的state-of-the-art的解決方案,論文:http://xenon.stanford.edu/~pgolle/papers/dogcat.pdf

PS. 2 Kaggle貓狗識別競賽的優勝者準確率達到98.914%,在用25000張圖像仔細訓練一個機器學習系統後取得。

原文:https://medium.com/@radekosmulski/can-we-beat-the-state-of-the-art-from-2013-with-only-0-046-of-training-examples-yes-we-can-18be24b8615f

【號外】新智元正在進行新一輪招聘,飛往智能宇宙的最美飛船,還有N個座位

點擊閱讀原文可查看職位詳情,期待你的加入~

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

9月機器學習文章Top10:星際2、Dota2皆入選,ML教程居榜首
一文讀懂AI發展史里程碑事件
「闢謠」AMD晶元製造商否認與特斯拉合作開發無人車AI晶元
「Nature重磅」清華段路明組發現深度學習和量子物理重要關聯

TAG:新智元 |