當前位置:
首頁 > 新聞 > 基於GAN的驗證碼識別工具,0.5秒宣告驗證碼死刑!

基於GAN的驗證碼識別工具,0.5秒宣告驗證碼死刑!

新智元報道

來源:digitaltrends

編輯:大明

【新智元導讀】在網上如何區別機器人和真人?目前基本還是要靠驗證碼, 目前已經用了近20年,但這招以後可能不管用了!中英兩國研究人員聯合開發了一套基於GAN的驗證碼AI識別系統,能在0.5秒之內識別出驗證碼,從 實際測試結果看,可以說宣布了對驗證碼的「死刑判決」。

在互聯網上進行交流時,你如何證明自己是活生生的真人?

這是一個比較棘手的問題,多年來,這個問題的解決方案一直就是「驗證碼」,就是看看你能夠能成功識別一系列機器無法識別的扭曲字元。這類安全驗證工具被稱為「CAPTCHA」(即「全自動區分機器和人類公共圖靈測試」)。

驗證碼被廣泛用於垃圾郵件過濾、在社交網路上,識別並防止機器人賬號發布冒充真人的內容(這些內容很可能包含垃圾或欺詐信息)。在過去的20多年裡,雖然有過波折,但總體上看,用驗證碼解決這類問題是管用的。

但現在,情況可能發生了變化。

近日,英國蘭卡斯特大學、中國西北大學、北京大學的計算機科學家們共同開發了一種AI系統,能夠在短短0.5秒內識別出多種驗證碼。該系統已在不同的33個驗證碼系統中進行了成功測試,其中11個來自世界上最受歡迎的一些網站,包括eBay和維基百科等。

該研究的發起人之一、蘭卡斯特大學計算與通信學院副教授Zheng Wang表示:這項研究可能會對文本式驗證碼文本做出「死刑判決」。

這項研究基於深度神經網路的圖像分類器。深度神經網路在圖像識別方面表現出驚人的性能。但是,要構建成功的模型,通常需要數百萬個手動標記的圖像才能實現順利學習。這項最新成果的新穎之處在於,它使用生成對抗網路(GAN)來創建訓練數據。

圖中數據為該系統與現行識別器對各網站驗證碼識別準確率的對比,可以看到,大部分測試中的成功識別率都得到了大幅度提升

這套系統不需要收集和標記數以百萬計的驗證碼文本數據,只需要500組數據就可以成功學習。而且可以使用這些數據,來生成數百萬甚至數十億的合成訓練數據,建立高性能的圖像分類器。結果顯示,該系統比迄今為止所見的任何驗證碼識別器系統的識別精度都高。

這種方法對於需要大量訓練數據的任何圖像識別任務都是有用的。然而,驗證碼識別在某種程度上是獨一無二的,因為這類任務本身處在不斷發展和變化的狀態中。

與真人識別結果的準確率對比情況以及可用性評分。可以看到,第一項的模型表現達到100%識別,超過了真人

早期基於文本的驗證碼(如本文縮略圖所示)是該技術的第一次迭代。但是,到目前為止,我們可能更習慣於使用範圍更廣的、基於交通標誌的驗證碼。

這種不斷變化的狀態,讓面向驗證碼識別的訓練數據的收集成為一個棘手的任務。(相比之下,學習識別一隻狗就不存在這個問題,因為狗的一生中其外觀形態不會發生大的變化),

研究人員表示:「也就是說,當我們最終收集到足夠的訓練數據時,驗證碼的形式可能快要(或已經)發生變化了,這些變化可能會讓之前收集的數據完全無用。

我們的研究成果提供了一種以更低的成本構建驗證碼識別器的新方法。因此,它對現有的驗證碼體系構成了真正的威脅,因為它可以以更快的速度地學習驗證碼的解算器。「

參考鏈接:

https://www.digitaltrends.com/cool-tech/ai-cracks-captcha-05-seconds/

論文地址:

http://www.lancaster.ac.uk/staff/wangz3/publications/ccs18.pdf

【加入社群】

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號:aiera2015_2入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「大咖面對面」AI大牛陶大程、趙明國帶你走進機器人的新紀元
谷歌NeurIPS 2018論文:GAN生成3D模型,圖像自帶逼真效果

TAG:新智元 |