谷歌搜索，智能還是危險？

天下 08-15

記得上個星期，人民日報被刪的那條 Twitter 鬧了不小風波。。

可惜虛晃一槍，什麼也沒有發生，倒是李彥宏的那條朋友圈很有意思~

李總對百度的技術非常有信心，並自認為在中國，憑藉技術和創新方面可以打敗谷歌，並不擔心谷歌入華。

結果轉天就被網友們打臉。。

百度上的「滑嫩」、「鮮嫩」等全是美女圖片，而谷歌上搜索這些內容，出現的則是一些美食等。emmm。。高下立判。。

被爆料後，百度程序猿們加班加點，總算是把大家揪出來的敏感辭彙處理了。

可是，今天發生的一件事，讓差評君意識到，不僅僅是搜索演算法，谷歌在另外一個方面早就超過了百度。。

下午差評君在調查黑產，用百度搜索了一個 QQ 號，網頁版的內容基本就是胡亂湊的，而圖片搜索空空如也，什麼結果也沒有。。

不死心的差評君又用谷歌試了一下，結果。。

給你們看一下大圖。。

居然真的把差評君想要的搜索了出來，而且，因為這個 QQ 涉及黑產，所以騙子只把它放在圖片里，並沒有放到網頁上。

也就是說，Google 現在已經開始對互聯網上的圖片文本做了識別提取，並建立索引！

在我們的印象中，搜索引擎一般會基於圖片旁邊的文字描述給圖片打標籤，或者利用神經網路識別圖片上的物體，並不會掃描讀取圖片上的文本內容。

用神經網路給圖片分類

所以很多時候你搜索圖片上的文本，搜索引擎不會給你返回正確結果。

不知道什麼時候，谷歌已經偷摸給自己的搜索引擎升了個級！？

為了看一下谷歌的圖片識別文本已經達到什麼程度，差評君開啟了瘋狂驗證模式。。

首先，要驗證下，是不是圖片上數字都可以被識別出來~

Emmm，先搞一個身份證號搜索看看。這個是百度的結果：

再用谷歌搜索一下？

額。。有沒有感到一絲絲害怕？！想想自己有沒有曾經在網上上傳過身份證照片？如果被泄露到互聯網上，可以直接通過身份證號獲得身份證圖片，這後果有點嚴重。。

差評君借用了一個小夥伴的身份證前幾位，分別在百度和谷歌上搜索「 1201031993 」，百度依然什麼也搜不出來，而谷歌返回了一堆結果。

這些圖片上無一例外的有 1201031993 這幾個數字。。

令差評君意外的是，谷歌在對圖片文本提取時，已經不僅僅是用的最簡單最基礎的圖像識別。

像上面第二張圖片中那幾個數字是豎過來，但谷歌依舊識別正確，說明谷歌的識別演算法會自動匹配文本的旋轉角度。。

如果不是純數字，帶上英文呢？只在圖片上有，網頁上沒有出現過的文本還真不好找，最後差評君試了個汽車圖片，把車牌號「 A·K8896 」搜了一下。。

嗯，百度出來的都是八竿子打不著的圖片，正常。

那。谷歌呢。。？

大家也可以試試自家的車牌能不能被搜到

給，這是差評君十年份的膝蓋，請收下。。

這張圖片正是差評君隨機找的一張汽車圖片，谷歌這項技術，連隱藏在車身下不那麼明顯的車牌號都揪了出來，夠強大。。

最後一個問題，谷歌能不能識別圖片中的中文？

經過試驗，還好還好，中文目前還是谷歌圖片未攻克的堡壘，目前看來，谷歌只對圖片中的字母和數字進行了識別。

搜索了文中第一個例子中圖片的中文，

沒有返回該圖片

不過差評君好奇的是，谷歌搜索引擎是什麼時候開始識別圖片文本的？

谷歌沒有給出過官方消息，相關的討論也寥寥無幾，2016 年的時候谷歌的大佬還否認過谷歌在識別圖片文本。

不過在去年 7 月的時候，有一個博客主跟差評君有相似的發現，所以至少去年穀歌就已經偷偷升了級~

其實，谷歌很早就積累了圖片的文本識別相關技術—— OCR （光學字元識別）。

這個技術本身並不難，最早谷歌將 OCR 應用在書籍掃描轉換文本上，這樣只要你搜索書中的一句話，它就能推給你正確的書籍。

谷歌解析圖片文本的專利

現在，谷歌已經將這項技術應用在互聯網的所有圖片上。

差評君之所以感到驚訝，是因為我們每天要產生大量圖片，光在 Facebook 和 Instagram 上每天就產生近 4 億張圖片，微博上每天產生1.5 億張圖片，保守估計互聯網上每天要多出 8 億圖片。

而谷歌對每張圖片都進行 OCR 演算法處理，獲取裡面的文本信息，這是一項海量的工程，消耗太大了。。但谷歌還是做到了。。

Google 實時翻譯也是用的 OCR 技術

這樣大大提高了大家使用搜索引擎的效率，讓大家更容易找到自己想要的結果~

不過在以前，正是因為大家默認搜索不出圖片上的文本，才會放心的把一些資料保存成圖片放到網上。

現在隨著這項技術的成熟，恐怕圖片也不再保險。。誰能想到一個身份證號，就把身份證圖片都搜出來了呢？

如何兼顧技術和隱私，恐怕未來需要谷歌好好處理一下~

圖片來源

1. 新視角，李明明

2. 北美留學生日報

3-5、7-15. 差評

6. damon

16. Techgyst

參考資料

1.《用谷歌和百度同時搜索「鮮嫩、滑嫩、胸膜」等詞後…李彥宏贏了》，北美留學生日報

2.《 Google: No, We Don"t Understand Text In Images 》，Barry Schwartz

3.《 How Much Data Do We Create Every Day? The Mind-Blowing Stats Everyone Should Read 》，Bernard Marr

4.《Does Google Read Text in Images? NEW Evidence Says Yes!》，Steve Toth

5.《互聯網上一天產生的流量，到底有多少？》，財經頭條

「嚇得我趕緊把微博裡面的圖片都刪了。。」

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自差評的精彩文章:

※今日最佳：「殭屍」天氣該如何應對？

TAG:差評 |