當前位置:
首頁 > 科技 > 歷經近一個世紀的OCR技術如今怎麼樣了?

歷經近一個世紀的OCR技術如今怎麼樣了?

自從阿蘭·圖靈(Alan Turing)提出了圖靈測試為我們劈開了一條人工智慧的道路後,人們就沒有停止對其的追逐,從 1956年的達特茅斯會議一眾先驅討論關於人工智慧的種種可能性後,人工智慧從符號主義到連接主義,再到這幾年基於互聯網大數據的機器學習,這期間衍生出很多種技術,而有些技術時至今日還在業界有著廣泛應用。

OCR(Optical Character Recognition,光學字元識別)的概念早在 1929年由德國科學家 Tausheck提出來,一直是模式識別領域中重要的研究方向。

同時,這三次 AI技術浪潮中,有無數人投身其中,又有無數人在每次的低潮期原則轉型,然而有那麼一小部分人,從第二次的技術浪潮堅持到了本次的第三次人工智慧浪潮。這個世界從不缺少追趕風口的人,但永遠缺少在一個行業持續做十年,甚至二十年的人。

張睿,我們本次文章的主人公,在 1996年期間就開始從事 OCR相關的工作,在這個領域有二十多年的研究經驗,在清華大學讀博期間,師從我國著名圖像處理,文字處理專家,「模式識別統一熵理論」的提出人,丁曉青教授。

首先,我們來看看,什麼是 OCR技術,如果說 OCR技術你不熟悉,那麼下面的這些應用場景你肯定都特別熟悉,比如當你用微信添加銀行卡的時,只要用攝像頭掃一掃就可以自動添加銀行卡,剩去手動輸入的麻煩,而對於銀行,金融的從業人員來說,以往大量的票據需要手動錄入,但是利用 OCR技術,可以快速的完成文檔的數字化工作。

總結起來,OCR 應用場景主要分為以下幾類:

卡證識別包括:身份證識別、銀行卡識別、駕駛證識別、行駛證識別、港澳通行證識別、戶口薄識別等;

固定表單識別包括:增值稅發票識別、支票識別、承兌匯票識別、銀行票據識別、營業執照識別;

其他識別包括:二維碼識別、一維碼識別、車牌識別、數學公式識別、豬肉打碼識別等。

作為橫跨兩次人工智慧技術浪潮的人,在談及 OCR技術時,張睿老師坦言,一般來說,OCR技術一般分為兩個大步驟,圖像處理和文字識別,在對文字進行識別之前,我們要對原始圖片進行預處理,以便後續的特徵提取和學習。這個過程通常包含:灰度化、二值化、降噪、傾斜矯正、文字切分等子步驟。預處理完畢後,就到了文字識別的階段,首先是對文字進行特徵的抽取以及降維,特徵是用來識別文字的關鍵信息,每個不同的文字都能通過特徵來和其他文字進行區分。然後就是丟給分類器設計和訓練,對一個文字圖像,提取出特徵,丟給分類器,分類器就對其進行分類,告訴你這個特徵該識別成哪個文字。後面,還要利用自然語言處理的相關技術對分類器的結果進行優化。

在互聯網的任何行業中,可以說都在用 OCR技術在解決相關問題,這其中百度應該算是最早的一批利用 OCR技術的互聯網公司了,例如百度 app的拍照識別,甚至貼吧中,都有用到 OCR技術,百度視覺技術部下屬的 OCR團隊組建於 2011年,經過多年的研發,目前已經將基於深度學習的 OCR技術應用在多個應用場景下,支持中、英、日、韓、葡、德、法、意、西、俄等十國語言。而張睿老師也是最早進入百度 OCR團隊的人之一,早在 2010年,張睿老師由現任百度副總裁,AI技術平台體系 (AIG)總負責人,百度研究院院長,王海峰博士直接招入加入百度。後來輾轉來到美團擔任研究員,繼續從事 OCR技術方面的研究。

OCR技術發展多年來,從應用場景來看,已經在圖像識別,身份證識別,包括銀行保險的票據等方面都有應用,從技術層面來看,早先的傳統文字識別手法基本都採用基於模板匹配的方式,對特徵描述要求非常苛刻,很難滿足複雜場景下的識別任務。而自從第三次人工智慧浪潮興起,在演算法以及算力都有大幅度突破的情況下,深度學習拋棄了傳統人工設計特徵的方式,利用海量標定樣本數據以及大規模 GPU集群的優勢讓機器自動學習特徵和模型參數,能一定程度上彌補底層特徵與高層語義之間的不足。就在最近這幾年,基於深度學習的圖像識別達到了前所未有的高度,這也讓 OCR技術有了廣闊的場景。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 InfoQ 的精彩文章:

技術大佬們的辦公區,了解一下?
左耳朵耗子:聊聊分散式系統的認知故障和彈力設計

TAG:InfoQ |