歷經近一個世紀的OCR技術如今怎麼樣了？

科技 04-05

自從阿蘭·圖靈（Alan Turing）提出了圖靈測試為我們劈開了一條人工智慧的道路後，人們就沒有停止對其的追逐，從 1956年的達特茅斯會議一眾先驅討論關於人工智慧的種種可能性後，人工智慧從符號主義到連接主義，再到這幾年基於互聯網大數據的機器學習，這期間衍生出很多種技術，而有些技術時至今日還在業界有著廣泛應用。

OCR（Optical Character Recognition，光學字元識別）的概念早在 1929年由德國科學家 Tausheck提出來，一直是模式識別領域中重要的研究方向。

同時，這三次 AI技術浪潮中，有無數人投身其中，又有無數人在每次的低潮期原則轉型，然而有那麼一小部分人，從第二次的技術浪潮堅持到了本次的第三次人工智慧浪潮。這個世界從不缺少追趕風口的人，但永遠缺少在一個行業持續做十年，甚至二十年的人。

張睿，我們本次文章的主人公，在 1996年期間就開始從事 OCR相關的工作，在這個領域有二十多年的研究經驗，在清華大學讀博期間，師從我國著名圖像處理，文字處理專家，「模式識別統一熵理論」的提出人，丁曉青教授。

首先，我們來看看，什麼是 OCR技術，如果說 OCR技術你不熟悉，那麼下面的這些應用場景你肯定都特別熟悉，比如當你用微信添加銀行卡的時，只要用攝像頭掃一掃就可以自動添加銀行卡，剩去手動輸入的麻煩，而對於銀行，金融的從業人員來說，以往大量的票據需要手動錄入，但是利用 OCR技術，可以快速的完成文檔的數字化工作。

總結起來，OCR 應用場景主要分為以下幾類：

卡證識別包括：身份證識別、銀行卡識別、駕駛證識別、行駛證識別、港澳通行證識別、戶口薄識別等；

固定表單識別包括：增值稅發票識別、支票識別、承兌匯票識別、銀行票據識別、營業執照識別；

其他識別包括：二維碼識別、一維碼識別、車牌識別、數學公式識別、豬肉打碼識別等。

作為橫跨兩次人工智慧技術浪潮的人，在談及 OCR技術時，張睿老師坦言，一般來說，OCR技術一般分為兩個大步驟，圖像處理和文字識別，在對文字進行識別之前，我們要對原始圖片進行預處理，以便後續的特徵提取和學習。這個過程通常包含：灰度化、二值化、降噪、傾斜矯正、文字切分等子步驟。預處理完畢後，就到了文字識別的階段，首先是對文字進行特徵的抽取以及降維，特徵是用來識別文字的關鍵信息，每個不同的文字都能通過特徵來和其他文字進行區分。然後就是丟給分類器設計和訓練，對一個文字圖像，提取出特徵，丟給分類器，分類器就對其進行分類，告訴你這個特徵該識別成哪個文字。後面，還要利用自然語言處理的相關技術對分類器的結果進行優化。

在互聯網的任何行業中，可以說都在用 OCR技術在解決相關問題，這其中百度應該算是最早的一批利用 OCR技術的互聯網公司了，例如百度 app的拍照識別，甚至貼吧中，都有用到 OCR技術，百度視覺技術部下屬的 OCR團隊組建於 2011年，經過多年的研發，目前已經將基於深度學習的 OCR技術應用在多個應用場景下，支持中、英、日、韓、葡、德、法、意、西、俄等十國語言。而張睿老師也是最早進入百度 OCR團隊的人之一，早在 2010年，張睿老師由現任百度副總裁，AI技術平台體系 (AIG)總負責人，百度研究院院長，王海峰博士直接招入加入百度。後來輾轉來到美團擔任研究員，繼續從事 OCR技術方面的研究。

OCR技術發展多年來，從應用場景來看，已經在圖像識別，身份證識別，包括銀行保險的票據等方面都有應用，從技術層面來看，早先的傳統文字識別手法基本都採用基於模板匹配的方式，對特徵描述要求非常苛刻，很難滿足複雜場景下的識別任務。而自從第三次人工智慧浪潮興起，在演算法以及算力都有大幅度突破的情況下，深度學習拋棄了傳統人工設計特徵的方式，利用海量標定樣本數據以及大規模 GPU集群的優勢讓機器自動學習特徵和模型參數，能一定程度上彌補底層特徵與高層語義之間的不足。就在最近這幾年，基於深度學習的圖像識別達到了前所未有的高度，這也讓 OCR技術有了廣闊的場景。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 InfoQ 的精彩文章:

※技術大佬們的辦公區，了解一下？
※左耳朵耗子：聊聊分散式系統的認知故障和彈力設計

TAG:InfoQ |