白翔：基於合成數據的場景文本深度表示方法

最新 03-23

AIDL簡介

「人工智慧前沿講習班」(AIDL)由中國人工智慧學會主辦，旨在短時間內集中學習某一領域的基礎理論、最新進展和落地方向，並促進產、學、研相關從業人員的相互交流。對於碩士、博士、青年教師、企事業單位相關從業者，預期轉行AI領域的愛好者均具有重要的意義。2018年AIDL活動正在籌備，敬請關注獲取最新消息。

導讀

在中國人工智慧學會舉辦的第一屆《人工智慧前沿講習班》上，華中科技大學白翔老師做了題為《看圖識字：基於合成數據的場景文本深度表示方法》的報告。報告介紹了基於合成數據的場景文本識別及其實際應用，並在白翔老師相關工作的基礎上進行了深入討論。本文根據白翔老師當日的報告內容整理髮布，對於相關領域的研究工作具有長期價值。本報告經白翔老師審定，詳細內容可參考白翔老師在icdar大會發言PPT。

「關注本公眾號，回復「白翔」，獲取完整版PPT」

講師簡介

白翔，華中科技大學電子信息與通信學院教授，博導，國家自然科學基金優秀青年基金，萬人計劃青年拔尖人才入選者，現任國家防偽工程技術研究中心副主任。他的主要研究領域為計算機視覺與模式識別、深度學習，具體包括目標識別、形狀分析、場景文字檢測與識別及智能交通系統。他已在計算機視覺與模式識別領域一流國際期刊和會議如PAMI、IJCV、CVPR、ICCV、ECCV、NIPS、ICML上發表論文40篇，擔任期刊PatternRecognition, Pattern Recognition Letters, Neurocomputing, Frontier of ComputerScience, 自動化學報編委, JCST客座編委。曾擔任IJCAI、ICPR、ACCV、ICIP等主流國際會議的領域主席/資深技術程序委員或競賽主席，應邀給ICDAR 2017做大會特邀報告。尤其在形狀的匹配與檢索、相似性度量與融合、場景OCR取得了一系列重要研究成果，引起了國際同行的關注，入選2014-2017年中國高被引學者。他是視覺與學習青年學者研討會(VALSE)指導委員，是VALSE在線活動(VALSE Webinar)主要發起人之一。

一、文本識別領域研究現狀

目前的文字識別主要有兩方面的研究。首先是傳統的文字識別，也就是文檔中的文字識別，主要是OCR技術，其技術已經比較成熟，效果也比較穩定。另一方面是基於場景的文字識別，也就是圖片中的文字識別，即將圖片里的文字轉化成人類可以理解的語言。這個過程需要實現以下目標：獲得圖片中文字出現的位置，包括文本的起始位置、結束位置和上下高度；將所在位置的圖片所包含的文本數據轉化成人們可以理解的信息。這整個過程就是文字識別。

深度學習之所以能夠比較成功地運用於場景理解，是因為擁有一個含有大量文字標註的數據集。但是將訓練好的模型直接應用在文字識別上是行不通的，關鍵的問題在於文字和一般的場景物體相比具有特殊性。用傳統的數據集來訓練文字並不可行，文字標註也非常困難，因為文字形狀的變化、顏色的變化、空間位置的變化難以完全預料。如何解決上述問題呢？答案就是合成數據。所謂合成數據，就是在一張圖片中的某些區域添加文本，並加以不同的變化，比如字體的變化、顏色的變化、位置的變化等等。將通過上述方法得到的合成數據作為數據集，就可以訓練一個網路。這樣做的效果可能不好，但是可以通過其他方法進行改善。

二、TextBoxes：基於神經網路的文本檢測

如報告開始所述，文本識別需要完成兩個任務，一個任務是檢測文字所在區域(Scene Text Detection)，另外一個任務是對文本區域進行識別(Scene Text Recognition)。本篇論文將重點集中於第一個任務。

在這項工作中，檢測任務的訓練集有80萬張圖片，識別任務的訓練集有900萬個合成數據。訓練好的模型在ICDAR場景下的檢測識別精度可以達到90%以上，是目前最好的結果。文章提出的網路達到了這樣的目標：模型能夠直接產生文字包，並判斷文字包中是否確實含有文字，如果沒有就將該文字包捨去。

在TextBoxes網路中，每一層都會計算相應的卷積，並計算其響應及判別，在最後會將所有監督信息融合在一起，得到相應結果。得到的結果需要進行非極大值抑制處理以捨棄重複結果。在網路初始化過程中，需要按照一定的技巧設定default box，以把文字更好地呈現出來。另外一個重點是卷積核的設置，一般的卷積核是正方形形狀的，但是在文字之中，卷積核的長應大於寬。通過以上技巧可以使網路效果提高非常多。

下圖是一些實例，可以看到詞間空隙，字體變化，光照變化，複雜背景等情況都能有效識別。這裡有一個很重要的技巧，就是即使在檢測的時候出現錯誤也沒有關係，因為可以用最後識別的結果把一些錯誤去除。這是因為文字的特性跟一般問題不同，它輸出的是一個序列，其正確結果惟一。如果結果是一個合理的單詞，就可以把它作為一個正確的結果，否則就可以把它作為一個錯誤的結果去掉。

結合了檢測任務和識別任務以後的結果分為Spotting和Recognition兩部分。Spotting僅僅關注能否儘可能精確地定位文本框，而end-to-end Recognition不僅要看文本檢測的效果，而且要看識別的結果是否正確。TextBoxes的所有指標都領先於其他演算法。

三、CRNN：端到端的場景文本識別

上述工作主要介紹了文本檢測的相關工作，並沒有涉及到文本識別的內容。下面介紹文本識別的相關工作：CRNN。CRNN的構成借鑒了語音識別里的遞歸神經網路(RNN)。在RNN中，如果輸入一個序列，比如一段字元串或一段語音，會得到上下文相關的建模，而文字也可以類似地看待。但是檢測到的文字區域本身還是圖像，所以需要進行特徵提取轉化成序列。將所得序列交給遞歸神經網路，最後轉化成可理解單詞，如英文字元或數字。這麼看就非常地簡單和直接， RNN這個模型做了兩件事情，一個是判定上下文的關係，另外一個是序列的輸出。

圖中的50/1k表示字典大小，none表示沒有字典。顯然有字典的時候結果更好，沒有字典效果差些，但也很不錯。總體來說CRNN比傳統的方法以及其他深度學習演算法都要優越。

需要注意的是，在不同字體，特殊字元，模糊文本以及有陰影的情況下，如果用傳統方法來做識別，還是很困難的，但是由神經網路來做，都可以做的很好。這說明神經網路對變化的文字信號有非常好的識別效果，能給很多識別任務的性能帶來明顯的提升，因此可以滿足一些實際需求，這也是為什麼很多企業把文字識別作為重點研究方向的一個原因。另外還有一些識別錯誤的情況，但是如果人眼都看不清楚，也不能強神經網路所難。

CRNN方法的一些性能是值得注意的。首先訓練CRNN不需要對文字字元進行切割，另外字典不是必須的——儘管有字典的時候切割效果會好一點，此外CRNN的模型與傳統的神經網路相比要小得多。

四、魯棒的場景文本識別

神經網路對有形變的文字的處理效果並不好，如果在其前面加一個形變糾正演算法，使文字變成理想的樣子，效果一定會有提升。那要怎麼實現呢？首先網路模型要有文本切割能力，可以把非水平方向的文字進行切割；另外要有方向變化能力，可以把寬度不一致的文字變得平衡一點；最後要有取平能力，可以將有弧度的文字拉平直。

當訓練好的模型做識別任務時，發現常規情況下的改善並不明顯，這是因為這些圖片還是比較好的，無法體現糾正演算法的有效性。如果將數據集更改為兩個專門做圖像變化的和取形變化的數據集，會發現其效果明顯優於已有方法。

五、文本識別在不同場景下的應用

純粹的文字識別應用範圍並不廣泛，但是如果將文字作為線索，就可以應用在不同的場景。圖片中的房子如果單看外形難以確定其用途，但是如果有文字信息，就不是什麼難事了。再比如，所有的網路圖片、視頻都會有標籤，如果將標籤與場景結合，是可以分析出很多有效的東西。所以從很多方面看，文字識別都是一個趨勢。但是目前做場景的人遠多於做文字識別的人，如果把這兩個相結合，會有更大的突破。總而言之，多特徵融合是大的趨勢，把文本特徵和圖像特徵這兩個特徵不同的表達融合在一起，圖像和文字都能發揮很大的作用，這裡面還有很多東西值得探索。

對於低質量的視頻圖像怎麼去做識別、檢索、理解，也是需要討論的。實際應用中會遇到很差的視頻或圖像，在這種情況下如何去識別，也是研究的趨勢。這就是為什麼圖象識別準確率這麼高，但是實際應用不多的原因：實際情況相當複雜。

下面結合具體的示例來介紹文本識別的一些應用。

1、以圖搜題

以圖搜題的目標是根據圖片中的文字，將題庫中匹配的題目找出來。相關公司的演算法識別度已經很高。為什麼他們可以做的很好呢？因為他做的是剛需，人人都能應用，他的用戶是穩定的。

2、號碼牌檢測

一次馬拉松比賽可以獲得十幾萬張圖片，要從這麼多照片里找到包含特定參賽者的照片，是很困難的。如果人工識別，需要耗費很長的時間，但是如果將照片上傳到伺服器，通過深度學習進行分類，就不那麼困難了。另外如果需要在比賽過程中定位一個人，根據人臉去尋找是相對較難的，因為人臉是有表情變化的，身體姿態也在不斷的變化，但是如果按照號碼牌來尋找就比較簡單了。