當前位置:
首頁 > 最新 > 圖像OCR年度進展

圖像OCR年度進展

編者按:

「清風不識字,何事亂翻書。」

早在1929年,德國科學家Tausheck提出了OCR的概念,定義為將印刷體的字元從紙質文檔中識別出來。而技術發展至今,識字,已不再僅限於識別書本上的文字,而是要識別真實世界開放場景中的文字。因此,也衍生出了一系列問題,例如真實環境中文字角度不可控、語種複雜多樣、環境雜訊多變等,針對這些問題,學術界開展了OCR領域研究工作。本文中,來自華中科技大學的白翔教授,將為大家介紹過去一年中,OCR領域的研究進展。

報告從文本檢測,文本識別,端到端識別,還有數據集四個方面展開。

文本檢測方面。首先是去年自動化所發表在ICCV的研究成果。之前的回歸方法大多為計算給定的default box和待要檢測的文本框的offset,而這裡採用的是基於一個像素點回歸的方法,也就是回歸文本框與當前像素點的offset。另一個區別是融合不同層的特徵,通過多任務學習進行文本分割以及文本框的回歸。整體上,他們的工作在場景文字檢測任務上帶來了一定性能上的提升。

另外一個工作是用全卷積網路將文本區域分成三種類型,第一種類型是文本內部區域,第二種類型是背景區域,第三種類型是文字的邊界。這種手段可以較好地應對之前的基於分割的場景文本檢測方法難以區分相鄰的文本實例的問題,從而帶來檢測性能的提升。

上面這項工作的思路相對比較簡單,就是在SSD基礎上加了一個模塊,這個模塊引入了attention的機制即預測text mask,通過文本和非文本的判別讓檢測更加關注到文本區域上。

這是百度的工作,做法也比較直接:通過一個弱監督的框架使用單詞級別的標註來訓練字元檢測器,然後通過結構分析將檢測到的字元組合成單詞。

這篇是我們今年發表在TIP上面的一篇工作。其主要改進點為在去年TextBoxes基礎上增加了額外的兩個分支,其中一個分支被用來回歸文字水平包圍盒,另外一個分支被用來回歸四邊形(表示為4個頂點)。此外,我們還用識別信息來過濾檢測到的候選框,進一步提升檢測結果。

這是我們今年被CVPR接收的一篇文章。其主要思路是:對於文本來說,無論是回歸還是分類,特徵往往是共享的。然而對於場景文本檢測問題來說,特徵共享對於這兩個任務其實是不利的。首先對於文本與背景的分類問題,一般要求特徵具有方向不變性。但是對於回歸出文本的包圍框這個任務,又要求特徵對方向信息是敏感的。因此直接對這兩個任務做特徵分享可能會帶來性能損失。這裡我們採用非常簡單的方法來解決這個問題,就是在應對回歸和分類兩個不同任務時,在回歸部分跟原來一樣,在分類部分中加入oriented response pooling。這個做法可以讓分類特徵具有旋轉不變性,可以更好地關注它是文本還是非文本的問題,方向不帶來額外影響。最後對兩個任務進行多任務學習,可以提高性能,在應對長文本和方向變化比較劇烈的情況,提升尤為顯著。

這篇同樣是我們今年被CVPR接收的一篇場景文本檢測的文章。這項工作主要是為了解決場景文本多方向,長寬比變化較大等場景文本檢測中的難點問題。之前的方法大多採用包圍盒回歸的方法或者文本區域分割的方法去解決上述問題,但是效果並不是特別好。本篇文章用了一個新的思路來解決這個問題,即檢測文本區域的角點,然後通過組合角點的方式得到文本框。因此,我們設計了corner detection,思路是直接檢測文本區域的四個頂點。由於我們是檢測角點,所以首先我們的方法不會受到感受野的影響,其次我們的方法對方向比較魯棒。此外我們還結合了position sensitive segmentation來提供文本區域的位置信息以及文本的實例信息,並使用segmentation map信息為角點組合成的包圍盒進行打分,這比直接計算包圍盒得分更加魯棒。

角點檢測使用的是基於DSSD的方法,此外我們將角點檢測和文本區域的分割在同一個網路框架內實現。

從實驗結果中可以看出用了角點以後檢測性能提升比較明顯。

第二個方面是關於文本識別的進展,進展稍微小一點,因為目前的識別性能已經比較好。

利用attention model去做序列文字識別,可能會因為圖像解析度較低、遮擋、文字間間隔較大等問題而導致attention位置並不是很准,從而造成字元的錯誤識別。海康威視在ICCV2017上提出使用字元像素級別的監督信息使attention更加準確地聚焦在文字區域,從而使識別變得更精準。他們用了部分像素級別的標註,有了類別信息以後做多任務,結果較為精準。並且只要部分字元的標註就可以帶來網路性能的一定提升。

針對有形變或者任意方向文字的識別問題,Cheng等人在CVPR2018上提出了該模型。他們在水平方向之外加了一個豎直方向的雙向LSTM,這樣的話就有從上到下,從下到上,從左到右,從右到左四個方向序列的特徵建模。接下來引入一個權重,該權重用來表示來自不同方向的特徵在識別任務中發揮作用的重要性。這對性能有一定提升,尤其是對任意排列的文字識別。

端到端識別從ICCV2017開始出現了將檢測和識別統一在一個網路框架下的思路。目前來說這種做法訓練起來較為困難。它的主要思路是通過RPN產生一些proposal,然後在後面接上序列識別網路。為了使網路有效,往往需要對檢測和識別模塊分別進行預訓練,預訓練完後再把兩個模塊一起進行進一步訓練。這種方法較為複雜。

其它方法也採用了大同小異的思路,比如去年ICCV的這篇文章,在RPN的基礎上,加入能產生任意方向文字框的proposal,可以做任意方向文字的端到端識別。

這篇CVPR的工作也是大同小異,使用了更好的檢測器EAST,識別部分和訓練過程基本和之前端到端的識別工作類似。

最後我們介紹一些新的數據集。比如說去年icdar比賽中的中文數據集RCTW,以及多語言檢測數據集MLT,同時包含了語種識別和檢測任務。RCTW數據集主要由場景中文文字構成,總共包含了12,034張圖片,其中訓練集8034張,測試集4000張。比賽分為文字檢測和端到端文字識別兩部分。MLT數據集由6個文種共9種語言的文字圖片構成,共18,00張圖片。該比賽包括了文字檢測、語種識別以及文字檢測加語種識別三個任務。

另外是今年華南理工金連文老師提出的比較有意思的數據集,用來探討異常排列、有形變的文字的檢測和識別問題。該數據集共1000張訓練圖片和500張測試圖片,每張圖片包含了至少一個曲行文字樣本。另外,ICDAR2017上也有一個類似的數據集Total-Text,包括了水平方向、多方向以及曲形文字共1555張圖片。

總結一下,通過數據集的演變過程,關於場景文字的研究方法有這樣幾個趨勢:第一,以後檢測和識別端到端進行可能是一個趨勢,但是未必一定把這兩個任務接在一起;第二,處理更難的文字,例如不規則文字,可能也是一個有意思的方向;第三,方法的泛化能力,英文上結果比較好的模型在中文中不一定有效,中英文差別很大,應設計適應多語種的方法來解決這些問題。

參考文獻鏈接:

https://pan.baidu.com/s/10LT47XsUpzBjHu8S9mcy7Q 密碼: k2iv

主編:袁基睿,編輯:程一

整理:曲英男、楊茹茵、高科、高黎明

--end--

該文章屬於「深度學習大講堂」原創,如需要轉載,請聯繫 Emily_0167。

作者簡介:

白翔,華中科技大學電子信息與通信學院教授,博導,國家防偽工程中心副主任。先後於華中科技大學獲得學士、碩士、博士學位。他的主要研究領域為計算機視覺與模式識別、深度學習。尤其在形狀的匹配與檢索、相似性度量與融合、場景OCR取得了一系列重要研究成果,入選2014-17年Elsevier中國高被引學者。他的研究工作曾獲微軟學者,國家自然科學基金優秀青年基金的資助。他擔任VALSE指導委員,IEEE信號處理協會(SPS)武漢Chapter主席;曾擔任VALSE在線委員會(VOOC)主席, VALSE 2016大會主席。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 深度學習大講堂 的精彩文章:

讓機器「答問如流」:從視覺到語言
讓機器「察言作畫」:從語言到視覺

TAG:深度學習大講堂 |