當前位置:
首頁 > 最新 > 白翔:基於合成數據的場景文本深度表示方法

白翔:基於合成數據的場景文本深度表示方法

AIDL簡介

「人工智慧前沿講習班」(AIDL)由中國人工智慧學會主辦,旨在短時間內集中學習某一領域的基礎理論、最新進展和落地方向,並促進產、學、研相關從業人員的相互交流。對於碩士、博士、青年教師、企事業單位相關從業者,預期轉行AI領域的愛好者均具有重要的意義。2018年AIDL活動正在籌備,敬請關注獲取最新消息。

導讀

在中國人工智慧學會舉辦的第一屆《人工智慧前沿講習班》上,華中科技大學白翔老師做了題為《看圖識字:基於合成數據的場景文本深度表示方法》的報告。報告介紹了基於合成數據的場景文本識別及其實際應用,並在白翔老師相關工作的基礎上進行了深入討論。本文根據白翔老師當日的報告內容整理髮布,對於相關領域的研究工作具有長期價值。本報告經白翔老師審定,詳細內容可參考白翔老師在icdar大會發言PPT。

「關注本公眾號,回復「白翔」,獲取完整版PPT」

講師簡介

白翔,華中科技大學電子信息與通信學院教授,博導,國家自然科學基金優秀青年基金,萬人計劃青年拔尖人才入選者,現任國家防偽工程技術研究中心副主任。他的主要研究領域為計算機視覺與模式識別、深度學習,具體包括目標識別、形狀分析、場景文字檢測與識別及智能交通系統。他已在計算機視覺與模式識別領域一流國際期刊和會議如PAMI、IJCV、CVPR、ICCV、ECCV、NIPS、ICML上發表論文40篇,擔任期刊PatternRecognition, Pattern Recognition Letters, Neurocomputing, Frontier of ComputerScience, 自動化學報編委, JCST客座編委。曾擔任IJCAI、ICPR、ACCV、ICIP等主流國際會議的領域主席/資深技術程序委員或競賽主席,應邀給ICDAR 2017做大會特邀報告。尤其在形狀的匹配與檢索、相似性度量與融合、場景OCR取得了一系列重要研究成果,引起了國際同行的關注,入選2014-2017年中國高被引學者。他是視覺與學習青年學者研討會(VALSE)指導委員,是VALSE在線活動(VALSE Webinar)主要發起人之一。

一、文本識別領域研究現狀

目前的文字識別主要有兩方面的研究。首先是傳統的文字識別,也就是文檔中的文字識別,主要是OCR技術,其技術已經比較成熟,效果也比較穩定。另一方面是基於場景的文字識別,也就是圖片中的文字識別,即將圖片里的文字轉化成人類可以理解的語言。這個過程需要實現以下目標:獲得圖片中文字出現的位置,包括文本的起始位置、結束位置和上下高度;將所在位置的圖片所包含的文本數據轉化成人們可以理解的信息。這整個過程就是文字識別。

深度學習之所以能夠比較成功地運用於場景理解,是因為擁有一個含有大量文字標註的數據集。但是將訓練好的模型直接應用在文字識別上是行不通的,關鍵的問題在於文字和一般的場景物體相比具有特殊性。用傳統的數據集來訓練文字並不可行,文字標註也非常困難,因為文字形狀的變化、顏色的變化、空間位置的變化難以完全預料。如何解決上述問題呢?答案就是合成數據。所謂合成數據,就是在一張圖片中的某些區域添加文本,並加以不同的變化,比如字體的變化、顏色的變化、位置的變化等等。將通過上述方法得到的合成數據作為數據集,就可以訓練一個網路。這樣做的效果可能不好,但是可以通過其他方法進行改善。

二、TextBoxes:基於神經網路的文本檢測

如報告開始所述,文本識別需要完成兩個任務,一個任務是檢測文字所在區域(Scene Text Detection),另外一個任務是對文本區域進行識別(Scene Text Recognition)。本篇論文將重點集中於第一個任務。

在這項工作中,檢測任務的訓練集有80萬張圖片,識別任務的訓練集有900萬個合成數據。訓練好的模型在ICDAR場景下的檢測識別精度可以達到90%以上,是目前最好的結果。文章提出的網路達到了這樣的目標:模型能夠直接產生文字包,並判斷文字包中是否確實含有文字,如果沒有就將該文字包捨去。

在TextBoxes網路中,每一層都會計算相應的卷積,並計算其響應及判別,在最後會將所有監督信息融合在一起,得到相應結果。得到的結果需要進行非極大值抑制處理以捨棄重複結果。在網路初始化過程中,需要按照一定的技巧設定default box,以把文字更好地呈現出來。另外一個重點是卷積核的設置,一般的卷積核是正方形形狀的,但是在文字之中,卷積核的長應大於寬。通過以上技巧可以使網路效果提高非常多。

下圖是一些實例,可以看到詞間空隙,字體變化,光照變化,複雜背景等情況都能有效識別。這裡有一個很重要的技巧,就是即使在檢測的時候出現錯誤也沒有關係,因為可以用最後識別的結果把一些錯誤去除。這是因為文字的特性跟一般問題不同,它輸出的是一個序列,其正確結果惟一。如果結果是一個合理的單詞,就可以把它作為一個正確的結果,否則就可以把它作為一個錯誤的結果去掉。

結合了檢測任務和識別任務以後的結果分為Spotting和Recognition兩部分。Spotting僅僅關注能否儘可能精確地定位文本框,而end-to-end Recognition不僅要看文本檢測的效果,而且要看識別的結果是否正確。TextBoxes的所有指標都領先於其他演算法。

三、CRNN: 端到端的場景文本識別

上述工作主要介紹了文本檢測的相關工作,並沒有涉及到文本識別的內容。下面介紹文本識別的相關工作:CRNN。CRNN的構成借鑒了語音識別里的遞歸神經網路(RNN)。在RNN中,如果輸入一個序列,比如一段字元串或一段語音,會得到上下文相關的建模,而文字也可以類似地看待。但是檢測到的文字區域本身還是圖像,所以需要進行特徵提取轉化成序列。將所得序列交給遞歸神經網路,最後轉化成可理解單詞,如英文字元或數字。這麼看就非常地簡單和直接, RNN這個模型做了兩件事情,一個是判定上下文的關係,另外一個是序列的輸出。

圖中的50/1k表示字典大小,none表示沒有字典。顯然有字典的時候結果更好,沒有字典效果差些,但也很不錯。總體來說CRNN比傳統的方法以及其他深度學習演算法都要優越。

需要注意的是,在不同字體,特殊字元,模糊文本以及有陰影的情況下,如果用傳統方法來做識別,還是很困難的,但是由神經網路來做,都可以做的很好。這說明神經網路對變化的文字信號有非常好的識別效果,能給很多識別任務的性能帶來明顯的提升,因此可以滿足一些實際需求,這也是為什麼很多企業把文字識別作為重點研究方向的一個原因。另外還有一些識別錯誤的情況,但是如果人眼都看不清楚,也不能強神經網路所難。

CRNN方法的一些性能是值得注意的。首先訓練CRNN不需要對文字字元進行切割,另外字典不是必須的——儘管有字典的時候切割效果會好一點,此外CRNN的模型與傳統的神經網路相比要小得多。

四、魯棒的場景文本識別

神經網路對有形變的文字的處理效果並不好,如果在其前面加一個形變糾正演算法,使文字變成理想的樣子,效果一定會有提升。那要怎麼實現呢?首先網路模型要有文本切割能力,可以把非水平方向的文字進行切割;另外要有方向變化能力,可以把寬度不一致的文字變得平衡一點;最後要有取平能力,可以將有弧度的文字拉平直。

當訓練好的模型做識別任務時,發現常規情況下的改善並不明顯,這是因為這些圖片還是比較好的,無法體現糾正演算法的有效性。如果將數據集更改為兩個專門做圖像變化的和取形變化的數據集,會發現其效果明顯優於已有方法。

五、文本識別在不同場景下的應用

純粹的文字識別應用範圍並不廣泛,但是如果將文字作為線索,就可以應用在不同的場景。圖片中的房子如果單看外形難以確定其用途,但是如果有文字信息,就不是什麼難事了。再比如,所有的網路圖片、視頻都會有標籤,如果將標籤與場景結合,是可以分析出很多有效的東西。所以從很多方面看,文字識別都是一個趨勢。但是目前做場景的人遠多於做文字識別的人,如果把這兩個相結合,會有更大的突破。總而言之,多特徵融合是大的趨勢,把文本特徵和圖像特徵這兩個特徵不同的表達融合在一起,圖像和文字都能發揮很大的作用,這裡面還有很多東西值得探索。

對於低質量的視頻圖像怎麼去做識別、檢索、理解,也是需要討論的。實際應用中會遇到很差的視頻或圖像,在這種情況下如何去識別,也是研究的趨勢。這就是為什麼圖象識別準確率這麼高,但是實際應用不多的原因:實際情況相當複雜。

下面結合具體的示例來介紹文本識別的一些應用。

1、以圖搜題

以圖搜題的目標是根據圖片中的文字,將題庫中匹配的題目找出來。相關公司的演算法識別度已經很高。為什麼他們可以做的很好呢?因為他做的是剛需,人人都能應用,他的用戶是穩定的。

2、號碼牌檢測

一次馬拉松比賽可以獲得十幾萬張圖片,要從這麼多照片里找到包含特定參賽者的照片,是很困難的。如果人工識別,需要耗費很長的時間,但是如果將照片上傳到伺服器,通過深度學習進行分類,就不那麼困難了。另外如果需要在比賽過程中定位一個人,根據人臉去尋找是相對較難的,因為人臉是有表情變化的,身體姿態也在不斷的變化,但是如果按照號碼牌來尋找就比較簡單了。

六、總結與展望

未來的趨勢是以文字為源頭,把所有通過文字、視頻、圖像得到的任務信息進行整合,然後進行後續的其他任務,比如自然語言處理、輿情分析、圖像理解等等。換句話說,未來的趨勢就是利用多元融合、多元學習完成一個複雜的任務。

Q&A

提問:如果不對圖片中的文本進行切割,怎樣建立序列?怎樣才能預測有多少個字?

白老師:這是一個很好的問題。事實上我們在訓練的時候是把文字縮放到一個高度上,長度不變,從高度上去規劃,所以序列的長度是可以變化的。最後輸出的結果首先是可以克服長度的變化,另外我們的演算法可以把重複識別合併。所以可以允許長度有一定的彈性變化。

提問:現在文本的校正效果是否不是很理想?

白老師:校正還是比較困難的。傳統的校正方法都是處理一些情況還好的圖像,深度學習網路的目標是希望各種情況都能識別出來,並對它進行相應的調整。但是當然我認為當前仍然屬於探索的階段,裡面包含了很多的不確定性。

感謝AIDL志願者邊學偉協助整理!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 人工智慧前沿講習班 的精彩文章:

張宇 楊強:多任務學習概述「全文翻譯」
李航:深度學習與自然語言處理—優勢和挑戰「全文翻譯」

TAG:人工智慧前沿講習班 |