ICPR 2018 上，阿里巴巴舉辦首屆深度學習文本分析與識別研討會

新聞 08-27

雷鋒網 AI 科技評論按，日前，第 24 屆國際模式識別大會 ICPR 2018 在北京國家會議中心召開，這也是其創辦以來第一次在中國內地召開。講者包括南京大學周志華教授，香港科技大學權龍教授，福特汽車公司高級技術主管 K. Venkatesh Prasad，牛津大學 Alison Noble 教授。除了陣容強大的講者，這次會議還包括多個研討會、講習班等，其中不乏中國企業和高校的身影。

會議首日，阿里巴巴「圖像和美」團隊聯手華中科技大學、中科院自動化所共同舉辦首屆 Deep Learning for Document Analysis and Recognition 研討會。此外，阿里巴巴「圖像和美」團隊聯合華南理工大學共同舉辦的 ICPR MTWI 2018 挑戰賽也在當天進行了報告和頒獎，這一挑戰賽基於阿里標註並公開的 MTWI 數據集，這是現有難度最大、內容最豐富的網路圖片 OCR 數據集，也是阿里首個公開的 OCR 數據集。

Deep Learning for Document Analysis and Recognition 研討會主席王永攀目前是阿里巴巴「圖像和美」團隊讀光 OCR 負責人，她對雷鋒網 AI 科技評論表示，舉辦此次研討會的原因有二，「一方面，希望向大家展示阿里在 OCR 上的一系列工作；另一方面，想把阿里關注 OCR 這件事情告訴大家，吸引到更多的學者教授來關注阿里所關注的問題。」

她進一步說道，阿里 OCR 團隊對外發聲並不多，但實際上，在阿里集團內部，讀光 OCR 的應用已經非常廣泛，早在 2016 年，他們就已經實現了大規模的集團內系統。目前，讀光 OCR 在辦公自動化、文檔電子化、數據智能等場景均有應用。

華中科技大學白翔教授也是此次研討會主席，負責部分講者的邀請以及程序上的安排。他的主要研究領域為計算機視覺與模式識別、深度學習，已在相關領域一流國際期刊和會議如 PAMI、IJCV、CVPR、ICCV、ECCV、NIPS、ICML、ICDAR 上發表論文 30 余篇。

對於與阿里攜手舉辦這次研討會的契機，他表示，此前他曾與阿里「圖象和美」團隊進行過一次學術交流，阿里在 OCR 產品落地方面所取得的成績令他印象深刻。「王永攀和阿里巴巴的小夥伴成功將我之前的工作 CRNN 落地於中文識別，在網路文本識別上取得了 90% 以上的驚人識別精度。這在 CRNN 原著論文里也不曾做到。」

但他們雙方都感到 OCR 的實際需求和學術研究之間存在著兩大方面鴻溝：1）現有的公開 OCR 測試集並不能完全反映實際應用裡面臨的一些瓶頸問題；2）工業界一直有在關注學界關於 OCR 的研究進展，但面對面交流的機會太少，影響了 OCR 產業化的進程。

針對以上問題，他們經過多次反覆協商，共同完成了 ICPR 2018 MTWI 挑戰賽和 OCR 學術研討會。「非常高興阿里巴巴起到了表率作用，免費開放一大批數據給學界，並參與組織了一次成功的學術研討會。希望這次成功的嘗試是未來工業界與學術界更加緊密合作的一個良好開端。」白翔如是表示。

這次研討會的報告嘉賓有 IAPR 主席 Simone Marinai 副教授、華南理工大學金連文教授、海得拉巴信息技術國際研究所（IIIT Hyderabad）C.V.Jawahar 教授、碼隆首席科學家黃偉林、阿里高級演算法專家趙華廈、阿里讀光 OCR 負責人王永攀，討論內容涉及文檔圖像分析、端到端識別、信息提取等多個話題。

王永攀表示，希望能和大家一起合作，讓這次研討會發揮實際意義，讓更多 OCR 產品與技術走出去。

研討會特別設立圓桌討論環節，議題是深度學習在 OCR 和 DAR 上的未來發展趨勢。對於這些問題，王永攀、白翔也與雷鋒網 AI 科技評論進行了更進一步的探討。以下為問答環節：

問：文字識別任務場景眾多，例如手寫、場景、文檔，追求端到端統一的解決方案是否可行？是否有必要？

王永攀：在特定場景，端到端的方案是可行的，但可能不是最優解法。端到端的方法看起來比較優雅，但是會導致更大的不確定性，比如可能會導致問題定義不清，網路參數和訓練數據都會劇增。我們也在嘗試一些端到端的方案，端到端的本質是打破演算法之間的壁壘。以文字識別為例，端到端表面上看似乎是去掉了檢測的流程，直接由整圖得到文字內容，實際上這是一個試圖打破檢測和識別壁壘甚至矛盾的過程。在研究者意識到檢測和識別之間有不可調和的矛盾時，當他們試圖解決這個矛盾的過程中，會誕生出很多新的思想和方法。我們覺得在嘗試打破檢測識別壁壘這條道路上走下去是沒問題的，至於最終是不是端到端反而不那麼重要。

深度學習目前取得的突破也得益於數據集的發展，基於此，圓桌討論上也提出如下問題：為了促進學術發展，學術界需要哪些數據集，需要什麼樣的數據集？怎樣才能激勵數據擁有方提供數據？

王永攀：首先，我們認為數據集不僅是數據，構建數據集是一個系統工程，「圖像和美」團隊在《視覺求索》上發表的文章「如何做一個實用的圖像數據集」對數據集的建立有系統的描述：

數據集奠定的技術發展，建立系統的數據集是學術界和工業界共同的話題。

構建一個數據集，首先要考慮數據集的知識價值和應用價值，知識價值有的時候可以理解為學術價值，指的是該數據集是否映射特定的知識點，這些知識點是否值得去研究。應用價值是指數據集能否解決實際需求。其次，從知識價值和應用價值角度出發，才能做好數據收集、標註、標準制定等後續工作。我們所構建的 MTWI 數據集，來源於真實的工業界，側重收集那些具有普適性難點的數據。所以，在我們看來，無論是學術界的數據集還是工業界的數據集都要考慮到對方的需求，不能只看研究知識點，也不能只解決工業應用問題。

未來工業界和學術界要有更多的交流，學術界了解技術落地時遇到的新問題，工業界去學習如何把問題抽象成通用的知識難點。最後說一點，我們應該鼓勵更多的數據持有者貢獻非機密數據，也希望數據使用者能讓數據提供者有知情權，尊重知識產權。

OCR 涉及文字識別與文本理解，與計算機視覺（CV）以及自然語言處理（NLP）緊密相關，那麼CV 和 NLP 該如何結合，兩個領域應該如何建立長效合作？

王永攀：視覺是捕捉信息最常用最直接的方式，而語言是人類對信息進行抽象思維的媒介，對於大量的真實的人工智慧應用來說，兩者是密不可分的前後步驟。文字識別和文檔分析就是一個典型的案例。然而 CV 和 NLP 現在是完全獨立的研究領域，各自都有大量問題沒有解決，沒有強烈的意願進行合作，因此如何建立長效合作機制是一個很困難的問題，也是我們一直在探索的方向。

要想解決這個問題，我們認為首先需要有一批勇敢的跨界研究者，他們熟悉兩個領域的問題和方法，能夠定義清楚背後的理論問題，進而還可以清晰地劃分出 CV 和 NLP 適用的邊界。這樣才能降低門檻，吸引到更多的參與者，包括那些專精 CV 或 NLP 領域的研究者。

其次還需要逐漸完善跨界研究的基礎設施，例如公開的有挑戰性的數據集和競賽，長期的學術討論會議，以及從研究到產業化的落地渠道等。只有這樣才能讓合作變得長久。

目前阿里在實踐中對傳統演算法和深度學習演算法的使用情況如何？

王永攀：現在主流的偏應用的方法基本上都是深度學習，傳統方法更多的是做研究，或者做 baseline。當涉及到一個新問題時，我們可能會先用傳統方式去嘗試，看傳統方法是否能解決這個問題，然後再做 baseline。這時候，如果傳統方法能做到 70%，我們會用深度學習的方法嘗試能不能把結果提升到更高，如 80%、90% 以上。

此外，傳統方法對我們還具有很多借鑒意義。深度學習方法很多時候是一個黑盒子，確定輸入，約束好輸出，實際上中間並不知道發生了什麼。在這樣一個情況下，我們很難去提升。通過傳統方法，我們基本上可以理清問題的脈絡，有一些可以分析借鑒的部分。

目前將深度學慣用於 OCR 的局限性有哪些？在 OCR 領域，有哪些值得我們研究和思考的問題？

白翔：目前深度學習在 OCR 領域的局限性仍然比較大，當前有幾個比較迫切的方向值得我們深入思考：

1）不規則排列的文字檢測與識別仍然非常棘手。如果不結合足夠的先驗知識，僅僅通過大量的標註樣本學習並不能徹底解決。

2）深度學習模型的泛化能力有限。這一問題在文本檢測任務上尤為明顯，現有的方法基本是在與測試場景相關的數據上進行訓練，更換一個場景可能會完全沒有辦法使用。

3）非拉丁文識別，尤其是中文識別仍然是難點問題，這反映在中文的長短效應、樣本類別多、相近漢字的細粒度差別等方面。

（完）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※Arm和三星計劃將Artisan POP IP合作擴展至7LPP和5LPE節點
※問世十年的 MacBook Air，終於要用上 Retina 屏幕了

TAG:雷鋒網 |