基於深度學習的智能路牌識別系統設計

最新 06-27

摘要：提出了一種基於機器視覺和深度學習的智能路牌識別系統。採用嵌入式的ARM9作為前端採集系統，在伺服器上採用圖像處理演算法先對前端採集的路牌圖像進行文字區域的提取和分割，然後用訓練好的卷積神經網路對分割的文字進行識別，最後將識別信息以語音的形式反饋給使用者。使用前端硬體在高速公路上採集路牌圖像並在伺服器的CAFFE框架上進行測試，結果表明該系統能實時準確地將路牌信息以語音的方式播報給使用者。

0 引言

隨著社會的快速發展，現今的生活中，汽車已經成為主要的交通工具，路牌也成為一種重要的導航工具。無論是高速公路還是國道、省道，到處都樹立著路牌。然而，由於路牌常常被豎立在路的兩邊，當司機需要了解路旁路牌的信息時，注意力很容易被分散，當駕駛者對自己所在道路不熟悉的時候，前方路況和各種標誌的路牌會讓駕駛者的心裡壓力變大，駕駛者由於減速觀看路牌很容易發生交通堵塞和交通事故，使得交通狀況變得更加惡劣。對此，國內外一些研究學者對路牌的識別進行了研究[1]，但效果不是很理想，將路牌識別系統實現的更是少之又少。智能路牌識別系統能有效地提取路牌信息，幫助駕駛者理解路牌的信息，對於安全駕駛有著極其重要意義，對將來智能駕駛戰略也將做出突出的貢獻。

1 智能路牌識別控制系統的總體設計

本系統由基於嵌入式技術的前端採集、通信傳輸系統和遠程雲伺服器識別系統組成。前端採集傳輸採用基於三星Cortex-A9架構的核心板，配備一千萬像素攝像頭、語音播報模塊和4G通信模塊構建智能路牌識別系統的硬體平台。攝像頭採集含有路牌的圖像，由主控晶元對圖像進行壓縮，壓縮後的圖像在4G模塊下通過SOCKET程序傳送到雲伺服器上。採用雲平台伺服器作為智能路牌識別器的數據處理中心，在伺服器上通過深度學習演算法訓練文字識別網路，將分割後的圖像在訓練好的網路上進行識別，然後將得到的結果傳輸到前端，通過語音模塊播報給使用者。智能路牌識別器的總體設計如圖1所示。

2 智能路牌識別控制系統的硬體設計

2.1 主控單元模塊

該模塊採用ARM9核心的處理器作為中央控制單元模塊，用它實現對前端採集系統各個單元模塊所採集的數據信息進行匯總分析和處理，對各個功能模塊發出控制指令，協調整個系統穩定運行。中央控制單元完成圖像採集，根據預先板載的壓縮演算法程序完成圖像壓縮，通常可達到6：1的壓縮率，並發給雲伺服器，減小了傳輸時間，保證了信息傳輸的實時性。中央控制單元同時接收來自雲伺服器發送的識別結果，並將結果通過語音模塊反饋給使用者。

2.2 前端採集模塊

前端採集採用的是一千萬像素的CMOS高清攝像頭，它能夠清晰地拍攝前方場景信息，用於智能路牌識別系統對路牌信息的採集。得到的高清圖片存儲在中央控制單元，並由中央控制單元對其進行處理。

2.3 無線通信模塊

無線通信模塊由外圍電路和4G通信晶元構成，使用SOCKET通信和4G通信技術，完成智能路牌識別系統和雲端伺服器的相互連接。在中央處理器模塊的控制下，前端採集壓縮的圖片在無線通信模塊的作用下發送給雲端伺服器，同時雲端伺服器將處理完成的信息通過無線傳輸模塊發送給中央控制單元，把結果實時反饋給使用者。

2.4 語音文字播報模塊

語音播報模塊主要作用是將雲端伺服器處理的路牌文字信息以語音播報的形式展現給駕駛者，使得駕駛者不用因環顧四周的路牌文字而分心。該模塊主要採用SYN6288中文語音合成晶元實現對語音文字的播報，把雲端伺服器發送的文本文字轉化為音頻信息。SYN6288語音晶元採用UART和SPI兩種通信方式，實現文本智能分析處理、多音字處理功能。該模塊的電路如圖2所示。

3 智能路牌識別控制系統的軟體設計

本系統軟體的設計由兩部分組成。一部分是前端ARM9載入Linux系統的設計，完成前端信息的採集壓縮、雲端伺服器通信和語音播報的功能。前端採集程序流程圖如圖3所示。

另一部分是在雲端伺服器上實現對採集圖像的預處理、檢測、分割和分類識別功能。雲端伺服器首先對前端發送的圖像解壓縮、預處理，利用支持向量機（SVM）演算法檢測是否含有路牌。檢測到路牌之後對路牌區域進行提取，對提取後的路牌進行圖像處理，然後利用投影法對文字進行分割，最後進行文字識別。其中文字識別部分採用的是目前流行的深度學習框架——CAFFE框架，主要採用C++/CUDA高級語言來實現對深度學習網路的訓練和文字的識別。雲端伺服器程序流程圖如圖4所示。

4 基於卷積神經網路的文字識別演算法

卷積神經網路（CNN）是深度學習領域的一個重要演算法，在很多應用上表現出卓越的效果[2-3]。目前字元識別演算法有很多種，但對漢字的識別，特別是自然場景的文字識別都有一定的局限[4-5]。將多種文檔字元識別演算法與CNN比較，會發現CNN演算法比其他演算法的效果都好。在本文的智能路牌識別系統中，主要利用CNN對日常生活中常見的3 000個漢字進行訓練然後識別。CNN是在BP神經網路的結構上改進得到的，它們都是採用了向前傳播計算網路的輸出值，通過誤差計算公式，向後傳播修正權重和偏置的值。與傳統的特徵提取方法相比，CNN最大的改進就是卷積神經網路是利用卷積核進行特徵提取，相鄰層之間不是全連接，而只是部分進行連接，從而得到局部特徵。在一個特徵平面採用權值共享機制，很大程度上減少了權值的數量。

本文設計的網路結構如圖5所示，輸入的數據為一張40×40像素的圖片，第一層為卷積層，由64個3×3卷積核組成，每個卷積核都各自提取不同的一種特徵，通過輸入與卷積核運算來提取圖像的局部特徵。然後進入池化層，在2×2的窗口中選取最大值作為一個輸出值，從而降低了數據維度。以此類推，計算第二層128個卷積核和第三層256個卷積核的卷積運算。全連接層分別採用4 096和3 000個1×1的卷積核進行全連接來提取圖片文字的全局特徵進行分類。然後根據誤差輸出公式進行誤差計算，反向進行權值和偏置更新。為了防止過擬合，採用dropout對網路權值和偏置進行部分更新。反覆進行計算多次實現對網路參數進行訓練的目的。

在智能路牌識別系統中，挑選日常常用的3 000個漢字進行了訓練，基於國家標準規定——道路路牌採用方正黑體格式漢字，實驗中通過計算機生成了相應圖像數據。利用C#語言生成40像素×40像素的漢字圖片作為測試集和訓練集，如圖6所示。

考慮到前端採集模塊在實際採集圖片時會出現各種干擾，如硬體發熱、外界環境干擾、光線的亮暗等因素的影響，使得圖像帶有雜訊點、圖片模糊、字跡不清或者產生旋轉和扭曲等狀況，因此，需將生成的每個漢字圖像進行圖像處理，分別對其進行各種隨機的雜訊點生成、腐蝕膨脹以及不同角度的旋轉和扭曲。這樣對每一個漢字圖片產生300張不同的圖片，獲得了更多的數據量，這樣測試集和訓練集一共有900 000個數據。通過圖5所示的卷積神經網路進行訓練。

5 系統的測試與分析

由於現在路牌場景種類繁多，測試實驗中採用比較規範、應用比較多、文字方向從左自右的路牌進行實驗。如圖7（a）所示，對前端發送到伺服器的圖像，先通過Canny運算元邊緣檢測粗定位和MSER演算法細定位，使用SVM演算法來判斷是否含有路牌，判斷出路牌標識後對圖像進行路牌區域提取。

路牌區域提取採用基於HSI顏色空間的方法。基於我國以綠底和藍底作為路牌的背景，採用HSI空間中的H分量將路牌區域提取出來。本實驗將H參數設定在[150，190]區間，得出實驗結果如圖7(b)所示。

在文字檢測部分，採用Canny運算元進行邊緣檢測[6]，提取漢字的邊緣，然後用形態學對漢字進行處理，將文字與文字分開同時將文字的各個部分進行連接，以便於進行文字分割。在文字分割部分，採用投影法，根據像素值的特徵進行分割。首先對路牌進行二值化處理，先進行水平投影像素值相加，進行行分割，分割效果如圖8所示。

然後豎直方向投影進行像素值相加，進行豎直方向分割，分割效果如圖9所示。通過連通區域演算法分析得到各個文字區域，最後歸一化為40像素×40像素圖像，送入深度學習卷積神經網路進行分類識別。

採用本實驗設計的網路結構，將數據集的800 000個數據作為訓練集，100 000個數據集作為測試集，在雲伺服器上迭代8 000次，得到99%的準確率，測試的準確率和損失值如圖10所示，當迭代次數達到900次左右時，準確率趨於平穩，由此可見CNN在路牌漢字識別上具有優勢和潛在的應用價值。

6 結論

本文完成了智能路牌識別系統從硬體到軟體的設計，實現了硬體的圖像採集壓縮和軟體的圖像處理、區域檢測和文字分割，最後通過語音模塊播報給使用者的功能。該系統對駕駛者有十分重要的作用，並可運用在無人駕駛領域，對新世紀的智能交通也將做出突出的貢獻。本文系統未考慮前端動態拍攝時的模糊圖像處理問題，即當車輛行駛太快情況下，前端採集的圖像可能會不清晰，這也是下一步將努力的方向。

參考文獻

[1] GONZALEZ A，BERGASA L M，YEBES J J.Text detection and recognition on traffic panels from street-level imagery using visual appearance[J].IEEE Transaction on Intelligent Transportation Systems，2014，15(1)：228-238.

[2] 王愷，靳簡明，史廣順，等.基於特徵點的漢字字體識別研究[J].電子與信息學報，2008，30(2)：272-276.

[3] 鄭胤，陳權崎，章毓晉.深度學習及其在目標和行為識別中的新進展[J].中國圖象圖形學報，2014，19(2)：175-184.

[4] 孫彩虹.自然場景中路牌漢字識別技術研究[D].南京：南京理工大學，2014.

[5] 劉居鋒.自然場景中交通標誌文字檢測演算法研究[D].北京：北京理工大學，2014.

[6] 曾俊.圖像邊緣檢測技術及其應用研究[D].武漢：華中科技大學，2011.

作者信息:

林付春，劉宇紅，張達峰，張榮芬

（貴州大學大數據與信息工程學院，貴州貴陽550025）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 電子技術應用ChinaAET 的精彩文章:

※基於密度聚類的能耗數據採集網關設計
※一種基於HDMI2.0的編解碼器設計

TAG:電子技術應用ChinaAET |