當前位置:
首頁 > 知識 > mac上文字識別

mac上文字識別

0.介紹

Tesseract是一個開源的OCR引擎,能識別100多種語言(中,英,韓,日,德,法...等等),但是Tesseract對手寫的識別能力較差。


1.安裝

2.下載語言庫

下載地址:https://github.com/tesseract-ocr/tessdata

根據自己的需求選擇所要的語言庫,在這裡我們選擇的是簡體中文所以選擇的庫是:

將文件拷貝到到:/usr/local/Cellar/tesseract/3.04.01_2/share/tessdata目錄下。


3.Tesseract使用

終端輸入命令:

一般使用:

指定語言:

指定多語言:

有個地方需要特別注意,參數psm

根據情況選擇不同的psm值,這很重要,如果選擇到不恰當的值會導致識別失敗。

比如:

1234.png

使用命令:

4.語言訓練

提前準備:

1.training tools。(在安裝tesseract時候運行這句命令會同時安裝training tools)

2.jTessBoxEditor工具。

3.訓練素材

在這裡準備的素材如下:

hui.png

yi.png

執行命令:

顯然自帶chi_sim庫對隳易這兩個字的識別不是很好。為了識別這兩個字,我們要對這兩個字進行訓練。

1.素材合成,(多個素材合成)

打開jTessBoxEditor工具,菜單欄:,選中要合成的圖片並保存為為:。

2.生成box文件

執行後會在生成一個名為的box文件。

用文本編輯器或者xcode打開:

修改為:

保存文件。

3.生成.tr文件

4.生成unicharset文件

注意命令是training tools裡面的集成命令,如果運行時說沒有找到該命令則說明你沒有安裝training tools。

5.創建font_properties文件

字體特徵文件,Tesseract-OCR 3.01 及以上版本在訓練之前都要創建font_properties文件。文件格式內容格式如下:

除了字體之外其他的值都是bool值,0或1

在這裡的內容是:

執行命令:

5.training

執行命令:

會生成:文件,重命名為

執行命令:

會生成:、,文件,將,重命名為:,

執行命令:

會生成:文件,重命名為

6.得到traineddata文件

執行命令:

將huiyi.traineddata移動到目錄下

執行命令:

7.驗證

執行命令:

成功識別。

結語:好久沒寫了,這篇是之前就寫好的,一直沒發,剛過完年諸事繁忙,一直沒時間寫。在新的一年祝各位同仁前程似景。最近看下有沒有時間將Tesseract遷移到iOS上,之前試過效果並不好,主要是識別速度偏慢,而且還沒有一個很好的灰度演算法用來處理圖片。

作者:隳易

源自:http://www.jianshu.com/p/016e55c25521

聲明:文章著作權歸作者所有,如有侵權,請聯繫小編刪除


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 python 的精彩文章:

手把手:一張圖看清編程語言發展史,你也能用Python畫出來!

TAG:python |