mac上文字識別

知識 01-14

0.介紹

Tesseract是一個開源的OCR引擎，能識別100多種語言（中，英，韓，日，德，法...等等），但是Tesseract對手寫的識別能力較差。

1.安裝

2.下載語言庫

下載地址:https://github.com/tesseract-ocr/tessdata

根據自己的需求選擇所要的語言庫，在這裡我們選擇的是簡體中文所以選擇的庫是：

將文件拷貝到到：/usr/local/Cellar/tesseract/3.04.01_2/share/tessdata目錄下。

3.Tesseract使用

終端輸入命令:

一般使用:

指定語言:

指定多語言:

有個地方需要特別注意，參數psm

根據情況選擇不同的psm值，這很重要，如果選擇到不恰當的值會導致識別失敗。

比如：

1234.png

使用命令:

4.語言訓練

提前準備:

1.training tools。（在安裝tesseract時候運行這句命令會同時安裝training tools）

2.jTessBoxEditor工具。

3.訓練素材

在這裡準備的素材如下:

hui.png

yi.png

執行命令:

顯然自帶chi_sim庫對隳易這兩個字的識別不是很好。為了識別這兩個字，我們要對這兩個字進行訓練。

1.素材合成，(多個素材合成)

打開jTessBoxEditor工具，菜單欄：，選中要合成的圖片並保存為為：。

2.生成box文件

執行後會在生成一個名為的box文件。

用文本編輯器或者xcode打開:

修改為：

保存文件。

3.生成.tr文件

4.生成unicharset文件

注意命令是training tools裡面的集成命令，如果運行時說沒有找到該命令則說明你沒有安裝training tools。

5.創建font_properties文件

字體特徵文件，Tesseract-OCR 3.01 及以上版本在訓練之前都要創建font_properties文件。文件格式內容格式如下：

除了字體之外其他的值都是bool值，0或1

在這裡的內容是：

執行命令：

5.training

執行命令：

會生成：文件，重命名為

執行命令：

會生成：、，文件，將，重命名為：，

執行命令：

會生成：文件，重命名為

6.得到traineddata文件

執行命令：

將huiyi.traineddata移動到目錄下

執行命令：

7.驗證

執行命令:

成功識別。

結語：好久沒寫了，這篇是之前就寫好的，一直沒發，剛過完年諸事繁忙，一直沒時間寫。在新的一年祝各位同仁前程似景。最近看下有沒有時間將Tesseract遷移到iOS上，之前試過效果並不好，主要是識別速度偏慢，而且還沒有一個很好的灰度演算法用來處理圖片。

作者：隳易

源自：http://www.jianshu.com/p/016e55c25521

聲明：文章著作權歸作者所有，如有侵權，請聯繫小編刪除

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 python 的精彩文章:

※手把手：一張圖看清編程語言發展史，你也能用Python畫出來！

TAG:python |