mac上文字識別
0.介紹
Tesseract是一個開源的OCR引擎,能識別100多種語言(中,英,韓,日,德,法...等等),但是Tesseract對手寫的識別能力較差。
1.安裝
2.下載語言庫
下載地址:https://github.com/tesseract-ocr/tessdata
根據自己的需求選擇所要的語言庫,在這裡我們選擇的是簡體中文所以選擇的庫是:
將文件拷貝到到:/usr/local/Cellar/tesseract/3.04.01_2/share/tessdata目錄下。
3.Tesseract使用
終端輸入命令:
一般使用:
指定語言:
指定多語言:
有個地方需要特別注意,參數psm
根據情況選擇不同的psm值,這很重要,如果選擇到不恰當的值會導致識別失敗。
比如:
1234.png
使用命令:
4.語言訓練
提前準備:
1.training tools。(在安裝tesseract時候運行這句命令會同時安裝training tools)
2.jTessBoxEditor工具。
3.訓練素材
在這裡準備的素材如下:
hui.png
yi.png
執行命令:
顯然自帶chi_sim庫對隳易這兩個字的識別不是很好。為了識別這兩個字,我們要對這兩個字進行訓練。
1.素材合成,(多個素材合成)
打開jTessBoxEditor工具,菜單欄:,選中要合成的圖片並保存為為:。
2.生成box文件
執行後會在生成一個名為的box文件。
用文本編輯器或者xcode打開:
修改為:
保存文件。
3.生成.tr文件
4.生成unicharset文件
注意命令是training tools裡面的集成命令,如果運行時說沒有找到該命令則說明你沒有安裝training tools。
5.創建font_properties文件
字體特徵文件,Tesseract-OCR 3.01 及以上版本在訓練之前都要創建font_properties文件。文件格式內容格式如下:
除了字體之外其他的值都是bool值,0或1
在這裡的內容是:
執行命令:
5.training
執行命令:
會生成:文件,重命名為
執行命令:
會生成:、,文件,將,重命名為:,
執行命令:
會生成:文件,重命名為
6.得到traineddata文件
執行命令:
將huiyi.traineddata移動到目錄下
執行命令:
7.驗證
執行命令:
成功識別。
結語:好久沒寫了,這篇是之前就寫好的,一直沒發,剛過完年諸事繁忙,一直沒時間寫。在新的一年祝各位同仁前程似景。最近看下有沒有時間將Tesseract遷移到iOS上,之前試過效果並不好,主要是識別速度偏慢,而且還沒有一個很好的灰度演算法用來處理圖片。
作者:隳易
源自:http://www.jianshu.com/p/016e55c25521
聲明:文章著作權歸作者所有,如有侵權,請聯繫小編刪除
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
※手把手:一張圖看清編程語言發展史,你也能用Python畫出來!
TAG:python |