如果您選擇Ocr軟件,目的是用來識別掃描儀出來打印字體,推薦還是選用知名的商業(yè)Ocr。
如果您要識別屏幕上顯示的漢字,Mini Ocr是一個比較不錯的選擇。真誠地希望您在使用中,能喜歡上它。
英文識別有一些開放源碼的軟件,我看過的軟件,主要采取兩種識別方法:基于規(guī)則的方法,和采用神經(jīng)網(wǎng)絡(luò)方法。
Mini Ocr進(jìn)行漢字識別的策略:
1) 采用復(fù)合特征的分類方法。
2) 字符集選擇3755個一級漢字。
3) 字體選擇最常用的宋體。
4) 字號選擇從小五號到一號漢字,主要針對20個點(diǎn)之內(nèi)的小字體。
5) 英漢混排時,漢語優(yōu)先。
6) 漢字粘連時,進(jìn)行動態(tài)優(yōu)化切分。
展望與下一步的開發(fā)計劃:
1) 重新優(yōu)化英文識別的算法;
2) 對英文粘連的切分算法進(jìn)行調(diào)整;
3) 移植進(jìn)入Linux;
主要用于識別圖像文件之中,出現(xiàn)的漢字顯示字體。Ocr的中文含意是光學(xué)字符識別。