本軟件是飛濤軟件工作室開發(fā)的一款免費Ocr軟件,主要用于識別圖像文件之中,出現(xiàn)的漢字顯示字體。Ocr的中文含意是光學(xué)字符識別。
為什么叫Mini呢?因為現(xiàn)有的識別漢字的商業(yè)Ocr軟件,動輒二三十兆,而本軟件解壓后,也不過三兆多,身材比較纖小,再加上本軟件主要用于識別字體比較小的漢字,所以叫Mini,中文的發(fā)音是“迷你”,中文含義是超小型。
既然有了商業(yè)Ocr軟件,為什么還要開發(fā)這個軟件?
不同于商業(yè)Ocr軟件,本軟件是免費的,可以自由使用。第二個不同之處,本軟件的
識別對象是屏幕出現(xiàn)的“顯示漢字”,而不是針對掃描儀掃出來的“打印漢字”。二者有什
么不同呢?最重要的一點: 掃描出來的打印漢字的高度和寬度一般都在30多個像素點之
上,這是我用畫圖軟件,打開某個商業(yè)Ocr的samples\sample1.tif,然后一點一點數(shù)出
來的。從文件名和目錄名的中文含意可以看出,這個點數(shù)應(yīng)該是一個典型值。那么,如果
用商業(yè)Ocr識別屏幕上出現(xiàn)的小五號字,漢字的高度是12個像素點,會出現(xiàn)什么情況呢?
測試方法:用記事本隨便寫幾行漢字,設(shè)置字體為小五號字。這大概是看著還算舒服
的最小號的漢字字體了(高度是12個像素點),如果再小,字體就很難看了。然后,按拷
屏鍵PrtSc,把屏幕的圖像拷貝、粘貼到畫圖軟件中,修剪尺寸后,保存為bmp的格式。
然后,我找了兩個國內(nèi)最著名的Ocr軟件進行測試,結(jié)果讓人大吃一驚,識別率幾乎為零。
把圖像放大兩倍,再測試,結(jié)果仍然很不理想,大概也只有百分之二三十的樣子。