一個專門用來OCR(光學(xué)字符識別)Vobsub格式字幕的軟件,能夠?qū)dx/sub格式的字幕轉(zhuǎn)成srt格式,并提供srt格式校對功能。OCR引擎為微軟Office 2003所帶的Microsoft Office Document Imaging (MODI),支持英文、簡體中文、繁體中文、日文。
動機(jī): 目前已經(jīng)有一些免費(fèi)的字幕OCR軟件,英文的可以用Subresync,中文的可以用SubOCR。但是在使用了這些軟件后,我還是決定開發(fā)IdxSubOcr,理由如下:
希望能夠使用方便性方面有所改善。Subresync自帶的OCR引擎的識別率很棒,但是每次都要敲幾十個字母實在太麻煩;而且還不支持中文、日文字符。
SubOCR實在太龐大,而且在某些機(jī)器上運(yùn)行出錯。
使用說明
一、軟件安裝/刪除
本軟件安裝非常簡單:創(chuàng)建一個目錄,用WinZip將下載下來的ZIP包解壓縮到該目錄即可。
本軟件的刪除也很簡單:直接刪除從ZIP包中解壓縮出來的所有文件及運(yùn)行過程中生成的文件即可。
ZIP包中包括下列文件:
IdxSubOcr.exe。這是軟件的主程序。
IdxSubOcr.htm。本幫助文件。
如果您下載到的ZIP包中還包括其它文件,毫無疑問不是我放進(jìn)去的,有廣告之嫌疑,請立即刪除。
另外程序運(yùn)行過程中還會生成以下文件:
IdxSubOcr.ini。這個是參數(shù)保存文件,第一次更改參數(shù)后生成。退出IdxSubOcr,刪除此文件,再重啟IdxSubOcr,即可恢復(fù)缺省參數(shù)。
二、軟件使用
軟件的使用比較簡單:
點(diǎn)擊“打開idx文件”按鈕,選擇需要OCR/校對的idx文件。 或直接從資源管理器拖拽idx文件。
如果有必要,設(shè)置“毫秒分隔符”選項,即毫秒用小數(shù)點(diǎn)還是句號分隔。
如果有必要,勾選“OCR前先加粗處理”,避免因為筆畫過細(xì)影響OCR質(zhì)量。但如果文字筆畫本來就不細(xì),勾選此選項后可能造成筆畫粘連,反而影響質(zhì)量。
在“操作選項”里,選擇需要OCR/校對的字幕,及究竟是要OCR還是校對。
如果是OCR,在接下來的“OCR”選項中,需要選擇OCR語言及字幕顏色。注意這兩個選項直接關(guān)系到OCR效果,所以必須認(rèn)真選擇:語言好說,顏色必須保證文字為實心字,空心字沒法識別。 如果字幕第一行為空,則文字顏色可能不能選擇,可以選擇字幕其他行,直到能夠選擇顏色。OCR識別結(jié)束后,自動進(jìn)入校對模式。
如果是校對,界面上方顯示字幕圖像,下方顯示文字,用戶可以直接對文字進(jìn)行編輯。在編輯框中可以使用上下箭頭、PgDn、PgUp滾動。校對完成后,點(diǎn)擊“保存srt文件”按鈕存盤。
在校對過程中,可以用“輔助功能”進(jìn)行輔助,包括:
文本替換。通常用來替換OCR中的一些習(xí)慣性錯誤。
英文句首字母大寫。某些英文字幕全是大寫,看起來比較費(fèi)勁,用這個可以轉(zhuǎn)成小寫。
繁體轉(zhuǎn)簡體。繁體中文字幕OCR后的結(jié)果是GBK編碼的繁體字,如果覺得麻煩,可以用這個功能轉(zhuǎn)換成GB編碼的簡體字。
另外如果想改變已有srt文件中的毫秒分隔符,可以選擇“校對”,然后剛剛“毫秒分隔符”選項,再存盤即可。
更新日志:
IdxSubOcrvVersion 1.14
功能增強(qiáng):支持從資源管理器拖拽打開idx文件,便于使用。
Version 1.13
新增功能:增加“OCR前先加粗處理”選項。此選項使用得當(dāng)可以提高OCR識別率,使用不當(dāng)則會降低識別率,請仔細(xì)閱讀FAQ部分的相關(guān)說明。
功能增強(qiáng):提高英文OCR的識別準(zhǔn)確率。
錯誤修正:遇到某些格式錯誤的字幕文件,會報告“內(nèi)存不足”。
Version 1.12
錯誤修正:某些中文標(biāo)點(diǎn)前后會加入空格。
Version 1.11
新增功能:在列表中增加“序號”列。
功能增強(qiáng):在OCR簡、繁、日字幕時,如果字符間距大于字高的一半,則在字間插入空格。
Version 1.10
新增功能:增加“毫秒分隔符”,允許選擇毫秒分隔符是小數(shù)點(diǎn)還是逗號。
Version 1.09
錯誤修正:OCR某些字幕時會中斷退出。
Version 1.08
功能增強(qiáng):對含無效字符的文件路徑能夠給出提示。
Version 1.07
錯誤修正:如果原始字幕文件有錯,會中斷退出。
錯誤修正:如果原始字幕文件信息有錯,OCR后出現(xiàn)無時間軸的空白行,導(dǎo)致結(jié)果文件被截斷。
Version 1.06
功能增強(qiáng):加強(qiáng)繁簡轉(zhuǎn)換時的糾錯能力。
Version 1.05
重寫OCR后處理部分,減小文字錯位、錯行的概率。