- 類型:文件處理大。850KB語言:中文 評分:6.6
- 標(biāo)簽:
DocSearcher 是一款專門搜索文檔文件的工具,由于采用開源的 Lucene,POI Apache APIs 以及 PDF Box API,因此能夠搜索 HTML,MS Word,MS Excel,RTF,PDF,OpenOffice(及 Star Office) 文檔以及文本文檔內(nèi)容的能力。 其他文件格式目前則不支持,也許隨著內(nèi)置搜索引擎的改進(jìn),更多的格式將會包含其中。
使用說明
可以以關(guān)鍵詞(keywords)或短語(phrases)來構(gòu)建你的搜索,點(diǎn)擊 “search” 即可獲得搜索結(jié)果。
搜索結(jié)果將會顯示在一個(gè)表格中,單擊結(jié)果中的文件可以在標(biāo)準(zhǔn)網(wǎng)頁瀏覽器中打開。
想要返回搜索結(jié)果,只需要單擊搜索結(jié)果圖標(biāo) ()。
DocSearcher 內(nèi)置 4 種搜索方式,包括:關(guān)鍵詞(Keyword),短語(Phrase),邏輯( Boolean),以及通配符(Wild Card)。以下為各個(gè)搜索方式的舉例:
搜索示例 | 搜索類型 | 搜索說明 |
---|---|---|
電子證券 交易處理 | 關(guān)鍵詞(keywords)搜索 | 搜索含有 “電子證券” 或 “交易處理” 的文檔。 |
電子證券 交易處理 | 短語(phrase)搜索 | 搜索含有 “電子證券 交易處理”短語的文檔,及 “電子證券” 與 “交易處理”作為整體是連續(xù)在一起出現(xiàn)的,當(dāng)然中間有空格。 |
"電子證券" - "交易處理" | 邏輯(boolean)搜索 | 包含 “電子證券” 但不包含 “交易處理” 的文檔。 |
電子* | 通配符(wild card)搜索 | 所有以電子開頭的詞,例如電子文檔,電子交易等。 (注:似乎對中文支持不是很理想) |
使用步驟
1. 首先確認(rèn)你的系統(tǒng)已經(jīng)安裝了 JRE。
2. 運(yùn)行 DocSearch.jar 后即可啟動,界面如下。
3. 在搜索 之前,首先要建立索引。打開菜單 “Index -> Create new index”。
如圖所示,首先在最上面文本框中輸入該索引的名稱(此處不建議使用中文,經(jīng)軟言軟語測試,此處若使用中文第一次使用無問題,當(dāng)重啟程序后變成無法識別的問號了),然后在下面選擇你要索引的目錄,該目錄即包含你要搜索的文檔文件。然后在下面 “Search Depth” 中選擇你要索引的目錄深度,0 表示不索引子目錄!癝earched by default” 默認(rèn)為選擇,表示搜索時(shí)使用該索引。
另外,你還可以配置 “Advanced Options” 選項(xiàng)卡來獲得索引 Web Server,CD ROM 的能力,此處不做深入討論!癠pdate” 選項(xiàng)卡處可以選擇何時(shí)更新該索引。“Archiving” 選項(xiàng)卡則可以將你的索引壓縮存檔,留作備份或者導(dǎo)出。
配置完后,單擊 “Add New Index” 開始創(chuàng)建索引。索引結(jié)束后,彈出如下窗口顯示統(tǒng)計(jì)信息。
4. 在主界面的 General options 選項(xiàng)卡中,可以選擇搜索的類型(Type of search):關(guān)鍵字(Keywords)或短語(Phrase),搜索范圍(Search in)可以為:正文與標(biāo)題(body and title),標(biāo)題(title),摘要(summary),正文(body)以及關(guān)鍵詞(keywords)。在此處做搜索實(shí)驗(yàn) 。
索引目錄內(nèi)容為如下所示:
“ 論文” 文件夾中包含一個(gè)二級子文件夾以及一個(gè)名為 “第三方支付平臺探討.doc” 的 MS Word 文件。
(1). 在正文與標(biāo)題中搜索關(guān)鍵字 “電子證券 交易處理”,結(jié)果如下:
(2). 在正文中搜索短語 “電子證券 交易處理”,結(jié)果如下所示:
從上圖可以看到無法以短語形式搜索出 “電子證券 交易處理”。正文內(nèi)容節(jié)選如下:
以上僅為不完全的測試,作為使用方法的入門參考。不過,經(jīng)過幾次使用發(fā)現(xiàn),在部分情況下無法正確搜索出內(nèi)容,暫未沒發(fā)現(xiàn)具體原因,可能是對中文支持還不完美。不管怎樣,大部分情況下使用效果還不錯(cuò),如果有興趣可以嘗試一下。相信以后的升級會解決這些問題,帶來更好的搜索效果。