《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 信息檢索技術(shù)在文檔管理中的應(yīng)用
信息檢索技術(shù)在文檔管理中的應(yīng)用
來(lái)源:微型機(jī)與應(yīng)用2013年第18期
蔣春茂1,寧 芊1,傅賀平2
(1.四川大學(xué) 電子信息學(xué)院,四川 成都610065; 2.中國(guó)石油工程設(shè)計(jì)西南分公司,四川 成都6
摘要: 為方便信息管理,在已有標(biāo)準(zhǔn)電子文檔基礎(chǔ)上,運(yùn)用信息檢索原理及信息檢索實(shí)現(xiàn)技術(shù),研究以關(guān)鍵字查詢方法為重點(diǎn)的標(biāo)準(zhǔn)平臺(tái)索引服務(wù),建立起一個(gè)標(biāo)準(zhǔn)共享平臺(tái)。標(biāo)準(zhǔn)共享平臺(tái)運(yùn)行結(jié)果表明,信息檢索技術(shù)能方便地運(yùn)用于文檔的管理中。
Abstract:
Key words :

摘  要: 為方便信息管理,在已有標(biāo)準(zhǔn)電子文檔基礎(chǔ)上,運(yùn)用信息檢索原理及信息檢索實(shí)現(xiàn)技術(shù),研究以關(guān)鍵字查詢方法為重點(diǎn)的標(biāo)準(zhǔn)平臺(tái)索引服務(wù),建立起一個(gè)標(biāo)準(zhǔn)共享平臺(tái)。標(biāo)準(zhǔn)共享平臺(tái)運(yùn)行結(jié)果表明,信息檢索技術(shù)能方便地運(yùn)用于文檔的管理中。
關(guān)鍵詞: 標(biāo)準(zhǔn)共享平臺(tái);信息檢索;關(guān)鍵字

    對(duì)石油的開(kāi)采、運(yùn)輸?shù)裙こ淘O(shè)計(jì)過(guò)程中需要用到大量文檔信息(國(guó)外標(biāo)準(zhǔn)、國(guó)家標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)等)。為方便標(biāo)準(zhǔn)的管理和使用,實(shí)現(xiàn)技術(shù)有形化及知識(shí)共享和積累,將標(biāo)準(zhǔn)的管理與信息檢索技術(shù)相結(jié)合,建立了與數(shù)字圖書(shū)館[1]類(lèi)似的能通過(guò)關(guān)鍵詞查詢或任何經(jīng)過(guò)定義的方式獲得所需信息的系統(tǒng)。通過(guò)該系統(tǒng),用戶可以隨時(shí)隨地、方便而快捷地查找并獲得統(tǒng)一、準(zhǔn)確的標(biāo)準(zhǔn)信息。
    本文以中國(guó)石油公司的標(biāo)準(zhǔn)電子詞典開(kāi)發(fā)項(xiàng)目為背景,整個(gè)項(xiàng)目是通過(guò)已有的標(biāo)準(zhǔn)電子文檔建立一個(gè)標(biāo)準(zhǔn)共享平臺(tái)[1-2]。討論以關(guān)鍵字查詢?yōu)橹攸c(diǎn)的信息檢索技術(shù)的基本思想。
1 信息檢索技術(shù)
    信息檢索技術(shù)的基本原理[3]是通過(guò)對(duì)大量的、分散無(wú)序的文獻(xiàn)信息進(jìn)行搜集、加工、組織、存儲(chǔ),建立檢索系統(tǒng),并通過(guò)一定的方法和手段使存儲(chǔ)與檢索這兩個(gè)過(guò)程所采用的特征標(biāo)識(shí)達(dá)到一致,以便有效地獲得和利用信息源。其核心思想是用戶信息需求與文獻(xiàn)信息集合的比較和選擇,是兩者匹配的過(guò)程。
    信息檢索的一般過(guò)程是檢索系統(tǒng)將文檔集合中的文獻(xiàn)對(duì)象進(jìn)行標(biāo)引,用戶將需要查找的信息(即信息需求)表達(dá)成查詢,以信息提問(wèn)的方式提交給檢索系統(tǒng),則檢索系統(tǒng)運(yùn)用預(yù)先設(shè)定的匹配算法[4]進(jìn)行計(jì)算,檢索出查找對(duì)象,并最終輸出滿足用戶需要的結(jié)果。信息檢索主要過(guò)程如圖1所示。

2 信息檢索技術(shù)的實(shí)現(xiàn)
2.1 標(biāo)準(zhǔn)平臺(tái)提供的檢索功能

    對(duì)用戶的信息需求,標(biāo)準(zhǔn)共享平臺(tái)提供分類(lèi)目錄查詢和輸入關(guān)鍵字查詢兩種方式。輸入關(guān)鍵字查詢需要用戶輸入所需查詢信息的標(biāo)題或標(biāo)準(zhǔn)編號(hào)中的字、詞或者發(fā)行部門(mén)等信息,計(jì)算機(jī)通過(guò)事先設(shè)置的算法返回用戶查找的信息。
2.2 關(guān)鍵字檢索技術(shù)
    由于標(biāo)準(zhǔn)平臺(tái)的開(kāi)發(fā)面向已有的電子文檔,因此平臺(tái)的關(guān)鍵字檢索設(shè)計(jì)主要在于解決關(guān)鍵字索引及如何查詢索引問(wèn)題。
    按照輸入關(guān)鍵字查詢要求,將標(biāo)準(zhǔn)名稱及對(duì)應(yīng)的標(biāo)準(zhǔn)編號(hào)與標(biāo)準(zhǔn)內(nèi)容通過(guò)序號(hào)建立一一對(duì)應(yīng)關(guān)系[5],可將每篇文檔的標(biāo)題看成是全文信息。利用倒排索引[6-7]思想,一方面將所有標(biāo)準(zhǔn)名稱及編號(hào)中的每個(gè)字按照其首字母先后順序建立一個(gè)索引,稱為詞表,它包含一個(gè)記錄表項(xiàng),記錄表項(xiàng)記錄了出現(xiàn)這個(gè)字的標(biāo)題所在地址信息及其編號(hào)情況。另一方面將出現(xiàn)的各個(gè)詞項(xiàng)的文檔標(biāo)題或編號(hào)構(gòu)成一個(gè)文件,即記錄文件。例如,表1展示了部分標(biāo)準(zhǔn)信息,針對(duì)這些標(biāo)準(zhǔn)中的詞條建立倒排索引,部分內(nèi)容如表2所示。

    在查找索引詞表問(wèn)題上,由于詞表是按其首字母順序進(jìn)行位置排序,當(dāng)輸入一個(gè)字時(shí),利用二分法[3]找到其首字母所屬段詞表,然后再對(duì)此段詞表進(jìn)行順序搜索,直到查找到此字在詞表中的位置,同時(shí)找到此字的記錄表項(xiàng),根據(jù)記錄表項(xiàng)中所記錄的標(biāo)準(zhǔn)名稱所在位置及序號(hào)找到相應(yīng)的文檔標(biāo)題。當(dāng)輸入不止一個(gè)字時(shí)通過(guò)AND操作,找到同時(shí)包含輸入字的文檔標(biāo)題,通過(guò)之前與全文信息建立的對(duì)應(yīng)關(guān)系即可找到文檔信息。
3 信息檢索技術(shù)在系統(tǒng)中的實(shí)現(xiàn)
    在搜索框內(nèi)輸入關(guān)鍵字,便可顯示含有關(guān)鍵字的標(biāo)準(zhǔn)或文檔信息,如果沒(méi)有符合的標(biāo)準(zhǔn),系統(tǒng)則輸入“無(wú)此項(xiàng)信息”。圖2為輸入關(guān)鍵字“腐蝕”后的檢索示意圖。


    從對(duì)標(biāo)準(zhǔn)電子詞典的測(cè)試情況發(fā)現(xiàn),運(yùn)用倒排檢索及二分法對(duì)詞表進(jìn)行查詢的方式所建立的標(biāo)準(zhǔn)共享平臺(tái)有非常高的正確率,滿足用戶要求。
    標(biāo)準(zhǔn)電子詞典的成功開(kāi)發(fā),是將信息檢索技術(shù)與企業(yè)文檔管理相結(jié)合思想應(yīng)用到實(shí)際工作中的一個(gè)例子,它使得用戶通過(guò)登錄系統(tǒng)輸入關(guān)鍵字便可以對(duì)所需標(biāo)準(zhǔn)進(jìn)行搜索等操作。將工作人員從繁重的、重復(fù)的手工勞動(dòng)中解放出來(lái),提高了管理部門(mén)的管理水平。
參考文獻(xiàn)
[1] 黃如花,王梅,黃曉斌,等.數(shù)字圖書(shū)館原理與技術(shù)[M].湖北:武漢大學(xué)出版社,2005.
[2] 席生長(zhǎng),胡宏濤.信息檢索技術(shù)在中石油勘探與生產(chǎn)分公司門(mén)戶內(nèi)的應(yīng)用研究[J].福建電腦,2008(1):102-103.
[3] SHAFFER C A,張銘,劉曉丹,等.數(shù)據(jù)結(jié)構(gòu)與算法分析(C++版)[M].北京:電子工業(yè)出版社,2002.
[4] 聞?dòng)癖?,賈時(shí)銀,鄧世坤,等.一種改進(jìn)的最大匹配中文分詞算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,10(21):92-98.
[5] 王斌.從信息檢索到搜索引擎[J].術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù),2009(4):38-43.
[6] 劉興宇.基于倒排索引的全文檢索技術(shù)研究[D].武漢:華中科技大學(xué),2004.
[7] 王澤胤.全文信息檢索的快速索引文件結(jié)構(gòu)及系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].吉林:吉林大學(xué),2009.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。