摘 要: 為方便信息管理,在已有標準電子文檔基礎(chǔ)上,運用信息檢索原理及信息檢索實現(xiàn)技術(shù),研究以關(guān)鍵字查詢方法為重點的標準平臺索引服務(wù),建立起一個標準共享平臺。標準共享平臺運行結(jié)果表明,信息檢索技術(shù)能方便地運用于文檔的管理中。
關(guān)鍵詞: 標準共享平臺;信息檢索;關(guān)鍵字
對石油的開采、運輸?shù)裙こ淘O(shè)計過程中需要用到大量文檔信息(國外標準、國家標準、企業(yè)標準等)。為方便標準的管理和使用,實現(xiàn)技術(shù)有形化及知識共享和積累,將標準的管理與信息檢索技術(shù)相結(jié)合,建立了與數(shù)字圖書館[1]類似的能通過關(guān)鍵詞查詢或任何經(jīng)過定義的方式獲得所需信息的系統(tǒng)。通過該系統(tǒng),用戶可以隨時隨地、方便而快捷地查找并獲得統(tǒng)一、準確的標準信息。
本文以中國石油公司的標準電子詞典開發(fā)項目為背景,整個項目是通過已有的標準電子文檔建立一個標準共享平臺[1-2]。討論以關(guān)鍵字查詢?yōu)橹攸c的信息檢索技術(shù)的基本思想。
1 信息檢索技術(shù)
信息檢索技術(shù)的基本原理[3]是通過對大量的、分散無序的文獻信息進行搜集、加工、組織、存儲,建立檢索系統(tǒng),并通過一定的方法和手段使存儲與檢索這兩個過程所采用的特征標識達到一致,以便有效地獲得和利用信息源。其核心思想是用戶信息需求與文獻信息集合的比較和選擇,是兩者匹配的過程。
信息檢索的一般過程是檢索系統(tǒng)將文檔集合中的文獻對象進行標引,用戶將需要查找的信息(即信息需求)表達成查詢,以信息提問的方式提交給檢索系統(tǒng),則檢索系統(tǒng)運用預(yù)先設(shè)定的匹配算法[4]進行計算,檢索出查找對象,并最終輸出滿足用戶需要的結(jié)果。信息檢索主要過程如圖1所示。
2 信息檢索技術(shù)的實現(xiàn)
2.1 標準平臺提供的檢索功能
對用戶的信息需求,標準共享平臺提供分類目錄查詢和輸入關(guān)鍵字查詢兩種方式。輸入關(guān)鍵字查詢需要用戶輸入所需查詢信息的標題或標準編號中的字、詞或者發(fā)行部門等信息,計算機通過事先設(shè)置的算法返回用戶查找的信息。
2.2 關(guān)鍵字檢索技術(shù)
由于標準平臺的開發(fā)面向已有的電子文檔,因此平臺的關(guān)鍵字檢索設(shè)計主要在于解決關(guān)鍵字索引及如何查詢索引問題。
按照輸入關(guān)鍵字查詢要求,將標準名稱及對應(yīng)的標準編號與標準內(nèi)容通過序號建立一一對應(yīng)關(guān)系[5],可將每篇文檔的標題看成是全文信息。利用倒排索引[6-7]思想,一方面將所有標準名稱及編號中的每個字按照其首字母先后順序建立一個索引,稱為詞表,它包含一個記錄表項,記錄表項記錄了出現(xiàn)這個字的標題所在地址信息及其編號情況。另一方面將出現(xiàn)的各個詞項的文檔標題或編號構(gòu)成一個文件,即記錄文件。例如,表1展示了部分標準信息,針對這些標準中的詞條建立倒排索引,部分內(nèi)容如表2所示。
在查找索引詞表問題上,由于詞表是按其首字母順序進行位置排序,當輸入一個字時,利用二分法[3]找到其首字母所屬段詞表,然后再對此段詞表進行順序搜索,直到查找到此字在詞表中的位置,同時找到此字的記錄表項,根據(jù)記錄表項中所記錄的標準名稱所在位置及序號找到相應(yīng)的文檔標題。當輸入不止一個字時通過AND操作,找到同時包含輸入字的文檔標題,通過之前與全文信息建立的對應(yīng)關(guān)系即可找到文檔信息。
3 信息檢索技術(shù)在系統(tǒng)中的實現(xiàn)
在搜索框內(nèi)輸入關(guān)鍵字,便可顯示含有關(guān)鍵字的標準或文檔信息,如果沒有符合的標準,系統(tǒng)則輸入“無此項信息”。圖2為輸入關(guān)鍵字“腐蝕”后的檢索示意圖。
從對標準電子詞典的測試情況發(fā)現(xiàn),運用倒排檢索及二分法對詞表進行查詢的方式所建立的標準共享平臺有非常高的正確率,滿足用戶要求。
標準電子詞典的成功開發(fā),是將信息檢索技術(shù)與企業(yè)文檔管理相結(jié)合思想應(yīng)用到實際工作中的一個例子,它使得用戶通過登錄系統(tǒng)輸入關(guān)鍵字便可以對所需標準進行搜索等操作。將工作人員從繁重的、重復(fù)的手工勞動中解放出來,提高了管理部門的管理水平。
參考文獻
[1] 黃如花,王梅,黃曉斌,等.數(shù)字圖書館原理與技術(shù)[M].湖北:武漢大學(xué)出版社,2005.
[2] 席生長,胡宏濤.信息檢索技術(shù)在中石油勘探與生產(chǎn)分公司門戶內(nèi)的應(yīng)用研究[J].福建電腦,2008(1):102-103.
[3] SHAFFER C A,張銘,劉曉丹,等.數(shù)據(jù)結(jié)構(gòu)與算法分析(C++版)[M].北京:電子工業(yè)出版社,2002.
[4] 聞玉彪,賈時銀,鄧世坤,等.一種改進的最大匹配中文分詞算法[J].計算機技術(shù)與發(fā)展,2011,10(21):92-98.
[5] 王斌.從信息檢索到搜索引擎[J].術(shù)語標準化與信息技術(shù),2009(4):38-43.
[6] 劉興宇.基于倒排索引的全文檢索技術(shù)研究[D].武漢:華中科技大學(xué),2004.
[7] 王澤胤.全文信息檢索的快速索引文件結(jié)構(gòu)及系統(tǒng)的設(shè)計與實現(xiàn)[D].吉林:吉林大學(xué),2009.