123,123

基于Lucene全文检索引擎的应用研究

来源:微型机与应用2010年第22期

朱雪莲

（新疆艺术学院基础部（思政部），新疆乌鲁木齐 830049）

摘要： Lucene是一个强大的全文索引引擎工具包, 它的全文检索技术是信息检索领域广泛使用的基本技术, 具有访问索引时间快、多用户访问、跨平台使用的特点。介绍了一个高性能的全文检索引擎——Lucene开源系统，详细分析了Lucene的系统结构、全文索引机制,然后将其引入具体应用，给出了一个基于Lucene全文检索技术的具体实例。

關(guān)鍵詞： 全文检索技术 Lucene 索引

Abstract：

Key words :

摘要: Lucene是一個(gè)強(qiáng)大的全文索引引擎工具包, 它的全文檢索技術(shù)是信息檢索領(lǐng)域廣泛使用的基本技術(shù), 具有訪(fǎng)問(wèn)索引時(shí)間快、多用戶(hù)訪(fǎng)問(wèn)、跨平臺(tái)使用的特點(diǎn)。介紹了一個(gè)高性能的全文檢索引擎——Lucene開(kāi)源系統(tǒng)，詳細(xì)分析了Lucene的系統(tǒng)結(jié)構(gòu)、全文索引機(jī)制,然后將其引入具體應(yīng)用，給出了一個(gè)基于Lucene全文檢索技術(shù)的具體實(shí)例。
關(guān)鍵詞: 全文檢索技術(shù); Lucene; 索引

    Lucene作為一個(gè)開(kāi)放源代碼全文檢索工具包，具有優(yōu)異的索引結(jié)構(gòu)和良好的系統(tǒng)架構(gòu), 不僅可以通過(guò)它來(lái)構(gòu)建具體的全文檢索應(yīng)用, 而且能方便地集成到各種系統(tǒng)軟件中,本文對(duì)Lucene進(jìn)行深入的研究和分析，以此為基礎(chǔ)設(shè)計(jì)實(shí)現(xiàn)了一個(gè)以商業(yè)網(wǎng)站中構(gòu)建搜索引擎的實(shí)例。
1 全文檢索引擎Lucene
1.1 Lucene概述
    Lucene是用Java寫(xiě)的全文檢索引擎工具包，并不是一個(gè)完整的全文檢索引擎，而是一個(gè)全文檢索引擎的架構(gòu)，可以提供多個(gè)應(yīng)用程序編程接口函數(shù)和數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)，并能方便地嵌入到各種應(yīng)用中，從而實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引/檢索功能。
1.2 Lucene系統(tǒng)結(jié)構(gòu)
    Lucene的系統(tǒng)結(jié)構(gòu)中運(yùn)用了面向?qū)ο蟮脑O(shè)計(jì)思想，定義的索引文件格式與平臺(tái)無(wú)關(guān)，并通過(guò)抽象將系統(tǒng)的核心組成部分和具體的平臺(tái)部分設(shè)計(jì)為抽象類(lèi)，與具體平臺(tái)相關(guān)的部分例如文件存儲(chǔ)也封裝為類(lèi)，經(jīng)過(guò)層層處理，形成了一個(gè)低耦合、高效率、容易二次開(kāi)發(fā)的檢索引擎系統(tǒng)。系統(tǒng)結(jié)構(gòu)圖如圖1所示。

從圖1看到Lucene系統(tǒng)是由基礎(chǔ)結(jié)構(gòu)封裝、索引核心、對(duì)外接口三大部分組成。其中索引核心部分是系統(tǒng)的重點(diǎn)。 Lucene中共有7個(gè)子包,每個(gè)包的具體功能見(jiàn)表1,核心類(lèi)包主要有: org. apache.lucene. analysis; org. apache. lucene. Index;org. apache.lucene. search。

1.3 Lucene全文索引機(jī)制
    Lucene索引存儲(chǔ)結(jié)構(gòu)采用層次結(jié)構(gòu),主要由索引、字段、文檔、字、詞組成，在存儲(chǔ)正向信息時(shí)通常是按層次保存從索引到詞的包含關(guān)系，即Lucene索引文件由若干段(Segment，相當(dāng)于表)組成，每一段由若干的文檔(document，相當(dāng)于表中記錄)組成，每一個(gè)文檔由若干的域(Field，相當(dāng)于表中字段)組成，每一個(gè)域由若干的項(xiàng)(Term，相當(dāng)于表中數(shù)據(jù))組成；而反向信息則保存了詞典到倒排表的映射。因此，索引存儲(chǔ)結(jié)構(gòu)設(shè)計(jì)比較通用,輸入輸出結(jié)構(gòu)類(lèi)似于數(shù)據(jù)庫(kù)中的表→記錄→字段,很多文件、數(shù)據(jù)庫(kù)等都能較為方便地映射到Lucene的索引存儲(chǔ)結(jié)構(gòu)/接口中。
    Lucene訪(fǎng)問(wèn)索引的時(shí)間較快，這是因?yàn)榇蟛糠謹(jǐn)?shù)據(jù)庫(kù)引擎是用B樹(shù)來(lái)維護(hù)索引結(jié)構(gòu)的，更新索引時(shí)會(huì)導(dǎo)致大量的輸入和輸出操作,而通過(guò)Lucene構(gòu)建的索引文件在擴(kuò)展索引時(shí)，是將新創(chuàng)建的小索引文件定期地合并到原先的大索引文件中，從而提高了索引效率。
2 基于Lucene構(gòu)建搜索引擎的具體應(yīng)用
    在實(shí)現(xiàn)利用Lucene構(gòu)建搜索引擎的具體應(yīng)用時(shí)，以在商業(yè)網(wǎng)站中構(gòu)建一個(gè)搜索引擎為例，通過(guò)爬蟲(chóng)將各大IT門(mén)戶(hù)網(wǎng)站提供的商品信息抓取下來(lái),然后對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行數(shù)據(jù)信息抽取并轉(zhuǎn)換為統(tǒng)一格式的文本文件，并構(gòu)建專(zhuān)業(yè)數(shù)據(jù)庫(kù)和主題詞典,同時(shí)將詞典內(nèi)容擴(kuò)充到中文分詞模塊中；中文分詞模塊對(duì)文件處理器處理生成的文本文件進(jìn)行分詞處理,并提供詞元序列供索引器索引,并將索引結(jié)果保存到索引數(shù)據(jù)庫(kù)中;使用Tomcat Web服務(wù)器發(fā)布系統(tǒng)的檢索頁(yè)面,當(dāng)用戶(hù)通過(guò)Web界面輸入要查詢(xún)的關(guān)鍵詞并提交后，搜索器到索引數(shù)據(jù)庫(kù)中進(jìn)行檢索，檢索到的結(jié)果經(jīng)過(guò)處理之后，作為響應(yīng)發(fā)送給用戶(hù)。系統(tǒng)結(jié)構(gòu)如圖2所示。本文將介紹與Lucene相關(guān)的設(shè)計(jì)與實(shí)現(xiàn),并利用Lucene工具包提供的類(lèi)對(duì)其擴(kuò)展來(lái)實(shí)現(xiàn)具體的應(yīng)用。

    首先對(duì)抓取下來(lái)的網(wǎng)頁(yè)內(nèi)容進(jìn)行結(jié)構(gòu)化的抽取,并對(duì)抽取的內(nèi)容按固定格式保存、完成主題詞庫(kù)的構(gòu)建、產(chǎn)品數(shù)據(jù)庫(kù)的構(gòu)建、數(shù)據(jù)庫(kù)處理類(lèi)的構(gòu)建等幾項(xiàng)任務(wù)，為后續(xù)的索引入庫(kù)、檢索打下基礎(chǔ)。
2.1 索引庫(kù)的建立
   在索引階段需要定義Lucene的Document格式和構(gòu)建索引的處理類(lèi)。Lucene的索引庫(kù)是通過(guò)接口添加一條條索引記錄實(shí)現(xiàn)的,首先需要構(gòu)造一個(gè)Document文檔對(duì)象，確定Document的各個(gè)域，IndexWriter負(fù)責(zé)接收新加入的文檔，并寫(xiě)入索引庫(kù)中。
    本實(shí)例中ProductDocument類(lèi)靜態(tài)方法為一個(gè)Product對(duì)象構(gòu)建Lucene的Document,當(dāng)中包含了 7個(gè)Field，分別為identifier(產(chǎn)品ID)、indextime(索引時(shí)間)、producturl(產(chǎn)品URL)、category(產(chǎn)品分類(lèi))、name(產(chǎn)品名稱(chēng))、type(產(chǎn)品型號(hào))、all。前6個(gè)Field與數(shù)據(jù)庫(kù)中的內(nèi)容有直接的對(duì)應(yīng)關(guān)系,而all則是將category(產(chǎn)品分類(lèi))、name(產(chǎn)品名稱(chēng))、type(產(chǎn)品型號(hào))拼接起來(lái),為用戶(hù)搜索時(shí)提供一個(gè)默認(rèn)Field。具體定義如表2所示。

    關(guān)鍵代碼如下:
import org. apache. lucene. document;
public class ProductDocument
{
　   //Field名稱(chēng),當(dāng)前產(chǎn)品在數(shù)據(jù)庫(kù)中的ID
　   private static final String PRODUCT_ ID="p roductid";
   ……
　   public static Document buildProductDocument(Porduct pro-
duct, int id)
　　   {
　　       Document doc = new Document( ) ;
　　　   // 此處構(gòu)建6個(gè)Field
　　　   Field identifier;
　　　   Field indextime;
　　　   Field p roducturl;
　　　   Field category;
　　　   Field name;
　　　   Field type;
　　　   //最后一個(gè)Field將category、name、type的信息綜合起來(lái),默認(rèn)在此進(jìn)行檢索
　　　   Field all;
　　　   // add all
　　　   doc. add ( identifier) ;
　　　   ……
　　　   return doc;
　　   }
}
　　下面的代碼是索引類(lèi)的代碼,它用于向Lucene索引中添加Document。
public classProductIndexer{
　　　......
private void initialize() throws Exception{
    analyzer = new MMAnalyzer();
     FileReader reader = new
     FileReader(dictionary_file);
　   ((MMAnalyzer)analyzer). addDictionary(reader);
     writer = new IndexWriter( indexPath, analyzer,
     true);
}
public void close(){...... }
public void addProduct(Product product, int id) throws Exception{
     writer. addDocument ( ProductDocument.
     buildProductDocument(product, id));
   　　   }
　　       ......
}
   在initialize方法中,初始化了一個(gè)JE分詞的MMAnalyzer實(shí)例,然后將生成的主題詞庫(kù)添加到該實(shí)例中。addProduct方法將兩個(gè)參數(shù)Product和id傳遞到ProductDocument.bulidProductDocument方法里,然后調(diào)用IndexWriter的addDocument方法,把生成的產(chǎn)品加入到索引中。至此，數(shù)據(jù)庫(kù)與索引的建立結(jié)束。
2.2 檢索
    Lucene的檢索接口主要由QueryParser、IndexSearcher、Hits三個(gè)類(lèi)構(gòu)成，QueryParser是查詢(xún)分析器,IndexSearcher是索引搜索器，檢索時(shí),用戶(hù)提交檢索關(guān)鍵字,先調(diào)用Lucene的查詢(xún)分析器分析用戶(hù)提交的查詢(xún),然后調(diào)用IndexSearcher類(lèi)進(jìn)行搜索；返回結(jié)果為Hits類(lèi)，通過(guò)它再訪(fǎng)問(wèn)Document=>Field中的內(nèi)容。
    本文在深入剖析Lucene的系統(tǒng)結(jié)構(gòu)和索引機(jī)制的基礎(chǔ)上,實(shí)現(xiàn)了一個(gè)商業(yè)領(lǐng)域搜索引擎的實(shí)例,檢索的結(jié)果由結(jié)構(gòu)化的數(shù)據(jù)組成，描述針對(duì)性很強(qiáng)，響應(yīng)速度快、查準(zhǔn)率高。今后,將進(jìn)一步增加對(duì)動(dòng)態(tài)頁(yè)面的索引和語(yǔ)義分析來(lái)提高搜索的精度。
參考文獻(xiàn)
[1] 管建和，甘劍峰.基于Lucene全文檢索引擎的應(yīng)用研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì)，2007,1.28(2)：489-491.
[2] 車(chē)東.在應(yīng)用中加入全文檢索功能—基于Java的全文索引引擎 Lucene簡(jiǎn)介[EB/OL].http://www.chedong.com/tech/lucene.html.2009.03.20.
[3] 邱哲,符滔滔.開(kāi)發(fā)自己的搜索引擎[M].北京：人民郵電出版社, 2007.
[4] 李廣麗，劉覺(jué)夫.垂直搜索引擎的研究與實(shí)現(xiàn)[J]. 情報(bào)雜志, 2009,10.28(10)：144-147,169.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容