123,123

一种提高搜索引擎检索质量的网页解析法

日期： 2009-05-25

作者：钟楚玲朱丹曹二堂

關鍵詞： 计算机工程调查报告中国互联网发展状况和图

??? 摘要：通過實驗對網(wǎng)頁結(jié)構(gòu)和特點進行綜合分析，給出對網(wǎng)頁分塊的原則和方法，在分塊的基礎上根據(jù)網(wǎng)頁中噪音的出現(xiàn)規(guī)則提出了一種消除網(wǎng)頁噪音的方法，使搜索引擎對網(wǎng)頁的預處理階段有效消除網(wǎng)頁中的無關項和間接項的超連接，從而大大提高了搜索引擎的檢索質(zhì)量。
??? 關鍵詞：檢索質(zhì)量；分塊模型；搜索引擎

??? 隨著Internet的快速發(fā)展，大量的信息呈現(xiàn)在用戶面前，據(jù)統(tǒng)計，國內(nèi)Web網(wǎng)頁數(shù)量達3億以上^[1]，上網(wǎng)用戶總?cè)藬?shù)達8 700萬，將獲取信息作為上網(wǎng)最主要目的網(wǎng)民所占比例最多，達到42.3%^[2]。數(shù)據(jù)表明，Internet已成為人們獲取信息的重要資源，而Google、Yahoo、百度、新浪、天網(wǎng)等中英文搜索引擎是人們徜徉信息海洋、獲取信息的工具。然而，人們面對如此豐富的Web資源，使用搜索引擎發(fā)現(xiàn)自己真正需要的信息卻并非容易。一方面，各搜索引擎不斷改進檢索技術來提高返回結(jié)果的精度，在一定程度上解決了人們獲取信息的問題；另一方面，由于搜索引擎自身的問題，返回的結(jié)果與用戶的要求仍有一定的距離，用戶對搜索引擎的滿意度不太高。主要表現(xiàn)為查詢結(jié)果中普遍存在大量的無關項和不含具體內(nèi)容的間接項，造成搜索結(jié)果數(shù)量大、結(jié)果不精確、有用的結(jié)果淹沒在無用的結(jié)果之中的局面。用戶不得不花費大量的時間在查詢結(jié)果中尋找相關項，使得用搜索引擎來查找信息的目的難以達到。這種結(jié)果的原因之一是目前的搜索引擎沒有對網(wǎng)頁進行處理或只做了簡單的處理。
??? 目前的搜索引擎采用以關鍵字檢索為基礎的檢索技術^[3-4]，即搜索引擎按關鍵字對整個網(wǎng)頁進行索引和檢索。在這種處理方法中，所有出現(xiàn)在網(wǎng)頁中的字詞都被用作索引項，但實際的網(wǎng)頁中常常包含大量的與網(wǎng)頁主題無關的文字。例如，圖1和圖2是以“河北人民出版社”為關鍵字的檢索結(jié)果。圖1所示網(wǎng)頁的主要內(nèi)容是關于2004十大印象圖書介紹，其中包括上海人民出版社出版的《達芬奇密碼》，在網(wǎng)頁中注明的出處是新華網(wǎng)河北頻道。在這個網(wǎng)頁中包含了“河北”和“人民出版社”，搜索引擎誤把它當做“河北人民出版社”的相關項。圖2所示網(wǎng)頁的主要內(nèi)容是一些圖書的介紹，在左邊的導航欄中出現(xiàn)了河北人民出版社的連接，真正提供具體信息的應該是它指向的那個頁面，而那個頁面也應該能被檢索到，因此，圖2所示網(wǎng)頁是多余的間接項。

??? 如果搜索引擎在對網(wǎng)頁標引時，把整個網(wǎng)頁上不同主題、不同作用的文字混合在一起進行處理，那么，在檢索過程中根本無法排除如圖1所示的無關項。使用站點聚類技術，把出現(xiàn)在同一個站點上的結(jié)果項進行合并，雖然可以排除大部分如圖2所示的間接項，但是耗費了查詢時間。本文提出一種在標引前對網(wǎng)頁進行預處理的方法，能夠排除上述的無關項和間接項。
??? 目前的搜索引擎對網(wǎng)頁的預處理較簡單，幾乎保留了HTML網(wǎng)頁上所有的文字，這樣固然可以保證查全率，但從目前的網(wǎng)絡資源巨大豐富的角度來看，提高查準率對用戶更具有實際意義。在研究領域里，有人提出了基于HTML標記結(jié)構(gòu)的規(guī)律對特定網(wǎng)站進行信息抽取^[5]，但不滿足搜索引擎對多種多樣的網(wǎng)站進行處理的要求；有人提出“語義塊”的概念對網(wǎng)頁內(nèi)容分層，但沒有具體的實現(xiàn)方案^[6]；對于超連接的研究主要集中在對它所指向的頁面在檢索中的作用[7]，但很少有人研究超連接對網(wǎng)頁的負面影響。
1 HTML網(wǎng)頁的塊結(jié)構(gòu)模型和解析方法
1.1 HTML網(wǎng)頁的塊結(jié)構(gòu)模型
??? 通過對大量的網(wǎng)頁進行分析，發(fā)現(xiàn)人們在設計網(wǎng)頁時通常是把網(wǎng)頁設計成幾個區(qū)域，把不同主題、不同作用的文字安排在不同的區(qū)域。結(jié)合HTML標記的特點，認為網(wǎng)頁是由塊組成的，塊中可以再嵌套塊。因此，HTML網(wǎng)頁的塊結(jié)構(gòu)模型是：{<塊起始標記><塊內(nèi)容><塊結(jié)束標記>[，<塊起始標記><塊內(nèi)容><塊結(jié)束標記>，…]}。其中，塊內(nèi)容中可以再包含塊。實際的網(wǎng)頁大多是由多層的塊嵌套構(gòu)成的。
1.2 分塊原則及算法
??? HTML塊標記有

、

、、、

、

等。在實際應用中，塊的劃分要合理。塊劃分得過多，會把相關的內(nèi)容劃分到不同的塊區(qū)，這樣將導致網(wǎng)頁與查詢關鍵字的相關度降低；塊劃分得過少，會把不相關的內(nèi)容劃分到同一個塊區(qū)，這樣將導致查準率的降低。例如，一篇文章由標題、作者、出處和多個段落組成，顯然這些文字應劃分在同一個塊區(qū)。經(jīng)過對大量網(wǎng)頁的統(tǒng)計分析，不外乎兩種情況。一種是網(wǎng)頁中不包含

標記，只有一篇文章，顯然，這類網(wǎng)頁只有一個塊區(qū)；另一種是網(wǎng)頁中包含多個

標記，而一篇文章的標題、作者、出處和多個段落一般安排在某一個表格的一個或多個單元格中。因此，將網(wǎng)頁中的表格(

標記)做為塊區(qū)比較合理。
??? 分塊原則如下：
??? (1)如果網(wǎng)頁中包含水平線標記

，首先按水平線分塊；
??? (2)在上述分塊的基礎上，如果包含

、

標記，按

、

分塊；
??? (3)如果在

、

中包含水平線標記

，再按水平線分塊。
??? 分塊算法如下：
??? 查找水平線標記，插入塊標記；
??? While(文件沒有結(jié)束)
??? {查找塊起始標記和結(jié)束標記，位置存入tableLoc() ；
??? 同時，在tableSym中簡記為b和e； }
??? 將tableLoc中的位置數(shù)據(jù)排序，同時調(diào)整tableSym中的b、e標記；
??? While(tableSym中的標記數(shù)不等于0)
??? { 查找“be”；
??? 提取塊；
??? tableSym中的標記數(shù)減2；}
1.3 消除噪聲的規(guī)則
??? 人們在制作網(wǎng)頁時，總是準備了一定的素材，這些素材是網(wǎng)頁設計者希望通過網(wǎng)頁傳達給訪問者的信息。但同時也會在網(wǎng)頁中增加一些連接到其他網(wǎng)頁的超連接，而這些超連接文字的作用僅僅起著向?qū)ё饔?，與頁面主題無關，它們的加入會影響到頁面的原貌，把這樣的超連接文字定義為網(wǎng)頁的“噪聲”，把網(wǎng)頁中原本要表達的內(nèi)容定義為網(wǎng)頁的“主題內(nèi)容”。
??? 通過對大量網(wǎng)頁的統(tǒng)計分析，噪聲主要來源于超連接文字，但并非所有的超連接文字都是噪聲，因此要準確地消除網(wǎng)頁中的噪聲也并非容易。
??? 網(wǎng)頁中的超連接文字可分為3類：
??? (1)超連接文字在網(wǎng)頁中僅僅起著向?qū)ё饔茫淠康氖翘峁┮粋€訪問目錄。超連接文字在它所指向的網(wǎng)頁中還會出現(xiàn)，這些頁面能夠被搜索引擎搜索到。因此，這類超連接文字是本網(wǎng)頁的噪聲。一般說來，這類超連接文字的前后還是超連接文字，所以噪聲通常聚集成塊。
??? 需要說明的是索引網(wǎng)頁中的超連接文字雖然是網(wǎng)頁的主題，但是超連接文字在它所指向的網(wǎng)頁中還會出現(xiàn)，這些頁面通常能夠被搜索引擎搜索到，所以，本網(wǎng)頁不必出現(xiàn)在搜索結(jié)果中。
??? (2)超連接文字在網(wǎng)頁中具有向?qū)Ш完愂龅碾p重功能，超連接文字引向另一個網(wǎng)頁或本網(wǎng)頁的其他位置的同時，本身也是網(wǎng)頁主題內(nèi)容的一部分，這樣的超連接文字也是網(wǎng)頁的主題內(nèi)容，而不是噪聲。一般說來，這類超連接文字的前后的文字不是超連接。
??? (3)超連接文字所指向的目標文件中不會出現(xiàn)此超連接文字，目標文件是搜索引擎不能直接搜索到的文件。例如，超連接文字指向的目標是MP3格式文件、exe格式文件或圖片格式文件等，這些超連接文字不能視為網(wǎng)頁的噪聲。
??? 從網(wǎng)頁的結(jié)構(gòu)上看，(1)類超連接文字聚集成塊，超連接文字與塊區(qū)內(nèi)所有文字的比值R接近于1；(2)類超連接文字處在主題內(nèi)容塊區(qū)，超連接文字與塊區(qū)內(nèi)所有文字的比值R遠小于1。通過實驗確定兩個閾值R1和R2。若R>R1，則確定為噪聲；若R??? 根據(jù)上面的分析，在對網(wǎng)頁分塊的基礎上確定消除網(wǎng)頁噪聲的規(guī)則：
??? (1)在塊區(qū)中掃描超連接，如果超連接指向的目標是網(wǎng)頁，則將此超連接文字標記為準噪聲；如果超連接指向的目標不是網(wǎng)頁，則在網(wǎng)頁中保留此超連接文字。
??? (2)統(tǒng)計塊區(qū)內(nèi)超連接文字數(shù)量及文字的總數(shù)量并計算其比值R，若R>R1，保留準噪聲標記；若R??? (3)檢查超連接前后相鄰的文字是否是超連接，如果相鄰的超連接數(shù)S大于某一閾值，將此超連接文字的準噪聲標記刪除。
2 實驗及結(jié)果分析
??? 本文開發(fā)了一個HTML網(wǎng)頁解析器實現(xiàn)了上述算法。實驗中使用的網(wǎng)頁都是根據(jù)著名搜索引擎的搜索結(jié)果下載的真實網(wǎng)頁。實驗中參數(shù)的取值分別是：R1=0.9；R2=0.3；S=3。由于文章篇幅的限制，在此略去實驗結(jié)果的圖片。
??? 實驗一是網(wǎng)頁的分塊實驗，實驗中對數(shù)十個網(wǎng)頁進行了分塊，正確率達100%；實驗二使用100個網(wǎng)頁進行了消除(1)類超連接文字噪聲的實驗，其中98個網(wǎng)頁的無關項超連接和間接項超連接都被消除；實驗三和實驗四是保留(2)類超連接文字和(3)類超連接文字的實驗，正確率達100%。
??? 實驗二的正確率與R1、R2、S的值有關。對于參數(shù)S而言，如果值過小，就會把一些有用的超連接文字消除，例如文章的標題、作者、出處都有超連接時，這些文字是網(wǎng)頁的重要內(nèi)容，不應消除；如果S的值過大，會將一些噪聲保留。通過對大量網(wǎng)頁的統(tǒng)計分析，認為S取值為3較合適，這樣即使在網(wǎng)頁中保留一些噪聲，由于數(shù)量較小，對網(wǎng)頁的影響也不大，同時對網(wǎng)頁有用的超連接文字也不會被誤認為是噪聲而消除。
??? 本文介紹的網(wǎng)頁解析方法在搜索引擎和數(shù)據(jù)挖掘方面具有重要的意義和應用前景。通過消除網(wǎng)頁的噪聲，使網(wǎng)頁的主題更加突出。在搜索引擎的返回結(jié)果中排除了無關項和間接項，提高了搜索引擎的查準率；在網(wǎng)絡使用行為挖掘領域，分析用戶感興趣的網(wǎng)頁方面，由于排除了噪聲的干擾，使得分析結(jié)果更準確。
參考文獻
[1]?中國互聯(lián)網(wǎng)信息中心. 2003年中國互聯(lián)網(wǎng)絡信息資源數(shù)量調(diào)查報告，信息資源開發(fā)利用調(diào)查報告[DB/OL].http://www.cnnic.net.cn/download/ manual/report20030330.doc: 60.
[2]?中國互聯(lián)網(wǎng)信息中心. 第十四次中國互聯(lián)網(wǎng)絡發(fā)展狀況調(diào)查統(tǒng)計報告(2004年7月)[DB/OL].http://www.cnnic.net.cn/download/2004/2004072002.pdf
[3]?杜阿寧，方濱興，胡銘曾，等. 中文交互式網(wǎng)絡搜索引擎及其自學習能力[J].計算機工程與應用，2003(10):148-150.
[4]?陳俊杰，薛云，宋翰濤，等. 基于Agent的元搜索引擎的研究與設計[J].計算機工程與應用，2003(10): 33-36.
[5]?KUSH M N, WELD DS,DOOREMBOS. Wrapper Induction for Information Extraction,proceedings of the Fifteenth International Joint Conference on Artificial Intelligence, 1997: 729-735.
[6]?CARCHIOLO V, LONGHEU A, MALGERIM. Malgeri,M.,Structuring the Web,Database and Expert Systems Applications,2000.Proceedings.llth International Workshop on,1123-1127,2000.
[7]?N.Cras well, D. Hawking,S. e. Robertson,Effective Site Finding Using Link Anchor Information,SIGIR 2001,2001.

版權聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

一种提高搜索引擎检索质量的网页解析法

日期： 2009-05-25

作者：钟楚玲 朱 丹 曹二堂

相關內(nèi)容

作者：钟楚玲朱丹曹二堂