潘心宇1,陳長福2,劉蓉1,王美清1
?。?.福州大學 數(shù)學與計算機科學學院,福建 福州 350108;2.福建庫易信息科技有限責任公司,福建 福州 350000)
摘要:由于人工抽取網頁信息效率低、成本高,因此根據對大量網頁結構的觀察,提出基于網頁文檔對象模型DOM樹節(jié)點路徑相似度的正文抽取方法。依據同網站下的網頁結構相同的特點去除網頁噪聲得到網頁的主題內容,然后結合正文節(jié)點在DOM樹中的路徑的相似度抽取正文。通過對不同類型的中文新聞網站上的1 000個網頁進行實驗,結果表明該方法對于97.6%的網頁都能夠去除大部分噪聲并保持正文內容的完整性,正文抽取結果有93.30%的準確率和95.59%的召回率。所提算法對不同類型的網頁都有較好的適應性。
關鍵詞:DOM樹;信息抽取;HTML標簽;網頁去噪;正文抽取
0引言
隨著互聯(lián)網技術的快速發(fā)展,網頁成為人們獲取信息的重要來源之一。然而,網頁上的數(shù)據是海量的,單純依靠人工手段獲取網頁信息效率較低,因此需要借助軟件對網頁信息進行全部或部分地自動過濾和分類。目前常用的自動網頁信息獲取方法是正文內容抽取,該類方法是一種被廣泛應用于互聯(lián)網數(shù)據挖掘的技術,它的目標是從互聯(lián)網龐大的數(shù)據中提取有意義的和有價值的信息,可以用于信息搜索、Web文檔分類、數(shù)據挖掘、機器翻譯、文本摘要等。
常用的正文抽取方法可以分為以下4類:(1)傳統(tǒng)的歸納總結正文抽取方法:根據一些信息模式,從特定的信息源中提取相關內容[1]。此方法效率較低、需要較多的手動操作,獨立性以及適應性較差。(2)基于網頁布局[2]和視覺[3-4]的正文抽取:該方法很大程度上依賴于網頁的風格或者結構。當涉及到有更復雜的嵌套關系的網頁時會出現(xiàn)偏差。(3)基于語義單元[5]或者數(shù)據挖掘、機器學習[6]的正文抽?。和ㄟ^使用分詞和文本分類,雖然準確率有所提高,但是解決方案比較復雜。(4)基于統(tǒng)計的正文抽?。?]:該方法簡單而且具有更好的通用性,但是較低的精確度限制了它的進一步應用。此外,它不能處理短文本、表格文本以及有較長評論的文本。
FINN A等[8]提出正文抽取(Body Text Extrac tion,BTE) 算法,將網頁中的文字和標簽作為序列,抽取序列中文字最多和標簽最少的連續(xù)的內容。PINTO D等[9]提出文檔斜率曲線(Document Slope Curves,DSC) 算法,在FINN的方法的基礎上使用窗口方法實現(xiàn)多正文抽取。MANTRATZIS C等[10]提出鏈接定額過濾(Link Quota Filters,LQE) 算法,通過網頁結構分析,分離正文和導航目錄等超鏈接。DEBNATH S等[11]提出特征提取器(Feature Extractor,FE)算法,選擇包含有一定特征的文本、圖像而且重復出現(xiàn)次數(shù)較少的內容塊。GOTTRON T等[12]提出正文代碼模糊(Content Code Blurring,CCB)算法,選擇相同格式的長文本作為網頁的正文。劉利等[13]提出基于多特征融合的網頁正文信息抽取,從網頁的多個特征和設計習慣入手定位正文位置。王利等[14]提出基于內容相似度的正文抽取,根據樹節(jié)點中文本內容與各級標題的相似度判定小塊文本信息的有效性,由此進行網頁清洗和正文抽取。
分析網頁信息會發(fā)現(xiàn),網頁中包含大量與網頁主題無關的噪聲內容,如廣告鏈接、導航欄、版權信息等。在正文抽取過程中,這些網頁噪聲會影響抽取效果,因此需要通過去噪方式對網頁進行預處理。常用的網頁去噪方法有:
YI L等[15]提出用風格樹(Style Tree,ST)來表達網頁的結構和內容特征,出現(xiàn)相同特征次數(shù)多的部分更有可能是噪聲數(shù)據。GIBSON D等[16]提出Shingle和模板Hash方法。這兩種算法的缺點是計算量較大。WANG J Y等[17]提出的主題數(shù)據提取(Datarich Section Extraction,DSE)算法,該算法通過從上到下比較兩棵相同模板的文檔對象模型 (Document Object Model,DOM)樹,去除樹中相同的部分,剩下的部分作為網頁的主題內容。
根據對現(xiàn)有方法的總結以及對網頁特征的分析,本文提出基于DOM樹節(jié)點路徑相似度的正文抽取方法,對于不同結構的網頁都有較好的適應性,對來源于新浪、網易、搜狐、騰訊等大型門戶網站以及多家各類型網站的1 000個網頁進行了抽取實驗,實驗結果表明本文方法有較好的抽取準確度。
1網頁去噪
目前,大部分網頁的源代碼是以超文本標記語言 (Hyper Text Markup Language,HTML)的形式存在的。對于同一網站下的不同網頁,它們由同一個模板生成,因此這些網頁具有相似的結構,而這些網頁中相同的部分就是噪聲內容,它們與網頁所要表達的主題沒有關系。本文在DSE算法的基礎上,首先將與網頁無關的標簽及相關代碼刪除,然后通過將某個網頁與同一網站下的2個或多個網頁進行對比去除相同部分,從而達到去除噪聲的目的。
1.1刪除無關的標簽
網頁源代碼包含了以不同的標簽括起來的各段代碼。例如,網頁標題和一些修飾性代碼主要嵌在標簽<head>和</head>的內部,網頁主題內容包含在<body>和</body>標簽之間,客戶端腳本則包含在<script>和</script>標簽之間。通過對大量HTML文本的研究和分析,發(fā)現(xiàn)以下幾類標簽與網頁主題內容的相關性很低,在對比網頁之前可以將這部分內容過濾掉以提高后續(xù)的對比速度。
<head>與</head>標簽以及它們之間的內容。
<script></script>標簽。該標簽中內容的主要功能是定義客戶端腳本,與網頁所要表達的內容關系不大,也可以將其刪除,類似地,<noScript></noScript>也可刪除。
大部分網頁通過層疊樣式表(Cascading Style Sheets,CSS)來調整頁面的布局,<style></style>標簽用于定義HTML文檔的樣式信息,同樣可以刪除。
注釋標簽<!--注釋內容-->、<!注釋內容>只是為網站編輯提供說明,并不會在瀏覽器中顯示,也可刪除。
在預處理過程中利用正則表達式刪除以上噪聲代碼。正則表達式通過使用單個字符串來描述、匹配一系列符合某個句法規(guī)則的網頁源代碼。符合匹配規(guī)則的源代碼將被刪除。
刪除完無關標簽后,再刪除空白行,這樣完成了去噪的第一步。
1.2通過網頁對比去除噪聲
網頁對比可以通過對比它們的 DOM樹來實現(xiàn)。DOM是文檔中數(shù)據和結構的一個樹形表示, 它定義了表示和修改文檔所需的對象、這些對象的行為和屬性以及這些對象之間的關系。DOM實際上是以面向對象方式描述的文檔模型。它可以以一種獨立于平臺和語言的方式訪問和修改一個文檔的內容和結構。圖1給出了一個文檔的DOM樹的結構圖。
通過HTML解析(如使用解析器htmlcxx)可以將HTML文檔轉換為DOM樹結構。假設要處理的是某網站的網頁URL1,隨機選取該網站下的另外兩個網頁URL2和URL3,獲得它們的DOM樹。然后分別對比DOM1\\DOM2以及DOM1\\DOM3, 輸出不同的節(jié)點。
對比算法的基本思路是:按深度遍歷3棵樹的節(jié)點,為每個節(jié)點設置深度、路徑、文本內容、是否為tag(HTML標簽)。以第1個網頁作為目標與另外兩個網頁進行對比,如果3個節(jié)點深度相同,則判斷節(jié)點的文本內容是否相同,相同的加入模板集合中,不同的加入網頁內容集合中;如果3個節(jié)點深度不同,則根據不同情況對相應的節(jié)點進行處理,其中網頁1的節(jié)點加入到網頁內容集合中。直到3個網頁都遍歷到end節(jié)點為止。最后得到的就是網頁1的主題內容, 過濾了噪聲部分。
算法偽代碼如下:
for(i = begin1 : end1; j = begin2 : end2; k = begin3 : end3)
{
if(depth1 == depth2 == depth3)
if(i->text() == j->text() == k->text())
i加入模板集合;
else
i加入內容集合;
else
{
while(depth1 > depth2 || depth1 > depth3)
{
i加入內容集合;
i++;
}
while(depth1 < depth2)
j++;
while(depth1 < depth3)
k++;
}
}
2正文抽取
HTML文檔轉換成DOM樹以后,每個節(jié)點都有唯一確定的路徑。網頁中不同內容塊的節(jié)點在DOM樹中的公共路徑較少,而同一內容塊的節(jié)點的公共路徑很長。本文以這些路徑之間的相似度作為不同節(jié)點是否屬于同一內容塊的依據。所有的主題內容都在葉子節(jié)點上,記所有葉子節(jié)點的路徑為:
其中TAi為文本節(jié)點內容。
例如:
<html>
<body>
<div>
<p>This is the first block.</p>
<p>This is the second block.</p>
<p>This is the third block.</p>
</div>
<div>
<p>test1</p>
</div>
</body>
</html>
這段網頁源代碼中的 “This is the first block”節(jié)點的路徑為:
“This is the second block”節(jié)點的路徑為:
記深度相同的節(jié)點A、B的相似度為
0TA≠TB,depth為節(jié)點的深度,則任意兩個節(jié)點A、B的路徑的相似度可以定義為:
其中nA、nB分別表示節(jié)點A、B的深度。
通過對大量網頁的研究發(fā)現(xiàn),正文內容節(jié)點大都擁有共同的父節(jié)點或者祖父節(jié)點,取閾值Th=1-12depth(maxl)-2,其中,maxl為P中字符最多的節(jié)點;depth為節(jié)點深度,即路徑Pi中的元素個數(shù)。記集合P中字符最多的節(jié)點為L,與P中其他節(jié)點計算相似度,大于閾值的作為正文內容。
3實驗結果分析
本文從新浪、網易、搜狐、騰訊等大型門戶網站以及多家各類型網站中抽取了1 000個網頁作為測試數(shù)據,采用基于網頁DOM樹節(jié)點路徑相似度的正文抽取方法進行實驗,去噪結果和正文抽取結果如表1所示。
從表1的統(tǒng)計結果可以看出,有97.6%的網頁清洗掉了大部分的噪聲并且完整保留了網頁中的有效信息;對于新浪、網易等門戶網站的抽取結果較好,都有90%以上的準確率和95%以上的召回率;對于其他不同結構的網站,本文的正文抽取方法也都能適用,很好地實現(xiàn)了網頁正文抽取的工作,并且有著較高的準確率和召回率。
為了驗證本文方法的有效性,以上述的1 000個網頁作為樣本,將本文方法與BTE、DSC、FE、LQF、CCB等算法進行對比實驗,實驗結果如表2所示。
由表2可以看出,本文提出的方法相對于現(xiàn)有的統(tǒng)計方法有更好的準確率和召回率。
互聯(lián)網的發(fā)展為用戶帶來了一個包含豐富信息的巨型數(shù)據庫,但是如何識別其中的有效數(shù)據是應用的關鍵。本文的正文抽取方法利用網頁DOM樹節(jié)點路徑相似的特點實現(xiàn)正文抽取,為之后的數(shù)據分類、分析等工作奠定了基礎。
4結論
本文根據新聞正文內容在網頁中相對集中且同網站的新聞頁面有相同模板的特點,提出基于網頁DOM樹節(jié)點路徑相似度的正文抽取方法,先用正則表達式刪除網頁源代碼中與正文內容無關的代碼,然后將得到的網頁轉換為DOM樹,再將目標網頁的DOM樹與另外兩個網頁的DOM樹進行對比去除噪聲,最后,根據節(jié)點路徑相似度來抽取正文內容。該方法對來自不同網站的數(shù)據能夠快速、準確地抽取正文內容,適用于結構變化不大的網頁,但是對正文內容較少的網頁抽取效果仍有待提高。下一步主要工作是加入內容節(jié)點與標題節(jié)點的路徑之間的距離判斷節(jié)點是否為正文,以提高算法的準確度。
參考文獻
?。?] KUSHMERICK N, WELD D S, DOORENBOS R. Wrapper induction for information extraction[C].IJCAI 1997: Proceedings of the 1997 International Joint Conference on Artificial Intelligence,1997:729-737.
?。?] FU L, MENG Y, XIA Y J, et al. Web content extraction based on webpage layout analysis[C]. ITCS 2010: Proceedings of the 2010 Second International Conference on Information Technology and Computer Science, 2010: 40-43.
[3] CAI D, YU S P, WEN J R, et al. VIPS: a vision based on page segmentation algorithm[R].Microsoft Co., Tech. Report, 2003.
?。?] WANG J Q, CHEN Q C, WANG X L, et al. Basic semantic units based web page content extraction[C]. SMC 2008: Proceedings of the 2008 IEEE International Conference on Systems, Man and Cybernetics, Piscataway,NJ: IEEE Press, 2008:1489-1494.
?。?] UZUN E, AGUN H V, YERLIKAYA T. Web content extraction by using decision tree learning[C]. SIU 2012: Signal Processing and Communications Applications Conference, 2012: 1-4.
?。?] PAN D H, QIUS G, YIN D W. Web page content extraction method based on link density and statistic[C]. WiCOM 2008: Wireless Communications, Networking and Mobile Computing, Dalian, China, IEEE Press, 2008:1-4.
[7] REIS D C, GOLGHER P B. Automatic web news extraction using tree edit distance[C]. Proc. WWW 2004: The 13th International Conference on World Wide Web, New York: ACM, 2004: 502-511.
?。?] FINN A, KUSHMERICK N, SMYTH B. Fact or fiction: Con tent classification for digital libraries[C]. Proc of the 2nd DELOS Network of Excellence Workshop on Personalization and Recommender Systems in Digital Libraries. Dublin, Ireland, 2001: 1-6.
[9] PINTO D, BRANSTEIN M, COLEMAN R, et al. QuASM: A system for question answering using semistructured data[C]. Proc of the 2nd ACM/ IEEECS Joint Conference on Digital Libraries. Portland, USA, 2002: 46-55.
?。?0] MANTRATZIS C, ORGUN M, CASSIDY S. Separating XHTML content from navigation clutter using DOMstructure block analysis[C]. Proc of the 16th ACM Conference on Hypertext and Hypermedia, Salzburg, Austria, 2005: 145-147.
?。?1] DEBNATH S, MITRA P, GILES C L. Automatic extraction of informative blocks from webpages[C]. Proc of the ACM Symposium on Applied Computing, SantaFe, USA, 2005: 1722-1726.
?。?2] GOTTRON T. Content code blurring: A new approach to content extraction[C]. Proc of the 19th International Conference on Database and Expert Systems Applications, Turin, Italy, 2008: 29-33.
?。?3] 劉利, 戴齊, 尹紅風,等. 基于多特征融合的網頁正文信息抽?。跩]. 計算機應用與軟件, 2014, 31(7):47-49.
?。?4] 王利, 劉宗田, 王燕華,等. 基于內容相似度的網頁正文提取[J]. 計算機工程, 2010, 36(6):102-104.
?。?5] YI L,LIU B,LI X. Eliminating noise information in web pages for data mining[C]. SIGKDD 2003: Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York: ACM, 2003:296-305.
?。?6] GIBSON D,PUNERA K,TOMKINS A. The volume and evolution of web page templates[C]. Proc. WWW 2005: Special Interest Tracks and Posters of the 14th International Conference on World Wide Web, New York: ACM, 2005:830-839.
[17] WANG J Y, LOCHOVSKY F H. Datarich section extraction from HTML pages[C]. WISE 2002: Proceedings of the 3rd International Conference on Web Information Systems Engineering (Workshops), Los Alamitos, CA: IEEE Computer Society, 2002: 313-322.