精品一区二区三区在线播放视频 ,一级片这里只精品看,凹凸XXX老少配

基于機器學(xué)習(xí)的網(wǎng)頁正文提取方法

來源:微型機與應(yīng)用2010年第12期

安增文，王超，徐杰鋒

（中國石油大學(xué)(華東) 計算機與通信工程學(xué)院計算機科學(xué)與技術(shù)系，山東東營257000）

摘要： 先將網(wǎng)頁轉(zhuǎn)換為規(guī)范的DOM樹，然后計算每行文本的文本密度、與標(biāo)題相關(guān)度等值，并將其作為輸入?yún)?shù)利用BP神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，進而形成抽取規(guī)則，最后通過實驗驗證該方法的可行性。

關(guān)鍵詞： 信息提取神經(jīng)網(wǎng)絡(luò) 統(tǒng)計學(xué)習(xí)

Abstract：

Key words :

摘要： 先將網(wǎng)頁轉(zhuǎn)換為規(guī)范的DOM樹，然后計算每行文本的文本密度、與標(biāo)題相關(guān)度等值，并將其作為輸入?yún)?shù)利用BP神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，進而形成抽取規(guī)則，最后通過實驗驗證該方法的可行性。
關(guān)鍵詞： 信息提取；神經(jīng)網(wǎng)絡(luò)；統(tǒng)計學(xué)習(xí)

    隨著互聯(lián)網(wǎng)的普及，網(wǎng)絡(luò)成為人們獲取信息的重要途徑。而互聯(lián)網(wǎng)上的信息量也與日俱增，網(wǎng)頁上的內(nèi)容除了主題內(nèi)容外，通常都會在頁面中放置導(dǎo)航條以方便用戶訪問，還有如廣告、版權(quán)信息、歡迎信息等與主題無關(guān)的內(nèi)容，我們稱之為"噪音"。怎樣去除這些噪音，將網(wǎng)頁中的正文內(nèi)容提取出來，從而提高人們的閱讀效率，這在垂直搜索和數(shù)據(jù)挖掘方面具有重要意義。在這個領(lǐng)域已經(jīng)發(fā)表了很多的研究成果，這些研究成果從不同的角度入手，有的只利用網(wǎng)頁本身的特征，有的還與其他技術(shù)相結(jié)合，使網(wǎng)頁正文抽取的準確性和完整性得到不斷提高，但還沒有一種方法能達到人們期望的程度，還需要不斷地研究和探索。
1正文抽取相關(guān)研究
   到目前為止，已經(jīng)發(fā)表的網(wǎng)頁正文內(nèi)容抽取方法有很多種，其分類方式的依據(jù)也不盡相同，下面介紹幾種較為常用的抽取方法。
   (1) 基于模板的方法
   這種技術(shù)依賴HTML文檔的內(nèi)部結(jié)構(gòu)特征來完成數(shù)據(jù)抽取，需要使用wrapper(包裝器)來抽取網(wǎng)頁中的正文內(nèi)容。包裝器可以通過分析網(wǎng)頁源代碼來手工編寫，也可以通過程序自動或半自動的實現(xiàn)。手工編寫的方法一般都針對特定的網(wǎng)頁模式，其優(yōu)點是實現(xiàn)簡單、準確率高，缺點是對于不同的網(wǎng)頁模式或網(wǎng)頁結(jié)構(gòu)發(fā)生變化時需要重新編寫包裝器，如果包裝器類型很多，包裝器的維護代價會很大，但由于該方法的準確性較高，所以在針對特定網(wǎng)站的抽取中應(yīng)用很廣。自動或半自動地生成包裝器的方法在一定程度上減輕了維護包裝器的工作量，但是需要樣本學(xué)習(xí)，對用戶要求較高。
   (2) 基于統(tǒng)計的方法
   這種方法從頁面的不同角度分析它的統(tǒng)計特征，采用統(tǒng)計學(xué)的算法抽取正文。例如根據(jù)統(tǒng)計的文字數(shù)量、鏈接數(shù)量、標(biāo)簽字符數(shù)量等計算出文本密度、鏈接密度等，并通過這些值來判斷哪些為正文文本、哪些為噪音內(nèi)容。參考文獻[1]提出一種通過分析頁面文本密度進行正文抽取的方法。這種方法實現(xiàn)簡單，并且不需要編寫包裝器，但提取的準確率有限，有時會將與正文無關(guān)的版權(quán)聲明等當(dāng)作正文內(nèi)容提取出來。
   (3) 基于神經(jīng)網(wǎng)絡(luò)的方法
   由于神經(jīng)網(wǎng)絡(luò)具有優(yōu)越的非線性處理能力和泛化能力，因此在很多實際領(lǐng)域中都取得了傳統(tǒng)符號學(xué)習(xí)機制難以獲得的效果。文獻[2]搜索結(jié)點的輸入連接權(quán)，通過找出權(quán)值之和超過閾值的連接權(quán)子集來抽取規(guī)則。參考文獻[3]利用多層網(wǎng)絡(luò)度量輸入之間的接近程度，并利用單層抑制性網(wǎng)絡(luò)度量輸入、輸出相關(guān)度，從而獲得抽取規(guī)則。
   參考文獻[4]針對新聞類網(wǎng)頁及類似布局的頁面，在對頁面文本密度進行統(tǒng)計之后對文本密度與頁面標(biāo)題、正文之間的對應(yīng)關(guān)系進行分析，以對傳網(wǎng)絡(luò)(CPN)為工具，對文本密度在標(biāo)題、正文等語義塊中的分布模式進行擬合，從而達到抽取目標(biāo)信息的目的。
   參考文獻[5]中以行為單位對網(wǎng)頁源代碼中的每一行計算其相關(guān)的六個屬性，并以此作為BP神經(jīng)網(wǎng)絡(luò)的輸入?yún)?shù)進行學(xué)習(xí)。由于該算法未對文本內(nèi)容和標(biāo)題的相關(guān)度進行判斷，所以導(dǎo)致會將一些網(wǎng)站的版權(quán)聲明當(dāng)作正文內(nèi)容錯誤地提取出來。所以通過計算文本內(nèi)容和標(biāo)題的相關(guān)度來區(qū)別是否為噪音是合理的。本方法以行為單位對DOM樹進行處理，將每行的文本密度、文本內(nèi)容與標(biāo)題的相關(guān)度作為輸入?yún)?shù)利用BP神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，從而提高信息抽取的準確度。
2 算法描述
2.1 BP神經(jīng)網(wǎng)絡(luò)模型
   BP算法屬于Delta學(xué)習(xí)規(guī)則，是一種有教師的學(xué)習(xí)算法，是以網(wǎng)絡(luò)誤差平方和為目標(biāo)函數(shù)，按梯度法(gradient approaches)求其目標(biāo)函數(shù)達到最小值的算法。一個典型的BP神經(jīng)網(wǎng)絡(luò)包括：(1)由一個輸入層x、一個(或多個)隱藏層y和一個輸出層o組成的三層或多層結(jié)構(gòu)；(2)處理單元（圖1中的圓圈）是網(wǎng)絡(luò)的基本組成部分，輸入層的處理單元只是將輸入值轉(zhuǎn)入相鄰的聯(lián)接權(quán)重，隱層和輸出層的處理單元將它們的輸入值求和并根據(jù)傳遞函數(shù)計算輸出值；(3)聯(lián)接權(quán)重(如圖1中v,w)將神經(jīng)網(wǎng)絡(luò)中的處理單元聯(lián)系起來，其值隨各處理單元的連接程度而變化；(4)閾值，其值可為恒值或可變值，它可使網(wǎng)絡(luò)能更自由地獲取所要描述的函數(shù)關(guān)系;(5)傳遞函數(shù)F，它是將輸入的數(shù)據(jù)轉(zhuǎn)化為輸出的處理單元，通常為非線性函數(shù)。

     輸入層和輸出層的結(jié)點個數(shù)可以根據(jù)訓(xùn)練集來確定，而隱藏層的結(jié)點卻需要試驗判斷。如果隱藏層結(jié)點數(shù)過少，網(wǎng)絡(luò)就不能具有必要的學(xué)習(xí)能力和信息處理能力。如果隱藏層結(jié)點數(shù)過多，不僅會大大增加網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性，網(wǎng)絡(luò)在學(xué)習(xí)過程中更易陷入局部極小值，而且會使網(wǎng)絡(luò)的學(xué)習(xí)速度變得很慢。
2.2 利用人工神經(jīng)網(wǎng)絡(luò)進行正文提取
   網(wǎng)頁的類型大體上可以分為三類：(1)文字多圖片少的內(nèi)容型網(wǎng)頁，如新聞網(wǎng)頁；(2)以圖片為主文字介紹為輔的圖片型網(wǎng)頁，如圖片新聞；(3)以超鏈接為主的目錄型網(wǎng)頁，如新浪首頁。試驗中我們以內(nèi)容型網(wǎng)頁作為主要研究對象。
2.2.1 網(wǎng)頁源文件預(yù)處理
   隨著web2.0的發(fā)展，網(wǎng)站為了定制網(wǎng)頁的表現(xiàn)形式和提高網(wǎng)頁視覺效果，在源文件中加入大量Script腳本和CSS代碼。所以在抽取正文之前要對網(wǎng)頁源文件進行預(yù)處理，去除與正文內(nèi)容不相關(guān)的噪音內(nèi)容。
   首先，由于html語言書寫的隨意性，導(dǎo)致有些網(wǎng)頁源代碼的不規(guī)范，例如標(biāo)簽對缺失、嵌套不準確等。所以要將缺失的html標(biāo)簽補齊、修改不正確的嵌套關(guān)系，并將源代碼轉(zhuǎn)換為DOM樹的形式。本文采用HTML Tidy工具來處理網(wǎng)頁。
   其次，要判斷網(wǎng)頁源文件的編碼，否則有可能抽取到亂碼。以源文件頭中的meta里聲明的charset為準，對于編碼為GBK、gb2312等格式的網(wǎng)頁，都將其轉(zhuǎn)為utf8格式。
   最后，Script標(biāo)簽對之間和CSS內(nèi)容都與正文內(nèi)容無關(guān)，要全部刪除。另外，對于<a></a>等無用的空標(biāo)簽對也一并刪除。
2.2.2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程
   (1)頁面主題的提取。<title>中的內(nèi)容一般為文章標(biāo)題，但現(xiàn)在各大網(wǎng)站一般采用“文章標(biāo)題+網(wǎng)站名”的形式放在<title>標(biāo)簽中，且用符號“-”或“_”連接。在此將<title>中的文字內(nèi)容取出，并將“-”或“_”符號后面的文字刪除；若有多個這種符號，則將最后一個這種符號后面的文字內(nèi)容刪除，剩下的文字內(nèi)容作為文章標(biāo)題。因為標(biāo)題中的文字內(nèi)容一般會在正文內(nèi)容中出現(xiàn)，而非正文內(nèi)容一般不會包含標(biāo)題詞，所以可以將文本內(nèi)容與文章標(biāo)題的相關(guān)度作為判斷文本是否正文的一個因子。
   (2)統(tǒng)計各項值。以行為單位對DOM樹進行處理，依次統(tǒng)計每行的文本長度y和字符總長度z，用p表示該段的文本密度，則p=y/z，該行的文本內(nèi)容為c。
   (3)計算相關(guān)度。分別對文章標(biāo)題t和每行取出的文本內(nèi)容c進行分詞，得到對應(yīng)的標(biāo)題詞項(t1,t2…tm)和文本詞項(c1,c2…cn)，然后將每個標(biāo)題詞項ti和文本詞項cj進行匹配，統(tǒng)計匹配次數(shù)并進行加權(quán)計算，得出其相關(guān)度，記相關(guān)度為s。為了提高相關(guān)度的準確性，本文借鑒搜索引擎中“倒排索引”的經(jīng)驗，對“的”“是”等停止詞放在詞庫中進行分詞，但不對其進行相關(guān)度計算。
   采用BP神經(jīng)網(wǎng)絡(luò)作為訓(xùn)練模型，各層的激勵函數(shù)均為logsig，目標(biāo)誤差設(shè)為0.05，學(xué)習(xí)率為0.2。該模型有12個輸入結(jié)點、5個隱藏層結(jié)點和一個輸出結(jié)點。其中12個輸入?yún)?shù)為：每行的文本長度、每行的字符總長度、每行的文本密度、每行文本內(nèi)容與標(biāo)題的相關(guān)度、上一行的這四個值和下一行的這四個值。具體步驟如下：
   (1)獲取訓(xùn)練集并做好標(biāo)記。
   (2)對網(wǎng)頁源文件進行預(yù)處理，生成相應(yīng)的DOM樹。
   (3)從DOM樹中讀取一行文字，統(tǒng)計相應(yīng)值，得出輸入向量和期望輸出。
   (4)輸入向量經(jīng)過隱藏層結(jié)點和輸出層結(jié)點的傳遞函數(shù)得到實際輸出。
   (5)計算實際輸出向量和期望輸出向量的誤差，并計算各輸出誤差項和隱藏層結(jié)點誤差項。如果誤差在允許范圍內(nèi)，則回到步驟(3)，從DOM樹中讀取下一行文字繼續(xù)進行。如果誤差不在允許誤差范圍內(nèi)，則根據(jù)計算出的誤差項計算出各權(quán)重的調(diào)整量，并調(diào)整權(quán)重。
   (6)返回步驟(4)，繼續(xù)迭代，直到實際輸出向量和期望輸出向量的誤差滿足要求。返回步驟(3)讀取下一行內(nèi)容，繼續(xù)進行學(xué)習(xí)。
   (7)標(biāo)簽樹遍歷完畢，訓(xùn)練結(jié)束。
   將DOM樹的各個元素偶對的相關(guān)值作為神經(jīng)網(wǎng)絡(luò)的輸入，樣本標(biāo)記結(jié)果作為輸出，通過學(xué)習(xí)算法自動生成抽取規(guī)則，對新的頁面應(yīng)用抽取規(guī)則進行測試。
3 測試結(jié)果
   采用信息抽取技術(shù)中常用的查全率(R)、查準率(P)和F值三個評價指標(biāo)對測試結(jié)果進行評價。查全率表示被正確抽取的信息的比例、查準率表示提取出來的正確信息的比率、F值是查全率和查準率的加權(quán)幾何平均值。用公式表示如下：P=(正確抽取出正文內(nèi)容的網(wǎng)頁數(shù)/總網(wǎng)頁數(shù))*100%,R=(抽取出完整正文內(nèi)容的網(wǎng)頁數(shù)/正確抽取出正文內(nèi)容的網(wǎng)頁數(shù))*100%，在此將查全率和查準率看的同等重要，得出F=2PR/(P+R)。根據(jù)F值與1的靠近程度來判斷算法的好壞，越靠近1算法越好。
   從幾大新聞網(wǎng)站隨機抽取20個網(wǎng)頁進行人工分析和標(biāo)記，按照以上方法進行訓(xùn)練。為了測試抽取方法的可行性，再抽取一定量的網(wǎng)頁作為測試集，并利用訓(xùn)練結(jié)果進行測試。測試結(jié)果如表1所示。

    在本文中通過統(tǒng)計DOM樹每一行的文本長度和字符長度，進而計算文本密度以及文字內(nèi)容與標(biāo)題的相關(guān)度，并將這些數(shù)值作為輸入?yún)?shù)輸入到人工神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。通過計算內(nèi)容和標(biāo)題的相關(guān)度可以避免將一些標(biāo)簽字符較少、文字內(nèi)容較多的版權(quán)聲明等內(nèi)容提取出來，進而提高正文抽取的準確度。從測試結(jié)果看，該方法具有一定的可行性。下一步要尋求更好的相關(guān)度計算方法，更準確地計算正文和標(biāo)題的相關(guān)度，進一步提高正文抽取的準確性。
參考文獻
[1]   ALEXJC. The easy way to extract useful text from arbitrary HTML [EB/OL].http://ai-depot.com/articles/ the easy-way-to-extract-useful-text-from-arbitrary-html/. April5, 2007.
[2]    FU L M. Rule learning by searching on adapted nets. Proceedings of the 9th National Conference on Artificial Intelligence. Anaheim, CA: AAAI Press, 1991:590-595.
[3]    SESTITO S, DILLON T. Knowledge acquisition of conjunctive rules using multilayered neural networks. International   Journal of Intelligent Systems,1993, 8(7):779-805.
[4]    陳敬文,彭哲. 基于CPN網(wǎng)絡(luò)的Web正文抽取技術(shù)研究[J]. 現(xiàn)代圖書情報技術(shù),2008(11):65-71.
[5]    游貴榮,陸玉昌. 基于統(tǒng)計和機器學(xué)習(xí)的中文Web網(wǎng)頁正文內(nèi)容抽取[J]. 福建商業(yè)高等?？茖W(xué)校學(xué)報,2009,4(2):68-72.
[6]    樓順天,施陽. 基于MATLAB的系統(tǒng)分析與設(shè)計-神經(jīng)網(wǎng)絡(luò)[M]. 西安電子科技大學(xué)出版社, 1998.
[7]    孫承杰,關(guān)毅.基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J].中文信息學(xué)報， 2004,18(5):17-22.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容