基于網(wǎng)頁聚類的Web信息自動抽取 | |
所屬分類:技術(shù)論文 | |
上傳者:aet | |
文檔大小:305 K | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:針對現(xiàn)今較流行的動態(tài)Web網(wǎng)頁數(shù)量巨大,數(shù)據(jù)價值高,并且網(wǎng)頁結(jié)構(gòu)高度模板化的特點(diǎn),設(shè)計了一個基于網(wǎng)頁聚類的Web信息自動抽取系統(tǒng).在DOM抽取技術(shù)基礎(chǔ)上利用網(wǎng)頁聚類尋找高相似簇,并引入列相似度和全局自相似度計算方法,提高了聚類結(jié)果的準(zhǔn)確性.抽取模板中應(yīng)用了可選節(jié)點(diǎn)對模板的修正和調(diào)整,以提高內(nèi)容節(jié)點(diǎn)的正確標(biāo)識,實(shí)驗(yàn)結(jié)果表明,該方法能夠自動尋找并抽取網(wǎng)頁主要信息,達(dá)到了較高的準(zhǔn)確率和查全率. | |
現(xiàn)在下載 | |
VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號-2