| 基于視覺(jué)特征的網(wǎng)頁(yè)正文提取方法研究 | |
| 所屬分類:技術(shù)論文 | |
| 上傳者:aet | |
| 文檔大小:328 K | |
| 所需積分:0分積分不夠怎么辦? | |
| 文檔介紹:利用網(wǎng)頁(yè)的視覺(jué)特征和DOM樹(shù)的結(jié)構(gòu)特性對(duì)網(wǎng)頁(yè)進(jìn)行分塊,并采用逐層分塊逐層刪減的方法將與正文無(wú)關(guān)的噪音塊刪除,從而得到正文塊。對(duì)得到的正文塊運(yùn)用VIPS算法得到完整的語(yǔ)義塊,最后在語(yǔ)義塊的基礎(chǔ)上提取正文內(nèi)容。試驗(yàn)表明,這種方法是切實(shí)可行的。 | |
| 現(xiàn)在下載 | |
| VIP會(huì)員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。 | |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號(hào)-2