基于視覺(jué)特征的網(wǎng)頁(yè)正文提取方法研究
所屬分類:技術(shù)論文
上傳者:aet
文檔大?。?span>328 K
所需積分:0分積分不夠怎么辦?
文檔介紹:利用網(wǎng)頁(yè)的視覺(jué)特征和DOM樹(shù)的結(jié)構(gòu)特性對(duì)網(wǎng)頁(yè)進(jìn)行分塊,并采用逐層分塊逐層刪減的方法將與正文無(wú)關(guān)的噪音塊刪除,從而得到正文塊。對(duì)得到的正文塊運(yùn)用VIPS算法得到完整的語(yǔ)義塊,最后在語(yǔ)義塊的基礎(chǔ)上提取正文內(nèi)容。試驗(yàn)表明,這種方法是切實(shí)可行的。
現(xiàn)在下載
VIP會(huì)員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。