基于視覺特征的網(wǎng)頁正文提取方法研究
所屬分類:技術(shù)論文
上傳者:aet
文檔大小:328 K
所需積分:0分積分不夠怎么辦?
文檔介紹:利用網(wǎng)頁的視覺特征和DOM樹的結(jié)構(gòu)特性對網(wǎng)頁進(jìn)行分塊,并采用逐層分塊逐層刪減的方法將與正文無關(guān)的噪音塊刪除,從而得到正文塊。對得到的正文塊運(yùn)用VIPS算法得到完整的語義塊,最后在語義塊的基礎(chǔ)上提取正文內(nèi)容。試驗(yàn)表明,這種方法是切實(shí)可行的。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。