基于視覺特征的網(wǎng)頁正文提取方法研究 | |
所屬分類:技術論文 | |
上傳者:aet | |
文檔大小:328 K | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:利用網(wǎng)頁的視覺特征和DOM樹的結構特性對網(wǎng)頁進行分塊,并采用逐層分塊逐層刪減的方法將與正文無關的噪音塊刪除,從而得到正文塊。對得到的正文塊運用VIPS算法得到完整的語義塊,最后在語義塊的基礎上提取正文內(nèi)容。試驗表明,這種方法是切實可行的。 | |
現(xiàn)在下載 | |
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計算機系統(tǒng)工程研究所版權所有 京ICP備10017138號-2