基于網(wǎng)頁分割的Web信息提取算法 | |
所屬分類:技術論文 | |
上傳者:aet | |
文檔大?。?span>238 K | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:針對網(wǎng)頁非結構化信息抽取復雜度高的問題,提出了一種基于網(wǎng)頁分割的Web信息提取算法。對網(wǎng)頁噪音進行預處理,根據(jù)網(wǎng)頁的文檔對象模型樹結構進行標簽路徑聚類,通過自動訓練的閾值和網(wǎng)頁分割算法快速判定網(wǎng)頁的關鍵部分,根據(jù)數(shù)據(jù)塊中的嵌套結構獲取網(wǎng)頁文本提取模板。對不同類型網(wǎng)站的實驗結果表明,該算法運行速度快、準確度高。 | |
現(xiàn)在下載 | |
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計算機系統(tǒng)工程研究所版權所有 京ICP備10017138號-2