基于網(wǎng)頁(yè)分割的Web信息提取算法
所屬分類:技術(shù)論文
上傳者:aet
文檔大小:238 K
所需積分:0分積分不夠怎么辦?
文檔介紹:針對(duì)網(wǎng)頁(yè)非結(jié)構(gòu)化信息抽取復(fù)雜度高的問(wèn)題,提出了一種基于網(wǎng)頁(yè)分割的Web信息提取算法。對(duì)網(wǎng)頁(yè)噪音進(jìn)行預(yù)處理,根據(jù)網(wǎng)頁(yè)的文檔對(duì)象模型樹(shù)結(jié)構(gòu)進(jìn)行標(biāo)簽路徑聚類,通過(guò)自動(dòng)訓(xùn)練的閾值和網(wǎng)頁(yè)分割算法快速判定網(wǎng)頁(yè)的關(guān)鍵部分,根據(jù)數(shù)據(jù)塊中的嵌套結(jié)構(gòu)獲取網(wǎng)頁(yè)文本提取模板。對(duì)不同類型網(wǎng)站的實(shí)驗(yàn)結(jié)果表明,該算法運(yùn)行速度快、準(zhǔn)確度高。
現(xiàn)在下載
VIP會(huì)員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。