一種自適應(yīng)網(wǎng)頁結(jié)構(gòu)化信息提取方法
所屬分類:技術(shù)論文
上傳者:aetmagazine
文檔大小:509 K
標簽: 信息提取 結(jié)構(gòu)化信息 分類模型
所需積分:0分積分不夠怎么辦?
文檔介紹:面向互聯(lián)網(wǎng)信息采集挖掘應(yīng)用,針對傳統(tǒng)的網(wǎng)站信息整頁采集方式存在采集信息混雜、無法直接使用,而人工結(jié)構(gòu)化采集方式成本高、工作效率低的問題,研究提出了一種自適應(yīng)網(wǎng)頁結(jié)構(gòu)化信息提取方法,實現(xiàn)了網(wǎng)頁分類算法、基于子樹的標題項、內(nèi)容項的結(jié)構(gòu)化信息提取算法?;诘湫途W(wǎng)站網(wǎng)頁分類標注數(shù)據(jù)集進行分類模型的學(xué)習(xí)建模,可以自適應(yīng)不同網(wǎng)站的差異,對網(wǎng)頁進行分類,按照網(wǎng)頁分類分別提取出網(wǎng)頁中的列表項結(jié)構(gòu)化信息、內(nèi)容項結(jié)構(gòu)化信息。該技術(shù)對提高網(wǎng)站信息結(jié)構(gòu)化采集處理的自動化水平及處理效率具有重要作用。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。