基于機器學習的網(wǎng)頁正文提取方法
所屬分類:技術論文
上傳者:aet
文檔大小:226 K
所需積分:0分積分不夠怎么辦?
文檔介紹:先將網(wǎng)頁轉換為規(guī)范的DOM樹,然后計算每行文本的文本密度、與標題相關度等值,并將其作為輸入?yún)?shù)利用BP神經(jīng)網(wǎng)絡進行訓練,進而形成抽取規(guī)則,最后通過實驗驗證該方法的可行性。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。