基于單頁語義特征的垃圾網頁檢測
所屬分類:技術論文
上傳者:zhoubin333
文檔大?。?span>3500 K
標簽: 垃圾網頁檢測 特征提取 記憶化搜索
所需積分:0分積分不夠怎么辦?
文檔介紹:為解決垃圾網頁檢測中特征提取難度高、計算量大的問題,提出一種僅基于當前網頁的HTML腳本提取語義特征的方法。首先使用深度優(yōu)先搜索和動態(tài)規(guī)劃相結合的記憶化搜索算法對域名進行單詞切割,采用隱含狄利克雷分布提取主題詞,基于Word2Vec詞向量和詞移距離計算3個單頁語義相似度特征;然后將單頁語義相似度特征融合單頁統計特征,使用隨機森林等分類算法構建分類模型進行垃圾網頁檢測。實驗結果表明,基于單頁內容提取語義特征融合單頁統計特征進行分類的AUC值達到88.0%,比對照方法提高4%左右。
現在下載
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。