基于單頁語義特征的垃圾網(wǎng)頁檢測 | |
所屬分類:技術(shù)論文 | |
上傳者:zhoubin333 | |
文檔大?。?span>3500 K | |
標(biāo)簽: 垃圾網(wǎng)頁檢測 特征提取 記憶化搜索 | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:為解決垃圾網(wǎng)頁檢測中特征提取難度高、計(jì)算量大的問題,提出一種僅基于當(dāng)前網(wǎng)頁的HTML腳本提取語義特征的方法。首先使用深度優(yōu)先搜索和動(dòng)態(tài)規(guī)劃相結(jié)合的記憶化搜索算法對域名進(jìn)行單詞切割,采用隱含狄利克雷分布提取主題詞,基于Word2Vec詞向量和詞移距離計(jì)算3個(gè)單頁語義相似度特征;然后將單頁語義相似度特征融合單頁統(tǒng)計(jì)特征,使用隨機(jī)森林等分類算法構(gòu)建分類模型進(jìn)行垃圾網(wǎng)頁檢測。實(shí)驗(yàn)結(jié)果表明,基于單頁內(nèi)容提取語義特征融合單頁統(tǒng)計(jì)特征進(jìn)行分類的AUC值達(dá)到88.0%,比對照方法提高4%左右。 | |
現(xiàn)在下載 | |
VIP會(huì)員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號-2