一種基于Simhash算法的重復域名數(shù)據(jù)去重方法
所屬分類:技術論文
上傳者:zhoubin333
文檔大小:559 K
標簽: 數(shù)據(jù)去重 域名 Simhash
所需積分:0分積分不夠怎么辦?
文檔介紹:隨著數(shù)字科學技術的發(fā)展,各領域需要傳輸和存儲的數(shù)據(jù)量急劇上升。然而傳輸和存儲的數(shù)據(jù)中重復數(shù)量占據(jù)了很大的比例,這不僅會增加使用數(shù)據(jù)的成本,也會影響處理數(shù)據(jù)的效率。域名是一種存儲量大而且對處理速率有極高要求的數(shù)據(jù),為了節(jié)約域名解析系統(tǒng)的存儲成本,提高傳輸效率,本文在原有數(shù)據(jù)去重技術的基礎上,引入了Simhash算法,結(jié)合域名數(shù)據(jù)的結(jié)構(gòu)特征,改進數(shù)據(jù)分詞和指紋值計算方式,提出了一種基于Simhash算法的重復域名數(shù)據(jù)去重方法。實驗結(jié)果表明,相比于傳統(tǒng)的數(shù)據(jù)去重技術,該方法對刪除重復域名數(shù)據(jù)效率更高,具有較好的實際應用價值。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。