文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2022.04.011
引用格式: 侯開(kāi)茂,韓慶敏,吳云峰,等. 一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2022,41(4):71-76.
0 引言
隨著電子信息技術(shù)的發(fā)展,各行各業(yè)都產(chǎn)生了大量的數(shù)據(jù)信息,根據(jù)國(guó)際數(shù)據(jù)公司(International Data Corporation,IDC)的最新預(yù)測(cè):到2023年,中國(guó)的數(shù)據(jù)量將達(dá)到40 ZB,并且隨著5G技術(shù)的普及,數(shù)據(jù)量增長(zhǎng)將會(huì)迎來(lái)又一個(gè)新的高潮[1]。有研究發(fā)現(xiàn),這些數(shù)據(jù)中超過(guò)60%都是重復(fù)冗余數(shù)據(jù)[2],傳輸和存儲(chǔ)這些冗余數(shù)據(jù)不僅造成了存儲(chǔ)資源和網(wǎng)絡(luò)資源的嚴(yán)重浪費(fèi),也降低了使用數(shù)據(jù)的效率。并且隨著時(shí)間推移,這些數(shù)據(jù)帶來(lái)的冗余問(wèn)題會(huì)越來(lái)越嚴(yán)重。域名[3](Domain Name)作為互聯(lián)網(wǎng)中頻繁使用的數(shù)據(jù)類型之一,是一種特殊的數(shù)據(jù)形式,其對(duì)字符的變化敏感度極高,一個(gè)字符的變化往往會(huì)對(duì)使用結(jié)果產(chǎn)生嚴(yán)重的影響。因此,處理重復(fù)域名數(shù)據(jù)需要采用精確而且高效的去重技術(shù)。
已有重復(fù)數(shù)據(jù)處理技術(shù)中,完全文件檢測(cè)(Whole File Detection,WFD)技術(shù)[4]無(wú)法對(duì)內(nèi)容進(jìn)行查重處理,固定分塊(Fixed-Sized Partition,F(xiàn)SP)檢測(cè)技術(shù)、可變分塊檢測(cè)技術(shù)和滑動(dòng)塊檢測(cè)技術(shù)都是針對(duì)數(shù)據(jù)共有特征的粗粒度去重,直接用于重復(fù)域名的處理效果并不理想。因此,本文在已有重復(fù)數(shù)據(jù)檢測(cè)技術(shù)的基礎(chǔ)上,引入Simhash算法,結(jié)合域名數(shù)據(jù)的結(jié)構(gòu)特征,改進(jìn)計(jì)算文本特征值的方式,提出了一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比看出,該方法對(duì)于處理重復(fù)域名數(shù)據(jù)效果更好,同時(shí)在時(shí)間開(kāi)銷上也和原有技術(shù)差別不大,對(duì)于處理重復(fù)域名數(shù)據(jù)具有比傳統(tǒng)去重技術(shù)更好的實(shí)用價(jià)值。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000004102
作者信息:
侯開(kāi)茂,韓慶敏,吳云峰,黃 兵,張久發(fā),柴處處
(中國(guó)電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所,北京100083)