《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法
一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法
信息技術(shù)與網(wǎng)絡(luò)安全 4期
侯開(kāi)茂,韓慶敏,吳云峰,黃 兵,張久發(fā),柴處處
(中國(guó)電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所,北京100083)
摘要: 隨著數(shù)字科學(xué)技術(shù)的發(fā)展,各領(lǐng)域需要傳輸和存儲(chǔ)的數(shù)據(jù)量急劇上升。然而傳輸和存儲(chǔ)的數(shù)據(jù)中重復(fù)數(shù)量占據(jù)了很大的比例,這不僅會(huì)增加使用數(shù)據(jù)的成本,也會(huì)影響處理數(shù)據(jù)的效率。域名是一種存儲(chǔ)量大而且對(duì)處理速率有極高要求的數(shù)據(jù),為了節(jié)約域名解析系統(tǒng)的存儲(chǔ)成本,提高傳輸效率,本文在原有數(shù)據(jù)去重技術(shù)的基礎(chǔ)上,引入了Simhash算法,結(jié)合域名數(shù)據(jù)的結(jié)構(gòu)特征,改進(jìn)數(shù)據(jù)分詞和指紋值計(jì)算方式,提出了一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的數(shù)據(jù)去重技術(shù),該方法對(duì)刪除重復(fù)域名數(shù)據(jù)效率更高,具有較好的實(shí)際應(yīng)用價(jià)值。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2022.04.011
引用格式: 侯開(kāi)茂,韓慶敏,吳云峰,等. 一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2022,41(4):71-76.
Method for deleting duplicate domain name data based on Simhash algorithm
Hou Kaimao,Han Qingmin,Wu Yunfeng,Huang Bing,Zhang Jiufa,Chai Chuchu
(The 6th Research Institute of China Electronics Corporation,Beijing 100083,China)
Abstract: With the development of digital science and technology, the amount of data that needs to be transmitted and stored in various fields has risen sharply. However, the number of repetitions in these data occupies a large proportion. This not only increases the cost of using data, but also reduces the efficiency of data processing. Domain name is a kind of data with large storage capacity and extremely high requirements for processing speed. In order to save storage cost and improve transmission efficiency, this paper proposes a method for deleting duplicate domain name data based on Simhash algorithm. Compared with the traditional data deduplication technology, this method combines the structural characteristics of the domain name data, and introduces the Simhash algorithm to design a deduplication method for the domain name data. The experimental results show that compared with the traditional data deduplication technology, this method is more efficient in deleting duplicate domain name data and has better practical application value.
Key words : data deduplication;domain name;Simhash;data block

0 引言

隨著電子信息技術(shù)的發(fā)展,各行各業(yè)都產(chǎn)生了大量的數(shù)據(jù)信息,根據(jù)國(guó)際數(shù)據(jù)公司(International Data Corporation,IDC)的最新預(yù)測(cè):到2023年,中國(guó)的數(shù)據(jù)量將達(dá)到40 ZB,并且隨著5G技術(shù)的普及,數(shù)據(jù)量增長(zhǎng)將會(huì)迎來(lái)又一個(gè)新的高潮[1]。有研究發(fā)現(xiàn),這些數(shù)據(jù)中超過(guò)60%都是重復(fù)冗余數(shù)據(jù)[2],傳輸和存儲(chǔ)這些冗余數(shù)據(jù)不僅造成了存儲(chǔ)資源和網(wǎng)絡(luò)資源的嚴(yán)重浪費(fèi),也降低了使用數(shù)據(jù)的效率。并且隨著時(shí)間推移,這些數(shù)據(jù)帶來(lái)的冗余問(wèn)題會(huì)越來(lái)越嚴(yán)重。域名[3](Domain Name)作為互聯(lián)網(wǎng)中頻繁使用的數(shù)據(jù)類型之一,是一種特殊的數(shù)據(jù)形式,其對(duì)字符的變化敏感度極高,一個(gè)字符的變化往往會(huì)對(duì)使用結(jié)果產(chǎn)生嚴(yán)重的影響。因此,處理重復(fù)域名數(shù)據(jù)需要采用精確而且高效的去重技術(shù)。

已有重復(fù)數(shù)據(jù)處理技術(shù)中,完全文件檢測(cè)(Whole File Detection,WFD)技術(shù)[4]無(wú)法對(duì)內(nèi)容進(jìn)行查重處理,固定分塊(Fixed-Sized Partition,F(xiàn)SP)檢測(cè)技術(shù)、可變分塊檢測(cè)技術(shù)和滑動(dòng)塊檢測(cè)技術(shù)都是針對(duì)數(shù)據(jù)共有特征的粗粒度去重,直接用于重復(fù)域名的處理效果并不理想。因此,本文在已有重復(fù)數(shù)據(jù)檢測(cè)技術(shù)的基礎(chǔ)上,引入Simhash算法,結(jié)合域名數(shù)據(jù)的結(jié)構(gòu)特征,改進(jìn)計(jì)算文本特征值的方式,提出了一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比看出,該方法對(duì)于處理重復(fù)域名數(shù)據(jù)效果更好,同時(shí)在時(shí)間開(kāi)銷上也和原有技術(shù)差別不大,對(duì)于處理重復(fù)域名數(shù)據(jù)具有比傳統(tǒng)去重技術(shù)更好的實(shí)用價(jià)值。






本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000004102






作者信息:

侯開(kāi)茂,韓慶敏,吳云峰,黃  兵,張久發(fā),柴處處

(中國(guó)電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所,北京100083)




微信圖片_20210517164139.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。