《電子技術(shù)應用》
您所在的位置:首頁 > 其他 > 設計應用 > 一種基于Simhash算法的重復域名數(shù)據(jù)去重方法
一種基于Simhash算法的重復域名數(shù)據(jù)去重方法
信息技術(shù)與網(wǎng)絡安全 4期
侯開茂,韓慶敏,吳云峰,黃 兵,張久發(fā),柴處處
(中國電子信息產(chǎn)業(yè)集團有限公司第六研究所,北京100083)
摘要: 隨著數(shù)字科學技術(shù)的發(fā)展,各領(lǐng)域需要傳輸和存儲的數(shù)據(jù)量急劇上升。然而傳輸和存儲的數(shù)據(jù)中重復數(shù)量占據(jù)了很大的比例,這不僅會增加使用數(shù)據(jù)的成本,也會影響處理數(shù)據(jù)的效率。域名是一種存儲量大而且對處理速率有極高要求的數(shù)據(jù),為了節(jié)約域名解析系統(tǒng)的存儲成本,提高傳輸效率,本文在原有數(shù)據(jù)去重技術(shù)的基礎上,引入了Simhash算法,結(jié)合域名數(shù)據(jù)的結(jié)構(gòu)特征,改進數(shù)據(jù)分詞和指紋值計算方式,提出了一種基于Simhash算法的重復域名數(shù)據(jù)去重方法。實驗結(jié)果表明,相比于傳統(tǒng)的數(shù)據(jù)去重技術(shù),該方法對刪除重復域名數(shù)據(jù)效率更高,具有較好的實際應用價值。
中圖分類號: TP391
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.04.011
引用格式: 侯開茂,韓慶敏,吳云峰,等. 一種基于Simhash算法的重復域名數(shù)據(jù)去重方法[J].信息技術(shù)與網(wǎng)絡安全,2022,41(4):71-76.
Method for deleting duplicate domain name data based on Simhash algorithm
Hou Kaimao,Han Qingmin,Wu Yunfeng,Huang Bing,Zhang Jiufa,Chai Chuchu
(The 6th Research Institute of China Electronics Corporation,Beijing 100083,China)
Abstract: With the development of digital science and technology, the amount of data that needs to be transmitted and stored in various fields has risen sharply. However, the number of repetitions in these data occupies a large proportion. This not only increases the cost of using data, but also reduces the efficiency of data processing. Domain name is a kind of data with large storage capacity and extremely high requirements for processing speed. In order to save storage cost and improve transmission efficiency, this paper proposes a method for deleting duplicate domain name data based on Simhash algorithm. Compared with the traditional data deduplication technology, this method combines the structural characteristics of the domain name data, and introduces the Simhash algorithm to design a deduplication method for the domain name data. The experimental results show that compared with the traditional data deduplication technology, this method is more efficient in deleting duplicate domain name data and has better practical application value.
Key words : data deduplication;domain name;Simhash;data block

0 引言

隨著電子信息技術(shù)的發(fā)展,各行各業(yè)都產(chǎn)生了大量的數(shù)據(jù)信息,根據(jù)國際數(shù)據(jù)公司(International Data Corporation,IDC)的最新預測:到2023年,中國的數(shù)據(jù)量將達到40 ZB,并且隨著5G技術(shù)的普及,數(shù)據(jù)量增長將會迎來又一個新的高潮[1]。有研究發(fā)現(xiàn),這些數(shù)據(jù)中超過60%都是重復冗余數(shù)據(jù)[2],傳輸和存儲這些冗余數(shù)據(jù)不僅造成了存儲資源和網(wǎng)絡資源的嚴重浪費,也降低了使用數(shù)據(jù)的效率。并且隨著時間推移,這些數(shù)據(jù)帶來的冗余問題會越來越嚴重。域名[3](Domain Name)作為互聯(lián)網(wǎng)中頻繁使用的數(shù)據(jù)類型之一,是一種特殊的數(shù)據(jù)形式,其對字符的變化敏感度極高,一個字符的變化往往會對使用結(jié)果產(chǎn)生嚴重的影響。因此,處理重復域名數(shù)據(jù)需要采用精確而且高效的去重技術(shù)。

已有重復數(shù)據(jù)處理技術(shù)中,完全文件檢測(Whole File Detection,WFD)技術(shù)[4]無法對內(nèi)容進行查重處理,固定分塊(Fixed-Sized Partition,F(xiàn)SP)檢測技術(shù)、可變分塊檢測技術(shù)和滑動塊檢測技術(shù)都是針對數(shù)據(jù)共有特征的粗粒度去重,直接用于重復域名的處理效果并不理想。因此,本文在已有重復數(shù)據(jù)檢測技術(shù)的基礎上,引入Simhash算法,結(jié)合域名數(shù)據(jù)的結(jié)構(gòu)特征,改進計算文本特征值的方式,提出了一種基于Simhash算法的重復域名數(shù)據(jù)去重方法。經(jīng)過實驗對比看出,該方法對于處理重復域名數(shù)據(jù)效果更好,同時在時間開銷上也和原有技術(shù)差別不大,對于處理重復域名數(shù)據(jù)具有比傳統(tǒng)去重技術(shù)更好的實用價值。






本文詳細內(nèi)容請下載:http://www.viuna.cn/resource/share/2000004102






作者信息:

侯開茂,韓慶敏,吳云峰,黃  兵,張久發(fā),柴處處

(中國電子信息產(chǎn)業(yè)集團有限公司第六研究所,北京100083)




微信圖片_20210517164139.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 在线观看成人小视频 | 天堂成人在线观看 | 亚洲欧美日韩综合网导航 | 亚洲精品国产手机 | 中文字幕天天躁日日躁狠狠 | 午夜成人免费视频 | 欧美在线一二三区 | 无遮挡一级毛片呦女视频 | 国产精品午夜在线播放a | 久久天天丁香婷婷中文字幕 | 国产欧美在线一区二区三区 | 人人爱天天做夜夜爽2020麻豆 | 欧美成人精品不卡视频在线观看 | 91原创视频在线观看 | 国产呦萝资源网站 | 日韩高清网站 | 免费无遮挡十八女禁污污网站 | 国产高清天干天天美女 | 亚洲色图第1页 | tom影院亚洲国产一区二区 | 国产日本在线观看 | 美女黄频a美女大全免费皮 美女黄免费网站 | 日韩免费不卡 | 青青免费在线视频 | 国产三级在线观看视频 | 激情网站免费 | 欧美 日韩 中文字幕 | 91精品全国免费观看 | 欧美视频一区二区三区在线观看 | 国产精品亚洲精品日韩动图 | 久久影院一区二区三区 | 岛国毛片一级一级特级毛片 | 国产欧美久久精品 | 黄视频网站在线观看 | 日本视频www色变态 日本爽p大片免费观看 | 一级a性色生活片毛片 | 夜夜澡人人爽人人喊_欧美 夜夜躁天天躁很很躁 | 夜夜春精品视频 | 国产成人精品免费视频大 | 欧美一欧美一区二三区性 | 羞羞视频在线免费 |