信息熵加权Simhash算法在文本去重中的优势分析

需积分: 11 176 浏览量更新于2024-08-25 收藏 1.58MB PDF 举报

"Simhash算法在文本去重中的应用，通过信息熵词频加权提高准确性" Simhash算法是一种在大数据环境中广泛应用于文本去重的高效方法。它属于局部敏感哈希（Local Sensitive Hashing, LSH）的一种，旨在通过简化的哈希表示来判断两个文本是否相似。在传统的Simhash算法中，每个文本被转化为一个向量，其中的元素代表词频，然后通过一系列的哈希函数将这个向量压缩成一个固定长度的哈希值，也就是指纹。这种方法能快速比较大量文本，但存在一个问题，即它未能充分考虑文本中词汇分布的重要性。针对这一不足，描述中提出的E-Simhash（Entropy-based Simhash）算法引入了信息熵和词频-逆向文件频率（Term Frequency-Inverse Document Frequency, TF-IDF）的概念。TF-IDF是一种常用的词重要性度量方式，它可以识别出在文档中频繁出现但在整个文集中不常见的词语，这些词语通常具有较高的信息价值。信息熵则用于衡量文本中词汇分布的不确定性，通过熵可以量化一个词在文本中的随机性，从而进一步区分关键词和非关键词。 E-Simhash算法首先利用TF-IDF计算每个词的权重，然后结合信息熵对这些权重进行调整。这样，重要的关键词将获得更高的权重，而常见或不相关的词则被削弱，使得生成的指纹更能反映文本的关键信息。同时，算法还优化了阈值计算，以便更精确地确定指纹之间的相似度，从而提高去重的准确性和效率。仿真实验结果证明，E-Simhash算法在去重率、召回率和F值上都优于传统的Simhash算法，显示出在文本去重任务上的优越性能。特别是在处理大量冗余数据时，E-Simhash能够更有效地去除重复信息，节省存储空间，并提高信息检索的速度。 Simhash算法通过信息熵和TF-IDF的加权改进，能够在保持高速处理的同时，提高文本去重的精度，这对于大数据环境下的信息存储和管理具有重要意义。这一方法为应对大数据时代的文本处理挑战提供了一种有效的解决方案。

展开

Computer Enginee ring a nd Applications 计算机工程与应用

2020，56（11）

1 引言

随着计算机与信息技术的高速发展以及信息存储

技术

[1]

的广泛应用，人们已经步入大数据时代

[2]

，数字化

信息量呈现爆炸式增长。数据量大、复杂度高以及冗余

度高是当前大数据信息的特点。研究表明，一些存储系

统中的冗余数据已经达到了 60%

[3]

，并且会随着数据量

的上升而增多。因此在有限的存储空间和时间内，如何

存储更多有效精炼的信息成为当前研究的热点。

在去除冗余数据方面，Simhash 算法是当前公认的

最好的去重算法。该算法是一种局部敏感哈希算法

[4]

，

Simhash 算法在文本去重中的应用

张航，盛志伟，张仕斌，杨敏

成都信息工程大学网络空间安全学院，成都 610225

摘要：为了提升 Simhash 算法的文本去重效果、准确率，解决 Simhash 算法无法体现分布信息的缺点，提出了基于

信息熵加权的 Simhash 算法（简称 E-Simhash）。该算法引入 TF-IDF 和信息熵，通过优化 Simhash 算法中的权重及阈

值计算，增加文本分布信息，使得最终生成的指纹更能体现关键信息的比重，并对指纹信息与权重的关联性进行了

分析。仿真实验表明：优化权重计算能有效地提升 Simhash 算法的性能，E-Simhash 算法在去重率、召回率、

值等

方面均优于传统 Simhash 算法，并且在文本去重方面取得了良好的效果。

关键词：Simhash ；信息熵；词频-逆向文件频率；权重优化；文本去重

文献标志码：A 中图分类号：TP 301 doi：10.3778/j.issn.1002-8331.1902-0246

张航，盛志伟，张仕斌，等 . Simhash 算法在文本去重中的应用 . 计算机工程与应用，2020，56（11）：246-251.

ZHANG Hang, SHENG Zhiwei, ZHANG Shibin, et al. Application of Simhash algorithm in text d eduplicat ion. Computer

Engineering and Applications, 2020, 56（11）：246-251.

Application of S imhash Algorithm in Text Ded uplication

ZHAN G Hang, S HENG Zhiwei, ZHANG Shib in, YANG Min

School of Cybersecurity, Chengdu Universi ty of Information Technology, Chengdu 610225, China

Ab stract：To improve the text deduplication effect and accuracy of Simhash algorithm, as well as to solve the shortcomings

of Simhash algorithm that cannot reflect the distribution information, an improved Simhash algorithm based on information

entropy weighting, abbreviat ed as E-Simhash, is proposed in thi s paper. Firstly, by introducing TF-IDF and inform ation

entropy, optimizing the weight and threshold calcu lation in Simhash algorithm, as well as adding the text distribut ion

information, the final generated fingerprint can better embody the proportion of key information. Meanwhile, the correlation

between fingerprint information and weight is also be certificated. Finally, the experimental results demonstrate th at the

performance of Simhash algorithm can be effectively improved by optimizing the weight. The modified algorithm is superior

to the t radit ional Simhash algorithm in terms of dedup lication rate, recall rate and F value, and a lso has good performance

in Chinese similarity detection. Thus, the effectiveness and accuracy of the proposed method are verified.

Key words：Simhash; information entropy; term frequency-inverse document frequency; weight optimization; text deduplication

基金项目：国家重点研发计划（No.2017YFB 0802302）；四川省教育厅项目（No. 18ZA0093）；四川省高校科研创新团队项目（No.

17TD0009）；四川省学术和技术带头人培养支持经费资助项目（No.2016120080102643）；四川省应用基础项目（No.

2017JY0168）；四川省重点研发计划项目（No.2018TJPT0012）；四川省科技支撑计划项目（No.2016FZ0112，No.2018GZ0204）。

作者简介：张航（1992—），男，硕士研究生，研究方向为网络与系统安全、大数据安全；盛志伟（1977—），男，副教授，研究方向为云

计算与大数据处理、物联网工程及应用等。

收稿日期：2019-03-01 修回日期：2019-07-12 文章编号：1002-8331（2020）11-0246-06

CN KI 网络出版：2019-07-19 , http://kns.cnki.net/kcms/de tail/11.2127.TP.20190719.0930.002.html

246

万方数据

下载后可阅读完整内容，剩余5页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

秦岭熊猫

粉丝: 234

信息熵加权Simhash算法在文本去重中的优势分析

电信设备-基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统.zip

基于树型结构和加权熵的中文高频词提取算法 (2011年)

一种基于改进互信息和信息熵的文本特征选择方法

文本挖掘的常用方法及概念

基于树型结构与加权熵的高效中文高频词提取算法

信息增益与特征选择：文本分类的高效策略

文本分类基础：向量空间模型与特征选择

【机器学习中的熵作用】：信息熵的算法关键角色解析

信息熵与先农熵：数据科学中的度量与应用

中文分词算法在信息检索中的应用：提高信息检索的效率

最新资源