利用minHash算法检测网页重复与相似性

需积分: 32 197 浏览量更新于2024-09-10 收藏 17KB DOCX 举报

摘要信息：“百度咋做长文本去重（一分钟系列）”主要探讨了在互联网环境中如何有效地进行长文本去重，特别是针对大量网页内容的处理。文章提到了传统的签名算法，如MD5，用于判断数据的完整性，但不适用于文本相似性的检查。为了解决这个问题，文章引入了局部敏感哈希（LSH）和minHash的概念，这两种方法在文本相似性检测和网页重复性判断中具有重要作用。详细内容： 1. 传统签名算法：MD5（Message-Digest Algorithm 5）是一种广泛使用的哈希函数，它能将任意长度的数据转换为固定长度的摘要，通常用于验证数据的完整性和一致性。由于MD5的特性，即使原文只改动一个位，生成的哈希值也会截然不同。然而，MD5不适用于检测文本的相似性，因为它无法捕捉到文本内容的微小变化。 2. 文本相似性签名算法：当需要检测文本的相似性时，局部敏感哈希（LSH）家族的算法如minHash成为有效工具。minHash通过抽样集合中的元素来代表整个集合，如果抽样的元素相似，那么整个集合的相似度也很高。例如，对于集合A、B、C和D，通过选取最小的几个元素作为签名，可以快速判断它们之间的相似程度。 3. minHash算法：minHash的基本思想是对文本进行某种操作（如排序），然后选取一个或多个特征值（比如最小值）作为文本的签名。这样，如果两个文本的minHash签名相似，那么它们可能存在较高的相似性。minHash在处理大规模数据时尤其高效，可以用于快速过滤掉大部分不相似的文本，减少后续精确比较的工作量。 4. 在百度的场景下，面对海量网页库，使用minHash等技术可以显著降低排重系统的复杂度，并提高排重的准确性。通过计算新网页的minHash签名，与已有网页库中的签名进行比较，可以快速发现重复或高度相似的网页，从而保护原创内容，抵制网络抄袭。百度在处理长文本去重问题时，结合了传统签名算法如MD5的完整性检查功能，以及minHash等局部敏感哈希方法对文本相似性的判断，构建了一个高效且准确的排重系统。这种方法对于维护互联网环境的秩序，保护原创内容，以及优化搜索引擎的性能都具有重要意义。

缘起：

（1）原创不易，互联网抄袭成风，很多原创内容在网上被抄来抄去，改来改去

（2）百度的网页库非常大，爬虫如何判断一个新网页是否与网页库中已有的网页重复呢？

这是本文要讨论的问题（尽量用大家都能立刻明白的语言和示例表述）。



一、传统签名算法与文本完整性判断

问题抛出：

（1）运维上线一个 bin 文件，将文件分发到 4 台线上机器上，如何判断 bin 文件全部是一致的？

（2）用户 A 将消息 msg 发送给用户 B，用户 B 如何判断收到的 msg_t 就是用户 A 发送的 msg？

思路：

一个字节一个字节的比对两个大文件或者大网页效率低，我们可以用一个签名值（例如 md5 值）

代表一个大文件，签名值相同则认为大文件相同（先不考虑冲突率）

回答：

（1）将 bin 文件取 md5，将 4 台线上机器上的 bin 文件也取 md5，如果 5 个 md5 值相同，说明

一致

（2）用户 A 将 msg 以及消息的 md5 同时发送给用户 B，用户 B 收到 msg_t 后也取 md5，得到

的值与用户 A 发送过来的 md5 值如果相同，则说明 msg_t 与 msg 相同

结论：md5 是一种签名算法，常用来判断数据的完整性与一致性

md5 设计原则：两个文本哪怕只有 1 个 bit 不同，其 md5 签名值差别也会非常大，故它只适用于

“完整性”check，不适用于“相似性”check。

下载后可阅读完整内容，剩余4页未读，立即下载

hyy80688

粉丝: 10
资源: 202

利用minHash算法检测网页重复与相似性

相似性检测与文本去重

大批量文本去重脚本.py

文本去重第一步：基于内容的文本相似性计算

txt文本去重

狼军文本去重小工具v1.0免费绿色版

论文研究- 基于LCS与发布时间的焦点新闻文本去重研究 .pdf

Simhash算法在文本去重中的应用-信息熵词频加权1.pdf

TXT文本批量空行去重工具

信息熵加权Simhash算法在文本去重中的优势分析

FastText文本表示：在文本去重中的应用，高效去除重复文本，提升数据质量，节省存储

最新资源