Python检测文章抄袭与去重算法：nshash解析 - CSDN文库

131 浏览量更新于2024-08-27 1 收藏 485KB PDF 举报

"使用Python检测文章抄袭及去重算法原理解析" 文章去重是针对互联网上大量重复内容的问题，尤其是新闻和博客等文字主导的网页。随着互联网的发展，抄袭现象变得普遍，搜索引擎和内容发布者都需要有效的方法来识别和处理重复内容。去重算法的目标是基于文章内容判断是否重复，这对于爬虫处理海量文本数据尤其重要。在众多去重算法中，minihash和simhash是常见的技术。simhash虽然较为精确，但计算复杂度较高，效率较低。而“百度算法”则采用了文章最长句子的hash值作为文章标识，这种方法简洁且工程友好，但对个别字修改的容忍度低，可能导致召回率不高。针对这一问题，nshash（top-nlongestsentenceshash）算法被提出，它选取文章中最长的n句话（如n=5）进行hash计算，形成文章的指纹集合，以此提高召回率。每篇文章由多个指纹标识，即使部分句子被修改，仍能保持较高的召回率，同时保持了高准确性。算法实现主要包括以下步骤： 1. **预处理**：去除文章中的停用词、标点符号，进行词干化和分词处理，确保内容比较时不受这些因素影响。 2. **选取句子**：找出文章中最长的n个句子，这部分可以采用动态规划或者排序等方法。 3. **计算hash值**：对每个选定的句子分别计算其hash值，可以使用简单的hash函数如MD5或SHA1，也可以使用更复杂的如simhash等。 4. **构建指纹**：将所有句子的hash值组合成文章的指纹集合。 5. **比较与去重**：比较两篇文章的指纹集合，如果它们有相同的hash值，则认为文章相似或重复。通过groupby操作，可以将具有相同指纹的文章聚集在一起，实现去重。 Python在实现这个算法时，可以利用`hashlib`库进行hash计算，`nltk`或`jieba`库进行自然语言处理，以及pandas库进行数据处理和分组。整个流程可以通过函数封装，方便应用于大规模文本数据。需要注意的是，去重算法在实际应用中可能需要结合其他策略，如时间戳、URL比对等，以综合判断文章的原创性和重复性。此外，对于中文文本，还需要考虑词序和语义的影响，可能需要引入更先进的自然语言处理技术，如BERT等预训练模型，以提升去重算法的准确性和鲁棒性。

使用使用Python检测文章抄袭及去重算法原理解析检测文章抄袭及去重算法原理解析

在互联网出现之前，“抄”很不方便，一是“源”少，而是发布渠道少；而在互联网出现之后，“抄”变得很简单，铺天盖地的“源”源

源不断，发布渠道也数不胜数，博客论坛甚至是自建网站，而爬虫还可以让“抄”完全自动化不费劲。这就导致了互联网上的“文

章”重复性很高。这里的“文章”只新闻、博客等文字占据绝大部分内容的网页。

中文新闻网站的“转载”（其实就是抄）现象非常严重，这种“转载”几乎是全文照抄，或改下标题，或是改下编辑姓名，或是文

字个别字修改。所以，对新闻网页的去重很有必要。

一、去重算法原理一、去重算法原理

文章去重（或叫网页去重）是根据文章（或网页）的文字内容来判断多个文章之间是否重复。这是爬虫爬取大量的文本行网页

（新闻网页、博客网页等）后要进行的非常重要的一项操作，也是搜索引擎非常关心的一个问题。搜索引擎中抓取的网页是海

量的，海量文本的去重算法也出现了很多，比如minihash, simhash等等。

在工程实践中，对simhash使用了很长一段时间，有些缺点，一是算法比较复杂、效率较差；二是准确率一般。

网上也流传着百度采用的一种方法，用文章最长句子的hash值作为文章的标识，hash相同的文章（网页）就认为其内容一

样，是重复的文章（网页）。

这个所谓的“百度算法”对工程很友好，但是实际中还是会有很多问题。中文网页的一大特点就是“天下文章一大抄”，各种博

文、新闻几乎一字不改或稍作修改就被网站发表了。这个特点，很适合这个“百度算法”。但是，实际中个别字的修改，会导致

被转载的最长的那句话不一样，从而其hash值也不一样了，最终结果是，准确率很高，召回率较低。

为了解决这个问题，我提出了nshash（top-n longest sentences hash)算法，即：取文章的最长n句话（实践下来，n=5效果不

错）分别做hash值，这n个hash值作为文章的指纹，就像是人的5个手指的指纹，每个指纹都可以唯一确认文章的唯一性。这

是对“百度算法”的延伸，准确率还是很高，但是召回率大大提高，原先一个指纹来确定，现在有n个指纹来招回了。

二、算法实现二、算法实现

该算法的原理简单，实现起来也不难。比较复杂一点的是对于一篇文章（网页）返回一个similar_id，只要该ID相同则文章相

似，通过groupby similar_id即可达到去重目的。

为了记录文章指纹和similar_id的关系，我们需要一个key-value数据库，本算法实现了内存和硬盘两种key-value数据库类来记

录这种关系：

HashDBLeveldb 类：基于leveldb实现, 可用于海量文本的去重；

HashDBMemory 类：基于Python的dict实现，可用于中等数量（只要Python的dict不报内存错误）的文本去重。

这两个类都具有get()和put()两个方法，如果你想用Redis或MySQL等其它数据库来实现HashDB，可以参照这两个类的实现进

行实现。

下载后可阅读完整内容，剩余4页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

weixin_38629873

粉丝: 2

最新资源