提升中文文本去重准确性的语义指纹与LCS方法

需积分: 10 164 浏览量更新于2024-09-08 收藏 693KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"该文档是关于一种用于文本去重的先进技术的说明，融合了语义指纹和最长公共子序列（LCS）算法，旨在提高中文文本去重的准确性和效率。这种方法由北京邮电大学软件学院的研究人员陈露、吴国仕和李晶提出，并在大数据与智能信息处理领域具有应用价值。" 在信息技术领域，文本去重是一个重要的问题，特别是在防止抄袭、搜索引擎优化和数据清洗等场景中。传统的文本去重方法往往在处理中文文本时面临准确率低的挑战。本文提出的"基于语义指纹和LCS的文本去重方法"旨在解决这一问题。首先，该方法对中文文本进行预处理，抽取文本摘要，这一步通常包括去除停用词、标点符号和进行词干提取等，以减少噪音并提取关键信息。接着，利用tf-idf算法计算文本内容和摘要的特征向量。tf-idf是一种常用的文本表示方法，它考虑了词频（Term Frequency, tf）和逆文档频率（Inverse Document Frequency, idf），能够凸显出在文档中频繁出现但全局稀有的词汇。然后，将这两个特征向量作为SimHash算法的输入。SimHash是一种近似哈希技术，它能将向量转换为固定长度的指纹，使得相似的向量具有较小的汉明距离。通过计算两个文本指纹的汉明距离，并结合特定的公式，可以初步判断文本的相似程度。在初步筛选出相似文本对后，为了避免误判，引入了最长公共子序列（Longest Common Subsequence, LCS）算法。LCS能找出两序列中的最长公共部分，即使它们在位置上不完全对应，对于判断文本的实质性相似性非常有效。通过LCS的对比，可以进一步确认文本的重复性，从而提高去重的准确性。实验结果表明，这种结合语义指纹和LCS的方法在精确度上优于传统的LCS和SimHash算法，且其运行速度足够应对大规模文本数据，确保了在大数据量下的高效去重操作。因此，这种方法在理论计算机科学和自然语言处理领域具有较高的实用价值，特别适合于需要处理大量中文文本的软件开发项目。

资源详情

资源推荐

软件 2014 年第 35 卷第 11 期 SOFTWARE 国际 IT 传媒品牌

作者简介: 陈露

(1989-),

女

硕士研究生

主要研究方向

大数据与智能信息处理

通信联系人: 吴国仕，教授，主要研究方向：大数据与智能信息处理

基于语义指纹和 LCS 的文本去重方法

陈露，吴国仕，李晶

(北京邮电大学软件学院北京 100000)

摘要: 为了解决传统中文文本去重准确率低的问题，本文提出了一种基于语义指纹和 LCS 的文本去重方法。针对中

文文本，预处理后抽取出文本摘要，然后使用 tf-idf 算法分别得出文本内容特征向量和摘要特征向量，分别将这两个向量作

为 simhash 算法的输入，计算得到文章的内容指纹和摘要指纹。计算两个文本对应的两个指纹的汉明距离，代入本文公式，

最终得到这两文本的指纹距离；使用指纹对文本对进行初步筛选，对判定为相似的两个文本使用 LCS 算法进行进一步对比，

避免误判，最终实现中文文本快速去重。实验过程中，通过与 LCS 算法、simhash 算法等多种算法的结果进行对比，可以

体现该方法在算法精确度方面的优势，同时，该方法的运行速度优势也能较好地支持大数据量文本的去重操作。

关键词: 理论计算机科学；语义指纹；simhash；LCS；文本去重

中图分类号: TP311 文献标识码: A DOI：10.3969/j.issn.1003-6970.2014.11.006

本文著录格式：陈露，吴国仕，李晶. 基于语义指纹和 LCS 的文本去重方法[J]. 软件，2014，35(11)：25-30

Duplicate Detection for Chinese Texts Based on Semantic Fingerprint and LCS

CHEN Lu, WU Guo-shi, LI Jing

(Beijing University of Post and Telecommunications School of Software, Beijing 100083, China)

【Abstract】: In the traditional duplicated detection algorithms for the Chinese content, they often encountered the low

accuracy issue. To address this issue, this paper proposes a novel method based on semantic fingerprint and LCS. With the

pre-processed text synopsis, first，get the abstract of the article, and then implemented tf-idf algorithm to obtain the con-

tent’s feature vector and the abstract’s feature vector. By using the two vectors as input, we calculated the fingerprints of

both the content and the abstract with simhash method. Calculate the Hamming Distance of the corresponding fingerprint of

the two texts individually, and put the two distances into the formula raised in this paper, then get the fingerprint similarity

of the two texts. This method use fingerprint as the preliminary selection and further determine the similarity with the LCS

algorithm. With two-level selection, this method avoid the fallacious results and gain a better accuracy. In addition, this pa-

per evaluated our method through comparing results with other widespread algorithms like the LCS and simhash. Experi-

ments showed this method not only advances the accuracy but also enhances the operation speed which has better perfor-

mance on the large scale data.

【Key words】: Theoretical computer science ; Semantic fingerprint; Simhash; LCS; Duplicate detection

0 引言

近年来，随着我国计算机科学技术的迅猛发展，互联网技术的的高速提升，网络新闻、博客等信息传播技

术日益普及，文本信息爆炸式增长。然而，由于互联网中信息复制成本极低，使得在信息快速增长、为用户带

来丰富资料来源的同时，产生了大量重复、冗余的数据。庞大的重复信息量不仅大大增加了用户搜寻信息的成

本，降低了搜索引擎的效率也增加了系统存储的负担，同时也不利于针对文本信息进行有效的数据挖掘。因此，

如何快速准确的去除重复文本信息成为信息处理过程中十分关键的环节。

1 国内外主要技术

针对国内 2000-2012 年之间有关中文文本去重技术的研究成果进行研究分析，中文文本去重的方法主要可

以分为基于文本内容、基于文本特征和二者相结合的文本去重方法。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_39902983

粉丝: 3
资源: 18

提升中文文本去重准确性的语义指纹与LCS方法

代码相似度检测

文本去重第一步：基于内容的文本相似性计算

simhash文本相似度

文本相似性算法：Jaccard相似性与编辑距离

Word2Vec词嵌入在文本去重中的应用：消除重复文本，提升数据效率

minhashlsh实现文本去重

simhash文本去重算法

现有文本去重算法众多,大多是通过计算文本之间的相似度

Python计算短文本相似度进行去重，有什么效果较好的算法

gemini 代码相似性检测

16.请简述检测文本相似的的流程

视频空间信息用于相似性检测

c语言代码相似性检测

视频时间信息用于相似性检测

Simhash算法介绍

写一段根据文本相似度去重的Java代码

使用序贯相似性检测算法实现医学图像配准 用matlab实现

包含语义信息的文本相似性

最新资源

使用序贯相似性检测算法实现医学图像配准用matlab实现