近似重复检测：合并过滤器代表性聚类算法的创新应用

54 浏览量更新于2024-06-18 收藏 1.63MB PDF 举报

"这篇文章探讨了近似重复检测的挑战，并提出了一种名为合并过滤器代表性聚类（Merge-Filter-RC）的通用方法。作者阿齐兹·费拉提出了一系列近似最优的算法，包括恒定阈值（CT）、可变阈值（VT）和函数阈值（FT），这些算法在Merge-Filter-RC框架下运行，以有效地检测跨多个数据源的近似重复记录。" 在近似重复检测中，Merge-Filter-RC算法采取分而治之的策略，通过代表性的聚类来减少比较的复杂性。每个聚类由一个或多个代表来表示，这些代表经过动态细化，用于后续的相似性比较，从而降低比较对的数量，缩小搜索空间。此外，算法还利用标签（非常相似、相似或不相似）来区分比较结果。文章中，作者扩展了Monge-Elkan算法，引入了一种改进的Smith-Waterman相似性度量的仿射变体。通过对真实世界数据集和合成数据集的实验，作者证明了这三个基于Merge-Filter-RC的算法在检测近似重复的准确性上显著优于Monge-Elkan算法，同时在计算效率上与之相当。近似重复检测在各个领域都有应用，如统计学中的记录链接、信息检索的近似匹配、实体解析、对象识别、数据库清理等。在大数据背景下，识别语义重复但语法不同的记录对于数据清洗至关重要，因为这些重复记录可能源自打印错误、拼写错误、数据丢失或格式差异等问题。通过集成不同数据源时，近似重复检测能帮助消除冗余信息，提高数据质量和分析的准确性。在评估过程中，这三种算法展示了其在处理大量数据时的高效性和准确性，对于数据科学家和信息处理专家来说，它们提供了一个强大的工具，用于解决实际世界中的近似重复检测问题。这项工作强调了算法设计的创新，特别是通过合并过滤和聚类策略来优化搜索空间，以及通过调整现有算法（如Monge-Elkan）来提升性能。这些方法和实现对于进一步研究和改进近似重复检测技术具有重要价值。

费拉

阵列

（

2021

）

100070

þþ

半

]

þ ×

ð Þ ¼

]

]Þ

与及物性关系和阈值选择相关的异常。因此，我们通过我们称为

非常相

似

、

相似

或

不相似

的标签来分离比较的结果，并且进一步在没有用户干

预的情况下最小化目标函数每个构造的聚类具有一个或多

个代表

，其

被

动态地计算以测量

聚类中的记录比较只与代表性的数据集进行，而不是

与集群中的所有记录因此，记录不必与所有其他记录进行比较，而是仅

与

被考虑用于后续比较的聚类表示进行比较。我们引入集群代表保留最相关

的句法和语义

特征的记录在集群中。这种方法背后的思想

是，集群代表减

少了记录比较的总数

，而不会大幅降低重复检测过程的准确性

聚类

的代表是动态提取的，并通过一组比较函数（非常相似、相似或不相似）和

阈值设置（常量、变量或函数）准确实现。相似

性比较的次数从O（

）减少到O

（nm），其中m和n

分别

是代表和记录的个数

并且m<$n

，

m总是独立于n，但依赖于

了算法这些算法中的每一个在对一组阈值、常数、变量或函数运行时具

有不同的影响所有的al-taxms都是用C实现的，并且使用相同的数据集

来进行公平

的比较

我们使用几个真实

的基准测试和算法生成的合成数据

进行了广泛的实验研究。我们不假设数据中的任何特定结构，也不依赖

源数据中的任何可用信息也就是说，数据没有被标准化，

预处理，也没

有转换，语法和语义错误仍然是数据中的潜在错误。

X实验实现

表明，合

并滤波器RC检测方法大大减少

了比较次数，精度达到近

1.0

的值，

接近最

佳的精度始终优于Monge-Elkan的开创性工作。

我们提出的一组算法并不假设特定的应用

领域，相反，它们被调整到

任何独立于领域

的应用程序。Monge-Elkan（ME）算法相对独立于领

域，目的是整合和匹配来自多个来源的网络

科学论文，通常是字母数字领域

类。

在ME中使用的参数被映射到这样一类应用

，仅具有调整阈值以提供

更好的精度的有限可能性。此外，

的启发式方法，最大限度地减少了记录

与潜在的重复的成对记录比较的数量

，并集成了一些关键的概念，如SW的

最小编辑距离。

本文的其余部分组织如下。第3节审查和

总结了

Monge-Elkan

和

Smith-Waterman

出租的有效性。第

节讨论了用于

检测近似

重复项的度量方法。第5节解释了如何使用F-测度计算和选择查

准率和查全率。选择、调整和阈值调整在本节中定义。

第

节提出了合并过滤器集群代表框架

，该框架在整个精确度和召回率

指标中使用集群代表来解决准确率性能的细节第7节

提供了一个完整的算

法技术，并提出了三种不同的域独立算法，常数，变量和函数阈值检测

近似

重复，所有这些都在合并过滤器RC的保护伞下。

Monge-Elkan

和

Smith-Waterman

算法的有效性

在本文中，我们专注于史密斯沃特曼（SW）编辑距离

[37]它最初是为了识别常见的分子序列而开发的，如DNA或蛋白质。两

个字符串x和y可能不完全相似，但可能在中间包含表现出高度相似性的

区域找到这样的一对区域，两个字符串中的每

一个，被称为

局部比对

。

Smith-Waterman

算法使用动态方法查找两个字符串之间具有最大可能

得分

的局部对齐，该方法在O（|X||y|）时间。SW的主要限制是它规定了更重

的处罚（

即，更

高的成本）对

字符串中间而不是字符串开头和结尾

的不匹

配。当错误位于字符串中间时，这可能会产生问题在这方面，为了消除

这种不便，我们主要考虑Monge-Elkan的方法[14，26]，这是一种在0;

1区间内归一化的良好调整的匹配方法，

允许额外的参数，并在

两个字符

串的对齐中引入间隙。Monge-Elkan算法的强大之处在于它能够在两个

字符串的对齐中包含不匹配的字符序列，即空位（af fine gaps）在我们

的工作中，我们添加了间隙成本作为Smith-Waterman（SW）算法的

另一种变体，该算法提供了上述问题的解决方案，并且其他相关的重复

检测是不确定的。通过增加一个成本，我们扩展了两个额外的编辑操

作，

启动间隙

和

扩展间隙

。

通常，例如，由cost（gap）

表示的空位罚分

l，其中s是在对齐中开始间隙的affine成本，e是扩展间

隙的成本，l是两

个字符串对齐中间隙的长度。通常，

affinegap

对

gap

extension

的惩罚小于

gap opening

（<es），因此我们通过在许多短gap上

使用单个长gap来减少对连续失配子串的惩罚。由于近似重复记录之间

的差异通常是由于许多缩写或额外的字符串插入和遗漏而产生的，因此

与大多数其他编辑距离度量相比，af_fine-gap模型产生更好的相似性和

更准确的结果此外，当记录具有微小的语法

差异（包括印刷错误、缩写和

截断）时，

af fine-gap

算法能够很好地检测相似性。事实上，

Monge-Elkan

算法近似

于组合优化中最优分配问题的解。这种评估是准确性和可靠性

之间的合理权衡。

复杂性

总之，Monge-Elkan的复杂度是令牌数量的二次

，并且可以将包含多

个令牌的两个文本字符串的

Monge-Elkan

测度

为：

MongeElkan x;y

max sim x i;y i

j x j

i¼1

j¼1;j y j

哪里|X|和|y|分别是x和y中的标记的数量，并且sim（x，y）是用于测量

两个单独标记之间的相似性的内部相似性函数。

在本文中，我们采用Smith-Waterman

相似性编辑距离的修改版本作

为令牌间的相似性度量。形式上，令

c（x

，y

）表示将字符串x的第i个字

符与字符串y的第j个字符

对齐的编辑距离的成本

。然后，SW算法根据

Monge-Elkan算法[4]通过以下递归规则计算表示最大成本字符串对齐

的成本矩阵XM

;

在第8节中，我们提出了一个彻底的实验评估，我们的

探讨并比较了三种算法在

Monge-Elkan的开创性工作的准确性和效率

我们使用基准数据以及合成数据以满足现有实际数据中无法提供的特定

条

件。合成数据已经被

Mði;jÞ¼

Mi-1;je

，

如果Mi-1;j-1在间隙

Mi-1;js 如果i-1;j-1以匹配

Mi;j-1e 如果i-1;j -1在间隙

Mi;j-1s 如果i-1;j -1以匹配

使用近似重复生成器（

NDG

）算法生成第

条

最后提出了未来的研究方向。在

此外，我们还提供了一个附录，使我们的论文自成一体。

度量措施和阈值效应

相似性是指两个对象之间的相似性的度量（

即，

：

Max

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

近似重复检测：合并过滤器代表性聚类算法的创新应用

聚类相似性

聚类算法中相似性度量方法的研究

最新文本挖掘算法总结.docx

深度学习与AI项目源码合集：机器学习算法实践教程

【K-Means与层次聚类实战对比】：Python聚类算法的决策秘籍

MATLAB聚类算法在网络流量分析中的【高效解法】

层次聚类解析：深入掌握算法原理与实用技巧

【Python聚类局限性分析】：案例剖析与应对策略

图像处理聚类魔法：图像分割与识别技术全解析

数据挖掘算法在图像处理中的应用：图像识别，目标检测

最新资源