双向过滤优化字符串相似连接验证

需积分: 0 25 浏览量更新于2024-09-11 收藏 993KB PDF 举报

"这篇论文研究了一种新的字符串相似连接验证方法——双向过滤的字符串相似连接验证，该方法针对传统的基于划分的过滤-验证方法（如Pass-Join）进行了优化，提高了在大数据集上的处理效率。" 正文: 字符串相似连接是数据挖掘、信息检索和自然语言处理等多个领域的核心问题，它旨在识别两个字符串集合中相似度达到特定阈值的字符串对。在互联网时代，随着数据量的爆炸性增长，高效地执行字符串相似连接变得尤为重要。传统的字符串连接方法如Jaccard相似性或Levenshtein距离等，虽然能够准确评估相似性，但计算复杂度较高，难以应对大规模数据。 Pass-Join是一种基于划分的过滤-验证策略，它按照字符串长度递增的顺序来筛选可能的相似对，通过检查一个字符串的划分块是否在另一个字符串中出现，快速构建候选集。然而，实验发现，采用长度递减的顺序进行过滤可以更有效地排除不相似的字符串对。基于这个观察，论文提出了双向过滤-验证机制。首先，使用长度递减的过滤方法缩小候选集，然后对得到的候选对再进行一次长度递增的过滤，进一步减少需要验证的字符串对数量。这双重过滤步骤显著减少了计算负担。在验证阶段，双向过滤的创新之处在于利用两次过滤产生的匹配子串和划分块，将待比较的字符串长度减小，从而加速了基于编辑距离的相似性验证过程。论文的实验部分对比了双向过滤-验证算法与原Pass-Join算法在真实数据集上的表现，结果表明新算法在效率和效果上均有所提升。这证实了双向过滤策略对于提高字符串相似连接处理速度的有效性，尤其在处理大规模数据时，这种优化方法可以显著降低计算资源的需求，为大数据环境下的相似性检测提供了一种更为高效的解决方案。双向过滤的字符串相似连接验证方法是针对传统算法的一种改进，通过双向过滤的策略，既优化了过滤阶段的候选对生成，又减少了验证阶段的工作量，为大数据时代的字符串相似性分析提供了新的思路。这一方法对于提升数据挖掘效率，特别是在实体解析、相似网页检测等应用中，具有重要的理论和实践价值。

Computer Enginee ring a nd Applications 计算机工程与应用

2017，53（9）

1 引言

字符串相似连接是指在字符串集中按照指定的相

似度衡量方法找出所有相似度满足给定阈值的字符串

对，具有广泛的应用领域，例如相似网页检测、实体解

⦾大数据与云计算⦾

双向过滤的字符串相似连接验证方法

黄樱，宋春花，牛保宁

HUANG Ying, SONG Ch unhua, NIU Baoning

太原理工大学计算机学院，太原 030024

School of Computer Science and Technology, Taiyuan University of Technology, Taiyuan 030024, China

HUANG Ying, SONG Chunhua, NIU B aon ing. Verification method for string similarity joins based on bi-directional

filtering. Computer Engineering and Ap plications, 2017, 53（9）：72-79.

Ab stract: A string similarity join finds similar string pairs from two sets of strin gs. It plays an important role in many

real-world applications. Various algorit hms have been proposed to address its efficiency issues. Partition-ba sed filter-veri-

fication methods, such as Pass-Join, are promising, which quickly screens out possible similar string pairs（candidate set）by

searching partitioned parts of a string in another string, in order of increasing length, and then performs similarity verification

based on edit-distance. Motivated by the fact that the effect pr oduced by filtering in the descending order of string length

is better than in the ascending order, a novel bi-directional fil tering-verif ication me chanism is proposed. At the filtering

stage, it pipelines the results from le ngth descending filtering to leng th ascending filtering to further reduce the size

of the ca ndidate s et. At the verificat ion stage , it makes use of the two pairs of match ed substr ings from the bi-directional

filtering to parti tion the target string pairs into several short substring pairs to accelerate the verif ication process. Experi-

mental result s s how that the proposed bi -directional filtering-verification algorithm outperforms the origin algorithm

on real-world datasets.

Key words: string similarity joins; bi-directional filtering-verification mechanism; filter-verification framework

摘要：字符串相似连接是指在字符串集合中找出相似的字符串对，是许多应用的关键操作，寻找高效的字符串相

似连接算法已成为研究热点。基于划分的过滤-验证方法（Pass-Join）与其他方法相比具有较高的效率。它按照字符

串长度递增的顺序访问字符串集合，通过查找一个字符串的划分块是否存在于另一个字符串中，快速筛选出可能相

似的字符串对（候选集），然后利用编辑距离进行相似性验证。研究发现，按照字符串长度递减的顺序进行过滤（长

度递减过滤）的效果优于按照长度递增的顺序过滤（长度递增过滤）的效果，基于此，提出双向过滤-验证机制：在过

滤阶段对长度递减过滤的结果再进行一次长度递增过滤，进一步减小候选集大小；在验证阶段利用双向过滤产生的

两对划分块和其匹配子串分隔字符串对，从而减小需要验证的字符串的长度，加速验证过程。实验证明，双向过滤-

验证算法在真实数据集上优于原算法。

关键词：字符串相似连接；双向过滤-验证机制；过滤-验证框架

文献标志码：A 中图分类号：TP 391 doi：10.3778/j.issn.1002-8331.1512-0309

基金项目：国家科技支撑项目课题（No.2012BAH04F02）；人社部留学人员科技活动项目（No.2011-508）。

作者简介：黄樱（1989—），女，硕士研究生，研究方向为大数据清洗、数据管理，E-mai l：38472467@qq.com；宋春花（1966—），女，博

士，副教授，硕士生导师，研究方向为计算机图形建模、可视化仿真和数据库建模；牛保宁（1964—），男，博士，教授，博

士生导师，研究方向为数据库系统性能管理、自主计算、云计算。

收稿日期：2015-12-25 修回日期：2016-02-23 文章编号：1002-8331（2017）09-0072-08

CN KI 网络优先出版：2016-09-28, ht tp://www.cnki.net/kcms/detail/11.2127.TP.20160928.1609.028.h tml

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38743737

粉丝: 376
资源: 2万+

双向过滤优化字符串相似连接验证

JDBC驱动与数据库连接字符串详解

JAVA字符串格式化：String.format()详解与示例

实现字符串逆序的函数方法

ADO助手---一个获取ADO连接字符串,测试SQL命令的辅助软件

ADO助手V1.20---一个获取ADO连接字符串,测试SQL命令的辅助软件

【SystemVerilog】路科验证V2学习笔记（全600页）.pdf

精通正则表达式.pdf

javascript高级教程.pdf

华为OD机试真题.pdf

C语言编程实现字符串连接的方法与示例

最新资源