MapReduce下的增量式相似性连接算法

工程技术

论文

需积分: 9 103 浏览量更新于2024-08-08 收藏 1.46MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"基于MapReduce的增量式数据集的相似性连接 (2014年)。相似性连接算法在MapReduce框架下已有多种实现，但面临挑战，如大量索引导致时间和空间开销增加，以及无法高效处理增量式数据集。论文提出了一种新的方法，通过抽样技术确定中枢并创建分区索引，优化了增量数据的相似性连接。实验表明，这种方法能有效解决海量增量数据集的相似性连接问题，并提高了新增数据的连接操作效率。" 本文主要探讨了在大数据背景下，如何利用MapReduce框架进行增量式数据集的相似性连接。相似性连接是一种重要的数据处理方法，它通过计算数据之间的相似度来决定是否进行连接操作。在MapReduce环境下，虽然已经存在多种相似性连接算法，但这些算法往往存在一些限制，比如由于大量索引的构建，导致时间和存储资源的消耗过大，同时无法很好地应对数据集的动态增长。针对这些问题，该研究提出了一种创新的解决方案。首先，论文采用了抽样技术，通过对数据集进行采样，找出代表性的“中枢”数据，这些中枢数据能够反映整体数据的特性。然后，依据中枢数据，对数据集进行更为合理的分区，这有助于减少不必要的计算和索引的构建。接下来，建立了分区索引，这是一种优化策略，使得新增数据可以在对应的分区中快速找到潜在的相似数据。通过这种方式，新加入的数据可以高效地进行相似性连接，而不必遍历整个数据集。实验结果证明，所提出的算法在处理海量增量式数据集时，能有效地执行相似性连接，显著提升了新增数据的连接操作效率。这表明分区索引的建立对于处理大规模动态数据集具有显著优势，为MapReduce环境下的增量式数据处理提供了新的思路。该研究为MapReduce环境中的增量式数据处理提供了一种有效且高效的解决方案，对于大数据处理领域具有重要的理论价值和实践意义。通过改进索引策略和分区方法，不仅减少了计算复杂度，还节省了存储空间，适应了大数据时代数据快速增长的需求。未来的研究可以在此基础上进一步探索如何优化索引结构和分区策略，以应对更复杂的数据分布和更高的数据更新频率。

资源详情

资源推荐

　　收稿日期：２０１３１０１８；修回日期：２０１３１２１０　　基金项目：浙江省公益性技术应用研究计划资助项目（２０１１Ｃ２１０７６）

　　作者简介：徐媛媛（１９８９），女，安徽合肥人，硕士，主要研究方向为数据流处理（ｘｕｙｕａｎｙｕａｎ１１０９＠１６３．ｃｏｍ）；陈华辉（１９６４），男，教授，博士，

主要研究方向为数据库、数据挖掘、数据流处理．

基于ＭａｐＲｅｄｕｃｅ的增量式数据集的相似性连接



徐媛媛，陈华辉

（宁波大学信息科学与工程学院，浙江宁波３１５２１１）

摘　要：相似性连接，即利用相似函数度量数据之间的相似程度，满足条件后进行连接操作。ＭａｐＲｅｄｕｃｅ框架

下已存在很多相似性连接算法，但仍然存在一些不足，如大量的索引加大时间、空间的开销；现有算法不能有效

地完成增量式数据集的相似性连接等。针对海量增量式数据集进行了研究，采用抽样技术得到有效中枢，形成

更为合理的分区，建立分区索引和分配原则，完成新增数据的相似性连接操作。实验证明，该算法能够有效地解

决海量增量式数据集的相似性连接问题，验证了分区索引的建立，可以提高新增数据的相似性连接操作的效率。

关键词：海量增量式数据集；划分；相似性连接；ＭａｐＲｅｄｕｃｅ

中图分类号：ＴＰ３１１．１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１４）１１３３６９０６

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１４．１１．０３９

ＭａｐＲｅｄｕｃｅｂａｓｅｄｓｉｍｉｌａｒｉｔｙｊｏｉｎｆｏｒｉｎｃｒｅｍｅｎｔａｌｄａｔａｓｅｔ

ＸＵＹｕａｎｙｕａｎ，ＣＨＥＮＨｕａｈｕｉ

（ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ＆Ｅｎｇｉｎｅｅｒｉｎｇ，ＮｉｎｇｂｏＵｎｉｖｅｒｓｉｔｙ，ＮｉｎｇｂｏＺｈｅｊｉａｎｇ３１５２１１，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｓｉｍｉｌａｒｉｔｙｊｏｉｎｗａｓｎａｍｅｌｙｔｈａｔｕｓｉｎｇｓｉｍｉｌａｒｆｕｎｃｔｉｏｎｔｏｍｅａｓｕｒｅｔｈｅｓｉｍｉｌａｒｉｔｙｌｅｖｅｌｏｆｔｈｅｄａｔａｓｅｔ，ａｎｄｔｈｅｎｄｏｉｎｇ

ｔｈｅｊｏｉｎａｆｔｅｒｍｅｅｔｉｎｇｔｈｅｃｏｎｄｉｔｉｏｎ．Ｍａｎｙｅｆｆｅｃｔｉｖｅｓｉｍｉｌａｒｉｔｙｊｏｉｎａｌｇｏｒｉｔｈｍｓｈａｄｂｅｅｎｉｎｍａｐｒｅｄｕｃｅ

，ｂｕｔｔｈｅｒｅｗｅｒｅｓｔｉｌｌｓｏｍｅ

ｉｎｓｕｆｆｉｃｉｅｎｃｙ，ｓｕｃｈａｓａｌｏｔｏｆｉｎｄｅｘｅｓｉｎｃｒｅａｓｅｓｔｈｅｏｖｅｒｈｅａｄｏｆｔｉｍｅａｎｄｓｐａｃｅ；ｔｈｅｅｘｉｓｔｉｎｇａｌｇｏｒｉｔｈｍｃｏｕｌｄｎ’ｔｄｅａｌｗｉｔｈｔｈｅ

ｓｉｍｉｌａｒｉｔｙｃｏｍｐｕｔａｔｉｏｎｏｆｔｈｅｉｎｃｒｅｍｅｎｔａｌｄａｔａｓｅｔｅｆｆｅｃｔｉｖｅｌｙ，ａｎｄｓｏｏｎ．Ｆｏｒｍａｓｓｉｖｅｉｎｃｒｅｍｅｎｔａｌｄａｔａｓｅｔ，ｔｈｉｓｐａｐｅｒｍａｄｅｕｓｅ

ｏｆｓａｍｐｌｉｎｇｔｏｇｅｔｔｈｅｖａｌｉｄｐｉｖｏｔｓ，ｗｈｉｃｈｅｓｔａｂｌｉｓｈｅｄｐａｒｔｉｔｉｏｎｓ’ｉｎｄｅｘｅｓａｎｄｄｉｓｔｒｉｂｕｔｉｏｎｐｒｉｎｃｉｐｌｅ，ｔｈｅｎｆｉｎｉｓｈｅｄｔｈｅｓｉｍｉｌａｒｉｔｙ

ｊｏｉｎｏｐｅｒａｔｉｏｎｏｆａｄｄｉｔｉｏｎａｌｄａｔａ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｓｐｒｏｖｅｔｈａｔｔｈｅａｌｇｏｒｉｔｈｍｃａｎｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｏｆｔｈｅｓｉｍｉｌａｒｉｔｙｊｏｉｎｏｆｔｈｅｉｎ

ｃｒｅｍｅｎｔａｌｄａｔａｓｅｔｅｆｆｅｃｔｉｖｅｌｙ，ａｎｄｖｅｒｉｆｙｔｈａｔｔｈｒｏｕｇｈｃｒｅａｔｉｎｇｐａｒｔｉｔｉｏｎｓ’ｉｎｄｅｘｅｓ，ｉｔｃａｎｉｍｐｒｏｖｅｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｔｈｅｓｉｍｉｌａｒｉ

ｔｙｊｏｉｎｏｐｅｒａｔｉｏｎｏｆａｄｄｉｔｉｏｎａｌｄａｔａ．

Ｋｅｙｗｏｒｄｓ：ｍａｓｓｉｖｅｉｎｃｒｅｍｅｎｔａｌｄａｔａｓｅｔ；ｐａｒｔｉｔｉｏｎ；ｓｉｍｉｌａｒｉｔｙｊｏｉｎ；ＭａｐＲｅｄｕｃｅ

　引言

给定数据集Ｒ和Ｓ、阈值

（常数）、相似度函数ｓｉｍ，若ｓｉｍ（ｒ，

ｓ）不超出给定阈值

（其中数据ｒ

∈

Ｒ，ｓ

∈

Ｓ），那么判定（ｒ，ｓ）是相

似对。所谓相似性连接就是找到Ｒ和Ｓ中所有这样的相似对。

针对不同的数据类型和应用场景，可选用不同的相似度函数。

例１　对集合数据Ｓ

１

＝｛Ａ，Ｂ，Ｃ，Ｄ，Ｅ｝，Ｓ

２

＝｛Ｆ，Ｂ，Ｃ，Ｄ，

Ｅ｝，Ｓ

１

和Ｓ

２

的Ｊａｃｃａｒｄ系数

｜Ｓ

１

∩

Ｓ

２

｜

｜Ｓ

１

∪

Ｓ

２

｜

＝

４

６

＝０．６７，余弦系数

｜Ｓ

１

∩

Ｓ

２

｜

｜Ｓ

１

槡

｜｜Ｓ

２

槡

｜

＝

４

槡槡

５５

＝０．８。给定不同的相似度函数和阈值，

就会有不同的相似对判定结果。若给定阈值

＝０．７５，当相似

度大于０．７５时为相似对，那么通过Ｊａｃｃａｒｄ系数进行判断，Ｓ

１

和Ｓ

２

不能成为相似对，但通过余弦系数进行判断，则它们是相

似对。

例２　有向量数据ｘ＝（０．７８，０．４，０．０１），ｙ＝（０．７７，０．４２，

０．０２），此时ｘ和ｙ的欧氏距离

（０．７８－０．７７）

２

＋（０．４－０．４２）

２

＋（０．０１－０．０２）

槡

２

＝０．０２５，ｘ

和ｙ的曼哈顿距离｜０．７８－０．７７｜＋｜０．４０－０．４２｜＋｜０．０１－

０．０２｜＝０．０４，若给定阈值

＝０．０３，当距离小于０．０３为相似

对，那么欧氏距离下

ｘ和ｙ是相似对，而曼哈顿距离下ｘ和ｙ

不是相似对。

相似性连接，作为一种有效的数据处理和分析的操作，近

几年被学术界和工业界所关注，广泛用于数据仓库的数据清

理

［１］

、网页搜索中的重复和近重复网页检测

［２］

、电子商务系统

中的协同过滤

［３］

等应用中。

对相似性连接算法的研究目前已有很多，根据针对的数据

集类型的不同，可分为集合数据相似性连接、向量数据相似性

连接。面向集合数据相似性连接的算法主要有

ＳＳＪｏｉｎ

［１］

、Ａｌｌ

Ｐａｉｒｓ

［４］

、ＰＰＪｏｉｎ及ＰＰＪｏｉｎ＋＋

［２］

、ＥｄＪｏｉｎ

［５］

、ＴｒｉｅＪｏｉｎ

［６］

、Ｂ＋

ｔｒｅｅ

［７］

、ｖｅｒｎｉｃａ

［８］

、ＶＳＭＡＲＴＪｏｉｎ

［９］

等，其中针对字符串数据的

研究较为广泛，有基于编辑距离

［５］

、倒排索引

［１，２，４］

、签名

［１０，１１］

等的字符串连接。面向向量数据相似性连接主要有Ｑｕｉｃｋ

ｊｏｉｎ

［１２］

、ｆｕｌｌｉｎｖｅｒｔｅｄｌｉｓｔ

［１３］

、ｐｒｅｆｉｘｆｉｌｔｅｒｉｎｇ

［１４］

、ＶＳＭＡＲＴＪｏｉｎ、

ｂｕｃｋｅｔｆｉｌｔｅｒｉｎｇ

［１５］

、ＭＲＤＳＪ

［１６］

等。通常将文本转换成向量数

据，再进行相应的相似性操作。

随着各类应用中数据规模越来越大，如何在Ｈａｄｏｏｐ等分布

式环境中对海量的数据进行相似性连接处理也已引起了研究者

的关注。文献［１７］提出了一种ＭａｐＲｅｄｕｃｅ框架下的相似性连

接算法

ＭＲＳｉｍＪｏｉｎ。ＭＲＳｉｍＪｏｉｎ对同一数据集进行相似性连接，

即自连接。自连接是一种应用相当普遍的相似性连接操作。

第３１卷第１１期

２０１４年１１月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３１Ｎｏ．１１

Ｎｏｖ．２０１４

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38560275

粉丝: 2
资源: 916

MapReduce下的增量式相似性连接算法

基于MapReduce的增量数据挖掘研究.pdf

基于mapreduce实现天气数据的分析

基于mapreduce的数据分析

基于mapreduce的气候数据分析方法

基于MapReduce的数据分析

基于mapreduce的气候数据的分析

基于MapReduce的数据清洗

mapreduce整合数据集

mapreduce实现数据集

基于mapreduce的电影推荐系统

基于mapreduce的K-means算法

基于mapreduce的kmeans算法

基于mapreduce的课程设计

基于mapreduce的电影票房可视化

基于mapreduce的join实现

基于mapreduce和svm的垃圾短信分类

基于mapreduce的实战案例

适合用MapReduce来处理的任务或者数据集徐满足怎样的要求

第四周实践课-课堂笔记.pdf

第5周玩转案例分析(2).pdf

最新资源