改进Apriori算法在消除车辆检测数据库相似重复记录中的应用

需积分: 5 18 浏览量更新于2024-08-12 收藏 365KB PDF 举报

"这篇论文是关于使用改进的Apriori算法来消除车辆检测数据库中的相似重复记录。通过这种方法，可以有效地处理中文数据的重复问题，提高数据处理的效率和准确性。" 文章详细内容: 在信息技术领域，数据重复是常见的问题，尤其是在大型数据库中。对于中文数据，由于汉字的复杂性和语言的特性，识别相似或重复的记录更为困难。这篇2010年的论文由安相璧、杜艾永和李树珉共同发表在《天津大学学报》上，主要探讨了如何利用数据挖掘中的Apriori算法来解决这个问题。 Apriori算法是一种经典的关联规则学习算法，主要用于发现数据库中频繁项集和挖掘潜在的关联规则。在本研究中，研究人员对Apriori算法进行了改进，以适应中文数据的特性。他们首先应用改进的Apriori算法获取数据库记录的频繁项集，这一步骤旨在找出频繁出现的数据项，这些项可能存在于多个记录中。接下来，为了消除相似记录的共有项，研究人员设计了一个策略，即在比较记录时排除这些频繁项。这样做的好处是可以提高对相异字符的计算权重，因为这些字符更能区分不同记录之间的差异。在这一阶段，相异字符的重要性被提升，有助于更准确地识别出相似但非完全相同的记录。之后，论文引入了FRMA（Fast Record Matching Algorithm）算法来计算记录间的相似度。FRMA是一种快速的记录匹配算法，它能够有效地评估两个记录之间的相似程度，即使在大量数据中也能快速定位和比较相似记录。通过结合Apriori算法的频繁项集分析和FRMA算法的相似度计算，论文提出了一个完整的解决方案来消除中文相似重复记录。在车辆检测数据库的实际应用中，该方法经过验证，显示出了良好的效果。这意味着在车辆检测领域，数据的准确性和一致性得到了显著提高，这对于管理大量的车辆检测信息至关重要。实验结果证实，这种基于Apriori和FRMA算法的消除方法在处理中文相似重复记录方面具有较高的实用价值。总结起来，这篇论文提出的改进Apriori算法与FRMA算法结合的方法，为处理中文数据库中的相似重复记录提供了一种有效工具。这种方法不仅可以提高数据质量，还有助于优化数据库管理和数据分析过程，对于依赖大量数据处理的IT系统具有重要的参考价值。

No.7

1.2

010

基于

ApI

讪

算法的车辆检测相似重复记录消除方法

天津大学学报

Journal

of Tianjin University

第

卷第

期

2010

年

月

安相璧

气杜艾永

李树珉

，

(1.天津大学精密仪器与光电子工程学院，天津

300072;

军事交通学院汽车工程系，天津

30016

摘

要:为消除在数据库中存在的中文相似重复记录，提出一种改进的

Apriori

算法，利用该算法获得数据库记录的频

繁项集基于频繁项集，消除进行比较记录的共有项，有效提高相异字符的计算权重然后利用

FRMA

算法计算记录

间的相似度，最终消除中文相似记录在车辆检测数据库中对该算法进行了实验，取得了较好的实验结果，证明该算法

具有较好的实用价值.

关键词:相似重复记录

Apriori

算法

FRMA

算法

中图分类号

U463.3

文献标志码

文章编号

0493-2137(2010)07-0606-05

Elimination Method for Approximately Duplicate Records in Vehicle

Inspection ßased on Apriori Algorithm

Xiang_bi

,2,

Ai-yong

Shu-min

(1.

School

Precision Instruments

and

Opto-Electronics Engineering, Tianjin University , Tianj in 300072 , China;

2.Department

Automobile Engineering , Academy ofMilitary Transportation, Tianjin 300161 , China)

Abstract: In order to eliminate the Chinese duplicate records in database , an improved Apriori algorithm was put

forward. Based on the group

frequent words obtained from the database entries with the proposed algorithm, the

coexisting words in two records were eliminated and the weight

dissimilar characters was enhanced effectively.

Then the similarity between the two records was calculated with FRMA algorithm so that the Chinese duplicate re-

cords were eliminated finally. The algorithm was tested on the vehi

e inspection database , and achieved satisfactory

results which has proved the application value

ofthe

algorithm.

Keywords: duplicate records; Apriori algorithm; FRMA algorithm

zlhnfj

记录匹配过程是利用记录间的文本相似度来判

断两条记录是否相似:如果

条记录的文本相似度大

于或等于某个预先指定的值(阔值)

，则判定两条记录

是相似的;否则不相似.计算记录的相似度最终都可

以转化为字符串相似度的计算.目前字符串相似度

的计算方法主要包括编辑距离法、文本相似度度量函

数法、基于

N-gram

的字符串匹配算法和

Cosine

相似

度函数等算法.这些算法都适合于英文字符串相似

度的计算，但由于英文和汉字在语法和拼写方面存在

众多差异，上述相似度算法不适合汉语相似重复记录

的处理

[3-4]

笔者提出利用改进

Apriori

算法首先确定记录中

存在的频繁项集，然后利用频繁项集消除比较记录中

利用数据库进行信息分析是信息处理的重要方

面.由于各种各样的原因，如元标准输入格式、操作

人员录入错误和同一对象的不同表示造成了数据的

错误.其中以同一对象的不同表示即相似重复记录

危害最为明显，当数据库中包含较多相似重复记录

时，一方面导致数据冗余，浪费存储空间;另一方面，

也破坏了数据的真实分布，降低了数据处理和分析的

正确性.因此，相似重复记录的消除逐渐成为人们研

究的重点

[1]

消除相似重复记录分为

个过程:首先，简单、准

确地确定两条记录间的相似度，即记录匹配过程;然

后，在记录匹配的基础上，在记录集中检索出所有相

互匹配的相似记录

[2]

收稿日期

2009-04-07

;修固日期:

2009-07-09.

作者简介:安相壁(

1963

一

)

，男，博士，教授.

通讯作者:安相壁，

xiangbi2002@sohu.com

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38629274

粉丝: 4
资源: 898

改进Apriori算法在消除车辆检测数据库相似重复记录中的应用

基于Apriori算法的关联规则挖掘系统的设计与实现_大数据apriori_关联规则_#大数据论文_Apriori算法_

基于Apriori算法的改进算法

基于Apriori算法的KNN问题分类方法

基于Apriori算法的安全事件二级关联方法

一种基于Apriori算法的网络安全预测方法.pdf

基于Apriori算法的数据挖掘算法研究.pdf

基于Apriori算法的关联规则挖掘

基于Apriori算法的分类挖掘 (2007年)

基于Apriori算法的石油钻井电气设备故障诊断方法研究

基于Apriori算法的Weka数据挖掘应用

最新资源