第 43 卷 第 6 期 电 子 科 技 大 学 学 报 Vol.43 No.6
2014年11月 Journal of University of Electronic Science and Technology of China Nov. 2014
基于模糊偏序关系支持度模型的真值发现算法
李少波
1,2
,王继奎
1
,杨观赐
2
(1.中国科学院成都计算机应用研究所 成都 610041;2. 贵州大学现代制造技术教育部重点实验室 贵阳 550003)
【摘要】为了解决主数据集成、web数据集成中的真值发现问题,提出了一种基于模糊偏序关系支持度计算模型的真值发
现算法(FA-SDCM)。针对已有算法中,以描述相似度替代描述支持度进行计算,忽视了描述所含真值信息的不对称性问题,
在分析描述本身特性的基础上,提出了描述蕴含概念,定义了基于模糊偏序关系的支持度计算模型,较好地解决了描述所含
真值信息的不对称性问题。在考虑了数据源可信度及描述之间支持度对真值发现影响的基础上,基于迭代思想,提出了
FA-SDCM算法。在Books-Authors数据集上进行实验,结果表明FA-SDCM算法比Vo t e 算法与TruthFinder算法具有更高的准确率。
关 键 词 不对称性; 描述蕴含; 模糊偏序关系; 支持度模型; 真值发现
中图分类号 TP311 文献标志码 A doi:10.3969/j.issn.1001-0548.2014.06.017
True Value Finding Algorithm Based on a Support Degree Calculation
Model Using Fuzzy Partial Order Relation
LI Shao-bo
1,2
,WANG Ji-kui
1
, and YANG Guan-ci
2
(1. Chengdu Institute of Computer Applications, Chinese Academy of Sciences Chengdu 610041;
2. Key Laboratory of Advanced Manufacturing Technology of Ministry of Education, Guizhou University Guiyang 550003)
Abstract In order to find the true values in master data integration and web data integration, we propose a
true value finding algorithm (FA-SDCM) based on a support degree calculation model using fuzzy partial order
relations. In existing algorithms, support degrees are usually substituted by similarity, which ignores the asymmetry
in the true vales. In this paper, the concept of description containing is proposed through analyzing characteristics
of descriptions, and then a support degree calculating model is developed based on fuzzy partial order relations to
solve the description of asymmetric problems in the true values. Considering the influence of the data source
reliability and the support degrees among descriptions on true value finding, the FA-SDCM algorithm is realized
iteratively. An experiment has been carried on the Books-Authors data set, and the result shows that the FA-SDCM
algorithm has better accuracy than the Vote and the TruthFinder algorithms.
Key words asymmetry; description containing; fuzzy partial order relations; support degree calculation
model; true value finding algorithm
收稿日期:2013 07 04;修回日期:2014 01 16
基金项目:国家科技支撑计划项目(2012BAF12B14);国家自然科学基金(51475097);贵州省科技项目(黔科合JZ字[2014]2001、黔科合计Z字
[2012]4009)
作者简介:李少波(1973 ),男,教授,博士生导师,主要从事大数据、制造物联、计算智能等方面的研究.
针对冲突数据的真值发现问题,研究者们进行
了一系列探讨。文献[1]对数据集成中的冲突处理策
略进行了总结。文献[2-4]注意到了web数据的特点,
考虑了web数据源之间的复制关系,给出了刻画数据
源复制依赖关系的方法。文献[5]首次提出了web世
界的真值发现问题,提出了TruthFinder算法。文献
[6-8]等进一步考虑了数据源的准确性因素,并将其
与数据源的依赖关系结合起来。文献[9-10]采用一种
不同的概率投票方法,另外还考虑了投票数据源的
权威性。文献[11]提出了基于Markov逻辑网的两阶
段数据冲突解决方法,依据冲突程度分两个阶段解
决冲突问题。上述均是以描述之间相似度代替支持
度进行计算。而不同描述间的支持度计算是冲突数
据真值发现的核心环节,值得进一步研究。本文的
工作包括:1) 提出了描述蕴含概念,并提出了基于
模糊偏序关系的支持度计算模型。2) 基于迭代思
想,提出了基于模糊偏序关系支持度模型的真值发
现算法(true value finding algorithm based on support
degree calculation model using fuzzy partial order
relation,FA-SDCM);3) 在Books-Authors数据集上
进行实验,结果表明FA-SDCM 算法比Vo t e 算法、
TruthFinder算法具有更高的准确率。