解决数据集成真值问题：FA-SDCM算法与模糊偏序支持度模型

需积分: 9 44 浏览量更新于2024-08-11 收藏 251KB PDF 举报

该篇文章《基于模糊偏序关系支持度模型的真值发现算法》发表于2014年11月的《电子科技大学学报》，由李少波、王继奎和杨观赐三位作者共同完成。文章主要关注的是主数据集成和Web数据集成中的真值发现挑战，这是一个关键任务，尤其是在大数据处理中，确保数据的一致性和准确性至关重要。传统的真值发现算法往往通过描述相似度来衡量数据的一致性，但这忽略了描述中真值信息的不对称性。为了弥补这一不足，作者提出了描述蕴含的概念，这是一种深入理解描述内部逻辑关系的方法，它考虑了描述之间的非对称性，即一个描述可能蕴含另一个描述，但反之则不成立。这种理解使得算法能够更准确地评估描述之间的支持程度。作者进一步发展了一种名为FA-SDCM（基于模糊偏序关系的支持度计算模型）的算法。在这个模型中，模糊偏序关系被引入，允许算法在处理不确定性信息时更加灵活。模糊偏序关系考虑了数据源的可信度，以及描述间支持度对真值发现的影响，这在实际应用中尤为重要，因为不同数据源的可靠性和数据质量可能存在差异。实验部分是在Books-Authors数据集上进行的，结果显示FA-SDCM算法相较于Vote算法和TruthFinder算法表现出更高的准确率。这表明，通过利用模糊偏序关系和支持度模型，该算法在处理真值发现问题时取得了显著的优势，能够在复杂的数据集成环境中提供更为精确的结果。这篇文章为解决数据集成中的真值发现问题提供了一个创新的解决方案，强调了描述蕴含和模糊偏序关系在支持度计算中的作用，并通过实验证明了其在提升算法性能方面的有效性。这对于理解和改进大规模数据集成中的数据清洗和一致性校验具有重要的理论和实践价值。

第 43 卷第 6 期电子科技大学学报 Vol.43 No.6

2014年11月 Journal of University of Electronic Science and Technology of China Nov. 2014

基于模糊偏序关系支持度模型的真值发现算法

李少波

1,2

，王继奎

，杨观赐



(1.中国科学院成都计算机应用研究所成都 610041；2. 贵州大学现代制造技术教育部重点实验室贵阳 550003)

【摘要】为了解决主数据集成、web数据集成中的真值发现问题，提出了一种基于模糊偏序关系支持度计算模型的真值发

现算法(FA-SDCM)。针对已有算法中，以描述相似度替代描述支持度进行计算，忽视了描述所含真值信息的不对称性问题，

在分析描述本身特性的基础上，提出了描述蕴含概念，定义了基于模糊偏序关系的支持度计算模型，较好地解决了描述所含

真值信息的不对称性问题。在考虑了数据源可信度及描述之间支持度对真值发现影响的基础上，基于迭代思想，提出了

FA-SDCM算法。在Books-Authors数据集上进行实验，结果表明FA-SDCM算法比Vo t e 算法与TruthFinder算法具有更高的准确率。

关键词不对称性; 描述蕴含; 模糊偏序关系; 支持度模型; 真值发现

中图分类号 TP311 文献标志码 A doi:10.3969/j.issn.1001-0548.2014.06.017

True Value Finding Algorithm Based on a Support Degree Calculation

Model Using Fuzzy Partial Order Relation

LI Shao-bo

1,2

,WANG Ji-kui

, and YANG Guan-ci

(1. Chengdu Institute of Computer Applications, Chinese Academy of Sciences Chengdu 610041;

2. Key Laboratory of Advanced Manufacturing Technology of Ministry of Education, Guizhou University Guiyang 550003)

Abstract In order to find the true values in master data integration and web data integration, we propose a

true value finding algorithm (FA-SDCM) based on a support degree calculation model using fuzzy partial order

relations. In existing algorithms, support degrees are usually substituted by similarity, which ignores the asymmetry

in the true vales. In this paper, the concept of description containing is proposed through analyzing characteristics

of descriptions, and then a support degree calculating model is developed based on fuzzy partial order relations to

solve the description of asymmetric problems in the true values. Considering the influence of the data source

reliability and the support degrees among descriptions on true value finding, the FA-SDCM algorithm is realized

iteratively. An experiment has been carried on the Books-Authors data set, and the result shows that the FA-SDCM

algorithm has better accuracy than the Vote and the TruthFinder algorithms.

Key words asymmetry; description containing; fuzzy partial order relations; support degree calculation

model; true value finding algorithm

收稿日期：2013  07  04；修回日期：2014  01  16

基金项目：国家科技支撑计划项目(2012BAF12B14)；国家自然科学基金(51475097)；贵州省科技项目(黔科合JZ字[2014]2001、黔科合计Z字

[2012]4009)

作者简介：李少波(1973  )，男，教授，博士生导师，主要从事大数据、制造物联、计算智能等方面的研究.

针对冲突数据的真值发现问题，研究者们进行

了一系列探讨。文献[1]对数据集成中的冲突处理策

略进行了总结。文献[2-4]注意到了web数据的特点，

考虑了web数据源之间的复制关系，给出了刻画数据

源复制依赖关系的方法。文献[5]首次提出了web世

界的真值发现问题，提出了TruthFinder算法。文献

[6-8]等进一步考虑了数据源的准确性因素，并将其

与数据源的依赖关系结合起来。文献[9-10]采用一种

不同的概率投票方法，另外还考虑了投票数据源的

权威性。文献[11]提出了基于Markov逻辑网的两阶

段数据冲突解决方法，依据冲突程度分两个阶段解

决冲突问题。上述均是以描述之间相似度代替支持

度进行计算。而不同描述间的支持度计算是冲突数

据真值发现的核心环节，值得进一步研究。本文的

工作包括：1) 提出了描述蕴含概念，并提出了基于

模糊偏序关系的支持度计算模型。2) 基于迭代思

想，提出了基于模糊偏序关系支持度模型的真值发

现算法(true value finding algorithm based on support

degree calculation model using fuzzy partial order

relation，FA-SDCM)；3) 在Books-Authors数据集上

进行实验，结果表明FA-SDCM 算法比Vo t e 算法、

TruthFinder算法具有更高的准确率。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38522323

粉丝: 5

解决数据集成真值问题：FA-SDCM算法与模糊偏序支持度模型

模糊偏序的扩张

基于偏序任务的社会网络合作算法研究

基于偏序关系的Rough集模型及其应用 (2006年)

基于偏序关系求解钻井布局问题的演化算法 (2006年)

基于偏序的矿井导线网NF2嵌套关系模型 (2002年)

基于偏序结构理论的知识发现方法

基于结构偏序属性图的桂枝汤处方及类似处方知识发现

带有偏序锥的DEARA模型研究及应用

语言无关与性能优化：基于偏序约简的软件模型检查新方法

请解释偏序关系的定义，并提供三种不同的偏序关系示例。

最新资源