解决数据集成真值问题:FA-SDCM算法与模糊偏序支持度模型

需积分: 9 0 下载量 50 浏览量 更新于2024-08-11 收藏 251KB PDF 举报
该篇文章《基于模糊偏序关系支持度模型的真值发现算法》发表于2014年11月的《电子科技大学学报》,由李少波、王继奎和杨观赐三位作者共同完成。文章主要关注的是主数据集成和Web数据集成中的真值发现挑战,这是一个关键任务,尤其是在大数据处理中,确保数据的一致性和准确性至关重要。 传统的真值发现算法往往通过描述相似度来衡量数据的一致性,但这忽略了描述中真值信息的不对称性。为了弥补这一不足,作者提出了描述蕴含的概念,这是一种深入理解描述内部逻辑关系的方法,它考虑了描述之间的非对称性,即一个描述可能蕴含另一个描述,但反之则不成立。这种理解使得算法能够更准确地评估描述之间的支持程度。 作者进一步发展了一种名为FA-SDCM(基于模糊偏序关系的支持度计算模型)的算法。在这个模型中,模糊偏序关系被引入,允许算法在处理不确定性信息时更加灵活。模糊偏序关系考虑了数据源的可信度,以及描述间支持度对真值发现的影响,这在实际应用中尤为重要,因为不同数据源的可靠性和数据质量可能存在差异。 实验部分是在Books-Authors数据集上进行的,结果显示FA-SDCM算法相较于Vote算法和TruthFinder算法表现出更高的准确率。这表明,通过利用模糊偏序关系和支持度模型,该算法在处理真值发现问题时取得了显著的优势,能够在复杂的数据集成环境中提供更为精确的结果。 这篇文章为解决数据集成中的真值发现问题提供了一个创新的解决方案,强调了描述蕴含和模糊偏序关系在支持度计算中的作用,并通过实验证明了其在提升算法性能方面的有效性。这对于理解和改进大规模数据集成中的数据清洗和一致性校验具有重要的理论和实践价值。