大数据环境下多源异构知识融合算法研究

需积分: 49 5 下载量 115 浏览量 更新于2024-08-06 收藏 392KB PDF 举报
"本文主要探讨了在大数据环境下,如何利用多源异构知识融合方法来提升信息挖掘的效率和质量。作者提出了将数据融合算法应用于知识融合中的策略,并设计了一种改进的知识源粒度选择算法,以优化知识的准确性与可靠性。通过在Hadoop和MapReduce框架上的实验,验证了提出的多源异构知识融合算法的有效性和性能提升。" 在大数据背景下,多源异构知识融合是应对海量、分散和结构各异的数据源的关键技术。传统的数据融合方法主要处理数值或结构化数据,而知识融合则涉及到更复杂的非结构化或半结构化知识,如语义网络、知识图谱等。本文引入了三种数据融合方法——VOTE、ACCU和POP ACCU,用于解决知识融合问题。 VOTE方法基于多数原则,选择出现次数最多的值作为可信值。ACCU方法利用贝叶斯分析,根据数据源的准确度计算知识的真实概率,假设每个数据项有一个真实值且数据源间独立。POP ACCU则在ACCU基础上,通过估计真实数据分布以消除错误值,确保融合质量的单调性。 为了适应知识融合的特性,作者将输入数据从二维矩阵扩展为三维矩阵,将(抽取器,URL)对作为数据源,以处理知识三元组。知识融合的输出不再是二元决策,而是每个知识三元组的真实概率。ACCU和POP ACCU利用贝叶斯分析计算概率,VOTE则通过比较不同出处的数量来估算概率。 在MapReduce框架下,知识融合过程分为三个阶段:第一阶段进行数据划分和概率计算;第二阶段计算知识源的准确度;第三阶段进行去重,得出最终结果。这个并行处理的架构提高了融合效率。 针对ACCU和POP ACCU的局限性,作者提出了改进算法,动态选择知识源的粒度大小,以优化知识三元组的真实概率和有效性。实验结果表明,这种改进的知识源粒度选择方法能显著提高融合算法的性能,验证了所提算法在大数据环境下的多源异构知识融合中的实用性和有效性。 关键词:大数据;多源异构知识;知识融合;融合算法 本文的研究对大数据环境下的知识挖掘和管理提供了重要的理论支持和实践指导,有助于从复杂的数据海洋中提取出更准确、更有价值的知识。