利用Jaccard相似度挖掘机构别名的数据转换方法

需积分: 10 1 下载量 177 浏览量 更新于2024-09-06 收藏 971KB PDF 举报
本文主要探讨了一种利用Jaccard相似度数据空间转换来挖掘机构别名的方法。针对数据集中同一机构可能有多个名称表示的问题,该方法首先建立机构-作者的二部图模型,然后通过计算机构名称与作者集合的Jaccard相似度来度量它们之间的关联。接着,将这些相似度转换为数值型数据,形成相似度矩阵。最后,通过计算这些相似度向量的余弦相似度,能够有效地识别和挖掘出机构的别名。这种方法在实际数据上的实验表明,它具有较高的优越性和准确性。 正文: 实体分辨在数据质量管理中扮演着至关重要的角色,其目标是识别和区分数据集中相同或相似记录所代表的不同实体。这一过程包括特征相似度比较、上下文分析以及关系利用等策略。基于关系的方法在减少依赖特定属性的同时,能更有效地进行实体分辨,因此备受关注。 名称分辨是实体分辨的一个关键分支,涵盖了人名、地名和机构名的分辨。同名排歧侧重于解决相同名称对应多个不同实体的问题,而别名挖掘则关注如何找出表示同一实体的不同名称。在已有的研究中,人名的同名排歧占据主导地位,但关于机构名称的分辨,特别是别名挖掘,相对较少。 本文提出的Jaccard相似度数据空间转换方法专门用于机构别名挖掘。首先,通过构建机构与作者的二部图,每个机构节点与其相关的作者节点相连,构建出实体间的关联网络。随后,利用Jaccard相似度衡量两个机构名称下作者集合的相似程度。Jaccard相似度是衡量两个集合交集大小与并集大小的比例,适用于度量非数值型数据的相似性。 接下来,将机构间的相似度矩阵转化为数值型数据,这一步是为了便于后续的计算和分析。通过计算这些相似度向量的余弦相似度,可以找到那些在向量空间中方向接近的机构名称,这些名称极有可能是同一机构的不同表达方式,即别名。 在实际应用中,该方法被应用于真实数据集,并与其他方法进行了对比实验,结果显示,该方法在识别机构别名方面表现出较高的准确性和效率。这种方法对于提升数据清洗和整合的精度,以及在学术数据库、企业信息管理和公共服务等领域都有着重要的应用价值。 这篇论文研究的Jaccard相似度数据空间转换方法提供了一种有效解决机构别名问题的新思路,它充分利用了机构与作者之间的关系,并通过数值转换和相似度计算实现了对机构别名的精确挖掘。这种方法的创新性和实用性对于进一步推动实体分辨领域的研究和技术发展具有积极的意义。