学术知识图谱构建中的作者名称消歧问题研究

版权申诉
0 下载量 170 浏览量 更新于2024-03-04 收藏 158KB DOCX 举报
近年来,随着网络数据的不断积累与发展,电子形式的学术论文数据也越来越多,学术资源的共享使研究人员越来越依赖公共学术资源。为了更好地进行学术知识图谱的构建和使用,学术知识图谱对论文数据进行查询,学术论文的作者名称消歧任务具有重要的意义,关系到信息检索的准确性。学术知识图谱是由论文、作者、机构等信息构成的知识图谱,作者消歧是构建学术知识图谱的重要步骤。近年来,已经有许多相关学者对作者消歧领域进行研究,但这个问题目前仍然没有得到较好的解决。由于长期以来论文相关信息的缺失、论文作者名字常用缩写、现实生活中的重名现象,导致论文作者名字与作者本人难以对应,可能出现两种问题:(1)同一个作者在不同的论文中用了不同的名字形式,有的是缩写,有的是全称;(2)由于重名或姓名缩写可能有相同的名字形式,无法判断作者是否为同一个人。已经有一些方法对监督学习和无监督学习的不同情况,使用相似度规则进行匹配、使用概率模型进行分类、使用网络表示学习聚类等方法尝试解决这个问题。大多数消歧方法的主要过程是,首先对具有相同名称作者的一组论文学习它们的特征表示,然后根据不同的特征进行匹配和分类。 本文提出了一种基于异构网络的无监督作者名称消歧方法,通过将作者与论文之间的关系构建成一个异构网络来解决作者消歧问题。首先,将作者和论文表示成不同的节点,根据作者与论文之间的关系构建节点之间的边。然后,通过异构网络嵌入技术将节点映射到低维空间,学习节点的表示。最后,根据学习到的节点表示,利用聚类方法将相似的作者聚合在一起,实现作者消歧的目的。实验结果表明,该方法在作者消歧任务上取得了较好的效果,能够有效地区分不同作者之间的混淆。 总的来说,基于异构网络的无监督作者名称消歧方法能够有效地解决学术论文中作者名称消歧的问题,为构建学术知识图谱提供了重要的技术支持。然而,由于学术数据的复杂性和多样性,作者消歧问题仍然具有一定的挑战性,需要进一步研究和探索更加有效的解决方案。希望通过不断地努力和创新,能够更好地解决作者消歧问题,推动学术知识图谱的发展和应用。