学术知识图谱构建中的作者名称消歧问题研究

版权申诉

170 浏览量更新于2024-03-04 收藏 158KB DOCX 举报

近年来，随着网络数据的不断积累与发展，电子形式的学术论文数据也越来越多，学术资源的共享使研究人员越来越依赖公共学术资源。为了更好地进行学术知识图谱的构建和使用，学术知识图谱对论文数据进行查询，学术论文的作者名称消歧任务具有重要的意义，关系到信息检索的准确性。学术知识图谱是由论文、作者、机构等信息构成的知识图谱，作者消歧是构建学术知识图谱的重要步骤。近年来，已经有许多相关学者对作者消歧领域进行研究，但这个问题目前仍然没有得到较好的解决。由于长期以来论文相关信息的缺失、论文作者名字常用缩写、现实生活中的重名现象，导致论文作者名字与作者本人难以对应，可能出现两种问题：(1)同一个作者在不同的论文中用了不同的名字形式，有的是缩写，有的是全称；(2)由于重名或姓名缩写可能有相同的名字形式，无法判断作者是否为同一个人。已经有一些方法对监督学习和无监督学习的不同情况，使用相似度规则进行匹配、使用概率模型进行分类、使用网络表示学习聚类等方法尝试解决这个问题。大多数消歧方法的主要过程是，首先对具有相同名称作者的一组论文学习它们的特征表示，然后根据不同的特征进行匹配和分类。本文提出了一种基于异构网络的无监督作者名称消歧方法，通过将作者与论文之间的关系构建成一个异构网络来解决作者消歧问题。首先，将作者和论文表示成不同的节点，根据作者与论文之间的关系构建节点之间的边。然后，通过异构网络嵌入技术将节点映射到低维空间，学习节点的表示。最后，根据学习到的节点表示，利用聚类方法将相似的作者聚合在一起，实现作者消歧的目的。实验结果表明，该方法在作者消歧任务上取得了较好的效果，能够有效地区分不同作者之间的混淆。总的来说，基于异构网络的无监督作者名称消歧方法能够有效地解决学术论文中作者名称消歧的问题，为构建学术知识图谱提供了重要的技术支持。然而，由于学术数据的复杂性和多样性，作者消歧问题仍然具有一定的挑战性，需要进一步研究和探索更加有效的解决方案。希望通过不断地努力和创新，能够更好地解决作者消歧问题，推动学术知识图谱的发展和应用。

本章介绍用于解决无监督情况下作者名称消歧问题的一种模型, 详细介

绍模型每部分的结构和特点, 模型结构如图 1 所示. 图 1 中左侧为包含标题、

作者、摘要、机构、出版机构、关键词信息的同名作者论文集, 首先, 用词形

还原、分词、去停词的方法分别对作者名称、机构名称、标题、关键词进行规

范化和预处理, 定义了两个作者名称字符串的比较规则, 用于减少错误字符的

干扰. 然后, 分别学习论文的结构特征向量、文本特征向量表示, 用异构网络

上的元路径随机游走方法获得论文的结构特征向量表示 , 用所有文本数据

word2vec 训练词向量、词向量随机打乱、统计词频计算 TF-IDF

[3]

加权求和词

向量的方法, 以此获得论文的文本特征向量表示. 最后, 分别计算结构、文本

特征的相似度并融合相似度, 用 DBSCAN 方法对论文进行初步聚类, 对信息

缺失无法学习文本特征、关联较弱无法学习结构特征聚类后是孤立点的论文与

初步聚类的结果继续计算相似度合并, 得到最终消歧聚类的结果, 完成论文作

者名称的消歧任务.

下面分别描述模型中 5 个步骤的具体实现方法, 包括: 作者名称、机构名

称、标题与关键词预处理, 异构网络上的结构特征学习, 论文相关信息的文本

特征学习, 融合特征表示, 聚类消歧.

图 1

图 1 作者名称消歧模型结构

Fig.1 Author name disambiguation model structure

3.1 作者名称、机构名称、标题与关键词预处理

剩余26页未读，继续阅读

罗伯特之技术屋

粉丝: 4440
资源: 1万+

学术知识图谱构建中的作者名称消歧问题研究

一种基于异质信息网络的学术文献作者重名消歧方法.docx

基于异质信息嵌入与RNN聚类参数预测的作者姓名消歧方法.docx

融合k均值聚类与LSTM网络的半监督词义消歧.docx

ChatGPT技术对话生成中的实体识别与消歧.docx

基于图卷积半监督学习的论文作者同名消歧方法研究.docx

异构网络融合.docx

基于GAN的异构无线网络故障检测与诊断算法.docx

卫生监督疫情防控工作方案.docx

基于网络直播的网络营销策略研究.docx

改进特征引导消歧的偏标记学习算法.docx

最新资源