图卷积网络与半监督学习在作者同名消歧中的应用

版权申诉
0 下载量 173 浏览量 更新于2024-06-27 收藏 443KB DOCX 举报
"本文主要探讨了基于图卷积半监督学习的论文作者同名消歧方法。随着科研文献数量的急剧增长,作者姓名的歧义问题日益突出,这影响了文献检索和学术评价的精确性。尽管存在如ORCID和ResearchID等人名标识系统,但在没有这些标识的情况下,自动化方法成为解决作者消歧的关键。传统的聚类和分类方法,如SVM、层次聚类和谱聚类,曾被用于处理这一问题,但随着深度学习的进步,网络嵌入和卷积神经网络(CNN)等技术逐渐受到关注。 文章提到了图卷积神经网络(GCN),它在处理具有复杂关系的数据时表现出色,适合于图节点表示学习、分类和边预测等任务。该研究结合GCN和BERT语义表示,旨在融合作者、机构、论文标题和关键词等多元信息,以提升作者与研究成果匹配的准确性。作者将现有的消歧方法分为基于特征的方法和基于连接/图的方法,前者依赖于特征向量的相似性,后者则利用图结构和关系来解决问题。 相关研究中,Zhang等人的工作将消歧策略分为两类,并且Huang等人使用Blocking技术和LASVM进行聚类,而Yoshida等人采用bootstrapping的两阶段方法来逐步改进结果。这些方法虽有一定成效,但随着深度学习技术的发展,尤其是图神经网络的应用,为解决作者同名消歧问题提供了新的可能性。本文提出的GCN半监督学习方法,有望在处理大规模数据集和复杂关系时,更高效地解决作者姓名歧义问题,提高学术领域信息处理的准确性和效率。"