图卷积网络与半监督学习在作者同名消歧中的应用

版权申诉

DOCX格式 | 443KB | 更新于2024-06-27 | 175 浏览量 | 举报

"本文主要探讨了基于图卷积半监督学习的论文作者同名消歧方法。随着科研文献数量的急剧增长，作者姓名的歧义问题日益突出，这影响了文献检索和学术评价的精确性。尽管存在如ORCID和ResearchID等人名标识系统，但在没有这些标识的情况下，自动化方法成为解决作者消歧的关键。传统的聚类和分类方法，如SVM、层次聚类和谱聚类，曾被用于处理这一问题，但随着深度学习的进步，网络嵌入和卷积神经网络(CNN)等技术逐渐受到关注。文章提到了图卷积神经网络(GCN)，它在处理具有复杂关系的数据时表现出色，适合于图节点表示学习、分类和边预测等任务。该研究结合GCN和BERT语义表示，旨在融合作者、机构、论文标题和关键词等多元信息，以提升作者与研究成果匹配的准确性。作者将现有的消歧方法分为基于特征的方法和基于连接/图的方法，前者依赖于特征向量的相似性，后者则利用图结构和关系来解决问题。相关研究中，Zhang等人的工作将消歧策略分为两类，并且Huang等人使用Blocking技术和LASVM进行聚类，而Yoshida等人采用bootstrapping的两阶段方法来逐步改进结果。这些方法虽有一定成效，但随着深度学习技术的发展，尤其是图神经网络的应用，为解决作者同名消歧问题提供了新的可能性。本文提出的GCN半监督学习方法，有望在处理大规模数据集和复杂关系时，更高效地解决作者姓名歧义问题，提高学术领域信息处理的准确性和效率。"

图 1 研究框架

下载: 全尺寸图片幻灯片

3.1 基于 BERT 预训练模型的论文语义表示

由于研究人员在一段时间内的研究方向相对稳定，论文的题目、关键词、摘要、出版

物名称等文本特征也可用于表征作者的研究内容并用于区分从事不同研究的同名作者。目

前，广泛使用的文本向量构建方法包括 n-gram, NNLM, word2vec 等。2018 年 Google 发布

了 BERT 预训练语言模型

[22]

，在自然语言处理的 11 个任务上大幅刷新了精度。随后，

Beltagy 等人

[23]

推出了专门为科学论文训练的 SciBERT 预训练语言模型，更适用于科学论

文的自然语言处理任务。为充分利用论文文本特征，本文将论文的题目、关键词作为文本

输入，利用 SciBERT 模型得到每篇论文的语义表示向量。

设每篇论文的题目和关键词拼接获得的句子输入为 dd，则 BERT 输入为

[CLS,d,SEP][CLS,d,SEP]，CLS 和 SEP 标识符分别作为句子的起始符和分隔符，经过分词

获得句子的 token 序列{tok1,tok2,⋯,tokN}{tok1,tok2,⋯,tokN}，依次输入到 BERT 模型中。

BERT 以双向 Transformer 的 Encoder 作为模型的基本组成单元(如图 2 中 BERT 层)，能够

联合所有层中左右两个方向的上下文信息进行训练，利用多头注意力机制进行更多层面的

特征提取，最后得到含有丰富语义特征的序列向量，即输出为该论文的语义表示向量，设

为\boldsymbold\boldsymbolS\boldsymbold\boldsymbolS，向量维数为 BERT 的默认隐含元

个数 768，记为 HH。则待消歧同名作者论文集合的语义表示向量矩阵

\boldsymbolX\boldsymbolH×\boldsymbolK=(\boldsymbold\boldsymbolS1,\boldsymbold\bolds

ymbolS2,⋯,\boldsymbold\boldsymbolS\boldsymbolK)\boldsymbolX\boldsymbolH×\boldsymbolK

=(\boldsymbold\boldsymbolS1,\boldsymbold\boldsymbolS2,

⋯,\boldsymbold\boldsymbolS\boldsymbolK)，其中

\boldsymbold\boldsymbolS\boldsymboli\boldsymbold\boldsymbolS\boldsymboli 为第 ii 篇论文

的语义表示向量，KK 为论文的数量。

剩余14页未读，继续阅读

罗伯特之技术屋

粉丝: 4558

图卷积网络与半监督学习在作者同名消歧中的应用

有监督学习方法.docx

一种基于异质信息网络的学术文献作者重名消歧方法.docx

基于异质信息嵌入与RNN聚类参数预测的作者姓名消歧方法.docx

基于异构网络的无监督作者名称消歧.docx

基于自组织增量-图卷积神经网络的金相图半监督学习.docx

基于深度学习的机器人应用研究.docx

用于半监督分类的二阶近似谱图卷积模型.docx

基于邻域选择策略的图卷积网络模型.docx

基于弱监督宫颈细胞图像的语义分割方法.docx

基于单片机的图像存储技术研究 毕业论文.docx

最新资源

基于单片机的图像存储技术研究毕业论文.docx