融合Word2vec与TextRank的关键词抽取：提升文本核心内容提取准确度

需积分: 0 129 浏览量更新于2024-08-05 1 收藏 1.36MB PDF 举报

本研究论文由宁建飞和刘降珍合作完成，主要关注的是融合Word2vec与TextRank算法在关键词抽取领域的应用。【目的】是通过整合单个文档内部的结构信息和整个文档集的词向量关系，来提高关键词的抽取精度。Word2vec被用来将文档中的所有词汇转换为向量表示，这使得可以计算词汇间的相似度，从而对TextRank算法进行改进。 TextRank算法原是基于图模型的关键词抽取方法，它不依赖额外的训练数据，主要关注文本内词语的关联性和影响力传播。然而，本研究注意到词语之间的实际重要性可能受到文档集全局信息的影响，因此引入了Word2vec。Word2vec能够捕捉词汇的语义和上下文信息，通过计算词向量的相似度，可以对候选关键词的权重进行非均匀分配，即根据词汇间的联系以及它们在文档集中的整体分布来调整权重。融合后的算法构建了一个概率转移矩阵，用于文档图模型的迭代计算，这有助于更准确地识别文档的关键信息。实验结果显示，当文档集词汇分布合理时，这种方法能够显著提升关键词抽取的效果。然而，这个方法也存在局限性，即需要大量的文档集进行训练，以便获得词向量和词关系矩阵，这在一定程度上增加了计算成本。这篇研究强调了文档集中的词关系对于提升单文档关键词抽取准确性的价值，特别是在处理大规模文本数据时，Word2vec的词向量信息能够增强TextRank的表达能力。关键词抽取作为文本处理的重要环节，在新闻摘要、学术论文分析和社交媒体分析等领域具有广泛应用，这种融合方法有望为这些领域提供更有效的自动化工具。分类号TP391G250表明该研究属于信息检索和文本挖掘的范畴。

通讯作者: 宁建飞, ORCID: 0000-0001-9941-3670, E-mail: ningafei@126.com。

20 现代图书情报技术

研究论文

融合 Word2vec 与 TextRank 的关键词抽取

研究

宁建飞刘降珍

(罗定职业技术学院电子信息系罗定 527200)

摘要: 【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用 Word2vec

将文档集中所有词汇进行向量表征, 并且通过词向量计算词汇之间的相似度, 进而对 TextRank 算法进行改进,

将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配, 并构建对应的概率转移矩阵用于词汇

图模型的迭代计算以及关键词抽取。【结果】实现 Word2vec 与 TextRank 的有效融合, 且当训练文档集词汇分布

合理时, 关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练, 获取词向量以及词关系矩阵。【结论】

文档集中的词关系有助于修正单文档内部的词关系, 提升单文档的关键词抽取准确性。

关键词: 关键词抽取 Word2vec TextRank 图模型词向量

分类号: TP391 G250

1 引言

抽取关键词的目的在于高度凝练文本的主题, 快

速获取文本的核心内容。关键词抽取在新闻、学术论

文的自动摘要, 社会化标签标注, 文本主题抽取等领

域具有重要作用。

常见的关键词抽取步骤为: 对文本进行分词, 去

除无用的停用词, 判断词是否为关键词, 选择 N 个词

作为该文本关键词。其中, 判断所分的词是否为关键

词, 可以通过关键词标记语料进行分类模型训练, 通

过分类模型进行判断; 也可以通过结合文本内部词与

词之间的关系, 以图模型的方式进行识别。而图模型

的实现方法又以 TextRank

[1]

为典型代表。

经典的 TextRank 算法不依赖于其他训练语料, 重

点研究文本内部词语结构关系, 建立图模型进行关键

词抽取。夏天

[2]

的研究成果指明词语本身的重要差异

会影响相邻节点的影响力传递, 顾益军等

[3]

将 TextRank

算法与 LDA 相结合, 将候选词语节点的重要性按照文

档集主题分布进行非均匀转移。

为了能够充分研究词汇与词汇之间的关系, 借助

文档本身以及文档集所提供的外部信息, 本文将

Word2vec

[4]

与 TextRank 算法进行融合, 通过 Word2vec

对外部文档集进行词向量表征, 获取词汇之间的相似

度, 对 TextRank 算法进行改进, 将候选词汇节点的权

重按照相邻词的相似度进行合理分配, 通过迭代计算

每个词语权重, 最终通过权重重新排序, 获取关键词

抽取结果。

2 研究背景

文本关键词抽取从语料是否被标记的角度可分为

有监督和无监督两种。其中有监督的关键词抽取典型

代表可以把关键词抽取看作是一个二分类问题

[5-6]

, 对

于任何一个文本中的词汇, 进行二值判断, 即属于关

键词还是非关键词二值分类, 这种方法要求对文档

集语料提前进行关键词人工标记, 进行分类模型训

练, 进而实现关键词抽取, 需要大量的人工干预, 代

价较高。

在无监督的关键词抽取领域, 国内已经有不少相

下载后可阅读完整内容，剩余7页未读，立即下载

彥爷

粉丝: 24
资源: 311

融合Word2vec与TextRank的关键词抽取：提升文本核心内容提取准确度

word2vec.rar_VEC-361_layers5cb_vec361_word2vec_word2vec 中文

人工智能-项目实践-聚类-利用Python实现中文文本关键词抽取，分别采用TF-IDF、TextRank、Word2Vec词聚

word2vec_textrank:word2vec textrank、中文摘要

Word2VEC_java-master.zip_java word2vec_word2vec_word2vec java

基于word2vec的关键词提取算法_李跃鹏1

W2V_TextRank: Java实现的Word2Vec改进TextRank算法文本摘要工具

结合了LDA主题模型、Word2Vec词向量模型的TextRank关键词抽取算法Python代码

利用LDA主题模型、Word2Vec词向量模型与TextRank相融合的关键词抽取算法python代码

利用LDA主题模型、Word2Vec词向量模型与TextRank相融合的关键词抽取算法，提取文本中的关键词的python代码

领域关键词抽取_结合LDA与Word2Vec.caj

最新资源