基于加权复杂网络的新闻网页关键词提取算法

需积分: 11 20 浏览量更新于2024-08-12 收藏 1.1MB PDF 举报

"复杂网络在新闻网页关键词提取中的应用 (2012年)，作者唐俊，发表于《云南民族大学学报：自然科学版》，2012年21卷4期，研究方向为网络信息技术及复杂网络。" 这篇论文探讨了如何利用复杂网络理论来改进新闻网页关键词的提取效率和准确性。关键词提取是自然语言处理和信息检索领域的一个关键任务，它旨在从文本中识别出最具代表性的词汇，以便概括文档的主题或帮助用户快速理解内容。在该研究中，唐俊分析了新闻网页文档的特性，并引入了几个关键的复杂网络概念。首先，节点权重是网络中每个节点的重要性度量，这在网页关键词提取中对应于单词在文档中的频率或重要性。高权重的节点通常代表文档的核心概念。其次，有向网络加权聚类系数是一种衡量网络中节点聚集程度的指标，它考虑了边的权重（在本文档上下文中可能是词频或共现频率）。在关键词提取中，如果某些单词经常一起出现，它们的聚类系数可能会较高，这可能表明这些词在文档主题中是相关的。再者，中心介数是网络理论中的另一个重要概念，它表示一个节点在网络中作为其他节点之间路径的中间节点的程度。在关键词提取中，具有高中心介数的词可能是连接不同主题的关键桥梁。论文提出了一种基于加权复杂网络的改进算法，该算法结合了传统关键词提取方法的优点，如TF-IDF（词频-逆文档频率）和TextRank等，同时考虑了上述的网络特性。通过实验，这种方法被证明能够有效地提取新闻网页的关键词，提高了关键词提取的准确性和鲁棒性。此外，论文还提到了分类号（TP391）和文献标志码（A），表明这是一项关于计算机科学技术领域的原创性研究。文章编号（1672-8513(2012)04-0305-04）则提供了文献引用的具体信息。唐俊的研究展示了复杂网络理论在文本挖掘和信息提取中的潜力，特别是在处理大量新闻数据时，能够提升关键词提取的质量，从而改善信息检索和推荐系统的性能。

云南民族大学学报：自然科学版，２０１２，２１（４）：３０５～３０８ＣＮ５３－１１９２／Ｎ　ＩＳＳＮ１６７２－８５１３

ｄｏｉ

：１０．３９６９／ｊ．ｉｓｓｎ．１６７２－８５１３．２０１２．０４．０１９

ｈｔｔｐ：／／ｘｂｙｎｎｉｅｄｕｃｎ

收稿日期：２０１２－０３－２９．

作者简介：唐俊（１９８６－），男，硕士研究生 主要研究方向：网络信息技术及复杂网络 

复杂网络在新闻网页关键词提取中的应用

唐　俊

（西南交通大学电气工程学院，四川成都６１００３１）

摘要：通过分析新闻网页文档的特征，引入节点权重、有向网络加权聚类系数、中心介数等特征

量，并结合传统关键词提取算法的一些优点及网页文档的部分特征，提出了一种改进的基于加权

复杂网络的新闻网页关键词提取算法，并通过实验证实了该算法的正确性 

关键词：关键词自动提取；新闻网页关键词；复杂网络；节点权重

中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７２－８５１３（２０１２）０４－０３０５－０４

ＡｐｐｌｉｃａｔｉｏｎｏｆＣｏｍｐｌｅｘＮｅｔｗｏｒｋｓｔｏＫｅｙｗｏｒｄ

ＥｘｔｒａｃｔｉｏｎｏｆＮｅｗｓＷｅｂＰａｇｅｓ

ＴＡＮＧＪｕｎ

（ＳｃｈｏｏｌｏｆＥｌｅｃｔｒｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ，ＳｏｕｔｈｗｅｓｔＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｃｈｅｎｇｄｕ６１００３１，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｔｈｅｎｅｗｓｗｅｂｐａｇｅｓｄｏｃｕｍｅｎｔｓａｎｄｔｈｅｎｏｄｅｗｅｉｇｈｔｓａｒｅａｎａｌｙｚｅｄ，ｔｈｅｃｌｕｓｔｅｒｉｎｇ

ｃｏｅｆｆｉｃｉｅｎｔｏｆｔｈｅｄｉｒｅｃｔｅｄｎｅｔｗｏｒｋｗｅｉｇｈｔａｎｄｔｈｅｃｅｎｔｅｒｓｅｃｔｉｏｎａｒｅｉｎｔｒｏｄｕｃｅｄ．Ｗｉｔｈａｂｓｏｒｂｉｎｇｔｈｅａｄｖａｎｔａｇｅｓｏｆ

ｔｒａｄｉｔｉｏｎａｌａｌｇｏｒｉｔｈｍｓ，ａｎｉｍｐｒｏｖｅｄａｌｇｏｒｉｔｈｍｆｏｒｔｈｅａｕｔｏｍａｔｉｃｅｘｔｒａｃｔｉｏｎｏｆｎｅｗｓｋｅｙｗｏｒｄｓｂａｓｅｄｏｎｔｈｅｗｅｉｇｈｔｅｄ

ｃｏｍｐｌｅｘｎｅｔｗｏｒｋｓｉｓｐｒｏｐｏｓｅｄ，ａｎｄｔｈｅｅｘｐｅｒｉｍｅｎｔｈａｓｐｒｏｖｅｄｔｈａｔｔｈｉｓａｌｇｏｒｉｔｈｍｉｓｃｏｒｒｅｃｔ．

Ｋｅｙｗｏｒｄｓ：ａｕｔｏｍａｔｉｃｅｘｔｒａｃｔｉｏｎｏｆｎｅｗｓｋｅｙｗｏｒｄｓ；ｎｅｗｓｗｅｂｐａｇｅｋｅｙｗｏｒｄｓ；ｃｏｍｐｌｅｘｎｅｔｗｏｒｋｓ；ｎｏｄｅｗｅｉｇｈｔｓ

　　随着互联网的快速发展，网页信息量以惊人的

速度爆发式地增长 面对海量新闻，信息技术如何

辅助人们快速了解新闻主要内容，节省浏览时间，已

经成为一个关注的热点

新闻关键词的自动提取，

为该问题提供了一个有效的解决方案，它也是新闻

文档的自动分类、舆论热点的自动发现、新闻网站的

自动聚类、个性化的智能检索等的基础 现有比较

成熟的关键词提取技术主要有：基于词频统计的方

法

［１］

、基于机器学习的方法

［２］

、基于语言学的分析

方法

［３］

，其分别主要从词语的出现频率、词语的训

练集、词语的位置与语义等方面进行分析，都存在不

同程度的缺陷 近年来，随着复杂网络的快速发展，

基于复杂网络的关键词提取算法被众多学者所研

究，并取得了一定的成果

［４－８］

，这些成果多从单个角

度分析了节点在局部小世界，或者节点在整个网络

中的影响，而忽视了个体与总体的辩证统一关系，并

且忽视了吸收传统关键词提取方法的一些优点，在

算法上也存在一些缺陷

本文通过分析新闻网页文

档的特征，引入节点权重、有向网络加权聚类系数、

中心介数等特征量，并结合词性、词语在文档中的位

置等信息，提出了一种改进的基于有向加权复杂网

络的新闻网页关键词自动提取算法



１　复杂网络相关理论

经科学论证，发现大多数真实的网络都表现为

复杂网络

目前，表征复杂网络模型的主要统计参

量有：节点的度、度分布、节点度的相关性、聚类系

数、平均路径长度、介数、最大连通子图、模块性和团

体等，通过对统计参量在网页文档中的物理含义的

理解，本文选择对节点的加权度、聚类系数、节点权

重、中心介数进行综合利用，并改进了基于加权复杂

网络的新闻网页关键词自动提取算法 

定义１：设节点集合Ｖ＝ｖ

１

，ｖ

２

，…，ｖ

{ }

ｎ

，其中ｎ

为网络中节点的个数，有向边的集合Ｅ＝

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38733281

粉丝: 2

基于加权复杂网络的新闻网页关键词提取算法

基于深度学习的卷积神经网络在民族图案语义标签中的应用研究.pdf

2012年3月浙江信息信息技术高考试卷及答案

在MapObject环境下地形模拟查询的实现 (2012年)

基于动力学的头发造型方法 (2012年)

2012年福建省导游服务职业技能大赛理论题库.pdf

分数阶傅里叶变换在步态特征提取中的应用

2012年：基于体积积分的散乱点云特征点高效提取

深度优先搜索在工程图多层次图块信息提取中的应用

2012年改进的MRF树木图像提取算法：提升准确性和效率

可变向卷积网络在语义分割中的应用

最新资源