中文网页主题特征项抽取的TF-IDF改进与线性加权算法

工程技术

论文

需积分: 5 75 浏览量更新于2024-08-12 收藏 890KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇论文是2014年发表在吉林大学学报(信息科学版)上的科研成果，由代宽、赵辉等人撰写。研究主要关注如何改善中文网页主题特征项抽取的精度，旨在提升主题网络爬虫的网页相关度计算效率。作者对传统的TF-IDF（词频-逆文档频率）文本特征项加权方法进行了改进，并结合网页的半结构化特征，提出了线性特征项加权计算的新方法，实验结果表明此方法能有效提高主题网页的召回率和准确率。该研究受到吉林省科技厅自然科学基金的支持。" 正文: 在信息技术领域，中文网页的主题特征项抽取是一项关键任务，它直接影响到搜索引擎和网络爬虫的工作效率。这篇2014年的研究针对中文网页，旨在解决特征项抽取的不精确问题，特别是对于主题网络爬虫来说，准确地识别和提取网页的特征项是计算网页相关度的关键。传统的TF-IDF是一种广泛使用的文本特征项加权方法，它基于词频和文档频率来衡量一个词的重要性。词频表示一个词在文档中出现的次数，逆文档频率则反映了一个词在整个文档集合中的独特性。然而，TF-IDF可能无法充分考虑到网页的结构信息和特定位置的语义权重。在该研究中，作者针对中文网页的特性，结合了主题网页的二分类情况对TF-IDF进行了改进。他们认识到，除了词频和文档频率外，特征项在网页中的位置和包含的信息量也是决定其重要性的因素。因此，他们引入了网页的半结构化特征，比如HTML标签，这些标签可以提供关于内容组织和重要性的线索。基于这些考虑，研究者提出了一种线性特征项加权计算方法，该方法能够更全面地评估特征项的价值。通过综合位置信息和信息量，新方法可以更精确地识别与主题相关的特征项，从而提高相关度计算的准确性。实验结果显示，采用新方法后，主题网页的召回率和准确率都有显著提升，这证明了该方法的有效性。召回率是指系统找出的相关文档数量与实际相关文档总数的比例，而准确率则是指被正确识别为相关文档的数量占所有被识别为相关文档的比例。两者都是衡量信息检索系统性能的重要指标。这项工作为中文网页信息处理提供了一种新的思路，它融合了文本内容和结构信息，提升了特征项抽取的效率，对于优化网络爬虫的性能和提升搜索引擎的搜索质量具有重要意义。同时，这种方法也对其他语言的网页处理有一定的借鉴价值，特别是在处理大量非结构化数据时。

资源详情

资源推荐

第  卷 第  期吉林大学学报(信息科学版)    

 年  月    (  )  

文章编号:()

基于向量空间模型的中文网页主题特征项抽取

收稿日期:

基金项目:吉林省科技厅自然科学基金资助项目()

作者简介:代宽(— ),男,河南开封人,长春工业大学硕士研究生,主要从事智能计算、软件工程研究,()

()  ;通讯作者:赵辉(— ),女,长春人,长春工业大学副教授,博士,硕士生导师,主要

从事智能计算、软件工程研究,()( )    。

代 宽



,赵 辉



,韩 冬



,宋天勇



(长春工业大学  计算机科学与工程学院; 软件职业技术学院,长春 )

摘要:为解决中文网页主题特征项抽取不精确的问题,对中文网页的主题特征项抽取算法进行了研究。网页的

主题特征项抽取是主题网络爬虫进行网页相关度计算的基础,结合主题网页的二分类情况对目前常用的文本

特征项加权方法 (   )进行了改进,在此基础上结合网页的半结

构化特征,综合考虑特征项的位置信息及其包含的信息量,提出了一种线性特征项加权计算方法。经实验验

证,该方法可有效提高主题网页的召回率和准确率。

关键词:词频逆向文件频率;向量空间模型;特征项;相关度计算;信息增益

中图分类号: 文献标识码:

          

 



, 



, 



, 



(      ;     ,

   , ,)

Abstract:             ,

               

            

,

          

(   



)      ,  , 

               

    

Key words:   ( );  ;;

; 

 引 言

随着网络的迅速发展,主题网络爬虫已经成为人们获取网页信息的关键技术之一。主题网络爬虫是

一种只抓取某一相关领域网页的程序,是在通用网络爬虫的基础上增加主题过滤功能实现的

[]

。主题过

滤按照网页相关度计算判断待过滤文档主题和预确定主题是否相关,网页相关度算法有很多种,较常用

的算法有神经网络、 、向量空间模型和实例映射模型等

[]

。由于向量空间模型可把非结构化

的内容以向量的形式具体化,进而提高文档的可计算性和可操作性,所以,向量空间模型(:

 

)近年来被广泛应用

[]

。基于向量空间模型的网页相关度计算的准确性在很大程度上与网页

下载后可阅读完整内容，剩余6页未读，立即下载

Cisco789

粉丝: 10
资源: 930

中文网页主题特征项抽取的TF-IDF改进与线性加权算法

基于向量空间模型的文本自动分类系统的研究与实现

基于向量空间模型的多主题Web文本分类方法

基于预训练分类模型的深层特征空间生成多功能图像

知识图的增强：RDF数据与向量空间模型的结合

基于通用语言模型的心理人格特征检测及其应用-埃及信息学杂志2021

基于空间信息模型的稀疏图像恢复

中文向量空间模型python

向量空间模型有哪些不足

向量空间模型、概念模型优缺点

布尔模型、向量空间模型、概率模型

如何使用向量空间模型?

python 向量空间模型

文本挖掘的向量空间模型有什么作用

python文本特征抽取词向量模型

python建立中文向量空间模型

将评论的向量空间模型保存为com_vec.txt文件

向量空间模型和语义模型的优缺点比较

向量空间模型的文本表示原理

问答系统中vsm向量空间模型

请简要描述布尔检索模型和向量空间模型（Vector Space Model, VSM），并比较它们的优缺点。

最新资源