虚核文本分类算法在Web信息检索中的高效应用

工程技术

论文

需积分: 5 125 浏览量更新于2024-08-11 收藏 348KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"面向Web信息检索的虚核文本分类算法 (2012年)，作者：李静、杨小帆、孙启干，发表于《计算机工程》2012年第10期，主要讨论了一种创新的虚核文本分类算法，用于提升Web信息检索的效率和准确性。本文介绍的虚核文本分类算法是针对Web信息检索领域的一种新方法。传统的文本分类技术，如k近邻算法（k-Nearest Neighbor, kNN）和朴素贝叶斯算法，虽然在许多情况下表现出良好的性能，但在处理大规模数据集时，往往存在分类精度和计算效率的问题。虚核算法则试图解决这些问题，通过构建类别虚核并利用引力场模型来优化文本分类过程。首先，该算法基于单类别下的标记数据，计算每个特征项对这个类别的贡献度，即特征词频，来建立类别虚核。类别虚核可以理解为一个虚拟的中心，它代表了该类别文本的主要特征分布。接着，对于待分类的无标签文本，算法会计算这个文本与各个类别虚核之间的“引力”，即引力场强，这可以通过特征项的相似度来量化。根据引力的大小，可以判断待分类文本最可能属于哪个类别。虚核算法的优势在于，它能够在保持较高分类精度的同时，减少计算复杂度，从而提高处理速度。实验结果显示，与kNN和朴素贝叶斯算法相比，虚核算法在分类精度和时间开销上有显著优势，这使得它特别适用于处理Web环境中大规模、多类别的文本数据。此外，该研究还涉及特征选择和向量空间模型，这两个是文本分类中的重要组成部分。特征选择有助于减少冗余信息，提升算法效率；向量空间模型则是将文本转化为数值向量，便于计算文本间的相似性。引力场模型的应用则提供了一种新颖的视角，将物理世界的引力概念引入到信息检索领域，使得分类过程更加直观和有效。这篇论文提出的虚核文本分类算法为Web信息检索提供了一种高效且准确的方法，对文本挖掘和自然语言处理领域的研究具有积极的推动作用。通过引入新的理论模型和优化策略，该算法在处理大规模文本数据时展现出了卓越的性能，为后续的研究和应用提供了有价值的参考。

资源详情

资源推荐

第

卷第

期

协l.

程吨

-n

ρLV

工时

机h

ALV

算阳

计

2012

年

月

孔

1ay

2012

·人工智能及识到技术·

申图分类号

TP30

文章编号

100

←

3428(2012)10

→

182-

.()3

文献标识码

面向

Web

信息检索的虚核文本分类算法

李静，杨小帆，孙启干

(重庆大学计算机学院，重庆

400044)

摘要:提出一种虚核文本分类算法。通过单类别下标记数据的特征词频计算该类别虚核在每个特征项处的特征引力场强，进而获得类别

虚核，根据类别虚核对待标记文本产生的引力大小判断其所属类别。实验结果表明，与

近邻算法和朴素贝叶斯算法相比，虚核算法在分

类精度和时间开销方面具有较大的优势。

关键词:信息检索;文本分类;特征选择;向量空间模型;引力场模型;虚核

Virtual

Kernel

Text Categorization Algorithm for

Web

Information

Retrieval

Jing

YANG

ao-fan

SUN

Qi-gan

(College ofComputer Science, Chongqing University, Chongqing 400044, China)

(Abstract]

This paper proposes a novel Virtual Kernel(VK) text categorization algorithm.

obtains a virtual kernel for each categorize through

evaluating the contribution

each feature term.

an unlabeled text comes, the algorithm can give the categorize it belongs

出

rough

evaluating the attraction which

from every virtual kernel. Experimental results show that compared with the k Nearest Neighbor(kNN) and naïve

Bayes algorithms

, the proposed algorithm

remarkably superior to them in terms

classification efficiency and time cost.

(Key

words]

information retrieval; text categorization; feature selection; vector space model; attraction field model; Virtual Kernel(VK)

DOI:

1 0

969/j.issn.l 000-3428.2012.1 0.055

概述

信息检索是关于信息的结构、分析、组织、存储、搜索

和检索的领域，而该领域的主要焦点一直是文本形式的文档。

随着互联网技术在全球的迅速普及，新闻报道、电子邮件、

电子商务数据等主要以文本的形式呈现在互联网上。自动对

数据进行标注的分类技术，是信息检索研究者多年来研究的

课题。

文本分类的任务是:在预定义分类体系下，建立每个文

本到一个或多个类别的映射模型。目前已有支持向量机

(Support

Vector

Machine

SVM)

、

近邻

Nearest

Neighbor

剧

N)[l]

、朴素贝叶斯

(Naïve

Bayes)

等许多统计机器学习方法

应用于文本分类。

SVM

在大数据集上的训练速度收敛较慢，

且需要大量的存储资源和很高的计算能力;大量实验结果表

明，剧

是一种高精度文本分类方法

[2]

，但由于它是一种

"懒学习"的分类方法，没有实质的训练过程，因此分类时

间和空间开销较大。

经上述分析可见，现有的分类算法在时间开销、空间开

销或分类精度方面或多或少存在着一些不足。为此，本文受

引力场的启发，提出一种虚核

(Virtual

Kemel

VK)

文本分类

算法。

VirtualKernel

分类算法

·对涉及的符号进行如下说明:

(1)

卡，

}:1

表示预定义类别的集合，其中，

表示分类

体系的任一类别

ζi

，

为类别总数。

(2)S

表示整个训练集。

(3)

表示训练集中任一特征项，其中

，

运

kζ

，

表

示特征项总数。

(4)

ifijk

表示类别乌的特征项乌在文本

中出现的次数，

其中

，

1ζj

。

宇宙间的一切物体之间都存在相互吸引力。为了判断一

篇文本和分类体系之间是否也存在一种相互吸引的作用力，

训练集类别

中的所有文本构成一个文本类簇。假设这些己

标注的文本像电子一样围绕在一个核周围，该核对这些文本

具有吸引力，那么训练集文本类别

就相当于在这个核周围

空间形成一个引力场，该引力场由

下的所有文本共同作用

形成。

定义

类别虚核)训练集文本类别乌中的所有文本被一

个像原子核一样的抽象核吸引共同构成一个文本类别簇，称

这个像原子核一样的抽象核为类别虚核，简称虚核。

就像原子一样，其质心在原子核，一个文本类别簇的质

心在虚核。

定义

类别引力场)以虚核为中心，向文本空间辐射一

个空间引力场，称为类别引力场。这个引力场对待标注的文

本具有吸引力，不同的文本其所受引力大小也不相同。

假设二维空间中

类样本

、

分布如图

l(a)

所示的

个类簇，每类有若干样本，随机分布。类别

中的所有文

本经过一定的运算，能够得出该类别的虚核，如图

l(b)

相应

实心图形(.与

所示。虚核是相应类别引力场的来源，其

基金项目:重庆市自然科学基金资助项目

(CSTC20

BB2046)

;中央

高校研究生科研创新基金资助项目

(CDJXS

11l

81164)

作者俯介:李静(1

986

一)

，女，硕士研究生，主研方向:文本分类，

数据挖掘;杨小帆，教授、博士生导师;孙启干，硕士研究生

收稿日期

2011-07-19

ιmail:

IjI986@cqu.edu.cn

下载后可阅读完整内容，剩余3页未读，立即下载

普通网友

粉丝: 8
资源:
935

虚核文本分类算法在Web信息检索中的高效应用

文本分类算法分析（一种很好的文本分类算法）

文本分类算法的比较研究

文本分类中对文本数据的分类算法和训练方法是怎么实现的？有什么意义？

web搜索与一般文本检索的不同

中文文本聚类算法分析

给出各个文本分析算法具体的应用场景，以及比较文本分析算法在不同数据集上的性能

检索文本可以用什么方法

物联网数据检索基于文本的检索

谈谈你对信息检索途径、方法的认识

生成式信息检索相较于传统信息检索的优点

python信息检索

基于python实现的英文文本信息检索系统

python信息检索课程设计

文本分类语料库 txt

文本分类和文本情感分析的区别

信息检索技术的原理和方法：介绍信息检索技术的基本原理和方法，包括信息检索模型、索引技术、查询处理、评价指标等方面

生成式AI在信息检索与分类革新的1000字综述

sklearn 文本分类

怎么将知识图谱和文本分类相结合

c语言航班信息查询与检索 算法设计

最新资源

c语言航班信息查询与检索算法设计