维吾尔文Bigram特征在文本分类中的应用

190 浏览量更新于2024-08-27 收藏 1.4MB PDF 举报

"维吾尔文Bigram文本特征提取" 在文本分类和信息检索领域，文本的表示方式是关键步骤，因为它决定了计算机如何理解和处理文本内容。向量空间模型（VSM）是常用的一种文本特征表示方法，它将文本转换为数值向量，使得计算机可以进行分析。然而，传统的基于词袋（BOW）模型的表示方法，虽然简单直观，但存在忽视词汇顺序和上下文信息的问题，这可能导致信息丢失和分类效果不佳。维吾尔文Bigram特征提取的研究主要针对这个问题，旨在通过考虑相邻词的组合来捕获更多的语义信息。Bigram是由两个连续词汇组成的短语，相比单个词汇，它能更好地反映文本中的局部语法和语义结构。在维吾尔文这样的多语种环境中，由于语言的复杂性和特殊性，Bigram模型对于提高文本分类和信息检索的准确性显得尤为重要。在论文"维吾尔文Bigram文本特征提取"中，作者阿力木江·艾沙、库尔班·吾布力和吐尔根·依布拉音探讨了如何有效地提取和利用维吾尔文文本的Bigram特征。他们指出，由于维吾尔文的语法特性，如词缀丰富，Bigram模型能更准确地捕捉到词汇间的关联，从而增强文本表示的丰富性。为了实现这一目标，研究人员可能采用了N-gram模型，尤其是Bigram（2-gram）模型，通过计算相邻词汇出现的频次来构建特征向量。此外，他们可能还涉及了特征选择过程，如TF-IDF（词频-逆文档频率），以降低不重要或常见词汇的权重，提升重要词汇的影响力。在实验部分，他们可能对比了使用Bigram特征与仅使用单词（Unigram）特征的分类性能，通过各种评估指标（如精确率、召回率和F1分数）来验证Bigram模型的效果。论文的结果可能显示，引入Bigram特征后，维吾尔文文本分类的性能有所提升，证明了这种方法在维吾尔文信息处理中的有效性。这篇研究论文关注的是如何利用维吾尔文的Bigram模型改进文本表示，以提高文本分类任务的性能。这一工作对于多语种信息处理，特别是处理像维吾尔文这样复杂语言的文本分析，具有重要的理论和实践意义。

C omputer Engineering and Applications计算机工程与应用2015，51（3）

1 引言

在文本分类过程中，文本的表示模型是一个既基本

又重要的问题。只有先将文本从无结构或者半结构化

的原始形式转化为计算机能够理解的表示模型后，计

算机才能对文本内容进行分析与处理。向量空间模型

（Vector Space Model，VSM）仍是文本特征表示的主要

方法，相关研究仍然集中在以什么特征单元（单词，短

语，n-Gram）作为特征项这个问题上

[1]

。大部分系统仍是

以单词作为特征项，也就是基于 BOW（Bag Of Words）

的。虽然 BOW 具有直观且易于实现等优点，但是存在

维吾尔文 Bigram文本特征提取

阿力木江·艾沙

1，3

，库尔班·吾布力

2，3

，吐尔根·依布拉音

2，3

Alimjan AYSA

1，3

, Kurban U BUL

2，3

, Turgun IBRAHIM

2，3

1.新疆大学网络与信息技术中心，乌鲁木齐 830046

2.新疆大学信息科学与工程学院，乌鲁木齐 830046

3.新疆多语种信息技术重点实验室，乌鲁木齐 830046

1.Network and Information Technology Center, Xinjiang Un iversity, Urumqi 830046, China

2.College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China

3.Xi njiang Laboratory of Multi-language Informat ion Technology, Urumqi 830046, China

Alimjan AYSA, Kurban UBUL, Turgun IBRAH IM. Bigram feature ex tr action for Uyghur text. Comp uter En gineering

and Applications, 2015, 51（3）：216- 221.

Abstract：Text representation is the most importan t phase in automatic text categorization. In the vector space model

based text representat ion, the selection of feature granular ity h as the direct impact on the text categorization performance.

The word features don’t have the good represent ative power to represent the Uyghur texts in text categorization. To solve

this problem, the CHIMI based Uyghur Bigram extraction method is proposed and the Uyg hur text categorization experi-

ments are conduct ed using supp ort vector machine algorithm based on the extracted Bigrams as text featu res. The experi-

mental results show tha t the Bigram based Uyghur text categorization achieves higher classification precision and recall

compared to the word based categorization and experiments demo nstrate the effectiveness of the propos ed algorit hm.

Key words：Bigram te xt feature;

st atistics; mutual informat ion; Uyghur Language

摘要：文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型（VSM）的文本表示中特征单

元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中，对于单词特征不能更好地表征文本内容特征

的问题，在分析了维吾尔文 Bigram对文本分类作用的基础上，构造了一个新的统计量 CHIMI，并在此基础上提出了

一种维吾尔语 Bigram 特征提取算法。将抽取到的 Bigra m 作为文本特征，采用支持向量机（SVM）算法对维吾尔文文

本进行了分类实验。实验结果表明，与以词为特征的文本分类相比，Bigram 作为文本特征能够提高维吾尔文文本分

类的准确率和召回率并且通过实验验证了该算法的有效性。

关键词：Bigram 文本特征；

统计量；互信息；维吾尔语

文献标志码：A 中图分类号：TP391.1 doi：10.3778/j.issn.1002-8331.1402-0004

基金项目：国家自然科学基金（No.61363064，No.61163028）。

作者简介：阿力木江·艾沙（1973—），男，维吾尔族，博士，副教授，主要研究方向为自然语言处理，信息安全；库尔班·吾布力

（197 4—），男，通讯作者，维吾尔族，博士生，副教授，主要研究方向为模式识别；吐尔根·依布拉音（1958—），男，维吾尔族，

教授，博士生导师，主要研究方向为智能信息处理技术。E-mail：alim@xju.edu.cn

收稿日期：2013-12-15 修回日期：2014-06-24 文章编号：1002-8331（2015）03-0216-06

CNKI网络优先出版：2014-07-02，http://www. cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1402-0004.html

216

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38699726

粉丝: 5
资源: 927

维吾尔文Bigram特征在文本分类中的应用

维吾尔文文本阅读器 Akalmareader 2.0

维吾尔文Bigram特征提取算法提升文本分类效果

维吾尔文笔迹边缘提取算法及特征提取研究

印刷维吾尔文特征提取之方向码

维吾尔语音情感声学特征提取与建模研究

基于着色处理的维吾尔文手写文本行分割 (2013年)

基于混合方法的维吾尔文名词词干提取系统

维吾尔文手写文本粘连字符定位与分割算法

维吾尔文手写文本行分割：着色处理算法

维吾尔文笔迹边缘提取与融合特征鉴别研究

最新资源