改进的类别分布特征选择法提升不平衡数据分类性能

需积分: 5 18 浏览量更新于2024-08-11 收藏 570KB PDF 举报

随着互联网的迅速发展，非平衡数据的大量出现对数据挖掘和机器学习领域的研究带来了新的挑战。非平衡数据是指各类别的样本数量差异悬殊，这在许多实际问题中尤为常见，如文本分类、生物信息学和金融市场预测等。在这种情况下，传统的分类算法可能会倾向于数量较多的类别，导致性能下降，尤其是在处理稀有类别时。针对这一问题，2011年的论文《基于改进的类别分布特征选择方法》提出了一种创新的解决方案。作者徐红国和王素格针对特征在类别中的分布特点，设计了一种结合类间和类内分布的特征选择方法。这种方法考虑了稀有类别信息对特征选择的重要性，通过构造能够反映稀有特征信息的类别分布函数，提高了特征选择的针对性。该方法的核心在于，它不仅关注于总体的类别分布，还重视类别内部的分布差异。这样可以确保选择出那些在各个类别中都具有重要作用，且能有效提升非平衡数据分类性能的特征。与传统的类别分布特征选择（Category Distribution-Based Feature Selection，CDFS）和单纯依赖类别信息的方法相比，这种改进的方法在衡量分类性能的指标上，如MacroF1和MicroF1，表现更优。 MacroF1和MicroF1是评估多类分类任务性能的两个重要指标，前者强调每个类别的准确率平均，后者则关注整体的正确分类率。实验结果显示，该方法在处理非平衡数据时，能在保持整体分类效果的同时，更好地关注到稀有类别的识别，从而在实际应用中展现出更好的性能。这篇论文对于非平衡数据分类问题提供了一种有效的解决策略，其特点是结合了类间和类内特征分布的分析，旨在提高特征选择的效率和分类模型的泛化能力。这对于在现实世界中处理大量非平衡数据的场景，如搜索引擎的文档分类、医学诊断中的罕见病检测等，具有重要的理论和实践价值。

２０１１年第３２卷第２期中北大学学报（自然科学版）

Ｖｏｌ

．３２　

Ｎｏ

．２　２０１１

（总第１３６期）

JO U R N A L O F N O R T H U N IV E R SIT Y O F C H IN A

（

N A T U R A L SC IE N C E E D IT IO N

）

（

ＳｕｍＮｏ

．１３６）

文章编号：１６７３-３１９３（２０１１）０２-０１３９-０４

基于改进的类别分布特征选择方法

徐红国，王素格

（山西大学数学科学学院，山西太原０３０００６）

摘　要：　随着网络上非平衡数据的大量涌现，使得对非平衡数据分类的研究成为一个新的研究热点．根据

特征在类别中的分布特点，提出了基于类间、类内分布的方法．该方法不但充分考虑了稀有类别信息对特征

选择的影响，使得构造的类别分布函数能够相当好地反映稀有特征的信息，而且能够选出对非平衡数据分

类贡献大的特征．实验结果表明：此方法的

Ｍａｃｒｏ

１和

Ｍｉｃｒｏ

１皆优于基于类别分布的特性选择

（

ＣａｔｅｇｏｒｙＤｉｓｔｒｉｂｕｔｉｏｎ

ＢａｓｅｄＦｅａｔｕｒｅＳｅｌｅｃｔｉｏｎ

，

ＣＤＦＳ

）和类别信息的方法．

关键词：　非平衡数据集；特征选择；文本分类；类别分布；机器学习

中图分类号：　

ＴＰ

３９１　　　文献标识码：

Ａ

doi

：１０．３９６９／

ｊ

．

ｉｓｓｎ

．１６７３-３１９３．２０１１．０２．００５

A F eature Selection M ethod B ased on

Im proved C ategory D istribution

ＸＵＨｏｎｇ

ｇｕｏ

，

ＷＡＮＧＳｕ

ｇｅ

（

ＳｃｈｏｏｌｏｆＭａｔｈｅｍａｔｉｃａｌＳｃｉｅｎｃｅ

，

ＳｈａｎｘｉＵｎｉｖｅｒｓｉｔｙ

，

Ｔａｉｙｕａｎ

０３０００６，

Ｃｈｉｎａ

）

A bstract

：

Ｗｉｔｈｔｈｅｕｎｂａｌａｎｃｅｄｄａｔａｓｅｔｅｍｅｒｇｉｎｇｉｎｌａｒｇｅｎｕｍｂｅｒｓｏｎｔｈｅｉｎｔｅｒｎｅｔ

，

ｔｈｅｒｅｓｅａｒｃｈｏｎｔｈ

ｅ

ｕｎｂａｌａｎｃｅｄｄａｔａｃｌａｓｓｉｆｉｃａｔｉｏｎｂｅｃｏｍｅｓａｎｅｗｈｏｔｓｐｏｔ

．

Ａｃｃｏｒｄｉｎｇｔｏｔｈｅｆｅａｔｕｒｅ

’

ｓｄｉｓｔｒｉｂｕｔｉｏｎ

ｃｈａｒａｃｔｅｒｉｓｔｉｃｓｉｎｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎ

，

ａｎｅｗｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｉｎｔｅｒ

ｃｌａｓｓａｎｄｂｅｔｗｅｅｎ

ｃｌａｓｓｅｓｄｉｓｔｒｉｂｕｔｉｏｎｓｗａｓｐｒｏｐｏｓｅｄ

．

Ｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｎｏｔｏｎｌｙｔａｋｅｓｆｕｌｌａｃｃｏｕｎｔｏｆｔｈｅｒａｒｅｃａｔｅｇｏ

ｒ

ｙ

ｏｆｉｎｆｏｒｍａｔｉｏｎ

’

ｓｉｍｐａｃｔｏｎｔｈｅｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ

，

ｍａｋｉｎｇｔｈｅｃｏｎｓｔｒｕｃｔｅｄｄｉｓｔｒｉｂｕｔｉｏｎｆｕｎｃｔｉｏｎｗｅ

ｌ

ｒｅｆｌｅｃｔｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｒａｒｅｉｎｆｏｒｍａｔｉｏｎ

，

ｂｕｔａｌｓｏｓｅｌｅｃｔｓｔｈｅｆｅａｔｕｒｅｓｏｆｓｉｇｎｉｆｉｃａｎｔｃｏｎｔｒｉｂｕｔｉｏｎｆ

ｏ

ｒ

ｕｎｂａｌａｎｃｅｄｄａｔａｃｌａｓｓｉｆｉｃａｔｉｏｎ

．

ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｂｏｔｈＭａｃｒｏ

１

ａｎｄＭｉｃｒｏ

１

ｏｆｔｈ

ｅ

ｐｒｏｐｏｓｅｄｍｅｔｈｏｄｈａｖｅａｄｖａｎｔａｇｅｓｏｖｅｒＣａｔｅｇｏｒｙＤｉｓｔｒｉｂｕｔｉｏｎ

ＢａｓｅｄＦｅａｔｕｒｅＳｅｌｅｃｔｉｏｎ

（

ＣＤＦＳ

）

ｍｅｔｈｏｄ

ａｎｄｔｈｅｃｌａｓｓｉｎｆｏｒｍａｔｉｏｎｍｅｔｈｏｄ

．

K ey w ords

：

ｕｎｂａｌａｎｃｅｄｄａｔａｓｅｔ

；

ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ

；

ｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ

；

ｃａｔｅｇｏｒｙｄｉｓｔｒｉｂｕｔｉｏｎ

；

ｍａｃｈｉｎ

ｅ

ｌｅａｒｎｉｎｇ

当前，网上存在着大量的各种类别的非平衡文本信息，这给机器学习领域提出了一个挑战．如何有

效地处理非平衡文本的分类问题，已成为一个新的研究课题，而对于稀少类性能的提高是衡量解决该类

问题技术好坏的一个重要指标．目前，成熟的特征选择方法在非平衡语料上，稀少类的分类结果往往不

理想，这些方法都倾向于选取高频词汇作为特征，使稀少类的特征不能有很好的表现．

如何选择那些具

磁

收稿日期：２０１０-０９-０６

　基金项目：国家自然科学基金资助项目（６０８７５０４０，６０９７００１４）；教育部高等学校博士点基金资助项目（２００８０１０８０００６）；山西省自然

科学基金资助项目（２０１００１１０２１-１，２００７０１１０４２）；太原市科技局明星专项基金资助项目（０９１２１００１）

作

者

简

介

：

徐

红

国

（

１

９

８

４

）

，

男

，

硕

士

．

主

要

从

事

自

然

语

言

处

理

研

究

．

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38519849

粉丝: 5
资源: 973

改进的类别分布特征选择法提升不平衡数据分类性能

2011年数学建模A题

一种基于改进PS0和FCM的图像分割算法 (2011年)

基于RSS数据源的用户兴趣模型改进及应用 (2011年)

基于神经网络多分类器融合系统的人脸识别方法 (2011年)

基于数据挖掘的分类算法综述 (2011年)

基于卷积神经网络的多字体字符识别 (2011年)

基于区域生长算法的彩色遥感图像分割 (2011年)

基于NSCT和FCM聚类的SAR图像分割 (2011年)

基于J2EE的整车订单业务系统的研究与设计 (2011年)

基于极化散射参数与Fisher-OPCE的监督目标分类 (2011年)

最新资源