没有合适的资源?快使用搜索试试~ 我知道了~
首页数据挖掘之不均衡建模问题
资源详情
资源评论
资源推荐

数据挖掘之类别不平衡问题浅析

目录
▪ Introduction
▪ Ensemble Learning
▪ Processing Methods
!!!Sample Methods
!!!Cost-sensitive Methods
Kernel-based Methods
Additional methods…
▪ References

Introduction
在很多实际应用场合中,如入侵检测、信用卡诈骗等,存
在很多类别不均衡的情况。类别不均衡是指:在一个样本
数据集中,一类样本数目特别多,而另一类的样本数目特
别小,两者样本数目相差很大。比如在网络入侵检测中,
正常的网络访问要比入侵访问多得多;在保险业,往往只
会有一小部分保险客户要求索赔;医疗诊断,信用卡欺诈
等应用领域也存在这样的情况。在这些不均衡数据集上,
传统的机器学习方法常常对大类样本的分类性能较好,而
对小类样本的分类性能却很糟糕。小类别包含的信息不足
以被正确分类,是因为小类别样本的信息量无法与大类别
相抗衡,其信息容易淹没在大类别中,导致小类别被大量
误分。

Introduction
影响类别不均衡问题分类效果因素如下:
1. Imbalanced class distribution:这也是最主要的问题,研究决策树等分类模型表明针
对均衡数据能取得更好的效果,但不能确定影响分类效果的数据集不均衡的临界点。
2. Small sample size:研究表明不平衡程度一致时,样本集越小,分类的效果越差
3. Separability:Linearly separable domains do not sensitive to any amount of
imbalance. As a matter of fact, as the degree of concept complexity increases,
so does the system’s sensitivity to imbalance.

Ensemble Learning
▪ 集成学习( ensemble learning ),将若干弱分类器组合之后产生一个强分类器。弱分类器
(weak learner)指那些分类准确率只稍好于随机猜测的分类器(error rate < 50%)。
▪ 集成算法成功的关键在于能保证弱分类器的多样性(diversity)。集成不稳定的学习算法能得到
更明显的性能提升。
1. Bagging算法
主要思想:对训练样本集进行有放回式的抽取,从而抽样出一个与原来的训练样本数量相同但各
不相同的新的训练样本集合,并在这些新的训练集合上构建出一个个不同的基分类器。如下图所示:
剩余20页未读,继续阅读


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0