提升分类性能:ABTAdaBoost——自适应边界采样与数据清理的集成算法

需积分: 31 5 下载量 182 浏览量 更新于2024-09-08 2 收藏 1017KB PDF 举报
在本文中,研究者针对类不平衡数据处理的问题,提出了一种名为ABTAdaBoost的算法。类不平衡是指在数据集中,各类别的样本数量分布不均,其中少数类别往往包含较少的实例,这可能导致分类器在训练和预测过程中偏向多数类别,从而降低整体性能。AB-SMOTE(自适应边界采样)是ABTAdaBoost的核心组件,它专门针对少数类的边界样本进行增强,通过生成新的合成样本来调整数据集的平衡,提升模型的准确性。这种方法旨在解决少数类边界实例易被误分类的问题。 ABTAdaBoost算法分为三个关键步骤:首先,使用AB-SMOTE技术对原始训练数据集进行预处理,通过增加少数类样本的数量,减少由于类不平衡带来的偏差;其次,引入Tomek links数据清理技术,这是一种用于识别并移除数据集中噪声和由采样过程产生的冗余样本的方法,这样可以确保数据质量,提高数据的有效性和模型的鲁棒性;最后,利用AdaBoost集成学习策略,将多个弱分类器组合成一个强大的集成分类器,每个弱分类器专注于解决部分问题,通过投票或加权平均的方式,提高整体分类的准确性。 实验部分,研究者将ABTAdaBoost应用到J48决策树和朴素贝叶斯这两种常见的基分类器上,通过对12个UCI数据集进行对比实验,结果显示ABTAdaBoost算法在处理类不平衡数据时表现出显著的优势,其预测性能优于其他几种常见的处理方法,证明了该算法的有效性和实用性。 此外,本文还强调了研究背景,指出该工作得到了国家自然科学基金、计算机软件新技术国家重点实验室开放课题、江苏省自然科学基金和科技创新基金的支持,体现了团队在数据挖掘领域的深入研究和实践经验。研究团队包括秦孟梅、邱建林、陆鹏程、陈璐璐和赵伟康等多位学者,他们在论文中分享了自己的研究成果,并期待在未来的研究中进一步改进和优化类不平衡学习算法。