SMOTE-SDAE:一种解决不平衡数据分类的降噪自编码神经网络算法

需积分: 17 7 下载量 183 浏览量 更新于2024-09-08 1 收藏 1.47MB PDF 举报
“一种改进的降噪自编码神经网络不平衡数据分类算法” 本文研究的主要内容是针对不平衡数据集的分类问题,特别是在使用少数类样本合成过采样技术(SMOTE)时可能出现的噪声问题。传统的SMOTE方法通过生成新的少数类样本来平衡数据集,但这种过程可能导致噪声的引入,从而影响分类性能。为解决这一问题,作者提出了一种结合SMOTE与降噪自编码神经网络(Stacked Denoising Autoencoder, SDAE)的改进算法,称为SMOTE-SDAE。 降噪自编码神经网络是一种无监督学习模型,其核心在于通过添加随机噪声到输入数据,训练网络去重构原始输入,从而学习数据的内在结构和特征。SDAE的独特之处在于它能逐层进行降噪学习,每一层的编码器试图从含噪输入中提取有用信息,而解码器则尝试根据这些编码信息重建原始数据。这一过程有助于网络去除噪声并学习数据的有效表示。 SMOTE-SDAE算法首先利用SMOTE生成新的少数类样本,然后使用SDAE进行预处理,通过无监督学习阶段的逐层降噪和有监督学习阶段的微调,对过采样的数据集进行降噪处理,同时进行分类任务。这种方法可以更好地处理因SMOTE产生的噪声,提高分类器对少数类样本的识别能力。 实验部分,作者在UCI数据集上对比了SMOTE-SDAE与传统支持向量机(SVM)算法的性能。结果显示,SMOTE-SDAE在不平衡数据集的分类精度上有了显著提升,尤其是在识别和区分少数类样本方面,这验证了所提算法的有效性。 该研究的意义在于提供了一个解决不平衡数据分类问题的新途径,通过结合过采样技术和深度学习模型,可以在处理噪声的同时保持对少数类样本的敏感性,对于实际应用中的数据分类,尤其是医疗诊断、金融风险评估等领域的不平衡数据问题具有重要的参考价值。 关键词:神经网络,过采样,不平衡数据,分类 中图分类号:TP183,TP301.6 文献标志码:A 文章编号:1001-3695(2017)05-1329-04 doi:10.3969/j.issn.1001-3695.2017.05.011 该研究得到了国家自然科学基金、内蒙古自然科学基金等多个项目的资助,并由多位研究人员共同完成,包括张成刚、宋佳智、姜静清和裴志利等人,他们分别在人工智能、机器学习、数据挖掘等领域有着深入的研究。