三支决策理论下的不平衡数据过采样算法

0 下载量 16 浏览量 更新于2024-08-28 收藏 732KB PDF 举报
"基于三支决策的不平衡数据过采样方法" 在机器学习领域,不平衡数据问题是一个常见的挑战,指的是不同类别的样本数量相差悬殊,导致分类模型倾向于偏向多数类,而忽视少数类。本研究论文提出了一种基于三支决策理论的不平衡数据过采样方法,旨在改进传统二元分类模型对不平衡数据的处理效果。 三支决策理论是决策分析的一种扩展,它不仅考虑“是”与“否”的判断,还引入了“不确定”这一中间状态,将样本分为正域(目标类别)、边界域(边界或模糊的样本)和负域(非目标类别)。这种方法能更好地描述实际问题中的复杂性和不确定性。 论文中,作者设计了一种名为TWDO-IDOS(基于三支决策的不平衡数据过采样算法)。该算法首先根据样本的分布将数据分为三个区域,然后针对边界域和负域的小类样本执行不同的过采样策略。过采样是一种平衡数据集的方法,通过复制或生成少数类样本,减少类别间的不平衡程度。在边界域,可能包含部分误分类的样本,过采样有助于识别和校正这些样本。而在负域,过采样主要是增加少数类的代表性。 实验部分,研究人员使用了C4.5决策树、KNN(K近邻)和CART(分类与回归树)等经典分类器,对比了TWDO-IDOS算法和其他过采样算法在不平衡数据上的表现。结果显示,TWDO-IDOS在Recall(召回率)、F-value(F值)和AUC(曲线下面积)等评估指标上表现出色,证明了其在处理不平衡数据分类问题上的有效性。 关键词涉及的关键技术包括:三支决策理论,它提供了更全面的决策视角;邻域粗糙集,一种处理不确定性和不完整性信息的数学工具,常用于特征选择和数据预处理;边界采样,过采样的一个重要策略,聚焦于边界样本;以及SMOTE(合成 minority over-sampling technique),一种常用的过采样方法,通过线性插值或非线性组合创建新的少数类样本。 这篇论文对解决不平衡数据问题提出了新的见解,通过结合三支决策理论和过采样技术,提高了分类器在处理不平衡数据时的性能,具有重要的理论价值和实践意义。未来的研究可以进一步探索该方法在其他复杂数据集和多类别问题上的应用,以及与其他数据调整技术(如欠采样和集成学习)的联合使用效果。