非顺序划分方法提升决策树在高维数据集的分类精度与稳定性

0 下载量 180 浏览量 更新于2025-01-16 收藏 1.1MB PDF 举报
"决策树分类器的非顺序划分方法及其对高维数据集的提高分类精度和稳定性影响" 本文探讨了一种非顺序的特征集划分策略,旨在解决决策树分类器在处理高维数据集时遇到的挑战。决策树作为一种常用的分类工具,因其易于理解和解释而受到青睐。然而,随着数据维度的增加,决策树的性能会下降,同时也会变得不稳定,这一现象通常被称为“维数灾难”。 特征集划分是应对高维数据问题的一种新思路,它将特征集合拆分为若干子集或“块”。传统的基于划分的决策树构建过程通常是顺序的,即按照特定顺序选择特征进行划分,这可能导致忽略了特征间可能存在的复杂关联。为了克服这一限制,研究者提出了一种非顺序的划分方法,该方法结合了费雷尔图和钟形三角的概念,以识别并创建包含不同相关性的特征块。 费雷尔图是一种可视化工具,用于展示特征间的相关性,而钟形三角则可能帮助识别特征的相关模式。通过这些工具,该方法能够构建包含低、中、高相关性特征的混合块,从而在保持决策树结构简单的同时,更充分地利用特征信息。 在11个来自UCI和KEEL数据集的实验中,提出的非顺序划分方法与NBTree、BFTree、Serial-CMFP等现有方法以及传统的决策树技术进行了比较。结果显示,新方法在分类精度上有所提升,最高可提升5%,并且在稳定性方面也优于其他方法。 关键词:决策树,相关性,费雷尔图,钟形三角,划分 这篇研究工作对于改进决策树分类器在高维数据集上的性能具有重要意义,特别是在面对大量特征时,能够提高分类的准确性和模型的稳定性。通过非顺序的特征集划分,可以更有效地处理复杂的高维数据,这对于数据挖掘和机器学习领域的实践应用具有重要价值。