目标特征选择与去除的K-means聚类改进算法

9 下载量 74 浏览量 更新于2024-08-31 1 收藏 206KB PDF 举报
本文提出了一种基于目标点特征选择和去除的改进K-means聚类算法,旨在解决传统K-means算法在处理高维数据聚类时存在的问题,如无法有效抑制噪声特征和处理不规则形状的聚类。该算法利用闵可夫斯基规度作为距离度量标准,通过增设权重调节参数a和重置权重系数α,实现特征的选择和去除,以降低非聚类指标特征对聚类结果的噪声干扰。 在改进的算法中,关键步骤包括: 1. **目标点分类**:采用闵可夫斯基规度计算数据点之间的距离。闵可夫斯基规度是一种通用的距离度量方式,可以灵活地调整为欧几里得距离(p=2)或曼哈顿距离(p=1),以适应不同的数据特性。 2. **权重调节参数a**:引入权重调节参数a来动态调整不同特征的重要性。这允许算法根据特征对聚类的影响程度进行加权,增强关键特征的作用,同时削弱噪声特征的影响。 3. **重置权重系数α**:通过重置权重系数α,算法可以实现特征的动态选择和去除。当α值增大时,更多的特征可能被去除,有助于减少噪声特征对聚类效果的干扰。 4. **特征选择与去除**:通过对每个目标点应用上述规则,算法能够识别并去除那些对聚类贡献较小或者引入噪声的特征,从而提高聚类的准确性。 5. **实验验证**:为了验证算法的有效性,实验选取了UCI真实数据集和人工数据集进行聚类分析,并与WK-means和iMWK-means两种算法进行了比较。实验结果表明,改进后的算法在抑制噪声特征方面表现出优越性,同时证明了特征选择在聚类学习中的适用性。 6. **参数优化**:在实验过程中,还探索了最优的距离系数β和权重系数α的取值,以进一步优化聚类效果。寻找这些参数的最佳组合是确保算法性能的关键。 通过这些改进,该算法能够更好地适应高维数据的复杂性,有效地处理不规则形状的聚类,并在有噪声的数据中提供更准确的聚类结果。对于处理大规模、高维度数据的机器学习任务,这种改进的K-means算法具有较高的实用价值。