CA-FM聚类算法:一种基于过滤模型的方法

0 下载量 149 浏览量 更新于2024-08-30 1 收藏 2.66MB PDF 举报
"基于过滤模型的聚类算法是一种旨在解决传统聚类算法中聚类原型选取不准确和聚类数量估计偏差问题的新型算法。该算法由邱保志、张瑞霖和李向丽在2020年的《控制与决策》期刊上提出,其主要思想是利用过滤模型排除聚类过程中的噪声和边界对象,然后通过核心对象间的近邻关系确定聚类个数,并选择聚类原型,最后将剩余对象分配到合适的簇中。实验表明,CA-FM算法在多种数据集上表现出高精度,与同类算法相比具有优势。" 在聚类分析领域,选择正确的聚类原型至关重要,因为它直接影响着聚类结果的质量。CA-FM算法首先引入了一个过滤模型,这个模型能够有效地识别并移除那些对聚类过程产生干扰的边界对象和噪声数据,从而提高聚类的纯净度。边界对象常常位于不同簇的交界处,而噪声数据则是远离任何簇中心的异常值,它们的存在会混淆聚类过程。 接下来,算法通过分析数据对象之间的局部密度,确定核心对象,并基于这些核心对象构建邻接矩阵。邻接矩阵记录了对象间的相互连接,这有助于识别对象之间的紧密关系,进一步用于计算聚类的准确数量。通过遍历邻接矩阵,算法能够找出最佳的聚类数目,避免了预设聚类数目的限制,增强了算法的灵活性。 在确定了聚类个数后,CA-FM算法使用密度因子对数据对象进行排序,挑选出具有代表性的聚类原型。密度因子是一个反映对象周围密度的指标,高密度对象更有可能成为聚类中心。这些选定的原型作为初始聚类中心,对未被归类的数据对象进行分配,分配原则是根据对象与高密度对象之间的最小距离来决定其所属的簇。 实验部分,CA-FM算法在人工合成数据、UCI数据集以及人脸识别数据集上进行了验证,结果证明了算法的效率和准确性。与传统的K-means、DBSCAN等聚类算法相比,CA-FM在处理复杂和噪声数据时表现出了更高的聚类精度,体现了其在聚类领域的优越性能。 此外,文中还提到了其他相关的聚类算法,如基于分量属性近邻传播的多元时间序列数据聚类方法、维度概率摘要模型的层次聚类算法、改进的K-均值聚类算法以及自适应学习的演化聚类算法,这些都展示了聚类研究领域的多样性和创新性。每种算法都有其特定的应用场景和优化目标,共同推动着聚类技术的发展。