大规模低噪音半监督K-means聚类算法：DE-Tri-training应用

23 浏览量更新于2024-08-30 收藏 693KB PDF 举报

本文主要探讨了一种名为"DE-Tri-training"的半监督聚类算法，它在传统的K-均值聚类方法上进行了创新。该算法针对半监督学习环境设计，尤其关注如何有效地利用有限的标记数据（seeds集）来初始化聚类中心，从而提高聚类性能。算法的核心思想是首先通过Tri-training方法对大量未标记数据进行预处理。Tri-training是一种经典的半监督分类技术，它通过构建三个不同的学习器，每个学习器仅使用样本的部分信息，然后利用这三个模型相互校验和纠正错误，以此减少无标记数据中的噪声和不确定性。这个过程可以逐步地对未标记数据进行标注，生成一个更大规模且噪声更少的seeds集。在Tri-training的训练过程中，作者引入了Depuration数据剪辑技术。Depuration是一种基于最近邻规则的数据清洗方法，用于检测并剔除seeds集中可能存在的误标记噪声数据。通过这种方法，算法能够进一步提升seeds集的质量，确保聚类中心的初始化更加精确。 DE-Tri-training算法的关键步骤包括：1) 使用Tri-training对无标记数据进行标记和噪声过滤；2) 利用标记后的seeds集初始化K-均值聚类的初始中心；3) 通过K-均值算法进行聚类，并在每次迭代中更新seeds集，确保其准确性和代表性；4) 结合Depuration数据剪辑持续优化seeds集，以保持其高效性。实验结果显示，DE-Tri-training算法显著提高了seeds集对聚类中心的初始化效果，从而在实际应用中提升了聚类的精度和效率。相比于其他半监督聚类方法，DE-Tri-training不仅减少了对标记数据的依赖，还能更好地处理噪声数据，使得算法在面对大规模、高维度数据集时表现更为优秀。总结来说，这篇研究为半监督聚类领域提供了一个实用且高效的解决方案，通过结合Tri-training和Depuration数据剪辑技术，为解决实际问题中的数据标注不足和噪声挑战提供了新的思路。这在当今大数据时代，尤其对于那些难以获取足够标签数据的场景具有重要的实践价值。

weixin_38729607

粉丝: 4

大规模低噪音半监督K-means聚类算法：DE-Tri-training应用

pymc3-training

tri-tri:三重三角形振荡器Web音频合成模块伙伴

基于Tri-training的半监督多标记学习算法 (2013年)

207_基于Tri-Training的事件关系分类方法研究1

基于交叉熵的安全Tri-training算法.docx

半监督学习Tri-training算法在命名实体识别领域的Python实现与应用

一种基于Seeds集和成对约束的半监督聚类算法 (2012年)

论文研究-基于辅助学习与富信息策略的Tri-training算法.pdf

半监督学习新算法：LDL-tri-training提升分类精度与稳定性

基于Seeds集与成对约束的半监督聚类算法研究

最新资源