变分Wasserstein聚类:最优输运与k-means的结合

0 下载量 86 浏览量 更新于2024-06-20 收藏 31.71MB PDF 举报
"基于Wasserstein距离的最优输运聚类" 本文介绍了一种创新的聚类方法,该方法利用最优输运理论,特别是在Wasserstein距离的基础上进行聚类。Wasserstein距离是一种衡量概率分布之间差异的方式,常用于解决概率测度之间的运输成本最小化问题。在传统的k-means聚类中,数据点被分配到最近的聚类中心,而该方法则考虑了更复杂的分布关系,不仅追求最小化聚类内部的距离,还同时优化了聚类中心与目标域之间的Wasserstein距离。 作者Liang Mi、Wen Zhang、Xianfeng Gu和Yalin Wang提出了一种结合变分原理解决最优输运问题的新策略。他们利用功率图作为运输计划,将任意数据域聚集成固定数量的簇。功率图在优化过程中起到关键作用,通过调整它来驱动目标域中的聚类中心,同时保持较低的聚类能量。这种方法保证了聚类的稳定性和质量,同时也维持了数据的度量结构。 文章指出,最优输运在计算机视觉和机器学习中有广泛应用,例如无监督图像分类、文档分析和语音识别等。k-means作为最常用的聚类算法,其与最优输运的联系被越来越多的研究者发现。最优输运问题的解决方案不仅可以应用于颜色转换和形状检索,还能通过计算分布的重心来进行多分布分析。 文中区分了两种类型的最优输运:坎托罗维奇的最优输运允许样本被分配到多个位置,而蒙日-布雷尼尔的最优输运则强调样本不能被分割,确保了分布间的保度量映射。本文所提出的聚类方法融合了这两种思想,寻求一种既能有效聚类又能保持度量一致性的方法。 在实验部分,作者在合成数据和真实数据上展示了新方法在领域适应、重网格化和学习表示方面的性能。这些应用表明,基于Wasserstein距离的最优输运聚类不仅能提供更精确的聚类结果,还能在处理复杂分布和跨域问题时展现出优势。 关键词包括:聚类、离散分布、k-means、保度量、最优输运、Wasserstein距离。文章的引入部分进一步阐述了聚类在不同领域的应用,以及k-means和最优输运之间的历史联系,强调了Wasserstein距离在计算和度量聚类质量中的重要性。通过这种方法,研究者们为聚类算法提供了一个新的视角,为未来的研究开辟了新的方向。