变分Wasserstein聚类：最优输运与k-means的结合

176 浏览量更新于2024-06-20 收藏 31.71MB PDF 举报

"基于Wasserstein距离的最优输运聚类" 本文介绍了一种创新的聚类方法，该方法利用最优输运理论，特别是在Wasserstein距离的基础上进行聚类。Wasserstein距离是一种衡量概率分布之间差异的方式，常用于解决概率测度之间的运输成本最小化问题。在传统的k-means聚类中，数据点被分配到最近的聚类中心，而该方法则考虑了更复杂的分布关系，不仅追求最小化聚类内部的距离，还同时优化了聚类中心与目标域之间的Wasserstein距离。作者Liang Mi、Wen Zhang、Xianfeng Gu和Yalin Wang提出了一种结合变分原理解决最优输运问题的新策略。他们利用功率图作为运输计划，将任意数据域聚集成固定数量的簇。功率图在优化过程中起到关键作用，通过调整它来驱动目标域中的聚类中心，同时保持较低的聚类能量。这种方法保证了聚类的稳定性和质量，同时也维持了数据的度量结构。文章指出，最优输运在计算机视觉和机器学习中有广泛应用，例如无监督图像分类、文档分析和语音识别等。k-means作为最常用的聚类算法，其与最优输运的联系被越来越多的研究者发现。最优输运问题的解决方案不仅可以应用于颜色转换和形状检索，还能通过计算分布的重心来进行多分布分析。文中区分了两种类型的最优输运：坎托罗维奇的最优输运允许样本被分配到多个位置，而蒙日-布雷尼尔的最优输运则强调样本不能被分割，确保了分布间的保度量映射。本文所提出的聚类方法融合了这两种思想，寻求一种既能有效聚类又能保持度量一致性的方法。在实验部分，作者在合成数据和真实数据上展示了新方法在领域适应、重网格化和学习表示方面的性能。这些应用表明，基于Wasserstein距离的最优输运聚类不仅能提供更精确的聚类结果，还能在处理复杂分布和跨域问题时展现出优势。关键词包括：聚类、离散分布、k-means、保度量、最优输运、Wasserstein距离。文章的引入部分进一步阐述了聚类在不同领域的应用，以及k-means和最优输运之间的历史联系，强调了Wasserstein距离在计算和度量聚类质量中的重要性。通过这种方法，研究者们为聚类算法提供了一个新的视角，为未来的研究开辟了新的方向。

4梁米等人

3.1最优输运

假设P（M）是M上所有Borel概率测度的空间。不失一般性，假设X（x，µ）和Y（y，ν

）是两个这样的测度，即X，Y∈P（M）。那么，我们有1=

Mν(y)dy，其中支撑集ΩX={x}={m∈M|µ(m)>0}和ΩY={y}={m∈M|ν(m)

>0}。如果任意子集B的测度等于B在X中的原像的测度，即µ(T^(-1)(B))=ν(B)，B

Y，则将映射T:X(x,µ)→Y(y,ν)称为保测度映射。我们可以将T视为两个测度的耦合π(x,

y)，每个测度都是相应的边缘µ=π(∙,y)，ν=π(x,

∙)。然后，所有的耦合都是乘积空间中的概率测度，π∈(M×

M)。给定一个运输成本c:M×M→R+，通常是到幂次p的测地线距离，c(x,y)=d(x,

y)^p，最优输运问题是找到使总成本最小化的映射πopt:x→y，

Wp(µ,ν)def=infπ∈(µ,ν)

M×Mc(x,y)dπ(x,y)1/p，(1)

其中p表示幂次。我们称最小总成本为p-Wasserstein距离。由于我们处理的是无法分割

质量的Monge的OT问题，我们有约束条件dπ(x,y)=dπT(x,y)≡dµ(x)δ[y=

T(x)]，推断出

πTopt=Topt=argminT

Mc(x,T(x))dµ(x).(2)

在本文中，我们遵循公式（2）。最优输运问题的细节以及Wasserstein距离的性质可以

在[25,23]中找到。为简单起见，我们用π表示最优输运映射。

3.2K-means聚类

给定概率分布X(x,µ)的经验观测{(xi,

µi)}，k-means聚类问题旨在以使得误差函数（3）达到最小值的方式将聚类质心（或原

型）yj=y(xi)，标记为j=1,...,

yj=y(xi)µi。它等价于在嵌入空间M中找到一个分割V={(Vj,

yj)}。如果M是凸的，那么Vj也是凸的。

argminy

xiµid(xi,y(xi))p≡argminV

K

j=1

xi∈Vjµid(xi,y(Vj))p.(3)

当ν固定时，这样的聚类问题（3）等价于当y的支撑是稀疏且不固定时的Monge的OT问

题（2），因为π和V相互诱导，即πV。因此，方程（3）的解来自于搜索空间P(π,

y)中的优化。注意，当ν不固定时，这样的问题变成了Wasserstein重心问题，即在P(π,

y,ν)中寻找最小值，这在[4,5,7]中进行了研究。

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

变分Wasserstein聚类：最优输运与k-means的结合

Optimal Transport and Wasserstein Distance

wasserstein-dist:Wasserstein（aka最优输运）距离的tensorflow实现

Wasserstein-distance-calculation:最佳运输和优化相关实验

如何理解基于Wasserstein距离的最优输运聚类方法，并解释它与传统k-means聚类算法的不同之处？

在数据聚类中，基于Wasserstein距离的最优输运聚类方法与传统的k-means算法相比，有哪些独特的优势和应用场景？

基于wasserstein距离的两阶段鲁棒优化调度

基于Wasserstein距离和分裂Bregman方法的图像分割算法

基于Wasserstein距离的分布式电源出力场景划分.pdf

基于wasserstein距离的电力系统自调度分布鲁棒优化程序 （包含ADMM算法）

wasserstein距离(em距离) 聚类

最新资源

基于wasserstein距离的电力系统自调度分布鲁棒优化程序（包含ADMM算法）