0
4梁米等人
0
3.1最优输运
0
假设P(M)是M上所有Borel概率测度的空间。不失一般性,假设X(x,µ)和Y(y,ν
)是两个这样的测度,即X,Y∈P(M)。那么,我们有1=
00
Mν(y)dy,其中支撑集ΩX={x}={m∈M|µ(m)>0}和ΩY={y}={m∈M|ν(m)
>0}。如果任意子集B的测度等于B在X中的原像的测度,即µ(T^(-1)(B))=ν(B),B
Y,则将映射T:X(x,µ)→Y(y,ν)称为保测度映射。我们可以将T视为两个测度的耦合π(x,
y),每个测度都是相应的边缘µ=π(∙,y),ν=π(x,
∙)。然后,所有的耦合都是乘积空间中的概率测度,π∈(M×
M)。给定一个运输成本c:M×M→R+,通常是到幂次p的测地线距离,c(x,y)=d(x,
y)^p,最优输运问题是找到使总成本最小化的映射πopt:x→y,
0
Wp(µ,ν)def=infπ∈(µ,ν)
00
M×Mc(x,y)dπ(x,y)1/p,(1)
0
其中p表示幂次。我们称最小总成本为p-Wasserstein距离。由于我们处理的是无法分割
质量的Monge的OT问题,我们有约束条件dπ(x,y)=dπT(x,y)≡dµ(x)δ[y=
T(x)],推断出
0
πTopt=Topt=argminT
00
Mc(x,T(x))dµ(x).(2)
0
在本文中,我们遵循公式(2)。最优输运问题的细节以及Wasserstein距离的性质可以
在[25,23]中找到。为简单起见,我们用π表示最优输运映射。
0
3.2K-means聚类
0
给定概率分布X(x,µ)的经验观测{(xi,
µi)},k-means聚类问题旨在以使得误差函数(3)达到最小值的方式将聚类质心(或原
型)yj=y(xi),标记为j=1,...,
0
yj=y(xi)µi。它等价于在嵌入空间M中找到一个分割V={(Vj,
yj)}。如果M是凸的,那么Vj也是凸的。
0
argminy
00
xiµid(xi,y(xi))p≡argminV
0
K
0
j=1
00
xi∈Vjµid(xi,y(Vj))p.(3)
0
当ν固定时,这样的聚类问题(3)等价于当y的支撑是稀疏且不固定时的Monge的OT问
题(2),因为π和V相互诱导,即πV。因此,方程(3)的解来自于搜索空间P(π,
y)中的优化。注意,当ν不固定时,这样的问题变成了Wasserstein重心问题,即在P(π,
y,ν)中寻找最小值,这在[4,5,7]中进行了研究。