wasserstein distance loss
时间: 2023-05-10 08:03:23 浏览: 616
华瑟斯坦距离损失(Wasserstein Distance Loss)是一种用于度量两个概率分布之间差异的度量方式。其本质是基于最优运输(Optimal Transport)理论的,即何种方法可以从一个分布将所有的概率质量转移到另一个分布,使得转移的总成本最小。尤其对于像生成对抗网络(GAN)这样需要优化两个分布之间的距离的任务中,相比于传统的KL散度或JS散度等度量方式,Wasserstein距离可以提供更加准确、鲁棒和平滑的优化目标。
Wasserstein距离损失的定义是:对于分别服从$p(x)$和$q(x)$两个分布的输入样本$x$和$x'$,将其所处的空间的任意成对距离定义为$c(x, x')$,而其中的成本则为$d = \min\limits_{\gamma \sim \Pi(p, q)} \mathbb{E}_{(x,x') \sim \gamma}[c(x,x')]$,其中的$\Pi(p,q)$表示$p$和$q$的所有联合分布的集合。因此,Wasserstein距离可以表示为:
$W(p,q) = \min\limits_{\gamma \sim \Pi(p, q)} \mathbb{E}_{(x,x') \sim \gamma}[c(x,x')]$
而Wasserstein距离损失则是在GAN的训练过程中,将生成器(G)生成的样本和真实样本(从真实分布中采样)之间的Wasserstein距离作为损失函数来优化。具体地,对于任意一个判别器(D),我们可以定义其输出为$d(x)$,表示$x$被判别为真实样本的概率(即输出越大则越接近真实样本)。因此,我们可以将D的输出作为相应成对距离的负值,即$c(x,x')=-D(x)+D(x')$,从而得到Wasserstein距离损失:
$L_{W}(G,D)=\mathbb{E}_{x\sim p(u)}[-D(x)]+\mathbb{E}_{x'\sim p_g(u)}[D(x')]$
其中$p(u)$和$p_g(u)$分别表示真实分布和生成分布,在训练中我们在两者中的样本中反复进行训练迭代。通过最小化这个损失函数,生成器逐渐学习到更好的生成分布,从而使得两个分布之间的Wasserstein距离不断减小,最终实现GAN的有效训练。
阅读全文