没有合适的资源?快使用搜索试试~ 我知道了~
1混合分布的归一化Wasserstein及其在对抗学习和领域自适应中的应用计算机科学马里兰大学yogesh@cs.umd.eduRama ChellappaUMIACS马里兰大学rama@umiacs.umd.edu计算机科学马里兰大学sfeizi@cs.umd.edu摘要理解分布之间的适当距离度量是生成模型、领域自适应、聚类等学习任务的核心。在这项工作中,我们专注于混合分布,自然出现在几个应用领域的数据包含不同的子群体。对于混合分布,已建立的距离度量(如Wasserstein距离)没有考虑不平衡的混合比例。因此,即使两个混合分布具有相同的混合成分但不同的混合比例,它们之间的Wasserstein距离也会很大。这通常导致混合分布的基于距离的学习方法中的不期望的结果。在本文中,我们解决了这个问题,通过引入归一化Wasserstein测度。关键思想是引入混合比例作为最优X=X i,概率为π i,其中1≤i≤k。k是混合物组分的数量,并且π =[π1,...,π k]T是混合(或模式)比例的向量。的概率每个Xi的分布被称为混合组分(或众数)。混合分布在不同的应用中自然出现,其中数据包含两个或多个子群体。例如,具有不同标签的图像数据集可以被视为混合(或多模态)分布,其中具有相同标签的样本表征特定混合组分。如果两个混合分布具有完全相同的混合成分(即相同的X1)与不同的混合比例(即,不同的π),则两者之间的经典距离度量将很大。这可能导致若干基于距离的机器学习方法中的不期望的结果。为了说明这个问题,考虑两个分布PX和PY之间的Wasserstein距离,定义为[22]Mization变量,有效地归一化Wasserstein公式中的混合物比例使用所提出的W(PX,PY):= minE[X−Y],(1)PX,Y与普通Wasserstein距离相比,标准化Wasserstein测度导致具有不平衡混合比例的混合分布的显著的概率增益。我们在几个基准数据集上证明了所提出的GANs,域适应和对抗1. 介绍量化概率分布之间的距离是机器学习和统计学中的一个基本问题,在生成模型、域自适应、聚类等中有若干应用。流行的概率距离度量包括最优传输度量,如Wasserstein距离[22]和散度度量,如Kullback-Leibler(KL)散度[4]。然而,经典的距离测度可能会导致混合分布的一些问题混合分布是随机变量X的概率分布,其中边际X(PX,Y)=PX,边际Y(PX,Y)=PY其中PX,Y是其边际分布等于PX和PY的联合分布(或耦合)。当没有混淆时,为了简化符号,在某些等式中,我们使用W(X,Y)符号代替W(PX,PY)。Wasserstein距离优化是在所有关节分布(耦合)PX,Y,其边际分布与输入分布PX和PY完全匹配。当PX和PY是具有不同混合比例的混合分布时,此要求可能会导致问题。在这种情况下,由于边际约束,属于非常不同的混合组分的样本将必须在PX,Y中耦合在一起(例如,图1(a))。因此,使用这种距离度量可能会导致诸如域自适应之类的问题的不期望的这激发了发展一种新的距离度量的需要,以考虑混合分布中的计数模式不平衡。在本文中,我们提出了一种新的距离测量,解决了混合比例不平衡的问题,65006501P2P1图1.说明了所提出的归一化Wasserstein测度在域适应中的有效性。源域(以红色显示)和目标域(以蓝色显示)具有两种模式,模式比例不同。(a)通过估计源和目标分布之间的Wasserstein距离计算的耦合(以黄线显示)与来自不正确和远距离模式分量的几个样本相匹配。(b,c)我们提出的归一化Wasserstein测度(3)构造了中间混合分布P1和P2(绿色显示),它们分别具有与源分布和目标分布相似的混合成分,但具有优化的混合比例。这显著减少了来自不正确模式的样本之间的耦合的数量,并且与基线相比,导致域适应中的目标损失减少42%多模态分布我们的发展集中在一类最佳的运输措施,即瓦塞尔斯坦距离方程(1)。然而,我们的想法可以自然地扩展到其他距离测量(例如。敌对距离[6])。设G是具有k个分量的生成函数的数组,定义为G:= [G1,...,Gk]。设PG,π是随机变量X的混合概率分布,其中X=Gi(Z),概率为πi(1≤i≤k).在本文中,我们假设Z服从正态分布。通过放松经典Wasserstein距离(1)的边缘约束,我们引入归一化Wasserstein测度(NW测度)如下:域适配:在第4节中,我们将域自适应问题表述为最小化源和目标特征分布之间的归一化Wasserstein测度。在具有不平衡数据集的分类任务中,我们的方法显著优于基线(例如,在VISDA- 3数据集上合成到真实适应的20%增益GANs:在第5节中,我们使用GAN公式中我们表明,这样的生成模型可以帮助捕获稀有模式,降低生成器的复杂性,并重新规范化不平衡的数据集。对抗聚类: 在第6节中,我们制定WN(PX,PY):= minG,π(1),π(2)W(PX,PG,π(1))+W(PY,PG,π(2))。将聚类问题作为对抗性学习任务,使用归一化Wasserstein测度2. 归一化Wasserstein测度在这个定义中有两个关键的想法,有助于重新-解决混合分布的模式不平衡问题。首先,我们构造了两个中间分布(可能是混合分布),即PG,π(1)和PG,π(2),而不是直接测量P X和P Y之间的Wasserstein距离。这两个分布具有相同的混合成分(即,相同的G),但可以具有不同的混合比例(即,π(1)和π(2)可以不同)。第二,混合比例 , π( 1 ) 和 π( 2 ) , 被 认 为 是 优 化 变 量 。 这 在Wasserstein距离计算之前有效地归一化了混合比例。参见图1(b,c)中的示例,用于PG,π(1)和PG,π(2)的可视化以及重新归一化步骤。在本文中,我们证明了所提出的归一化Wasserstein测度在三个应用领域的有效性。在每种情况下,当输入数据集是具有不平衡混合比例的混合分布时,我们所提出的方法的性能相对于基线显著提高下面,我们简要介绍一下这些结果:在本节中,我们介绍了归一化Wasserstein测度并讨论 了 它 的 性 质 。 回 想 一 下 , G 是 定 义 为 G : =[G1,...,GK]其中Gi:Rr-Rd。设G是所有可能的G函数的集合阵 设π是离散概率质量函数,Σk个元素,即π=[π1,π2,···,πk],其中πi≥0,并且iπi=1。设Π是所有可能π的集合设PG,π是一个混合分布,即它是概率分布。随机变量X的概率分布,使得X=Gi(Z),概率为πi,其中1≤i≤k。我们假设Z具有正态密度,即ZN(0,I).我们将G和π分别称为混合组分和比例。所有这些混合分布的集合被定义为:PG,k:={PG,π:G∈G,π∈N}(2)其中k是混合物组分的数量。给定属于混合分布PG,k族的两个分布PX和PY,我们感兴趣的是定义距离6502J测量对模式比例的差异不可知,但对模式分量的偏移敏感,即,距离函数应当仅在PX和PY的模式分量不同时具有高值。如果PX和PY具有相同的振型分量,但仅在振型比例上不同,则距离应该较低。主要思想是在Wasserstein距离公式(1)中引入混合比例作为优化变量这导致以下距离测量,我们称之为归 一 化 Wasserstein 测 量 ( NW 测 量 ) , WN ( PX ,PY),定义为:(见图1中的(b)和(c))。3. 理论成果为了使NW测量有效地工作,NW公式中的模式的数量k(等式1)可以是:(3)必须适当地选择例如,给定每个具有k个分量的两个混合分布,具有2k个模式的归一化Wasserstein测度将总是给出0值。在这一节中,我们提供了一些理论条件,在这些条件下,可以准确地估计模式的数量。我们首先对两个混合分布做以下假设minG,π(1),π(2)W(PX,PG,π(1))+W(PY,PG,π(2))(3)Σkπ(i)= 1,i= 1,2,j=1π(i)≥0 1≤j≤ k,i=1,2.我们希望计算其NW距离的X和Y• (A1)如果分布X中的模式i和分布Y中的模式j属于相同的混合分量,则它们的Wasserstein距离≤,即,如果Xi和Yj为响应于相同的分量W(PX,PY)δ且W(PYi,PYj)>δπi/=j。此外,X和Y之间的非重叠模式是以δ分隔,即, 对于非重叠模式 Xi和Yj , W(PXi,PYj)>δ。 这确保了模式被很好地分离。• (A3)我们假设每个模式 Xi和 Yi具有至少η的密度,即,PXi≥ηi,PYi≥ηi。这确保每个模式比例至少为η。• (A4)每个生成元Gi都有足够的能力来精确地捕获一个分布模式PX或PY。定理1设PX和PY是满足(A1)-(A4)的两个混合分布,分别有n1和n2个混合分量,其中r个混合分量是重叠的。设k=n1+n2−r。然后,k是最小的k,其中NW(k)很小(O(n)),NW(k)-NW(k-1)相对较大(在O(δη)中)证 据 见 补 充 材 料 第 1 节 。 所 有 假 设 都 是 合 理 的 :(A1)-(A3)强制混合分布中的非重叠模式分离,并且重叠模式在Wasserstein距离中接近。为了实施(A4),我们需要防止G的一个模式中的多模式生成。这可以通过使用等式中的正则化器来满足。(十一)、注意,在上面的定理中,k*是应该在归一化沃瑟斯坦公式中使用的最优k定理给出了一种估计kε的方法.实验结果请参见第7 在许多应用程序中,如域然而,在自适应中,分量的数量k是预先已知的,并且可以跳过该步骤。6503S4. 规范化Wasserstein在Domain Adapta中-上述公式可以被视为实例的一个版本加权,因为X(i)中的源样本被π加权。第一次在本节中,我们展示了NW度量在无监督域自适应(UDA)中的有效性,分类)和无监督(例如,去噪)任务。注意,UDA中的术语无监督意味着目标域中的标签信息是未知的,而无监督任务意味着源域中的标签信息是未知的。首先,我们考虑一个分类任务的域适应。设(Xs,Ys)表示源域,而(Xt,Yt)表示目标域.由于我们处理分类设置,因此我们有Y s,Y t∈ {1,2,.,k}。一个...域自适应问题的一个公式是将Xs和Xt变换到一个特征空间,其中源和目标特征分布之间的距离足够小,同时可以在该空间中为源域计算好的分类器[6]。在这种情况下,解决以下优化:实例加权机制已经得到了很好的研究,域适应[23,24]。然而,与这些方法不同的是,我们使用神经网络以端到端的方式训练模式比例向量π,并在Wasserstein优化中集成实例权重。与我们的工作更相关的是[3]中提出的方法,其中实例权重在神经网络中进行端到端训练然而,在[3]中,实例权重相对于Wasserstein损失最大化,而我们表明混合比例需要最小化以规范化模式失配。此外,我们的NW测度公式可以处理源嵌入的模式分配未知的情况(如我们在4.2节中讨论的)。这种情况不能用[3]中提出的方法来处理。对于源样本的模式分配未知的无监督任务,我们不能使用(5)的简化公式。在这种情况下,我们使用域自适应方法来解决以下优化:minf∈F Lcl(f(Xs),Ys)+λdist(f(Xs),f(Xt))(4)minf∈F Lunsup(Xs)+λWN(f(Xs),f(Xt)),(7)其中,λ是自适应参数,并且Lcl是经验分类损失函数(例如,交叉熵损失)。分布之间的距离函数可以是对抗距离[6,21]、Wasserstein距离[20]或基于MMD的距离[14,15]。当X s和X t是具有不同混合比例的混合分布时(通常情况下,每个标签对应于一个混合分量),使用这些经典距离度量可能导致计算不适当的变换和分类函数。在这种情况下,我们建议使用NW测度作为距离函数。计算NW测度需要训练混合分量G和模式比例π(1)、π(2)。 为了简化计算,我们利用源域的标签(即,Y)是已知的,因此可以使用这些标记来识别源混合物组分。使用此信息,我们可以避免直接计算G的需要,并使用条件源特征分布作为混合成分的代理,如下所示:G(Z)d=istf(X(i)),(5)其中Lunsup(Xs)是对应于期望在源域数据上执行无监督4.1. 用于受监督任务的UDA4.1.1MNIST →MNIST-M在第一组实验1中,我们考虑MNIST→ MNIST-M数据集之间的自适应。我们考虑在源和目标数据集中具有不平衡类比例的三个设置:3模式、5模式和10模式。更多详情见补充材料表3。我们使用与[6]相同的架构用于特征网络和鉴别器。我们将我们的方法与以下方法进行比较:(1)仅源模型,这是一种仅在源域上训练的基线模型,没有执行域自适应,(2)DANN [6],一种最小化源和目标分布之间的对抗距离的方法,以及(3)Wasserstein[20],其中源和目标分布之间的Wasserstein距离最小化。表1总结了我们的实验结果我们观察到,使用对抗距离和Wasserstein距离执行域自适应会导致性能Is与基线模型相比。 这是一个结果,X(i)={Xs|Ys=i},1≤i≤k,其中d=ist表示匹配分布。使用(5),域自适应的公式可以写为考虑到模式不平衡,从而导致负转移,即,属于不正确类的样本被耦合,并且被推到嵌入空间中的接近然而,我们提出的NW措施考虑了模式min 最小L(X,Y)+λW.ΣΣ π(i) f( X(i)),f(X).在所有三种设置中,都可以显著改善不平衡并显著提高性能。f∈Fπ公司简介Sti1代码可在https://github.com/yogeshbalaji/(6)归一化-瓦瑟斯坦6504S2表1.平均分类准确率(%)平均超过5在不平衡MNIST→MNIST-M适配方法3种模式5种模式10种模式源仅66.6367.4463.17DANN62.3457.5659.31Wasserstein61.7560.5658.22NW75.0676.1668.574.1.2VISDA在第4.1.1节关于数字数据集的实验中,已经从头开始训练模型。然而,在领域自适应中使用的一种常见做法是从预先训练的网络(例如,在Ima-geNet上训练的模型),并对所需的任务进行微调。为了评估我们的方法在这种环境中的性能,我们考虑在VISDA数据集[18]上进行自适应;这是最近提出的用于从合成图像适应到真实图像的基准。我们考虑包含以下三个类的整个VISDA数据集的子集:飞机、马和卡车。源域包含(0。55,0。33,0。12)每个类的样本分数,而目标域的样本分数为(0.12,0。33,0。55)。我们使用在ImageNet上预训练的Resnet-18模型作为我们的特征网络。如表2所示,我们的方法显着提高了域适应性能的基线和其他比较的方法。表2.平均分类准确率(%)平均超过5在VISDA数据集上运行合成到真实的适应(3类)方法准确度(%)源仅53.19DANN68.06Wasserstein64.84归一化Wasserstein73.234.1.3模式平衡数据集4.2. 用于无监督任务的UDA对于混合数据集上的无监督任务,我们使用公式(7)来执行域自适应。为了验证这一公式,我们考虑了IM-年龄去噪问题源域由来自MNIST数据集的dig-its{1,2}组成,如图2(a)所示请注意,数字2的颜色是反转的。目标域是源的噪声版本,即源图像被随机独立同分布高斯噪声N(0. 四,零。7)获得目标图像。我们的数据集在源域中包含5000个数字1和1000个数字2的1000个噪声数字1的样本和5000个噪声数字2的样本。该任务是通过降维来执行图像去噪,即,给定目标域图像,我们需要重建相应的干净的图像,看起来像源。我们假设数据集中没有(源,目标)对应关系。为了在(源,目标)对应性不可用时执行去噪,自然的选择将是最小化源中的重建损失,同时最小化源和目标嵌入分布之间的距离我们使用NW测度作为距离测度的选择。这导致以下优化:minExXg(f(x))−x2+λWN(f(Xs),f(Xt))f、g其中f(?)是编码器,并且g(. )是解码器。作为我们的基线,我们考虑一个只训练了源使用二次重建损失。图2(b)示出了由该基线产生的源嵌入和目标嵌入。在这种情况下,源嵌入和目标嵌入彼此远离。然而,如图2(c)所示,使用NW公式,源和目标嵌入的分布紧密匹配(具有估计的模式比例)。我们测量目标区域的L2重建损失errrecons,tgt=ExXg(f(x))−x2,作为定量的前两个实验证明了有效的-t2当数据集不平衡时,我们的方法的性质。在本节中,我们将研究源域和目标域具有模式平衡数据集的情况我们每-使用整个数据集进行MNIST→MNIST-M自适应的形式实验。 表3报告了获得的结果。我们观察到我们的方法与标准Wasserstein距离最小化的性能相当。表3.模式平衡数据集上的域自适应:MNIST→MNIST-M。平均分类精度平均超过5运行报告方法分类准确度(%)源仅60.22DANN85.24Wasserstein83.47归一化Wasserstein84.16评价措施 不同方法的此值为见表4。我们观察到,我们的方法优于比较的方法。表4. errrecons,tgt用于图像去噪任务方法错误侦察,tgt源仅0.31Wasserstein0.52归一化Wasserstein0.18目标培训(Oracle)0.085. 归一化Wasserstein GAN从数据中学习概率模型是统计学和机器学习中的一个基本问题。基于深度学习的成功,最近解决这个问题的方法是使用生成对抗网络(GANs)[8]。6505图2.图像去噪的域自适应。(a)来自源域和目标域的示例。(b)由基线模型学习的源和目标嵌入。(c)通过最小化所提出的NW度量来学习源和目标嵌入。在(b)和(c)中,红点和绿点分别表示源样本和目标样本。GAN将这个问题视为生成器和神经网络之间的游戏,生成器的目标是生成接近真实数据训练样本的假样本,神经网络的目标是区分真实和假样本。大多数GAN框架可以被视为最小化观察到的概率分布PX和生成概率分布PY之间的距离的方法,其中Y=G(Z)。G被称为generator函数。在几个GAN公式中,距离PX和PY之间的关系被公式化为另一个表征最小值的优化。在过去的几年里,已经提出了几种GAN架构。汇总列表包括基于最佳传输措施(例如,WassersteinGAN+权重裁剪[1],WGAN+梯度惩罚[9]),基于发散度量的GAN(例如,原始GAN的公式[ 8 ],DCGAN[ 19 ],f-GAN [ 17 ]),基于矩匹配的GAN(例如MMD-GAN [ 5,11 ])和其他公式(例如,最小二乘GAN [16]、BigGAN [2]等)如果观察到的分布PX是混合分布,则可以使用所提出的归一化Wasserstein测度(3我们不是像在标准GAN中那样估计单个生成器G,而是使用所提出的NW测量来 估 计 混 合 分 布 PG , π 我 们 将 该 GAN 称 为 归 一 化Wasserstein GAN(或NWGAN),其被公式化为以下优化:建议的NWGAN和现有的GAN体系结构之间存在一些差异。所提出的NWGAN中的生成器是k个模型的混合,每个模型产生所生成样本的πι分数。我们基于应用域先验地选择k,而π在NW距离优化内计算。在最近的一些工作中,也研究了将发电机建模为k个神经网络的混合物[10,7]。然而,这些方法假设混合比例π是预先已知的,并且在训练期间保持固定相比之下,我们的方法更一般,因为混合物比例也被优化。估计模式比例有几个重要的优点:(1)我们可以估计罕见的模式,(2)不平衡的数据集可以重新归一化,(3)通过允许每个Gi只关注分布的一部分,可以提高生成模型的质量在下文中,我们强调了NWGAN在不同数据集上的这些属性5.1. 高斯混合首 先 , 我 们 提 出 了 在 二 维 高 斯 混 合 物 上 训 练NWGAN的结果。 输入数据是9个高斯的混合,每个高斯以3×3网格,如图3所示。 平庸和平庸-随机选择每个模式的概率矩阵。模式模式i的比例选择为πi=i,其中1≤i≤9。minG,πW N(PX,PG,π).(八)45NWGAN在该数据集上使用k=9仿射生成器模型生成的生成如图3所示。我们在这种情况下,NW距离简化为并与WGAN [1]和MGAN [10]进行了比较最小WNG,π(PX,PG,π)由于MGAN不在π上优化,因此我们假设均匀的模式比例(对于所有i,π i= 1/9)。为了培训WGAN,a=minminW(PX,PG′,π(1))+W(PG,π,PG′,π(2))G,πG′,π(1),π(2)=min W(PX,PG,π)。(九)G,π使用非线性生成器函数,因为单个仿射函数不能模拟高斯分布的混合。为了评估生成模型,我们报告以下内容-定量评分:(1)平均平均误差,6506KJ公司简介图3.混合高斯实验。在所有图中,红点表示来自真实数据分布的样本,而蓝点表示来自生成的分布的样本。NWGAN能够捕获数据中的罕见模式,并产生比其他方法更好的生成模型。是在所有模式上平均的每个模式的真实样本和生成样本的平均向量之间的均方误差(MSE),(2)平均协方差误差,其是在所有模式上平均的每个模式的真实样本和生成样本的协方差矩阵之间的MSE,以及(3)π估计误差,其是真实样本和生成样本的π注意,计算这些指标需要为生成的样本分配模式。这是基于生成样本与地面实况均值的接近度来完成的。我们在表5中报告了不同GAN的这些误差项。我们观察到,建议NWGAN达到最好的成绩相比,其他两种方法。此外,从图3中,我们观察到MGAN训练的生成模型错过了数据中的一些罕见模式。这是因为当真实值π不均匀时,假设固定的混合比例所引起的误差由于所提出的NWGAN在优化中估计π这表明了估计混合比例的重要性,特别是当输入数据集具有不平衡模式时。表5.混合高斯分布的定量评价为了突出优化混合比例以产生解纠缠生成模型的重要性,我们将NWGAN的性能与NWGAN的变体进行比较,其中模式比例π保持固定为πi=1(均匀分布)。两种模型产生的样本代数见图4。当π保持固定时,模型不产生解纠缠的表示(在第二模式中,我们观察到CI-FAR和CelebA生成图像的混合)。然而,当我们优化π时,每个生成器产生不同的模式。6. 对抗聚类在本节中,我们使用所提出的NW度量来公式化对抗聚类方法。更具体地说,让输入数据分布具有k个底层模式(每个代表一个集群),我们打算恢复这些模式。在[25](使用GAN)和[13](使用VAE)中探索了使用深度生成模型来执行聚类。与此不同的是,我们的方法使用建议的NWGAN进行聚类,从而显式地处理具有不平衡模式的数据。设PX为观测经验分布。设G*和π*是NWGAN优化(9)的最优解。对于给定的点xi∈PX,使用到模式的最近距离来计算聚类分配,即,C(xi)= arg min1≤j≤kΣ最小值xiZ-G(Z)=2π。(十)5.2. CIFAR 10和CelebA学习混合生成模型的一个应用是将数据分布分解为多个分量,其中每个分量表示输入分布的一个模式。这种解纠缠在许多任务中是有用的,例如聚类(第6节)。为了测试NWGAN在执行这种解纠缠方面的有效性,我们考虑了来自CIFAR-10和CelebA [12]数据集中的100,000张图像作为我们的输入分布。所有图像均重新整形为32 ×32。为了执行有效的聚类,我们要求每个模式Gj捕获数据分布的一个模式。在不强制任何正则化和使用丰富的生成器函数的情况下,一个模型可以捕获数据分布的多种模式。为了防止这种情况,我们引入了一个正则化 项 , 最 大 化 不 同 生 成 模 式 之 间 的 加 权 平 均Wasserstein也就是说,ΣR=π i π j W(Gi(Z),Gj(Z)). (十一)(i,j)|i>j方法Avg. µ误差Avg. 误差π误差WGAN0.0070.00030.0036MGAN0.0070.00020.7157NWGAN0.0020.00010.00016507学习π图4.在CIFAR-10和CelebA数据集的混合物上对固定和优化的π进行k= 2的当π固定时,其中一个生成器生成CIFAR和CelebA生成图像的混合(红色框突出显示生成CIFAR+CelebA的模型中然而,当π被优化时,该模型产生解纠缠表示。这个术语鼓励生成模式之间的多样性。利用该正则化项,正则化NWGAN的优化目标变为minW(PX,PG,π)−λreg RG,π其中λreg是正则化参数。我们在一个不平衡的MNIST数据集上测试了所提出的对抗性聚类方法,该数据集包含3,000个数字2的1500个样本、数字4的1500个样本和数字6的6000个样本。我们将我们的方法与k-means方法进行聚类和高斯混合模型(GMM)。使用聚类纯度、NMI和ARI评分作为定量指标(更多详情请参见SM第5.3节)。我们观察到,我们的聚类技术是能够实现良好的性能比较的方法。表6.不平衡MNIST数据集上的聚类结果方法簇纯度NMIArik-means0.820.490.43GMM0.750.280.33NW0.980.940.977. 选择模式正如第3节所讨论的,选择模式的数量(k)是计算NW测度的关键。虽然此信息可用于域自适应等任务,但对于生成式建模等其他任务则是未知的在本节中,我们通过实验验证了我们理论上合理的估计k的算法。考虑第5.1节中给出的具有k=9个模式的高斯数据集的混合。在这个数据集上,NWGAN模型(具有与第5.1节中使用的相同的架构)使用不同数量的模式k进行训练。对于每个设置,计算生成的数据分布和真实数据分布之间的NW测量值,并绘制图。在图5中。我们观察到k=9满足定理1中讨论的条件:最优k*是最小的k图5.选择k:NW测量与模式其中NW(k)很小,NW(k−1)-NW(k)很大,NW(k)在k*之后饱和。8. 结论在本文中,我们表明,Wasserstein距离,由于其边际约束,可能会导致不理想的结果时,应用于不平衡的混合分布。为了解决这个问题,我们提出了一种新的距离度量,称为归一化Wasserstein。关键思想是在距离计算中优化混合比例,有效地归一化混合不平衡。我们在三个机器学习任务中证明了NW度量的有用性:GANs,域适应和对抗聚类。所有三个问题的实证结果突出了建议的距离测量的有效性。9. 确认Yogesh Balaji和Rama Chellappa得到了陆军研究办公室的MURI计划的支持,该计划获得了W 911 NF 17 -1-0304 的 资 助 。 Soheil Feizi 由 美 国 国 家 科 学 基 金 会(NSF)根据CDS E:1854532和Capital One ServicesLLC资助。6508引用[1] 马 丁 ·阿 乔 对 ky , 苏 米 特 ·钦 塔 拉 和 Le'onBottou 。Wasserstein GAN arXiv 预 印 本 arXiv : 1701.07875 ,2017。三、六[2] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练CoRR,abs/1809.11096,2018。6[3] Qingchao Chen , Yang Liu , Zhaowen Wang , IanWassell,and Kevin Chetty.用于无监督域自适应的重加权对抗自适应网络。在IEEE计算机视觉和模式识别会议(CVPR)中,2018年6月。4[4] Thomas M Cover和Joy A Thomas 信息理论的要素。JohnWiley Sons,2012. 1[5] Gintare Karolina Dziugaite,Daniel M Roy,and ZoubinGhahramani.通过最大平均差异优化训练生成神经网络。arXiv预印本arXiv:1505.03906,2015年。6[6] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督主适应。在Francis Bach和David Blei的编辑,Proceedings of the 32 nd International Conference onMachine Learning , 第 37 卷 Proceedings of MachineLearning Research,第1180法国,2015年7月7日至9日。PMLR。二、四[7] Arnab Ghosh、Viveka Kulharia、Vinay P Namboodiri、Philip HS Torr和Puneet K Dokania。多智能体多样化生成对抗网络。CoRR,abs/1704.02906,6:7,2017。6[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672五、六[9] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin 和Aaron Courville。 改进 WassersteinGAN的训练。arXiv预印本arXiv:1704.00028,2017。6[10] Quan Hoang 、 Tu Dinh Nguyen 、 Trung Le 和 DinhPhung。MGAN:用多个生成器训练生成对抗网。2018.6[11] Yujia Li,Kevin Swersky,and Rich Zemel.生成矩匹配网络。第32届国际机器学习会议(ICML-15)集,第1718-1727页,2015年6[12] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。在2015年国际计算机视觉会议(ICCV)上7[13] 放大图片作者:Francesco Locatello,Damien Vincent,Ilya O. Tolstikhin , GunnarRa? tsch , Syl vainGell y,andBernhardSch o? l k opf. 聚类满足隐式生成模型。CoRR,abs/1804.11130,2018。7[14] Mingsheng Long , Yue Cao , Jianmin Wang , andMichael I.约旦.使用深度适应网络学习可转移特征。在Proceedings of the 32 nd International Conference onMachine Learning,第97-105页,2015年。4[15] Mingsheng Long,Jianmin Wang,and Michael I.约旦.无监 督 域 自 适 应 与 残 余 转 移 网 络 。 CoRR ,abs/1602.04433,2016。4[16] Xudong Mao , Qing Li , Haoran Xie , Raymond YKLau,and Zhen Wang.具有l2损失函数的多类生成对抗网络。arXiv预印本arXiv:1611.04076,2016。6[17] Sebastian Nowozin、Botond Cseke和Ryota Tomioka。f-GAN:使用变分散度最小化训练生成神经采样器。神经信息处理系统的进展,第271-279页,2016年6[18] Xingchao Peng , Ben Usman , Neela Kaushik , JudyHoffman,Dequan Wang,and Kate Saenko.Visda:视觉领域适应挑战。CoRR,abs/1710.06924,2017。5[19] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv:1511.06434,2015。6[20] Jian Shen,Yanru Qu,Weinan Zhang,Yong Yu.Wasser-stein距离引导的领域适应表示学习。在AAAI,第4058-4065页中。AAAI Press,2018. 4[21] Eric Tzeng,Judy Hoffman ,Kate Saenko,and TrevorDarrell.对抗性判别域自适应。在计算机视觉和模式识别(CVPR),第1卷,第4页,2017年。4[22] Ce'dricVillani.最佳运输:新旧,卷338。Springer Science Business Media,2008. 1[23] Hongliang Yan , Yukang Ding , Peihua Li , QilongWang,Yong Xu,and Wangmeng Zuo.注意类权重偏差:无监督域自适应的加权最大平均差异。在2017年IEEE计算机视觉和模式识别会议上,CVPR 2017,檀香山,HI,USA,July 21-26,2017,pages 945-954,2017. 4[24] 我和你还有乔巴·塞佩斯。协变量移位下的核均值匹配分析在第29届国际机器学习会议(ICML 2012)上,2012年6月26日至7月1日,英国苏格兰爱丁堡。4[25] 杨宇和周文姬。用于聚类的gans的混合。在第27届国际人工智能联合会议上,IJCAI-18,第3047-3053页。国际人工智能组织联合会议,2018年。7
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功