基于几何矩匹配的球面生成对抗网络(SphereGAN)的优势和应用

49 浏览量更新于2023-10-18 收藏 925KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4292基于几何矩匹配的Sung Woo Park和Junseok Kwon韩国首尔中央大学计算机科学与工程学院pswkiki@gmail.comjskwon@cau.ac.kr摘要提出了一种基于积分概率度量的球生成对抗网络（GAN）. Sphere GAN使用超球体来绑定IPM在目标函数中。因此，它可以被训练阶段，布莱。在超球面上，球面GAN利用几何矩匹配来利用数据的高阶统计信息，从而提供更准确的结果。本文从数学上证明了球面GAN的良好性质。在实验中，对于CIFAR-10、STL-10和LSUN卧室数据集的无监督图像生成问题，sphere GAN在数量和质量上都超过了最近最先进的GAN 。源代码可在 https://github.com/pswkiki/SphereGAN获得。1. 介绍自Goodfellow等人的开创性工作以来。[8]，生成对抗网络（GAN）吸引了许多研究兴趣，它们已被用于在广泛的计算机视觉应用中实现性能提升，包括图像生成[17，26]，超分辨率[14]，视频预测[19]，风格转移[5，12，34]图像修复[39]，图像编辑[14]，视觉跟踪[28]，3D重建[1]，分割[7]，对象检测[35]，强化学习[10]和医学成像[40]。传统的GAN试图最小化假数据和真实数据之间的分布差异[8]。为此，生成器试图产生看起来像真实数据的期望样本虽然GAN已经成功地应用于各种任务，但训练它们非常困难，从而难以使用它们来解决更复杂的问题。例如，训练动态经常变得不稳定，并且生成的样本容易崩溃为几个模式。虽然最近已经提出了很多GAN及其应用，但在本文中，我们将重点放在基于GAN的GAN上，积分概率度量（IPM）[2，9，24，37]，以克服上述问题。基于IPM的GAN通过在目标函数中加入梯度惩罚项或软一致项来实现稳定学习，从而显著提高了性能。然而，这些附加项不可避免地引入了需要调整的附加超参数，从而导致更高的计算成本。此外，许多基于IPM的GAN遭受基于样本的约束策略的不稳定行为，并且WGAN仅使用具有1-Wesserstein距离的对偶形式的一阶统计量。在本文中，我们提出了一种新的基于IPM的GAN--球面GAN.球GAN使用几何矩匹配并利用高阶统计量的信息数据，从而获得准确的结果。由于矩匹配是在超球面上进行的，因此球面GAN的IPM是有界的。我们证明了超球面引起的几何约束使GAN训练更加稳定。球GAN提供这些优点，而不依赖于传统的基于IPM的GAN，即虚拟采样技术和额外的梯度惩罚项的算法。相反，球面GAN利用黎曼流形（即，超球面）的理论支持。本文的主要贡献有三：我们提出了球体GAN，这是一个新的概念，它比基于IPM的GAN具有几个优点据我们所知，我们提出的球面GAN是第一次尝试使用黎曼流形来定义GAN目标函数中的IPM。此外，它是第一个基于IPM的GAN，不使用梯度惩罚或虚拟数据采样技术。证明了球面GAN的良好性质。在第4节中，我们证明了球面GAN与IPM密切相关，并且最小化所提出的距离相当于最小化n维超球面Sn上概率测度的多个Wesserstein距离。Sphere GAN的性能优于最近的最先进的方法，包括基于IPM的GAN变体，用于不稳定的···4293−PNX∈CIFAR- 10、STL-10和LSUN卧室数据集的透视图像生成问题。球面GAN通过有效地匹配特征空间中的高阶矩，显著提高了精度。2. 相关工作当我们利用基于Kullback-Leibler（KL）散度的差异度量时，很难测量两个具有低方差的非重叠概率分布之间的距离[2]。为了克服这个问题，最近提出了基于IPM的GAN变体[23]作为基于KL发散的GAN的在IPM中，两个概率分布之间的距离是通过对某类函数的期望的最大差异来测量的，这使得在基于IPM的GAN中选择适当的函数类至关重要。在本节中，我们将讨论几种基于IPM的GAN变体的优点和缺点。Wesserstein距离：WGAN及其变体[2，9，24，37]使用Wesserstein度量来比较真实图像与假图像的概率度量。在这些方法中，鉴别器被建模为实值1-Lipschitz函数，其输出一维欧氏空间。为了执行Lipschitz条件，WGAN裁剪鉴别器的权重，使它们位于紧凑的区间[ c，c][2]中。然而，权重裁剪导致不稳定的学习并产生次优结果[9]。为了解决这个问题，提出了带有梯度惩罚的WGAN（WGAN-GP）。然而，WGAN-GP的训练时间几乎是其他算法的两倍，方法，因为它需要在每次迭代中计算梯度范数。WGAN-CT [37] 通过将梯度惩罚项与惩罚违反 1-Lipschitz条件的软一致性项相结合来避免此约束。WGAN-GP和WGAN-CT显示了显著的特异性。然而，这两种方法都需要额外的惩罚项，当惩罚权重被错误地选择时，这可能导致次优解。WGAN-CT训练网络具有良好的并行性;通过约束梯度以实现稳定学习。因此，[16]中的目标函数大大降低了网络容量。MMD距离不能很好地处理复杂的自然图像，因为像素空间是高维的。在这种情况下，MMD距离产生低质量的样本，并失去了多样性的表示。其他IPM：具有特定内核的平方MMD众所周知等同于能量距离。Cram e'rGAN 使用这个能量距离来训练GAN[3]。评价函数由神经网络参数化，然后，能量距离最大化[30，41]。像MMDGAN一样，Crame' rGAN对评论函数施加了Lipschitz约束，相比之下，Fisher GAN [22]和Sobolev GAN [21]在Lebesgue球和Sobolev空间上定义了函数类，从而避免了Lipschitz约束;然而，他们需要求解一个增广拉格朗日函数来对鉴别器施加理论上的约束。与MMD GAN和Fisher GAN [22]一样，sphere GAN在GAN目标函数中使用高阶统计信息。然而，MMDGAN和Fisher GAN需要昂贵的惩罚项来满足理论约束。相比之下，（4）中的球GAN的目标函数简单且直接，但也是鲁棒的，因为它在数学上等效于使用在超球上定义的多个Wesser-stein距离第4节提供了数学证明的事实，即目标函数（4）与IPM密切相关。3. 球形GAN本节介绍了新的球体GAN，并表明与最先进的基于IPM的GAN相比，它具有几个优点。3.1. 目标函数基于Wasserstein度量的目标函数直接匹配一维特征空间中的第一矩，如下所示。min maxEx <$P[D（x）]−Ez <$N[D（G（z））]，（1）对比度球体GAN不对虚拟数据点进行采样。G D与WGAN-GP [9]、WGAN-CT [37]和WGAN-LP[24]，sphere GAN没有额外的惩罚项[20]，使其训练时间更短。我们的实验表明，球体GAN实现了最先进的结果，没有梯度约束。最大平均差异（MMD）距离：WGAN只匹配网络中的一阶矩[2]。相比之下，MMD GAN匹配希尔伯特空间中单位球上定义的无限阶矩[16]。 MMDGAN通过使用高阶统计量提供了几个优点;然而，它使用自动编码器来满足网络的注入性，并执行权重裁剪，其中，G和D表示生成器，并且R、R和分别表示真实数据和潜在代码分布。在（1）中，CXD将数据x映射到实数R：D：x∈ X →R，（2）其中D应满足1-Lipschitz条件DLip1，Rn是n维欧氏图像空间.与传统的基于IPM的GAN一样，我们的球体GAN的目标函数基于（1）。不像现有的GAN直接匹配第一时刻4294′SS···′′∗z S−X S图1. 球体GAN的管道。伪数据由发生器从噪声输入生成。然后，真实和虚假数据被馈送到一个映射器，该映射器将输出映射到一个n维欧几里得特征空间（即，黄色平面）。平面上的绿色和紫色圆圈通过几何变换，这些特征点被重新映射到n维超球面（即，黄色球体）。通过使用这些映射点，sphere GAN计算以超球体的北极为中心的几何矩。球GAN的矩最大化真实样本和伪样本之间的概率测度的矩差，而生成器试图通过最小化矩差来干扰球GAN。通过使用定义在超球面上的几何矩，生成器和搜索引擎通过两个玩家的极大极小博弈来增强它们的性能在一维特征空间中，球面GAN匹配在超球面上定义的高阶和多重矩。为此目的，卷积器输出一个n维超球面Sn：D：x∈ X → Sn.（3）然后，将球面GAN的目标函数定义为：表1.基于Wesserstein距离的传统GAN中使用的梯度惩罚项。GP、CT和LP分别表示梯度罚项、软一致性项和Lipschitz罚项。表示从真实数据点到伪数据点的直线均匀采样的特征点tx， x表示由丢失单元扰动的虚拟数据点。min max ΣΣEx[dr（N，D（x）]− Ez[dr.ΣN，D（G（z））]，G DsRSR（四）其中（8）中的函数dr测量每个样本与超球N的北极之间的r阶矩距离。注意下标s表示dr定义在Sn上。图1显示了sphere GAN的管道。在（4）中新的目标函数下，球GAN具有优势.首先，通过在超球体上定义IPM，它可以减轻应该施加在超球体上的几个约束。如上所述，基于Wesserstein距离的传统鉴别器需要Lipschitz约束，这迫使鉴别器成为1-Lipschitz函数的成员。然而，具有不正确的权重参数λ的约束考虑-其中，G表示固定生成元，C表示表1中定义的附加约束项。在（5）中，梯度范数应该在每次迭代时计算;这增加了计算复杂度。与传统方法不同，球面GAN不需要任何强制鉴别器位于期望函数空间中的附加约束。通过使用几何变换，球面GAN确保距离函数位于期望的函数空间中然后，我们的新的目标函数更新的权重，是有效降低网络容量，过度反映采样点例如，[9，24，37]中的WGAN-GP、WGAN-CT和WGAN-LP需要在L盘=[dr.RN，D（G（z））]E[dr（N，D（x）]，R（六）用于更新鉴别器的目标函数：Ldisc=Ez[D（G（z））]−Ex[D（x）]+λC（x），（5）其中没有附加的约束条件。算法1给出了球面GAN的伪代码。附加约束项Σ ΣGP2X（||x||2−1）CTGP +Ex′，x′′<$[max（0，d（D（x′），D（x′′）−<$Const]LP2Exmax（0，||x||2−1）4295PL←←∇M∈PN算法1球GAN输入：真实数据分发。输出：鉴别器和发生器参数：w，θ一曰：当θ没有收敛时2：对于r=1到R，3：从P采样真实数据x。4：从N（0，I）采样随机噪声z。（r）r.ΣrΣ5：光盘ds6：结束N，Dw（Gθ（z））−ds N，Dw（x）7：对于r=1至R，8：采样实际数据x。9：从（0，I）采样随机噪声z。（r）r.Σ图2. 欧氏平面<$−1上的赤平投影的逆：R2→S2/{N}。每条红线表示R2和S2上的测地线.10：Lgen← −ds N，Dw（Gθ（z））11：结束R（r）12：w←Adam（wr=1Ldisc，w）3.3. 几何感知变换函数R（r）13：θ 亚当（θ14：结束while3.2. 超球r=1Lgen，θ）球极投影的逆是欧氏空间Rn到超球面Sn的一个同态。直观地，球极投影的逆可以被认为是将超平面投影到超球面上的一种方式。设p=（p1，. . . ，pn）是坐标系。如在（4）中，球面GAN匹配在超球面Sn上定义的特征空间上的多个矩。球面GAN使用超球面而不是任意的黎曼Rn和N =（0，. . . 1）是北极，persphere。然后，球极投影的逆−1：Rn→Sn/{N}定义如下：因为这样做提供了以下三个优点。1. 超球面的距离函数dr是有界的−1（p）=.2个p、||p||2+ 1||2 − 1Σ||2 − 1 Σ||2 + 1||2+1.（七）S并且变得非常容易实现。2. 梯度范数与此距离函数表现良好，这对稳定学习至关重要。3. 超球面的黎曼结构是-在通过球极投影的逆投影投影两点p，qRn之后，我们根据超球度量来测量两点之间的距离ds（n−1（p），n−1（q））. ||p||2||Q||2 − ||p||2 − ||Q||2 + 4p·q +1 m能够定义GAN目标。传统的GAN通常认为欧几里得= arccos（||p||2 + 1）（||Q||2 + 1）、（八）空间Rn的欧氏距离。这些GAN可以通过对任意黎曼流形建模来扩展。这些流形是不紧的，距离函数是没有界的，这可能会导致梯度爆炸和不稳定的学习。为了解决这个问题，sphere GAN使用了一个几何感知的变换函数，它将欧几里得空间Rn变换为超球面Sn。请注意，此功能是由最后一个密集层实现的。我们的转换函数是由一个从Rn到Sn的同构1设计的。因此，变换函数是可微的，并且可以在特征空间的每个点处保持维度。下一节介绍赤平投影作为一种几何变换函数。1.双同态是一个双射可微函数，它保持了整环和像光滑流形的切空间的维数其中ds是定义在Sn上的距离函数。几何上，ds 可以被认为是一个测地线dis-钱。如图2，超球面上两点之间的测地线距离远小于欧氏距离，并且在超球面上有界（即，黄色球体），从而实现几何变换等价于对超平面施加全局约束因此，当使用具有（4）中的目标函数的球体GAN时，能够进行稳定的训练。引理1. （8）中的距离函数是可微的，并且是有界的。（8）中的距离函数满足非负性、对称性和三角不等式，并且是可微的。任何两点之间的距离是有界的，因为超球面是一个紧流形。例如，两点之间的欧氏距离0 =（0，. . .，0）和4296PS→ ∞MCMSS--M∼∼MRrSnPPSnn→q=（t，. . .，t）发散：当t → ∞时，nt2→∞。通过con-球体GAN的IPM而（11）中的mr对应于trast，在hyper上定义的距离。sphere insouth（8）con-Ex[dr（p0，D（x））]，M可以用Sn2代替，ver ges：d（n−1（0），n−1（q））=arccos−nt2+1新台币2+ 1→πasx0可以设置为北极N。然后，我们得到相同t. 球体GAN的几何感知转换功能使识别器输出的分布发散有界，从而实现稳定的训练动态。此外，该函数保持了特征空间的维数，并保持可重构性。4. 球面GAN方程（4），这意味着最小化目标-（4）中的主动函数相当于使（11）中的IPM最小化。然而，传统的IPM和球面GAN的IPM之间存在一些差异。我们的IPM的函数空间是上的有界距离函数的集合，00-00 - 00 -00 - 00（）的情况。因此，球体GAN参数化距离函数：1ΣN本节介绍了球面GAN的数学分析。Ex[dr（p0，D（x））]i=1dr（p0，D（xi）），（12）4.1. 链接到IPM我们首先证明，最小化目标函数，（4）相当于最小化IPM。为此，我们-其中xi是图像的集合相反，函数WGAN的IPM的空间是1-Lipschitz判别器的集合。因此，它将鉴别器参数化。ΣN黎曼流形上的精细几何中心矩设是紧连通测地线完备的黎曼流形，其上有Borelσ-代数，Ex[D（x）]其中D∈ Lip 1。i=1D（xi），（13）pP和qQ都是概率测度，在可测空间（，）上。然后，IPM定义如下：定义1.IPM是两个之间的距离测量，4.2. Wesserstein距离γSn是（11）中定义的球面GAN的IPM，其中M=S。球GAN的生成器旨在降低γS，概率测度P和Q：. ∫.γ（P，Q）= sup.∫fdP−..fdQ. 、（9）这相当于匹配高阶中心mo，定义在Sn上的两个概率测度P和Q之间的部分：f∈F。 MM.1.提案当P弱收敛于Q时，其中F是M上的一类实值有界可测函数。• γSn→0• m →m对于所有r我们可以定义M上的几何矩：P设WrQ是概率的r-韦瑟斯坦距离n定义2. P在（M，φ）上的r阶中心矩，定义在S. 因此，最小化γSn等于-给定一个点p0，mr=∫dr（p0，p）dP（p），（10）M最小化r-Wesserstein分布的总和所有的R。第二个提案。当γSn收敛到0时，Σ其中1≤r<∞，mr<∞。dr是M上的黎曼距离函数。在球面GAN中，我们在P和Q之间定义一个新的IPM：定义3. 基于矩差的IPM是Σ。河Wr（P，Q） 0.（十四）R命题 2 的结果并不令人惊讶，因为弱收敛与Wesserstein距离密切相关[33]。在基于Wesserstein距离的传统 GAN 中 [2 ， 9 ， 24 ， 37] ，目标函数通过Kantorovich-Rubinstein对偶定理设计为γM（P， Q）= supd∈Cp0（ M）r. mP− mQ。、（11）在对偶形式中，只有1-Wesserstein距离可以实现GAN的有效学习。反其中Cp0（M）是M上从一个给定点p0到另一个点的一类有界距离函数。N4297当我们比较定义1和定义3时，我们注意到传统IPM和与传统的GAN不同，球面GAN可以使用更一般的R-Wesserstein距离，因此，函数空间要宽得多。[2]请注意，超球面满足本节前面提到的所有假设。4298××××1n nn+12nx PX S2Nn=1n-ΣX−4.3. 梯度分析与其它IPM相比，sphere GAN利用γSn，通过选择γSn的不同矩，可以计算损失函数的梯度。由于梯度不同，不同时刻的选择导致不同的学习行为。我们发现，任何时刻都可以使用sphere GAN进行稳定的学习Σ Σ引理2. E||∇ dr(N, D(x))||< 对于所有的r。引理2告诉我们，使用超球是稳定学习GAN的合理选择，其中梯度的范数在训练期间是有界的。但是我们的球体GAN可以有很大的梯度，因为没有惩罚施加在节点上。因此，它具有梯度爆炸的潜在风险。然而，在实验中，我们观察到，当使用Adam优化器时，每次迭代的梯度范数的平均大小5. 实验5.1. 实现细节超参数：该网络以64的批量大小进行训练。在所有的实验中，我们使用Xavier初始化和Adam优化器的生成器和编译器。我们将Adam优化器的超参数固定为a =1E 4，β1=0，β2=0。9 .第九条。在使用Con-vNet的实验中，我们将矩模式设置为5dr。在其他实验中-鉴别器它由生成器中的转置卷积块和鉴别器中的卷积块组成，其中每个块由两个卷积层组成对于ResNet，我们遵循[9]中提出的网络架构在两个卷积神经网络中，我们使用层归一化[15]作为[22]中建议的归一化单元，并且我们将几何块GB附加到最后一个卷积块进行几何变换。有关网络架构的详细信息，请参阅参考资料。环境：所有的实验都是使用单一的GTX Titan GPU进行的。 SphereGAN 使用 Keras-2.2.4 和Tensorflow-1.11.0后端实现5.2. 数据集和评估指标数据集：我们在CIFAR-10 [13]，STL-10 [6]和LSUN[38]数据集上进行了实验。CIFAR-10和STL- 10包含大约50K和100K大小的自然图像32 32和96 96与10个不同的类。对于STL-10，我们将原始图像的大小缩小到48四十八对于LSUN，我们使用了大约3M的卧室图像，大小调整为64 64。评估指标：为了定量评估网络，我们使用了两个图像生成任务的指标：[27][28][29通过使用这些指标，我们将sphere GAN与其他基于IPM的GAN进行了比较。在所有1因此，我们将超球的维数设为S1024实验中，我们生成了50K图像来评估GAN并将力矩模式转换为3DR。在传统的基于IPM的GAN中，每次迭代都要多次更新迭代器，而生成器只更新一次。与这些GAN相反，在sphere GAN中，两个网络都在每次迭代3中更新一次。几何块：我们将几何块添加到最后一个卷积层的几何-在IS和FID方面。为了实现，我们使用了open源代码由作者提供4.信息系统与人类的判断和认知密切相关。将生成的图像应用于初始卷积网络[29]以获得条件。ld折射率p（y|x），计算公式如下：expEDKL[p（y|x）||p（y）]其中p（y）近似为1Np（y|X）。另一方面，FID克服了块（GB）的设计如下：D：X →ConvBlocks →GBGB：ReLU →平均均值池→致密层（R）→ISGP（SR），用2-Wesserstein距离估计IS问题由隐藏激活的输出（初始模型的池3）引起的高斯分布FID与不断增加的干扰和人类判断一致。两个图像分布P1、P2之间的FID定义如下：其中R是输入，ISGP表示立体投影的逆。ISGP的伪代码和FID（P1，P2）=||m1−m2||2+Tr（C11+C2 2（C1 C2）2），（十五）详细的网络结构在参考资料中提供。基线网络：我们使用两个基线网络进行了无监督图像生成任务：ConvNet和ResNet。对于ConvNet，我们遵循[20]中提出的网络架构来构建生成器和3一项研究调查了学习GAN的动态[11]。然而，很难进行直接的比较和分析.其中mi和Ci分别是从P i获得的高斯均值和协方差矩阵。5.3. 消融研究本节旨在回答以下三个问题：4 IS：https://github.com/openai/improved-gan，FID：https://github.com/bioinf-jku/TTUR网站。意识的转变。（D）和几何429911137.67.4表2. CIFAR-10上的无监督图像生成结果。 IS：越高越好，FID：越低越好。对于具有k的网络，我们使用[20]中报告的结果。7.276.86.66.46.2616 64 256超球面的维数1024图3. 采用ConvNet对CIFAR-10进行初始评分（Inception scores，IS），根据不同的矩匹配模式和不同的维数，类球面的解。“红”"黄“”蓝“表示”红“分割模式：DR、3DR和5DR。那只狗-横轴表示超球面Sn的维数：n= 16，64，256，1024。图4. Sphere GAN和WGAN-GP网络的梯度范数。Q1：使用更高的矩训练GAN是否会提高样本的质量Q2：用更高维度的超球体训练GAN是否会提高性能？Q3：在训练过程中，梯度的标准是否表现良好？对Q1的回答：我们用不同的矩进行了无监督图像生成任务，以表明更高的矩有助于提高性能。在本实验中，各种求和模式用于GAN目标。如图3，匹配特征空间中的较高矩显著提高了性能。我们观察到，高于五阶矩会使CIFAR-10数据集的性能恶化，因为较高的矩梯度引起的高幅度，这可能对Q2的回答：我们观察到，超球面的维数应该足够大，以确保包含在特征空间中的信息在使用几何矩时是有意义的。在特征空间是一维的其他方法中（例如，，Wesserstein距离），特征空间的维数不足以传递高阶统计量的信息。如图3、更高维度的超球面显著提高了球面GAN的精度。Q3的答案：我们在每次迭代时评估了梯度的范数，以表明GAN可以使用所提出的度量进行稳定的训练。如图4、梯度范数在100K次迭代后开始收敛，而WGAN-GP很容易达到收敛。在球面GAN中，梯度的范数是光滑有界的。5.4. 定量和定性结果CIFAR-10：表2总结了定量结果。Sphere GAN-ResNet在IS和FID方面都取得了最先进的分数，并且有很大的优势。 Sphere GAN-Conv 也优于 WGAN-GP 和 MMDGAN。STL-10：在STL-10的实验中，我们使用了大约一半的网络参数，这些参数与[20]中使用的原始网络相同。尽管网络参数数量较少，但sphere GAN-ResNet的性能明显优于SN-GAN和其他基于IPM的GAN，如表3所示。导致学习不稳定然而，在实验中，i=1drLSUN卧室：在这个实验中，我们报告了FID一般来说，它适用于大型网络常规基于Wesserstein距离的GAN并没有提高其精度，因为使用了高阶矩。这只是因为它没有意义，正如[4]所指出的表4中的结果表明，球体GAN-ResNet的性能优于最先进的GAN。初始分数模式1模式2模式3方法是FIDCIFAR-10（真实）11.24 ±.127.8MMD GAN [16]权重裁剪器WGAN-GPSpectral Norm-WDWGAN-GP-ResNet[9][31]第三十一话[22]第二十二话[24]第二十四话：我的世界WGAN-CT [37][20]第二十话6.17 ±.076.41 ±.116.68 ±.067.20 ±.087.57 ±.057.86 ±.077.88 ±.107.90 ±.05-7.96± .068.02 ±.088.12 ±.128.22 ±.05- 四十二点六40.232.0---- 二十七点4300||∇||表3. STL-10上的无监督图像生成结果。对于具有k的网络，我们使用[20]中报告的结果方法是FIDSTL-10（real）26.08 ±.267.9权重裁剪7.57 ±.108.42 ±.138.43 ±.098.51 ±.139.10 ±.0464.2WGAN-GP系列55.1球体GAN转换44.1[36]第三十六话-谱范数40.1球体GAN-ResNet9.55±.1131.4表4. LSUN床室上的无监督图像生成结果。对于具有双线性的网络，我们使用[4]中报告的结果方法FIDLSUN卧室（real）2.36Crame'r GAN54.2WGAN-GP系列41.4MMD-GAN-Rq系列32.0球形GAN16.987654321图6. LSUN-bedroom数据集球面GAN的定性结果0WGAN-GPLSGAN DCGAN SphereGAN图5. 不同GAN变体的100次迭代的平均计算时间。黄色和红色条分别表示生成器更新比为1：1时和生成器更新比为1：5时的平均计算时间培训时间：图中。5.计算了不同方法100次迭代的平均训练时间 WGAN-CT和WGAN-GP明显比其他方法慢得多（比DCGAN慢40%左右），因为它们计算梯度的范数x∈D（x∈）2。sphere GAN的训练时间比其他基于 IPM 的 GAN 短得多，几乎与 vanillaDCGAN [25]和LSGAN [18]相同我们使用三个数据集定性地评估了球体GAN。图图6和图7分别显示了LSUN-bedroom和STL-10数据集的球面GAN定性分析结果表明，球形GAN训练稳定，几乎不存在模式崩溃问题.大多数生成的图像都是照片般逼真的。6. 结论本文提出了一种基于IPM的新型GAN--球面GAN。球体GAN在超球体上定义IPM（即，、图7.STL-10数据集球面GAN的定性结果一种类型的黎曼流形），因此，它可以使用有界IPM稳定地训练。高阶矩匹配使球面GAN能够利用有关数据的有用信息并提供准确的结果。实验结果表明，与基于IPM的GAN相比，sphere GAN在LSUN，STL-10和CIFAR-10数据集上显示出最先进的性能。确认这项工作得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）赠款的支持（No.2017-0-01780）。&&15100次迭代的平均秒数4301引用[1] P. Achlioptas、O.迪亚曼蒂岛Mitliagkas和L. Guibas三维点云的学习表示与生成模型。在ICLR，2018年。1[2] M. Arjovsky，S.Chintala和L.博图Wasserstein生成对抗网络。ICML，2017。一、二、五[3] M. G.贝勒马尔岛Danihelka，W. Dabney，S. 穆罕默德B. Lakshminarayanan，S. Hoyer和R.穆诺斯克拉默距离作为有偏瓦瑟斯坦梯度的解。arXiv预印本arXiv：1705.10743，2017。2[4] M. Bikowski，D. J. Sutherland，M. Arbel和A. 格雷顿揭秘MMD GANs。在ICLR，2018年。七、八[5] Y.陈玉- K. Lai和Y.- J. Liu. Cartoongan：用于照片卡通化的生成对抗网络在CVPR，2018年。1[6] A. Coates，A. Ng和H.李你无监督特征学习中单层网络的分析。载于AISTATS，2011年。6[7] K.埃赫萨尼河Mottaghi和A.法哈迪。Segan：分割和生成不可见的东西。在CVPR，2018年。1[8] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。1[9] I. Gulrajani，F. 艾哈迈德，M 。阿尔约夫斯基河谷Dumoulin和A.C.考维尔改进了Wasserstein GAN的训练在NIPS，2017年。一、二、三、五、六、七[10] P·亨德森 W.- D. 张， P. - L. 培根 D. 梅格J. Pineau和D.准备Optiongan：使用生成对抗反向强化学习来学习联合奖励策略选项在AAAI，2018。1[11] M. Heusel，H. Ramsauer，T.翁特希纳湾Nessler和S. Hochreiter。由两个时间尺度更新规则训练的GAN在NIPS，2017年。6[12] P. Isola，J.Y. Zhu，T.Zhou和A.A. 埃夫罗斯使用条件对抗网进行图像到图像的翻译在CVPR，2017年。1[13] A.克里热夫斯基从微小的图像中学习多层特征。技术报告，Citeseer，2009年。6[14]C.莱迪格湖Theis，F.放大图片作者：J. Caballero，A. 坎宁安A.阿科斯塔A. P. Aitken，A. Tejani，J. Totz，Z. Wang和W. 石使用生成对抗网络的照片逼真的单图像超分辨率在CVPR，2017年。1[15] J. Lei Ba，J.R. Kiros和G.E. 辛顿层归一化。arXiv预印本arXiv：1607.06450，2016。6[16] C.- L.李伟C.昌，Y.郑，Y. Yang和B.波佐斯MMD甘：走向更深层次的理解时刻匹配网络.在NIPS，2017年。二、七[17] J. Lin，Y.夏氏T.秦、Z。陈和T.- Y.刘某有条件的图像到图像翻译。在CVPR，2018年。1[18] X.茅角，澳-地Li，H.谢河，巴西-地Y. Lau，Z. Wang和S. 史莫利。最小二乘生成对抗网络。 arXiv预印本arXiv：1611.04076，2017。8[19] M.马蒂厄角Couprie和Y.乐存。超越均方误差的深度多尺度视频预测。ICLR，2016年。1[20] T. 宫城，T.卡塔奥卡，M。Koyama和Y.吉田生成对抗网络的谱归一化。在ICLR，2018年。二、六、七、八[21] Y. Mroueh角L. Li，T.Sercu，A.Raj和Y.程Sobolev GAN.在ICLR，2018年。2[22] Y. Mroueh和T.塞尔古费希尔·甘。在NIPS，2017年。二六七[23] A. 穆勒河积分概率度量及其生成函数类。Advances inApplied Probability，29（2）：429-443，1997. 2[24] H. Petzka，A. Fischer和D.卢科夫尼科夫关于WassersteinGAN的正则化。在ICLR，2018年。一二三五七[25] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。8[26]S. Reed，Z.阿卡塔湖X. 扬湾，澳-地Logeswaran，Schiele，H.李你生成对抗文本到图像合成。在ICML，2016。1[27] T. 萨利曼斯岛Goodfellow，W.扎伦巴河谷Cheung，A.Rad- ford和X.尘改进了训练GAN的技术。在NIPS，2016年。6[28] Y.宋角，澳-地妈，X。吴湖，加-地贡湖，澳-地鲍，W.左角，加-地沈先生，R. Lau和M.-H. 杨重要：通过对抗性学习进行视觉跟踪在CVPR，2018年。1[29] C. 塞格迪河谷Vanhoucke，S.Ioffe，J.Shlens和Z.沃伊纳重新思考计算机视觉的初始架构在CVPR，2016年。6[30] G. J. Szekely和M. L. 里索能量统计：一类基于距离的Journal of Statistical Planning and Inference ， 143（8）：1249-1272，2013。2[31] C.陶湖，澳-地陈河，巴西-地Henao，J. Feng，and L. C.杜克卡方生成对抗网络。在ICML，2018。7[32] T. Unterthiner B. 奈斯勒， C. 苏厄德 G. 克塞鲍尔，M. Heusel，H. Ramsauer和S. Hochreiter。库仑GAN：用势场法证明最优纳什均衡。在ICLR，2018年。7[33] C. 维拉尼最佳运输：新旧。施普林格柏林海德堡，2008年。5[34] X. Wang和A.古普塔。使用样式和结构对抗网络的生成图像建模。在ECCV，2016年。1[35] X. Wang，中国山核桃A. Shrivastava和A.古普塔。快速回复：通过对手进行目标检测的硬阳性生成。在CVPR，2017年。1[36] D. Warde-Farley和Y.本吉奥。通过去噪特征匹配改进生成式在ICLR，2017。8[37] X.魏，Z.柳湖，加-地Wang和B.龚改进Wasserstein GAN的改进训练。在ICLR，2018年。一二三五七[38] F.Yu ，中国茶条 A.Seff ， Y.Zhang ， S.宋， T.Funkhouser和J.肖。Lsun：使用深度学习构建大规模图像数据集，其中人类处于循环中。arXiv预印本arXiv：1506.03365，2015。6[39] J. Yu，Z. Lin，J. Yang，X. Shen，X. Lu和T. S.煌具有4302上下文注意的生成式图像修复。在CVPR，2018年。14303[40] Z.张丽Yang和Y.郑用周期和形状一致性生成对抗网络翻译和分割多模态医学卷在CVPR，2018年。1[41] J. Zhao，M.Mathieu和Y.乐存。基于能量的生成对抗网络。在ICLR，2017。2

下载后可阅读完整内容，剩余1页未读，立即下载