无监督图像到图像翻译中的边界预测方法及其应用

126 浏览量更新于2023-10-13 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

评估无监督图像到图像翻译Sagie Benaim1，Tomer Galanti1，and Lior Wolf1，21以色列特拉维夫大学布拉瓦特尼克计算机科学学院2Facebook人工智能研究抽象。虽然在监督学习中，验证误差是泛化（测试）误差的无偏估计，并且基于复杂度的泛化边界是丰富的，但是对于以非监督方式学习映射，不存在这样的边界。因此，当训练GAN时，特别是当使用GAN学习以完全无监督的方式在域之间进行映射时，人们被迫通过主观地检查多个选项来选择超参数和停止时期。我们提出了一个新的边界预测的成功无监督跨域映射方法，这是最近提出的简单性原则的动机。该界限可以应用于期望中，用于比较超参数和用于选择停止标准，或者每个样本，以便预测特定跨域翻译的成功。在一组广泛的实验中，采用多个最近的算法证明了该界限的效用。我们的代码可从https：//github.com/sagiebenaim/gan绑定。关键词：无监督学习·泛化边界·图像到图像翻译·GANs1介绍在无监督学习中，选择超参数的过程和缺乏明确的这个问题对于GAN[11]和衍生技术来说是很常见的，其中训练过程优化了相互平衡的多重损失从业者在评估基于GAN的方法时往往不确定所获得的结果，许多人会完全避免使用这些方法。一种解决方案是采用更稳定的方法，如[4]。然而，这些方法并不总是与GAN获得的结果相匹配。在这项工作中，我们提供了一个重要的家庭的GAN方法，一个算法选择的超参数，以及停止标准。具体来说，我们专注于预测两个图像域之间的映射在一个无监督的方式算法的成功。多个基于GAN的方法最近已经证明了令人信服的结果，尽管存在明显的固有模糊性，这在第2节中进行了描述。2. 我们得出什么是，据我们所知，无监督跨域映射的第一个错误界。同等贡献2Sagie Benaim、Tomer Galanti和Lior Wolf||−||∼ ||−||√除了预测使用无监督映射方法之一训练的映射的预期成功的新颖能力之外，我们还可以单独预测映射每个单个样本的成功。这是值得注意的两个原因：（i）即使监督泛化边界也不能提供这种能力;（ii）我们处理复杂的多元回归问题（图像之间的映射），而不是分类问题，其中经常分配伪概率。节中第二，我们在[9]的简单性原理的基础上提出了问题和背景。然后，在Sec。3、推导了预测界并介绍了多种算法。秒4提出了广泛的经验证据，我们的算法的成功，当应用到多个最近的方法。这包括超频带方法[16]的独特组合，这可能是超参数优化中的领先方法，在监督设置中，与我们的界限。这种组合使超带在无监督学习中的应用成为可能，据我们所知，在无监督学习中不存在超参数选择方法。1.1相关工作生成对抗网络GAN[11]方法通过联合训练第二个对抗网络D来训练生成器网络G，该生成器网络G从给定噪声向量的目标分布中合成样本。条件GAN除了（或代替）噪声向量之外，还采用引导生成器的参数向量这些GAN可以从特定的类[19]或基于文本描述[22]生成图像，或者反转中级网络激活[6]。我们的约束也适用于这些情况。然而，这不是我们实验的重点，其中目标图像映射，其中创建的图像是基于输入图像[15，33，30，18，25，13，2]。无监督映射我们的界限的验证集中在最近的跨域映射方法，采用没有监督，除了样本图像从两个域。这种能力最近被证明[15，33，30，2]在图像到图像trans-to-imagelation和稍早的自然语言之间的翻译[28]。DiscoGAN[15]方法，类似于其他方法[33，30]，在两个方向上学习映射，即，从域A到域B，反之亦然。我们的实验还采用DistanceGAN方法[2]，与基于圆度的方法不同，它是仅在一个方向上应用（从A到B）。该方法所使用的约束是，在通过学习的映射G进行映射之前和之后的一对输入x1，x2∈A的距离是高度相关的，即，x1x2G（x1）G（x2）。弱监督映射我们的边界也可以应用于基于GAN的方法，这些方法通过合并一个固定的预先训练的特征图f并且要求f-恒定性，即f的激活对于输入样本和映射样本是相同的[25，27]。在训练过程中，损失的各个组成部分（GAN，f-恒定性和其他一些）并没有提供一个明确的信号，何时停止训练或使用哪些超参数。无监督学习的泛化界文献中只提出了几个无监督学习的泛化界。在[23]中，给出了用于密度估计的PAC-Bayesian广义界[21]给出了一种算法，用于使用来自给定类的密度的有限组合来估计有界密度该算法的估计误差为O（1/n）。我们的工作是研究误差评估无监督图像到图像翻译3i.i.dmD∼◦◦X一×→我i=1一我i=1而不是相对于目标分布的KL散度。此外，我们的界限是依赖于数据的，而不是基于假设类的复杂性。超参数优化超参数是学习算法正在使用的常量和配置。超参数选择是选择将产生更好学习的超参数的过程。这包括优化时期的数量，正在训练的神经网络的大小和深度，学习率等。许多早期的超参数方法超越了随机或网格搜索，本质上是贝叶斯[24，12，3，26，7]。目前领先于各种监督学习基准的hyperband方法[16]是基于多臂强盗问题。它采用部分训练，并动态分配更多的资源，成功的配置。所有这些方法都关键地依赖于可用于给定配置的验证误差，这意味着这些方法只能在监督设置中使用。我们的工作使，第一次，使用这样的方法也在无监督的设置，通过使用我们的界代替验证误差预测地面实况误差。2问题设置节中2.1我们定义对齐问题。第2.2节说明了在[9]中引入的简单性原则，并通过大量实验进行了验证。秒2.3和接下来的一切都是完全新颖的。本节提出了奥卡姆剃刀属性，它扩展了简单性原则的定义，并在第二节中使用。3推导主要结果和算法。2.1对准问题学习算法被提供有两个未标记的数据集：一个包括来自第一分布的i.i.d样本，并且第二个包括来自第二分布的i.i.d样本S：={x}mD和S：={y}ni.i.dn.B（一）DA和DB分别是XA和XB上的分布。本文主要研究确定性情形，即存在一个目标函数yAB，它是将第一个域映射到第二个域的函数之一，使得yABDA=DB（gD被定义为g（x）的分布，其中x（D）。该理论可以扩展到非确定性情况，其中存在多个可能的目标函数[8]。学习器的目标是拟合函数G ∈ H，对于最接近的假设类HyAB，即infG∈HRDA[G，yAB]，其中RD[f1，f2]=Ex D [（f1（x），f2（x））]，亏损功能：RMRMR和分布D。在没有附加信息的情况下，不清楚这样的拟合是例如，假设在XB中的样本上存在自然顺序。将输入样本x ∈ XA映射到下一个样本以便yAB（x）的映射可能同样可行。更一般地，可以通过满足以下条件的某个函数Π来置换A中的样本：用具有相似可能性的另一个样本替换每个样本，并学习满足G=Π◦yAB的G。这种困难在[9]中被称为B4Sagie Benaim、Tomer Galanti和Lior WolfAB∈C◦⊤AB⊤AB在多个最近的贡献[28，15，33，30]，循环使用。圆度需要同时恢复yAB和yBA=y−1即，函数G和G′AB通过最小化以下目标来共同学习：disc（G◦DA，DB）+disc（G′◦DB，DA）+RD [G′◦G，IdA] +RD [G◦G′，IdB]（2）哪里..圆盘（D1，D2）：=辅助核算RD1[c1，c2]−RD2[c1，c2]。c1，c2∈C..（三）= supc1，c2∈C. Ex D1 [（c1（x），c2（x））] − Ex D2 [（c1（x），c2（x））]。表示分布D1和D2之间的差异，C是选定的函数类，IdA：XA→XA和IdB：XB→XB分别是XA和XB上的恒等函数。这种差异类似于WGAN散度[1]，其中我们使用（c1（x），c2（x））形式的判别器而不是1-Lipschitz判别器，其中c1，c2。这种差异由GAN实现，如[10]中所示。如[9]所示，循环约束并没有消除其全部在DistanceGAN[2]中，圆度被多维缩放类型的约束所取代，这强制两个域中的距离之间具有高度相关性然而，由于这些约束仅近似地保持，因此模糊性未被完全消除。2.2简单性原则为了理解最近的无监督图像映射方法如何工作，尽管存在固有的模糊性，[9]最近示出了目标（“语义”）映射yAB通常是具有最低复杂度的分布保持映射（hDA=DB）。结果表明，这种映射预计是唯一的。作为极小映射的关键作用的一个激励性例子，考虑由均匀分布点（x1，x2）∈R2组成的域A，其中x1=x2∈[−1，1]。设B是{（x1，x2）}中均匀分布点的定义域|x1∈[0，1]，x2=0}{（x1，x2）|x2∈ [0，1]，x1= 0}. 我们注意到，有无穷多个映射，域A到B，给定A中的输入，导致B的均匀分布，并且满足圆度约束（Eq. 2）的情况。然而，很容易看出，当将假设类限制为具有一个大小为2的层和ReLU激活σ的神经网络时，只剩下两个选项。在这种情况下，h（x）=σ。a（Wx），对WΣ∈R2×2，b.∈R2. 关于lΣy容许解的形式W=a1 −ab−1−b或W′=a−1 −ab1 −b，它们是相同的，对于每个a，b∈R，到以下函数之一.（x，0）ifx ≥ 0. （0，x）ifx ≥ 01（（x，x））=（0，−x）ifx≤0和y2（（x，x））=（−x，0）ifx≤0（四）因此，通过将假设空间限制为最小，我们消除了除两个之外的所有备选解决方案。这两个映射正是通常被认为1.一、另一个激励的例子可以在[9]中找到。y评估无监督图像到图像翻译5（0，1）(-1，0）（0，0）ABABH HX → X ◦≈PH/（1，0）（1，0）（0，-1）（0，-1）(a)（b）第（1）款图1：说明性示例，其中两个域是蓝色和绿色区域。有无穷多个映射在两个区域上保持均匀分布。然而，只有两个突出的“语义”。这两个，用红色描绘的，正是最小神经网络ReLU激活。(a)映射y1. (b)映射y2（参见Eq. 4）.2.3奥卡姆我们注意到，在[9]中提出的简单性原则与被称为奥卡姆剃刀的原则高度相关。在本节中，我们提供了奥卡姆剃刀性质的定义，它扩展了[9]中使用的简单性原则的公式。我们的公式不限于多层神经网络的Kolmogorov式复杂性[9]，并且更一般。给定两个域A=（XA，DA）和B=（XB，DB），一个映射yAB：XA→XB满足域A和B之间的Occam剃刀性质，如果它在满足hDA DB的函数h：AB中具有极小复杂度. 最小复杂度由假设类的嵌套定义，它形成偏序，而不是连续得分。例如，如果Hj是特定架构的神经网络的集合，并且H1是在删除隐藏神经元中的一个之后获得的架构的神经网络的集合，则Intu-简单地说，最小复杂性意味着没有子类可以实现映射h：XA→ XB使得h◦DA≈DB。为此，我们定义，P（H;）：={G ∈ H |disc（G ◦ DA，DB）≤}。定义1（奥卡姆设A=（XA，DA）和B=（XB，DB）是两个域，U ={Hi}i∈I是一个假设类族. 一个映射yAB：XA→ XB满足（1，2）-Occam剃刀性质，如果对每个H∈U使得（;1）=，我们有： infG∈P（H;1）RDA[G，yAB] ≤2。非正式地，根据Def.1，一个函数满足奥卡姆剃刀性质，如果它可以近似，即使是最低复杂度的域A和域B之间的映射。如果yAB具有（1，2）-Occam剃刀性质，则它是2 -接近于在每个极小假设类H ∈ U中的函数，使得P（H ; 1）/ =。随着假设类H增长，P（H;1）也增长，即，HiHj表示P（Hi;1）P（Hj;1）。因此，增长的P（H;1）总是一致的。（0，1）(-1，0）（0，0）6Sagie Benaim、Tomer Galanti和Lior WolfP.H.∈ HP HX XU{H}H∈ UPH/∠11AA A A至少有一个函数2-接近yAB。然而，随着假设类的增长，（;1）可能潜在地包含许多满足fDADB并且彼此不同的函数f，从而导致增加的模糊量。此外，我们注意到，唯一性是没有假设的，并且该属性可能适用于多个映射。3估计地面实况误差在本节中，我们将介绍给定函数G1之间的泛化风险的界以及未知目标函数yAB，即，RDA[G1，yAB].这个界是基于偏置方差分解和总和两项：偏置误差和近似误差。偏倚误差是成员G2为的最大可能风险类（;1），即，supG2∈P（H; H 1）RDA [G1，G2]. 近似误差是最小的类P（H;1）的成员G相对于yAB之间的可能风险，即，INFG∈P（H;1）RDA [G，yAB].3.1界的推导及算法该界是使用满足三角不等式的损失函数的结果这种类型的损失包括L1损失，它经常用于跨域映射.的L2损失和感知损失[14]满足三角不等式直到因子3，这将导致向界中添加因子。以下是Lem。1提供了泛化风险的上限。引理1. 设A=（A，DA）和B=（B，DB）是两个域，=ii∈I是一个假设类族且1> 0. 此外，假设是满足三角不等式的损失函数。然后，对于所有使得（;1）=和两个函数yAB和G1，我们有：RDA[G1，yAB]≤ supG2 ∈P（ H; H1）RDA[G1，G2]+ infG∈P（ H;1）RDA[G，yAB]（5）证据设G*=arg infG∈P（H;1）RDA[G，yAB].根据三角不等式，我们有：研发 [G，yAB] ≤RD [G，G*] +RD [G*，yAB]≤ supG2 ∈P（ H; H1）RDA[G1，G2]+ infG∈P（ H;1）RDA[G，yAB]（6）⊔⊓如果yAB满足奥卡姆5在Lem 1，则获得以下界限：RDA[G1，yAB]≤ supG2 ∈P（ H; H1）RDA[G1，G2]+2（7）当量7为我们提供了一个泛化风险的可达界。右侧可以通过训练具有低于1的差异并且具有关于G1的最大风险的神经网络G2来直接近似，即，supG2∈H RDA[G1，G2]s.t：圆盘（G2◦DA，DB）≤1（8）评估无监督图像到图像翻译71P H∼∼算法1决定何时停止训练G1要求：SA和SB：未标记的训练集; H：假设类;1：阈值; λ：权衡参数; T2：G2的固定的时期数量; T1：时期的最大数量。1：随机初始化G0∈ H和G0∈ H1 22：对于i = l，… T1做3：训练Gi−1一个历元以最小化圆盘（Gi−1◦DA，DB），获得Gi。1 114：针对T2个时期训练Gi以最小化圆盘（Gi◦DA，DB）-λRDA[Gi，Gi]。2 2 1 2T 2提供固定的比较点。5：结束6：返回Gt，使得：t=arg minRD[Gi，Gi]。1i∈[ T]A12算法2模型选择要求：SA和SB：未标记的训练集;U={Hi}i∈I：假设类族：阈值;λ：权衡参数。1：初始化J=。2：对于i∈I do3：训练Gi∈Hi以最小化圆盘（Gi◦DA，DB）。1 14：如果disc（Gi◦DA，DB）彡，则5：将i加到J。6：训练Gi∈Hi以最小化圆盘（Gi<$DA，DB）−λRDA[Gi，Gi]。27：如果结束8：结束9：返回Gi，使得：i=arg minRD2 1 2[Gj，Gj].1j∈JA12一般来说，计算等式1的精确解h2在计算上是不可能的。8，因为在大多数情况下，我们不能显式地计算集合（;1）。因此，受拉格朗日松弛的启发，我们采用以下等式的松弛版本。第八章：mindisc（G2◦DA，DB）−λRDA[G1，G2]（9）G2 ∈H其中λ>0是折衷参数。因此，不是计算Eq。8，我们最大化方程中的对偶形式9相对于G2。此外，我们还将λ优化为最大值，使得disc（G2◦ DA，DB）≤1。风险和偏差中的x DA（或x DB）的期望值被替换，正如通常所做的那样，其中对域A（respB）中的训练样本求和在此基础上，我们提出了一个停止准则在Alg。1，以及Alg. 2. 当量9在前者的步骤4中显现，而后者的步骤6是作为两种算法的最后一行出现的选择标准。3.2每个样本然后我们将该界扩展到估计由G1映射到特定样本xDA的误差（G1（x），yAB（x））。莱姆2、与Lem非常接近。1. 它产生了一个简单的方法，用于限制特定样本x上G1的损失。注意第二8Sagie Benaim、Tomer Galanti和Lior WolfX XH≤G∈H2∼∼算法3限制样本x上G1的损失Require：SA和SB：未标记的训练集;H：假设类;G1∈ H：映射; λ：折衷参数;X：特定样品。1：训练G2∈ H以最小化圆盘（G2◦DA，DB）− λ（G1（x），G2（x））。2：返回（G1（x），G2（x））。界中的项不依赖于G1，并且预期很小，因为它表示在单个样本x上过拟合的能力。引理2. 设A=（A，DA）和B=（B，DB）是两个域和一个假设类. 另外，设是满足三角不等式的损失函数然后，对于任何目标函数yAB和G1∈ H，我们有：n（G1（x），yAB（x））supG2∈P（H;）（G1（x），G2（x））+infG∈P（ H;）n（G（x），yAB（x））（1）类似于在SEC中进行的分析3，等式10为我们提供了泛化风险的可达RHS可以通过训练差异低于1/2的神经网络G2来直接近似，并且相对于G1具有最大损失，即，supG2∈H（G1（x），G2（x））s.t：disc（G2◦DA，DB）≤与在SEC中的考虑3，我们替换Eq。11，目标如下mindisc（G2<$DA，DB）−λ <$（G1（x），G2（x））（12）如前所述，用域A和域B（分别）中的训练样本的和来替换差异中的x DA和xDB在实践中，我们修改Eq. 12，使得在G2的训练期间，X被加权为所有样本的权重的一半。这强调了x的作用，并允许我们在更少的时期内训练G2这很重要，因为必须训练不同的G2来测量每个样本x的误差。3.3使用边界导出Hyperband的无监督变体为了同时优化多个超参数，我们创建了超带方法的非监督变体[16]。Hyperband需要评估每个超参数配置的损失。在我们的例子中，我们的损失是风险函数RDA[G1，yAB]。由于我们无法计算实际风险，因此我们将其替换为约束上G2∈P（H;H 1）RDA [G1，G2].特别是，函数（Alg. 1的[16]），这是一个插件功能的损失评估，提供了我们的界限从方程。7在训练G2之后，如在Eq. 9. 这个函数的变体在Alg中列出。4. 它采用两个额外的过程，用于在训练过程中的某个点存储学习模型G1和G2，并检索这些以继续训练过程。评估无监督图像到图像翻译9≤算法4无监督运行，然后返回用于超带的值损失要求：如前所述的 SA、SB和λ。T：epochs的数量θ：超参数集1：[G1，G2，Tlast] =返回存储的函数（θ）2：在T−T最后一个时期训练G 1，以最小化圆盘（G1◦DA，DB）。3：在T − T个最后时期训练G 2，以最小化圆盘（G2 ◦ DA，DB）− λRDA[G1，G2]。4：存储函数（θ，[G1，G2，T]）5：返回RDA[G1，G2]。训练设定数量的时期。检索函数简单地是大型超市的向量与学习网络的元组以及存储时的历元数T之间的映射。对于一个新的超参数向量，它返回T=0和两个随机初始化的网络，其架构由给定的超参数集确定。当网络被检索时，它然后被训练一定数量的时期，该时期是由超频带方法给出的所需时期数量T与已经训练的时期数量T之间的差，由Tlast表示。4实验我们在两种无监督对齐方法上测试了这三种算法：[15]和DistanceGAN。在DiscoGAN 中，我们使用两个 GAN 和两个循环约束来训练 G1（和 G2 ） ; 在DistanceGAN中，使用一个GAN和一个距离相关损失。使用每个数据集的已发布参数，除了在应用我们的模型选择方法时，我们改变层数，以及在使用超带时，我们改变学习率和批量大小。在实验中，我们使用G1和G2之间以及G1和y之间的L1损失。在补充中，我们也使用了感知损失。当运行实验时，差异由GAN实现，即，鉴别器D的误差测量差异。具体架构见补充资料。在实验中使用五个数据集：（i）航空照片到地图，在从Google地图[13]抓取的数据上训练，（ii）来自城市景观数据集的照片与它们的每像素语义标签之间的映射[5]，（iii）建筑照片到来自CMP Facades数据集的它们的标签[20]，（iv）手提包图像[32]到从HED边缘检测器[29]获得的它们的二进制边缘图像，以及（v）来自[31]的鞋图像的类似数据集。在整个实验中，固定值被用作低差异阈值（1= 0）。2）的情况。在G2的训练期间，相异项和拟合项之间的折衷参数被设置为每个数据集的最大值，使得G2的拟合提供具有低于阈值disc（G2◦DA，DB）1的差异的解决方案。对于Gl的默认参数，这被完成一次，如在原始DiscoGAN和DistanceGAN [15，2]中给出的。所有实验的结果总结于表1中。1，其表示作为自变量的函数的真实误差与界限之间的相关性和p值。自变量是训练时期、体系结构或样本，这取决于所测试的算法。例如，在Alg. 2我们希望决定最好的体系结构，自变量是10Sagie Benaim、Tomer Galanti和Lior Wolf→→表1：Pearson相关性和地面真实误差的对应p值（括号中），其中：（i）边界，（ii）GAN损耗，和（iii）圆度损耗或（iv）距离相关损耗。*示出了DiscoGAN的周期损耗A B A，并且示出了DistanceGAN的距离相关损耗。Alg. 方法数据集边界GANA GANB循环A/LD*循环BAlg. 1迪斯科鞋2边缘1.00（1 E-16）-0.15（3E-03）-0.28（1E-08）0.76（1E-16）0.79（1E-16）GAN[15] 袋2Edges1.00（1E-16）-0.26（6E-11）-0.57（1E-16）0.85（1E-16）0.84（1E-16）城市景观0.94（<1E-16）-0.66（<1E-16）-0.69（<1E-16）-0.26（1E-07）0.80（1E-16）立面0.85（1 E-16）-0.46（1 E-16）0.66（1 E-16）0.92（1E-16）0.66（1E-16）标测图1.00（1 E-16）-0.81（1 E-16）0.58（1 E-16）0.20（9 E-05）-0.14（5E-03）距离-鞋2边0.98（1 E-16）--0.25（2 E-16） -0.14（1E-05）-GAN[2]袋2Edges 0.93（1E-16）--0.08（2E-02） 0.34（1E-16）-城市景观0.59（1E-16）-0.22（1E-11） -0.41（1E-16）-立面0.48（1 E-16）-0.03（5E-01）-0.01（9E-01）-地图1.00（1 E-16）--0.73（1 E-16）0.39（4 E-16）-Alg. 2迪斯科鞋2边缘0.95（1 E-03）0.73（7 E-02）0.51（2 E-01）0.05（9 E-01）0.05（9E-01）GAN[15]袋2边缘0.99（2 E-06）0.64（2 E-01）0.54（3E-01）-0.26（7E-01）-0.20（7E-01）城市景观0.99（1E-03）0.69（9E-02）0.85（2E-02）-0.53（2E-01）-0.42（4E-01）立面0.94（1 E-03）-0.33（4 E-01）0.88（4E-02）0.66（8E-02）-0.45（3E-01）标测图1.00（1 E-03）0.62（1 E-01）0.54（2 E-01）0.60（2 E-01）0.07（9 E-01）距离-鞋2边缘0.96（1 E-04）-0.33（5E-01）-0.87（6E-03）-GAN[2]袋2边缘0.98（1 E-05）--0.11（8 E-01）0.23（6E-01）-城市景观0.92（1E-03）-0.66（8E-02）-0.49（2E-01）-立面0.84（2 E-02）-0.75（5E-02）0.37（4 E-01）-标测图0.95（1 E-03）--0.43（3E-01） -0.15（7E-01）-Alg. 3迪斯科-鞋2边缘0.92（1 E-16）-0.12（5E-01）0.02（9E-01）0.29（6E-02）0.15（4E-01）GAN[15] Bags2Edges 0.96（1E-16） 0.25（1E-01）0.08（6E-01）0.08（6E-01）0.05（7E-01）城市景观0.78（4E-04）0.24（4E-01）-0.16（6E-01）-0.04（9E-01）0.03（9E-01）立面0.80（6 E-10）0.13（4 E-01）0.16（3E-01）0.20（2 E-01）0.09（5E-01）标测图0.66（1 E-03）0.08（7 E-01）0.12（6 E-01）0.17（5E-01）-0.25（3E-01）距离-鞋2边0.98（1 E-16）--0.05（7 E-01） 0.84（1E-16）-GAN[2]袋2Edges 0.92（1E-16）--0.28（2E-01）0.45（3E-02）-城市景观0.51（4E-04）-0.10（5E-01）0.28（2E-2）-立面0.72（1 E-16）--0.01（1 E00）0.08（6 E-01）-标测图0.94（1 E-06）-0.20（2 E-01）0.30（6 E-02）-层。作为层数的函数的界限和地面实况误差之间的高相关性（低p值）指示界限的有效性和算法的实用性。示出了GAN损失和重建损失（DiscoGAN）或距离相关损失（DistanceGAN）的类似相关性，以便证明这些与地面实况误差的相关性要小得多。在Fig. 2、为了减少杂波，我们省略了其他分数。图2（所有四列）可以用于量化使用两种算法的增益。当使用该算法时，停止标准（Alg. 1）为了测试Alg. 1，我们在每个时间点比较了所有训练样本的平均值的两个分数||1，这是我们的界限，和地面真理错误||G 1（x）− y A B（x）||其中y AB（x）是与域B中的x匹配的真实图像。||1, where yAB(x) is theground truth image that matches x in domain B.评估无监督图像到图像翻译11(Alg1、discoGAN）(Alg1，distanceGAN）(Alg2、discoGAN）(Alg2、distanceGAN）图2：Alg. 一，二。地面实况错误用红色表示，用黑色表示。X轴是迭代或层数。y轴为预期风险。对于Alg。1，需要几个时期的G1有一个足够小的差异，直到该界是无效的。请注意，与文献[15，33，2]中的地面实况实验类似，地面实况误差是在标签空间而不是图像域中测量的。在另一方向yBA上的映射不是一对一的。结果见主结果表（ Tab.1 ）以及在图。对于 DiscoGAN （第一列）和DistanceGAN（第二列）两者，为2。可以看出，在学习映射G1的平均地面实况误差与预测误差之间存在极好的匹配当考虑GAN损失或重建损失（对于DiscoGAN）或DistanceGAN的距离相关损失时，不存在这种相关水平。具体而言，表1第一列中的极低p值1表明，对于所有数据集，地面真实误差和我们的界限之间存在明显的相关性对于其他列，所讨论的值被选择为用于Gl的损耗。这些列中的较低分数表明，这些值中没有一个与地面实况误差相关，因此不能用于估计该误差。在Alg. 1对于拥有大量样本点的DiscoGAN来说，从B到A再回到B的周期与地面显著相关鞋2Edges城市景观袋2Edges地图立面12Sagie Benaim、Tomer Galanti和Lior Wolf（地图）（城市景观）（立面）（鞋对边）（包对边）图3：Alg. 3. 显示了DiscoGAN的结果。由于空间不足，DistanceGAN的结果以补充形式地面实况误差（x轴）与边界（y轴）显示为每个点。显示了决定系数（右上）。图4：Alg. 3在迪斯科-甘袋2边缘。(a)地面实况误差与示出了每个点的界限。这与图相同 3右上图，其中添加了标识特定点的信息。(b)标记点的源（x）、地面实况（yAB（x））和映射（G1（x））(a)（b）第（1）款在五个数据集中的四个数据集中具有非常低的p值的真值误差。然而，其相关性明显低于我们的界限。图2，外观图显示了与其他图不同的行为这是因为Facades数据集本质上是不明确的，并且呈现了从A到B的多个可能的映射。每个映射分别满足奥卡姆使用Alg. 2接下来，我们改变G和con的层数。通过测量边界和地面实况误差（不能以无监督的方式计算）;观察到我们的界限和地面真实误差之间存在很大的相关性，见表1。图1和图2，第3和4列。因此，我们可以根据我们的边界优化层数在样本点数量少得多的情况下，p值通常高于先前实验中的p用Alg预测每样本损失 3最后，我们考虑每个样本的损失。结果以数字形式报告在表1中。1，并绘制在图。 3和4 如可以可以看出，在所测量的界限和地面实况误差之间存在高度的相关性。因此，我们的方法能够可靠地预测以完全无监督的方式学习的多元映射的每个样本的成功值得注意的是，当考虑时间轴时，这种相关性似乎也成立，即，我们可以结合Alg. 1和Alg。3，并选择最适合特定样本的停止时期。结果见补充资料。用改进的Hyperband算法选择体系结构我们的界限在第二节中使用。3.3创建超频带方法的无监督变体。与Alg相比。2，这允许一次优化多个超参数，同时享受超带方法的高效搜索策略。评估无监督图像到图像翻译13(a)（b）第（1）款图5：应用无监督的超带以选择地图数据集的UNIT的最佳配置(a)蓝色和橙色的线是绑定的，地面实况误差如图所示。六、（b）如（a）中的图所示，针对3种不同配置产生的图像。图6展示了我们的基于无监督超频带的方法对于不同数据集的适用性，采用DiscoGAN和DistanceGAN。该图显示了在多达35次超频带迭代之后针对所选配置获得的误差和界限可以看出，在所有情况下，当仅针对层数进行优化时，该方法能够恢复比所恢复的配置明显更好为了进一步证明我们的方法的通用性，我们将其应用于UNIT[17]架构。由于UNIT的运行时间远高于DiscoGAN和DistanceGAN，因此无法进行广泛的实验。因此，我们专注于在相对复杂的数据集上应用hyperband的最有用的应用程序，特别是Maps。图5、Tab图6（b）示出了在超带方法上的收敛5结论我们通过以下方式扩展了无监督学习中已知的可能性这表明我们可以可靠地预测在没有匹配样本的情况下训练的跨域映射的错误。这在期望中是真实的，应用于超参数选择，并且每个样本，从而支持基于动态置信度的运行时行为，以及（未来的工作）在训练期间的无监督提升。该方法基于低离散映射集合内的最大距离度量。通过应用我们定义为奥卡姆剃刀性质的东西，这个度量成为界限因此，在我们的实验中观察到的明显的经验成功支持了最近的假设，即简单性在无监督学习中起着关键作用。对于这项工作的扩展版本，它比这里提供的更严格，并且还处理非确定性情况，请参见[8]。确认该项目获得了欧洲研究理事会（ERC）的资助。欧盟Sagie Benaim的贡献是博士学位的一部分。在特拉维夫大学进行的论文研究。14Sagie Benaim、Tomer Galanti和Lior Wolf数据集数字批量学习层大小比率默认无监督参数超带x G1（x）G 1（x）（一）（c）第（1）款DiscoGAN[15]鞋2Edges3240.0008袋2Edges2590.0010城市景观3270.0009立面3200.0008地图3200.0005DistanceGAN[2]鞋2Edges3 150.0007袋2Edges3 330.0007城市景观4 210.0006立面3 80.0006地图3 200.0005数据集#层#资源L.Rate地图单元[17]3 10.0003（b）第（1）款图6：应用无监督超频带以选择最佳配置。对于DiscoGAN和DistanceGAN，我们优化了编码器和解码器层的数量，批量大小和学习率，而对于UNIT，我们优化了编码器和解码器层的数量，resnet层的数量和学习率。(a)对于每个数据集，第一个图是DiscoGAN，第二个图是DistanceGAN。Hyperband根据以蓝色表示的边界值进行优化相应的地面实况误差以橙色显示。虚线表示最佳配置误差，当仅改变层的数量而没有超带时（蓝色表示界限，橙色表示地面实况误差）。每个图形示出了由超带选择的最佳配置的误差作为超带迭代次数的函数（b）由超频带选择的最佳配置的对应(c)为DiscoGAN的shoes2edges制作的图片：第一列是输入，第二列是DiscoGAN默认配置的结果，第三列是我们的无监督Hyperband选择的配置的结果。鞋2Edges袋2Edges城市景观地图立面评估无监督图像到图像翻译15引用1. Arjovsky，M.，Chintala，S.，Bottou，L.：Wasserstein生成对抗网络第34届国际机器学习会议，ICML 2017。pp. 2142. Benaim，S.，沃尔夫湖：单侧无监督域映射。In：NIPS（2017）3. Bergstra，J.，Bengio，Y.：超参数优化的随机搜索。J.马赫学习. Res.13，2814. Bojanowski，P.，Joulin，A.，Lopez-Paz，D.，Szlam，A.：优化遗传资源积极的网络arXiv预印本arXiv：1707.05776（2017）5. Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集。见：CVPR（2016）6. Dosovitskiy，A.，Brox，T.：基于深度网络生成具有感知相似性度量的图像。arXiv预印本arXiv：1602.02644（2016）7. Eggensperger，K.，Feurer，M.Hutter，F.，Bergstra，J.，Snoek，J.，Hoos，H.H.：超参数贝叶斯优化评估的实证基础。在：NIPS工作-贝叶斯优化理论与实践（2013年）8. Galanti，T.，Benaim，S.，沃尔夫湖：用wgans进行无监督跨域映射的推广界arXiv预印本arXiv：1807.08501（2018）9. Galanti，T.，沃尔夫湖Benaim，S.：最小复杂性函数在语义映射的无监督学习学习表征国际会议（2018）10. Ganin，Y.，Ustinova，E.，Ajakan，H.，Germain，P.，Larochelle，H. Laviolette，F.，Marchand，M.，Lempitsky，V.：神经网络的领域对抗训练。J.马赫学习.第17（1）、209611. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，库维尔一、Bengio，Y.：生成性对抗网。在：NIPS（2014）12. Hutter，F.，呼H. HLeyton-Brown，K.：基于顺序模型的通用算法配置优化学习与智能优化（Learning and Intelligent Optimization，2011）13. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。在：CVPR（2017）14. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和超分辨率的感知损失。In：ECCV（2016）15. 金，T.，Cha，M.，Kim，H.李，J.，Kim，J.：学习发现跨域关系与生成对抗网络。arXiv预印本arXiv：

下载后可阅读完整内容，剩余1页未读，立即下载