PatchVAE：无监督学习中的图片识别

130 浏览量更新于2023-10-25 收藏 1009KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1PatchVAE：学习本地潜在代码进行识别Abhinav Shrivastava11马里兰大学帕克分校{kampta，abhinav}@ cs.umd.edu2谷歌研究saurabhsingh@google.com摘要无监督表示学习有望利用大量未标记数据来学习一般表示。变分自动编码器（VAE）是一种很有前途的非监督学习然而，通过VAE学习的无监督表示明显优于通过用于识别的监督学习学习的表示我们的假设是，为了学习有用的识别表示，需要鼓励模型从中层表示发现工作中得到启发，我们提出了PatchVAE，在补丁级别上对图像进行推理。我们的主要贡献是一个瓶颈制定，鼓励在VAE框架中的中级风格表示。我们的实验表明，表示学习我们的方法执行形式更好的识别任务相比，那些学习香草VAE。1. 介绍由于大的标记的视觉数据集的可用性，监督学习已经成为视觉识别的主导范式。也就是说，要学习任何新概念，操作方法是为该概念收集数千个标记的示例，并训练一个强大的分类器，例如深度神经网络。这是必要的，因为目前基于深度神经网络的模型需要大量的标记数据[33]。这与我们从发展心理学中获得的关于婴儿如何在没有任何明确监督的情况下发展感知和认知的见解形成鲜明对比[31]。此外，监督学习范例不适合于诸如医疗保健和机器人之类的应用，其中由于隐私问题或专家人类注释器的高成本而难以获得注释数据。在这种情况下，从很少的标记图像中学习从未标记的数据中发现这种模式是图像零件引用映射零件样例PatchVAE发现的示例部件图1：PatchVAE通过对重复部分的外观和出现进行建模，(top)给定一个图像，Patch-VAE学习的特定部分的发生图来自其他图像的相同部件的样本显示在右侧，表明外观一致（底部）更多由我们的PatchVAE框架发现的部件示例无监督学习的标准设置。在过去的几年里，计算机视觉中的无监督学习领域遵循着两条看似不同的轨道，具有不同的目标：生成建模和自监督学习。生成式建模的目标是在给定一些训练数据的情况下，学习生成数据的概率分布。使用基于重建的损失学习的这种模型可以从相同的分布中提取样本或评估新数据的可能性，并且对于学习图像的紧凑表示非常有用然而，我们认为，这些表示不是有用的视觉识别。这并不奇怪，因为重建图像的任务不需要瓶颈表示来挑选出对识别有用的有意义的数据并丢弃其余的数据;相反，它鼓励保留尽可能多的信息用于重建。相比之下，自我监督学习的目标是学习对识别有用的表示。标准范例是建立代理任务，这些任务47464747为了得到认可由于用于视觉识别的非监督学习的目标与从生成建模中学习的然而，这种自我监督范式的根本限制是，我们需要定义一个代理任务，可以模仿所需的识别任务。不可能总是建立这样一个任务，这些任务也不能在识别任务中推广。在本文中，我们的目标是使VAE的无监督生成建模方法能够学习对识别有用的表示我们的关键假设是，对于有用的表示，它应该只捕获图像中有趣的部分，而不是图像中的所有内容在端到端训练的深度网络方法之前的早期工作中，已经定义和研究了构成有趣图像部分的内容[30，7，14]。从这些作品中汲取灵感，我们提出了一种新的表示方法，该方法只对图像中跨数据集重复的几个部分进行编码，即，图像中经常出现的斑块。通过避免重建整个图像，我们的方法可以专注于在许多图像中重复和一致的区域在基于编码器-解码器的生成模型中，我们约束编码器架构以学习这些重复部分-无论是在这些部分（或图像中的补丁）的出现的表示方面，还是在这些部分出现的位置方面我们使用变分自动编码器（β-VAE）[19，23]对此进行了公式化，其中我们对潜在表示施加了新的结构我们使用离散的潜伏期模型的部分存在或不存在和连续的潜伏期模型的外观。图1显示了一个离散的潜伏期或发生图的例子，以及我们的方法PatchVAE发现的示例部分。我们在第3节中介绍了PatchVAE，并证明了它学习的表示比由标准β-VAE [19，23]。此外，在第3.4节中，我们提出了有利于前景的损失，前景更有可能包含重复模式，并证明它们导致更好的识别表征。最后，在第 4 节中，我们展示了CIFAR100 [20]，MIT室内场景识别[27]，地点[37]和ImageNet [4]数据集的结果。概括起来，我们的贡献如下：1. 我们在VAE框架中提出了一种新的基于补丁的瓶颈，该框架学习可以跨图像编码重复部分的表示。2. 我们证明了我们的方法，PatchVAE，学习未监督的表示，更适合识别相比，传统的VAE。3. 我们发现，有利于前景的损失更适合用于识别的无监督表示学习。4. 我们进行广泛的消融分析建议PatchVAE架构。2. 相关工作由于其潜在的影响，无监督学习（特别是深度网络）是过去几年视觉识别中生成模型，如VAE [19，23，18，11]，PixelRNN [34]，PixelCNN [12，29]及其变体已被证明在学习图像的压缩表示时是有效的，同时能够忠实地重建它们并从数据分布中提取样本。另一方面，GAN [10，28，38，3已经有人将VAE和GAN结合起来，以便能够同时学习图像数据分布，同时能够从中生成高质量的样本[15，8，21]。卷积稀疏编码[1]是重建或图像修补问题的替代方法我们的工作补充了现有的生成框架，因为我们为VAE提供了一种结构化的我们展示了我们的模型通过使用它们进行视觉识别任务来学习的表示的有效性在解释或分解使用生成模型（如VAE）学习的表示方面已经做了很多工作[23，9，16]。然而，很少有证据表明解缠表征在视觉识别中的使用生成模型的半监督学习[17，32]，其中部分或噪声标签在训练期间可用于模型，在从模型生成条件样本的应用中显示出了很多希望。然而，在我们的工作中，我们专注于将归纳偏差纳入这些生成模型（例如，VAE），这样它们就可以学习更适合视觉识别的表示。一个相关的，但正交的工作线是自我监督学习，其中代理任务被设计为学习对识别有用的表示。这些代理任务从简单的任务（如以正确的空间顺序排列图像中的补丁[5，6]和以正确的时间顺序排列视频中的帧[35，25]）到更复杂的任务（如内部绘画[26]和上下文预测[24，36]）。我们遵循这一工作领域的最佳实践来评估学习到的表示。3. 我们的方法我们的工作建立在[19]提出的VAE框架我们简要回顾VAE框架的相关方面，然后提出我们的方法。3.1. VAE审查标准VAE框架假设数据的生成模型，其中首先从先验p（z）采样潜在z，然后从条件分布G（x）生成数据|z）。一个变分逼近Q（z|x）在 -4748QGN（0，）X^xx“xz(a) VAE架构（b）PatchVAE架构图2：（a）VAE架构：在标准VAE架构中，编码器网络的输出用于参数化z的变分后验。来自该后验的样本被输入到解码器网络。(b)建议的PatchVAE架构：我们的编码器网络使用φ（x）计算一组特征映射f。然后是两个独立的单层网络。底部网络生成零件引用参数QO。我们将QO与top网络的输出相结合，生成零件外观参数QA。我们对zocc和zapp进行采样，以构造如第3.2节中所述的输入到解码器网络工作的z occ。我们还在虚线灰色框中可视化潜在项zapp和zocc的对应先验。引入易处理的后验，并通过最小化以下负变分下限（ELBO）来学习模型L VAE（x）= − Ez<$Q（z|x）[log G（x|z）]（一）+KL [Q（z|（x）[p（z）]其中Q（z|x）通常被称为编码器，因为它可以被视为将数据映射到潜在空间，而G（x|z）被称为解码器（或生成器将潜在信息映射到数据空间。Q和G通常都被参数化为神经网络。图图2a显示了常用的VAE架构。如果条件G（x|z）采用高斯形式，等式（1）的RHS的第一项中的负对数似然。1成为发电机输出x的均方误差，|z）和输入数据x。在假设第二项先验p（z）是多变量零均值同协方差N（0，I），损失简化为对于学习语义表征，在没有任何相关监督的情况下（如在自我监督方法中可用的），必须引入归纳偏差因此，从无监督中级模式发现的工作中获得灵感[30，7，14]，我们提出了一种公式，鼓励编码器只对图像中在数据集上重复的少数部分进行图像中经常出现的斑块由于VAE框架提供了一种学习从图像到潜在空间的映射的原则性方法，因此我们认为它非常适合我们提出的扩展。我们选择β-VAE是因为它们简单且广泛使用。在第3.2节中，我们详细描述了我们的方法，并在第3.4节中提出了重建误差计算的修改，以将误差项偏向前景高能区域（类似于[30]中模式的有偏初始采样）。3.2. PatchVAE给定图像x，设f=φ（x）是确定性映射-LVAE（x）=2+KL[Q（z|X）N（0，I）]（2）ping产生大小为h×w×de的3D表示f，总共有L=h×w个位置（网格单元）。我们的目标当G和Q可微时，整个模型可以使用重新参数化技巧[19]使用SGD进行训练。[23]提出了一种扩展，通过为KL发散项引入权重因子β来学习解纠缠表示，从而产生LβVA E（x）=2+βKL[Q（z|X）N（0，I）]（3）VAE框架旨在学习图像的生成模型，其中潜量z表示相应的低维生成因子。因此，潜在项z可以被视为捕获关于图像的必要细节的图像表示然而，我们假设由标准VAE框架产生的表示对于识别来说并不理想，因为它们被学习以捕获所有细节，而不是捕获数据的“有趣”方面并丢弃其余部分。这并不奇怪，因为公式并不鼓励学习语义信息。为了鼓励编码器网络只对对应于高度重复的补丁的图像。例如，噪声的随机补丁不太可能频繁地出现，而像面部、轮子、窗户等的图案。在多个图像中重复。为了捕捉这种直觉，我们强制表示f用于预测图像中频繁出现的部分，并仅使用这些预测的部分来重建图像。我们通过将f转换为z来实现这一点，z对网格单元上L个位置的一个小子集处的一组部件进行编码。我们将图像称为接下来，我们将描述如何重新使用β-VAE框架来学习这些本地潜在代码。我们首先描述我们的设置为一个单一的部分，并遵循它的推广到多个部分（第3.3节）。图像编码给定图像表示f=φ（x），我们希望学习每个网格位置l（其中l∈ {1，. . .，L}）。零件由其zapp��（0，）复制×代诺夫z^G（x| zp）zocc Bern zpriorOCC微米的利QA（xFQOQ（z|x）p4749OCCOCCFFOCCOCCQ（OCCˆOCCOCCˆFOCC8.OCC|8OCC=;;. - 是的-是的的情况。外观zapp及其出现位置zl(i.e.、存在或AB-.分布伯尔尼Σ先验OCC优先级Z优先级因此部件在网格位置L处的感测）。我们使用两个网络，和QO，到参数化后验分布QA（zapp|f）的我们的方法的ELBO可以写为（参考（3））：F和QO（zlF| f) of the part parameters zapp and zl重新表示L（x）=−E[G（x|z）]FOCCOCCPatchVAEzp<$Q{A，O}（zp |x）p分别为。由于映射f=φ（x）是确定性的，中国（8）我们可以将这些分布重写为QA（zapp | φ(x)) and+βKLQ{A，O}（zp|x）p（zp）QO（zl| x）和Q 0（z l |x) and QO(zl| x).FOCCOCC因此，给定图像x，编码器网络估计其中，KL项可以扩展为：后验QA（zapp|x）和Q0（zl|X）。注意，f是确定性特征映射，而zapp和zl随机的是KLΣLQ{A，O}（zp|x）p（zp）=.ΣΣ图像解码。我们利用一个生成器或解码器网络给定zocc和zapp的G重建图像。一是βappKLl =1。OZLOCC | x) ǁBernz先验OCCΣ（九）样品零件外观Z轴应用程序（dp维，连续）+βoccKLQA（z应用程序|x）N（0，I）然后对零件实例zl进行（L维，二进制）一个用于从后面开始的每个位置LzappQA（zapp|x）实作详细数据。如第3.1节所述，（8）的RHS的第一项和第二项可以使用L2重建损失和重新参数化技巧[19]。在zLOCCO. zLOCCΣ| x , where l ∈ {1,. - 是的-是的，L}（四）此外，我们还需要计算部分发生的KL发散损失。学习离散概率分布是接下来，我们通过将z_app放置在部件存在的每个位置l处来构造3D表示z_app（即，zl=1）的值。这可以通过zapp的广播产品来实现，这是一项具有挑战性的任务，因为即使在使用重新参数化技巧时，也没有定义梯度来通过解码器处的随机层反向传播重构损失在那里-因此，我们使用松弛伯努利近似[22，2]，zLOCC. 我们称之为补丁潜在代码。一般地说，f是训练部分出现分布zl。是确定性的，z是随机的。最后，一个装饰性的网络工作将z作为输入并生成图像x。该图像生成过程可以写为：对于H×W图像，网络Q（f|x）首先生成大小为（h× w × de）的特征图，其中（h，w）是空间维度，de是通道数。因此xG. x z1OCC z轴OCC ，的。-是的- 是的，zLΣ，zapp（五）位置数L = h × w。编码器QA（zapp|f）和QO（zl |f）是要计算的单层神经网络FOCC由于所有潜在变量（zl对于所有的l和zapp）是inde-zapp和zlzLOCC是（h×w×1）维多变量OCC它们可以互相堆叠，zz1zzLzpocc occ occapp.（六）Bernoulli参数和Zapp是（1×1×dp）维多元高斯分布。dp是单个部分的潜在向量的长度。解码器的输入z是（h×w×dp）维的。在所有实验中，我们固定h=H和w=W这使我们能够使用简化的符号（参见（4））创建zapp注意f是（h × w × de）-和（5））：{ A，O}{A，O }{ A，O}{A，O}|x）维特征地图ZL是（h×w×1）-p p维二进制输出，但 zapp 是（1×1 ×dp）-（七）xG（x|z）Σ维特征向量如果zl>1、局部发生plOCC请注意，尽管有额外的结构，我们的模型仍然重组了变分自动编码器的设置主要区别在于：（1）使用离散的潜在体用于零件发生，（2）基于补丁的瓶颈在潜在体上施加附加结构，以及（4）用于生成器的特征组装。训练我们使用β-VAE的训练设置，并使用变分下限的最大化来联合训练编码器和解码器（在第3.1节中描述）。后zQQ.、4750OCCOCC在图像中的多个位置。因为所有这些地点对应于相同的部件，它们的外观应该相同。为了结合这一点，我们在每个位置取零件外观特征的加权平均值，并按零件存在的概率进行加权。由于我们使用概率值进行平均，因此结果是确定性的。该操作由QA编码器封装（参见图2b）。在图像生成过程中，我们对zapp 进行一次采样，并在zl的每个位置复制它。=1时。在训练期间假设捕获部件外观的QA这迫使该模型：（1）仅预测z=l=1，其中是具有零均值和同一协方差N（0，I）的正态分布。后验Q0，它捕捉存在或不存在的一部分，被假定为伯努利相似的部分出现，（2）学习一个共同的代表，在这些位置发生的部分的sentation。注意，zapp可以被建模为分布的混合（例如，4751z|Xz|XappOCCappOCC||高斯的混合）以捕捉复杂的外观。然而，在这项工作中，我们假设基于卷积神经网络的编码器足够强大，可以将语义概念的可变外观映射到类似的特征表示。因此，我们将自己限制在一个单一的高斯分布。3.3. 具有多个部件的PatchVAE接下来，我们扩展上面描述的框架，多部分S. 对我们来说，我们。使用N×102编码器网络，8×8局部块的梯度幅值。图像中每个8 ×8块的重建损失的权重乘数与图像的平均大小成比例补丁.所有权重被归一化为总和为1。我们称之为加权损失（Lw）。请注意，这类似于[30，7]中使用的中级补丁的梯度能量偏置采样。补充材料中提供了权重掩码的示例。此外，我们还考虑了来自GAN的对抗训练策略来训练VAE [21]，其中，（一）法律责任（一）appQO（i）l（i）OCC，其中z（i）来自GAN的网络隐式地学习比较图像，给出了VAE的更抽象的重建误差。我们并且zl（i）参数化第i部分。同样，这可以通过将输出连接在一起有效地实现为2个网络。图像生成器对z∈（i）和在实验中通过使用'GAN'后缀来引用该变体在第4.2节中，我们证明了建议的加权损失（Lw）是对来自adver的损失的补充。从这些编码器网络工作的输出中构造z_i（i）。我们通过连接信道维度中的所有z_i（i）来获得最终的补丁潜在码z_i 。因此， z∈（ i ）是（ h×w×dp ）维的， z∈ 是（h×w×（N×dp））维的随机特征映射。对于这个多重部分在这种情况下，（6）可以写成：sarial训练，这些损失导致更好的识别β-VAE和PatchVAE的功能4. 实验数据集。我们在CIFAR100 [20]，MIT室内场景识别[27]，地点[37]和Imagenet [4]上zP= Σ Σ（1）求一个函数的值。- 是的- 是的 ; z（N）数据集。 CIFAR100由60k32×32彩色图像pΣ 1（i）p（i）pL（i）Σ（一）（十）从100个类，每类600个图像有50000张训练图像和10000张测试图像。室内数据集p=zocc;zocc;. . . ;zocc ;zapp.同样，（8）和（9）可以写成：L MultiPatchVAE（x）=−EzP[G（x|zP）]包含67个类别，共15620张图片。训练和测试子集分别由每类80和20个图像组成Places数据集包含250万张图像，包含205个类别。Imagenet数据集拥有超过一百万张来自ΣN ΣL+βapp.KLQO（i）.Σzl（i）xOCC伯尔尼. z先验概率OCC1000个类别。学习范式。为了评估补丁的效用，+βocci=1l=1ΣNKLi=1.问答（一）.Σz（i）xappΣN（0，I）（十一）VAE特征识别，我们建立了学习范式如下：我们将首先在所有训练图像上以无监督的方式训练模型。之后，我们丢弃生成器网络，仅使用编码器网络φ（x）的一部分来训练分类任务的监督模型，后验的训练细节和假设遵循上一节。3.4.改善重建损失用于训练β-VAE（和其他基于重建的方法）的L2重建损失这对于像图像压缩和图像去噪这样的任务然而，为了学习语义表征，并非所有区域都同样重要。例如，为了结合这种直觉，我们使用一种简单而直观的策略来加权图像中的区域，与区域中的梯度能量成比例。更具体地说，我们计算图像的拉普拉斯算子，以获得每个像素的梯度强度和平均值各自的数据集。我们研究不同的训练策略对于稍后讨论的分类阶段培训详情。在所有实验中，我们使用以下架构。对于CIFAR100，Indoor67和Place205，φ（x）有一个conv层，后面是两个残差块[13]。对于ImageNet，φ（x）是一个ResNet18模型（一个conv层，后面是四个残差块）。对于所有数据集，QA和QO各自具有单个conv层。对于分类，我们从φ（x）开始，并添加一个具有512个隐藏单元的全连接层更多细节可以在补充材料中找到。在训练的无监督学习阶段，对于CIFAR 100和In-4752door 67，所有方法都训练了90个epoch，对于Places205训练了 2个epoch，对于ImageNet数据集训练了30个epoch所有方法都使用ADAM优化器进行训练，初始学习率为1×10−4，minibatch大小为128。对于QO中的松弛伯努利，我们从温度开始，4753表1：CIFAR100、Indoor67和Places205的分类结果我们用从无监督学习任务中学习到的表示φ（x）初始化分类模型模型φ（x）由conv层和两个残差块（每个残差块具有2个conv层）组成。第一列（称为详情见第4.1模型CIFAR100Conv 1 Conv[1-3] Conv[1-5]户外67Conv 1 Conv[1-3] Conv[1-5]学生寮205Conv 1 Conv[1-3] Conv[1-5]β-VAE44.1239.6528.5720.0817.7613.0628.2924.348.89β-VAE +Lw44.9640.3028.3321.3419.4813.9629.4324.939.41β-VAE-甘氨酰44.6940.1329.8919.1017.8413.0628.4824.519.72β-VAE-GAN +Lw45.6141.3531.5320.4518.3614.3329.6325.2610.66PatchVAE43.0738.5828.7220.9719.1813.4328.6324.9511.09PatchVAE +Lw43.7540.3730.5523.2121.8715.4529.3926.2912.07PatchVAE-GAN44.4540.5731.7421.1219.6314.5528.8725.2512.21PatchVAE-GAN +Lw45.3941.7432.6522.4621.8716.4229.3626.3013.39比干47.7241.8931.5821.6417.099.7030.0625.1110.82Imagenet预训练55.9954.9954.3645.9045.8240.9037.0836.4631.26表2：使用ResNet18的ImageNet分类结果。我们使用无监督任务初始化权重，并微调最后两个残差块。详情见第4.1模型Top-1 Acc.前5名Acc.β-VAE44.4569.67PatchVAE47.0171.71β-VAE +Lw47.2871.78PatchVAE +Lw47.8772.49Imagenet监督61.3783.791.0，退火速率为3×10- 5（具体细节见[2]）。为了训练分类器，所有方法都使用具有动量的随机梯度下降（SGD），小批量大小为128。初始学习率是1×10−2，我们减少了每30个时期增加10倍所有实验均CIFAR100和Indoor67训练了90个epoch， Places205训练了5个epoch，ImageNet训练了30个epoch。基线。我们使用β-VAE模型（第3.1节）作为主要基线。此外，我们使用加权损失和加权损失，得到了β-VAE-*族的基线.我们还比较了[8]中的BiGAN模型。我们在所有方法中使用类似的编码器/解码器骨干架构（如果存在的话），并试图保持不同方法中的参数数量与我们的能力相当。确切的架构细节可以在补充材料中找到。4.1. 下游分级性能在表 1 中，我们报告了 CIFAR100 ， Indoor67 和Places205数据集上所有方法的前1名分类结果，这些方法具有不同的分类训练策略首先，我们将所有预先训练的权重保留在φ（x）中，CIFAR100：图像和编码发生率图ImageNet：图像和编码的发生图图3：在CIFAR100和ImageNet上发现的编码部件发生图每一行代表一个不同的零件。监督任务冻结，只训练分类网络中新添加的两个conv层（在"我们注意到，我们的方法（具有不同的损失）通常优于β-VAE对应的健康边缘。这表明，与β-VAE相比，PatchVAE框架学习的表示更适合识别此外，更好的重建损失和Lw）通常改善β-VAE和PatchVAE两者，并且彼此互补。接下来，我们微调最后一个残差块以及两个conv层（'Conv [1-3]'列）。我们观察到PatchVAE在所有设置下的表现都优于VAE，除了CIFAR100，只有L2损失。然而，当使用更好的重建损失时，Patch-VAE的性能优于β-VAE。同样，我们微调所有，4754图4：几个部分的一些代表性示例，定性地展示了PatchVAE捕获的视觉概念对于每个部件，我们以预测存在的部件位置为中心裁剪图像块选择的补丁排序的部分发生概率作为分数。我们从训练图像的前50个事件中手动选择一个不同的集合。可以看出，单个部分可以捕获形状或纹理相似或出现在相似上下文中但属于不同类别的不同概念集。我们展示了补丁来自哪些类别（请注意，在训练模型时没有使用类别信息）。第一个conv层，并在'Conv1'列中报告结果同样，我们注意到类似的趋势，其中我们的方法在Indoor 67和Places 205数据集上的表现一般优于β-VAE，但β-VAE在CIFAR 100上的表现略好。当与BiGAN相比时，PatchVAE表示在所有数据集（“Conv [1-5”）上都有很大的优势。然而，当微调预训练的权重时，BiGAN在四个数据集中的两个上表现更好为了完整性，我们还使用监督的ImageNet分类任务（最后一列，表1）在φ（x）中使用预训练的结果表明，PatchVAE学习图像源靶零件图像零件重建交换侦察机与β-VAE相比，更好的语义表征ImageNet结果。最后，我们在表 2 中报告了大规模ImageNet基准测试的结果。对于这些实验，我们对所有方法使用ResNet18 [13]架构。所有权重首先使用无监督任务学习。然后，我们对最后两个残差块进行微调，并在分类网络中训练两个新添加的conv层（因此，第一个conv层和接下来的两个残差块被冻结）。我们注意到PatchVAE 框架在所有设置下都优于 β-VAE，并且所提出的加权损失有助于这两种方法。最后，表2中的最后一行报告了使用监督训练在ImageNet上进行端到端随机初始化和训练的相同架构的分类结果。4.2. 定性结果我们提出定性的结果来验证我们的假设。首先，我们可视化我们施加在VAE瓶颈上的结构是否能够捕获图像的重要部分的发生和我们以以下方式可视化在CIFAR100和Imagenet数据集的图像概念捕捉。首先，我们将零件实例可视化图5：交换源部件和目标部件的外观。第1列和第2列显示了一个源图像，其中包含一个零件的发生图我们可以将该部分的外观向量与目标图像中不同部分的第3、4列显示了三个目标图像及其一个部分的发生图。当我们引入新的外观向量时，观察重建中的变化（列5，6）新的重建在目标中的特定位置处继承源的属性。图3中的我们可以看到，无论图像的类别如何，零件都可以在第一行捕获圆形（水果状）形状，在第二行捕获面部类似地，ImageNet也可以在鸡的头部和颈部的图像中找到特定部位的发生图。请注意，这些语义上的这些部分比β-VAE可以捕获的纹理或颜色更具信息性。在图4中，我们展示了ImageNet模型通过裁剪图像的一部分来捕获的部分我们可以看到，部件能够捕获多个概念，这些概念在形状、纹理或它们出现的上下文中相似交换外表使用PatchVAE，我们可以将一个零件的外观与来自不同图像的另一个零件的外观矢量在图5中，保持目标图像的出现映射相同，我们修改散热器格栅橙色南瓜灯圣诞袜潜水员珊瑚礁虎鲸散热器格栅救护车杂货店柠檬橙色意大利南瓜第2部55部17部分20部36部31第04755OCCOCCOCCOCC表3：N的影响：增加斑块的最大数量增加了 CIFAR 100 的辨别力，但对Indoor67表4：dp的影响：增加补丁的隐藏单元数量表5：z先验的影响：增加补丁发生的先验概率对分类性能表6：βocc的影响：过高或过低的βocc都会降低学习表征的性能NCIFAR100室内67dpCIFAR100室内67zpriorCIFAR100 Indoor67βocc CIFAR100室内67表7：ImageNet上的重建指标PatchVAE牺牲重建质量来学习区分部分，从而获得更高的识别性能（表2）模型PSNR ↑FID ↓SSIM↑β-VAE 4.857108.741 0.289PatchVAE4.342113.692 0.235一个随机选择的部分，并观察重建图像的变化。我们注意到，给定相同的源部分，解码器在不同的目标图像上尝试类似的事情然而，由于解码器之前从未遇到过这种特定的部件外观组合，因此重建更差。歧视性vs.创造力。根据我们的设计，PatchVAE妥协了生成能力，以学习更多的区分特征。为了量化这一点，我们使用从β-VAE和PatchVAE模型（在ImageNet上训练）重建的图像，并计算三个不同的度量来衡量测试图像重建的质量表7显示β-VAE在重建方面更好。4.3. 消融研究我们研究了实验中使用的各种超参数的影响。为了评估的目的，我们遵循与表1的“Conv[1-5]”列和上一节中的所有超参数类似的方法我们使用CIFAR100和Indoor67数据集进行消融分析。最大补丁数。在我们的框架中使用的最大部件数N。取决于数据集，较高的N值可以提供更广泛的补丁池以供选择。然而，它也会使无监督学习任务变得更加困难，因为在一小批图像中，我们可能不会得到太多重复的补丁。表3（左）显示了N对CIFAR100和Indoor67数据集的影响。我们观察到，虽然在CIFAR100的情况下增加补丁的数量提高了辨别能力，但在Indoor67的情况下，它几乎没有影响或产生负面影响。Indoor67性能下降的一个可能原因是数据集较小（即，学习更少的图像隐藏单元的数量或补丁外观zapp。接下来，我们研究每个补丁（dp）的外观特征z app中通道数量的影响。该参数反映了个体斑块的潜在代表能力而该参数影响图像的重建我们观察到，它对基本特征的分类性能几乎没有影响。CIFAR100和Indoor67数据集的结果总结见表4补丁出现的先验概率z先验。在我们所有的实验中，补丁的先验概率固定为1/N，即，最大补丁数的倒数直觉是鼓励发生地图上的每个位置最多发射一个补丁。增加此修补程序出现的优先级将允许所有修补程序在同一位置激发虽然这会使重建任务变得更容易，但单个补丁捕获任何有意义的内容将变得更加困难。表5示出了在增加z先验时分类性能的恶化。斑块发生失重βocc。必须仔细选择斑块发生KL发散如果βoccis太低，更多的补丁可以在同一位置发射，这损害了补丁的学习能力;并且如果βocc太高，则解码器将不会接收到任何用于重构的块，并且重构和分类都将受到影响。表6总结了不同βocc的影响。5. 结论我们在VAE框架中提出了一个基于补丁的瓶颈我们的方法PatchVAE将编码器架构限制为仅学习图像中重复和一致的补丁，而不是学习所有内容，因此与vanillaVAE相比，表示在识别任务中表现得更我们还证明了有利于图像的高能量前景区域的损失更适合于识别表示的无监督学习。427.5914.40828.7412.691628.9414.333227.7813.286429.0012.76328.6314.250.0128.8614.330.0630.1114.10628.9714.550.0528.6714.250.330.3715.679 28.21 14.550.1 28.31 14.030.6 28.90 13.514756引用[1] 阿法拉喇嘛伯纳德·加尼姆彼得·旺卡监督卷积稀疏编码。CoRR，abs/1804.02678，2018。2[2] EirikurAgustsson，FabianMentzer，MichaelTschannen ， Lukas Cavigelli ， Radu Mrs. fte ， LucaBenini，and Luc V Gool.用于端到端学习可压缩表示的软到硬矢量量化神经信息处理系统的进展，第1141-1151页，2017年四、六[3] 马丁·阿乔对ky，苏米特·钦塔拉和Le'onBottou。我们走吧。arXiv预印本arXiv：1701.07875，2017。2[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei.Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。IEEE会议，第248-255页。Ieee，2009年。二、五[5] Carl Doersch、Abhinav Gupta和Alexei A Efros。作为监控信号的上下文：发现具有可预测上下文的对象。欧洲计算机视觉会议，第362-377页Springer，2014. 2[6] Carl Doersch、Abhinav Gupta和Alexei A.埃夫罗斯通过上下文预测的无监督视觉表示学习2015年，国际计算机视觉会议（ICCV）2[7] Carl Doersch 、 Saurabh Singh 、 Abhinav Gupta 、 JosefSivic和Alexei A.埃夫罗斯是什么让巴黎看起来像巴黎？ACM Transactions on Graphics （ SIGGRAPH ）， 31（4）：101：1二三五[8] Je f fDonahue，PhilippKr aehenbuhl，andTre v orDarrell.对抗性特征学习。arXiv预印本arXiv：1605.09782，2016。二、六[9] 马可·弗拉卡罗西蒙·卡姆龙乌尔里希·帕奎特和奥勒·温瑟无监督学习的解纠缠识别和非线性在NIPS，2017年。2[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26722[11] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloJimenez Rezende和Daan Wierstra。画图：一个用于图像生成的递归神经网络.arXiv预印本arXiv：1502.04623，2015。2[12] Ishaan Gulrajani、Kundan Kumar、Faruk Ahmed、AdrienAli Taiga 、 Francesco Visin 、 David Vazquez 和 AaronCourville。PixelModel：一种自然图像的潜变量模型。arXiv预印本arXiv：1611.05013，2016。2[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。五、七[14] Mayank Juneja ， Andrea Vedaldi ， CV Jawahar ， andAndrew Zisserman.块喊：用于场景分类的独特部分。在IEEE计算机视觉和模式识别会议论文集，第923-930页，2013年。二、三[15] Salman H Khan，Munawar Hayat和Nick Barnes。用于高保真图像生成的变分自动编码器的对抗训练。arXiv预印本arXiv：1804.10323，2018。24757[16] Hyunjik Kim和Andriy Mnih。通过因子分解来解开arXiv预印本arXiv：1802.05983，2018。2[17] Durk P Kingma ， Shakir Mohamed ， Danilo JimenezRezende，and Max Welling.使用深度生成模型的半监督学习神经信息处理系统的进展，第3581-3589页，2014年。2[18] Diederik P Kingma，Tim Salimans，Rafal Jozefowicz，Xi Chen，Ilya Sutskever，and Max Welling.用逆自回归流改进神经信息处理系统进展，第4743-4751页，2016年。2[19] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。二、三、四[20] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。技术报告，

下载后可阅读完整内容，剩余1页未读，立即下载