文件标题：自我监督的特征学习为基础的歧视特定变换的图像特征学习及其泛化能力

160 浏览量更新于2023-10-23 收藏 860KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6408超越局部像素统计Simon Jenni1金海林2Paolo Favaro1伯尔尼大学1Adobe Research2{simon.jenni，paolo.favaro}@hljin@adobe.com inf.unibe.ch摘要我们介绍了一种新的原则，自我监督的特征学习的基础上的歧视的特定变换的图像。我们认为，学习的特征的泛化能力取决于什么样的图像邻域大小足以区分不同的图像变换：所需的邻域大小越大全局图像统计的准确描述允许更好地表示对象及其上下文的形状和分辨率，这最终更好地适用于新任务，例如对象分类和检测。这为图像变换的选择和设计提供了依据。基于这一准则，我们引入了一种新的图像变换，我们称之为有限的上下文修复（LCI）。这种变换只在一个小的矩形像素边界（有限的上下文）条件下对图像补丁进行inpaints由于有限的边界信息，内绘器可以学习匹配局部像素统计，但不太可能匹配图像的全局统计我们声称，同样的原则可以用来jus- tify的性能的转换，如图像旋转和扭曲。事实上，我们通过实验证明，学习区分LCI，图像扭曲和旋转等变换，可以在Pascal VOC，STL-10，CelebA和ImageNet等几个数据集上产生具有最先进泛化能力的特征。值得注意的是，我们训练的特征在Places上的表现与通过ImageNet标签的监督学习训练的特征相当。1. 介绍目前，解决基于视觉的任务（如目标分类、检测和分割）的最佳性能方法是基于监督学习的。然而，这些方法需要大量的标记数据才能实现高性能，其采集成本高且容易出错。通过标签学习还可能遇到另一个基本限制，这取决于图1：全局图像统计的重要性。顶行：自然图像。底行：图像经过变换，使得局部统计信息得到保留，而全局统计信息被显著改变。一个准确的图像表示应该能够区分这两个类别。在ImageNet标签上预先训练的conv5特征之上，一个线性二元分类器被训练用于区分原始图像和如果我们使用我们提出的自监督学习任务预先训练的特征，分类器的准确率达到85%。请注意，在我们的特征训练中没有使用这种转换，并且转换后的图像是独立于任一特征构建的。训练程序和数据集：它可能产生主要描述本地统计数据的特征，因此具有有限的泛化能力。这个问题的说明如图所示。1.一、在最下面的一行中，我们展示了已经被转换的图像，这样就可以保留最上面一行中相应图像的局部统计信息，但不保留全局统计信息我们通过实验发现，用ImageNet标签[6]预训练的特征很难区分真实图像和变换后的图像。这个简单的测试表明，ImageNet中的分类任务主要可以通过关注局部图像统计来解决。当在其他任务和数据集上评估这些特征时，这种问题可能不会被注意到，这些任务和数据集可以基于类似的局部统计来解决然而，更一般的分类设置肯定会暴露这种限制。[16]还指出了这个问题，并表明训练监督模型以关注全局统计数据（他们称之为形状）可以提高学习的泛化性和鲁棒性。1变换后的图像是通过将图像划分为4×4网格，随机排列瓷砖，并通过对抗训练训练网络来修复瓷砖上的像素带而获得的[19]。6409(a)（b）（c）（d）图2：选定的图像变换。来自图像的局部补丁的示例（a）扭曲，（b）局部已修复，（c）已旋转或（d）未转换。底部行示出了原始图像，中间行示出了对应的变换图像，并且顶部行示出了变换图像的细节。通过仅观察局部块（顶行），在所有上述情况下是否可以判断图像是否以及如何被变换，或者是否需要观察整个图像（中间行），即，全局像素统计？图像表示因此，为了解决这个根本性的缺点，并限制对人类注释的需求，我们提出了一种新的自监督学习（SSL）方法。SSL方法无需手动标记即可学习特征，因此它们有可能更好地扩展其训练并利用大量现有的未标记数据。在我们的方法中的训练任务是区分全局图像统计。为此，我们以局部统计基本不变，而全局统计明显改变的方式转换图像。通过这样做，我们可以确保这种变换的区别是不可能的，只工作在局部补丁，而是需要使用整个图像。我们在图中说明了这一原理。2.顺便说一句，几个现有的SSL任务可以被看作是从这样的转换中学习，例如，发现伪像[25]、上下文预测[44]、旋转预测[17]和解决拼图[38]。我们将我们的自监督学习方法作为通过对几种图像变换进行分类来区分全局图像统计中的变化的任务（见图11）。（3）第三章。作为一种新的图像变换，我们介绍了有限的上下文修复（LCI）。LCI从自然图像中选择一个随机的补丁，用噪声代替中心（因此，它保留了一个小的像素外边界），并通过对抗训练训练网络来绘制一个真实的中心。而标签=5图3：学习全局统计。我们建议通过训练卷积神经网络来对图像变换进行分类来学习图像表示。transformations的选择，使本地图像统计被保存，而全球统计明显改变。LCI可以修补补丁的真实中心，使其与保留的边界无缝融合，但它不太可能提供与原始图像其余部分的有意义的匹配因此，这种不匹配只能通过学习图像的全局统计来检测我们的配方也是高度可扩展的，并允许轻松地将更多的转换作为额外的类别。事实上，我们还包括图像扭曲和图像旋转的分类（见图中的此类变换的示例）2）。所提出的训练方案的说明3.第三章。捐款. 我们提出的方法具有以下原创性贡献：1）我们引入了一种新的基于图像变换的自监督学习原理，该原理只能通过全局观察来检测;2)根据这一原理，我们提出了一种新的变换，并通过实验证明了它对特征学习的影响; 3）我们制定了该方法，以便它可以很容易地扩展额外的变换; 4）我们提出的方法在多个数据集上实现了最先进的迁移学习性能;特别是，我们第一次表明，我们的训练特征在转移到Places时，其性能与通过ImageNet标签的监督学习训练的特征相当。代码可在https://sjenni.github.io/LCI上获得。标签=0旋转90°标签=1旋转180°标签=2旋转270°标签=3CNN分类器经纱标签=4LCI6410LSSL0 52. 先前工作自我监督学习。自监督学习是一种特征学习方法，通过引入人工任务来避免使用数据标签。在图像上定义的任务的示例是查找：部分的空间配置[8，38，37]，灰度图像的颜色[55，56，29]，给定其上下文的图像块[44]，图像定向[17]，由破坏过程引入的伪像[25]，直到数据抖动的图像实例[12，51，52]，对比预测编码[41，20]或从聚类过程中获得的伪标签[40，4，60]。自监督学习也被应用于其他数据域，如视频[50，43，48，36]和音频[42，57，15]。几个自我监督的任务可以被看作是对应用于图像的某种形式的图像变换的预测。Gidaris等人[17]例如预测应用于图像的90°Jenni和Favaro [25]预测了由腐败过程引入的工件的存在和位置。Doersch等人[8]通过预测图像块的相对位置来预测关于图像块的变换。Noroozi和Favaro [38]通过解决拼图游戏将这一想法扩展到多个补丁。最近Zhanget al. [54]提出了使用Siamese架构来预测两个图像之间的相对投影变换的参数在我们的工作中，我们表明，通过预测新的和以前探索的图像变换的组合，我们可以形成新的和更具有挑战性的学习任务，学习更好的功能。一些工作已经探索了通过多任务学习来组合不同的自我监督任务 [46 ， 9] 。最近， Fenget al.[14] 表明Gidaris等人的旋转预测任务的组合。[17] Wu等人的实例识别任务。[51]在转移实验中获得最先进的结果。它们通过将倒数第二个特征向量分成两部分来实现：一个用于预测转换，第二个转换不可知部分用于区分不同的训练图像。请注意，我们的工作与这些方法正交，因此可以将其集成到这样的多任务公式中-真的。Jenni和Favaro [25]的工作与我们的LCI变换有一些相似之处。它们通过擦除和局部修复自动编码器的特征来我们有限的上下文修复在两个重要方面与这些方法不同首先，我们更强烈地限制了inpainter的上下文，并将修复的补丁放回更大的上下文中，以产生不切实际的全局图像统计数据。其次，一个单独的补丁训练允许独立于特征学习组件的稳定对抗训练。识别图像操作。许多作品都考虑了在图像取证的背景下检测图像操纵例如，Wanget al. [49]基于局部变形预测细微的面部图像操作。Zhou等[59]检测使用语义掩码生成的图像篡改。在这些情况下，变换通常是微妙的，并且不会以可预测的方式改变全局因此，这一目标与我们的目标背道而驰。3. 通过判别全局图像变换学习特征我们的目标是通过识别全局图像统计中的变化来学习没有人类注释的图像表示我们这样做是通过区分自然图像和图像，经历了几个不同的图像变换。我们的原则是选择图像变换：1）保持局部像素统计（例如，纹理），但改变图像的全局图像统计，以及2）在大多数情况下可以从单个变换的示例中识别。在本文中，我们选择了以下变换：有限的上下文修复，扭曲，旋转和身份。这些转换将在下一节中详细介绍。形式上，给定一组未标记的训练图像{xi}i=1，.，N和一设置的图像变换{Tj}j=0，...，K，我们训练分类器C来预测给定变换示例Tjxi的变换标签j。在我们的例子中，我们设置K= 5。我们包括身份（不-并可能导致进一步的改善。变换）的情况下，.x=x。我们训练因为在我们的LCI转换中，我们构建了一个修补程序-通过对抗训练网络，我们简要讨论了利用类似技术的工作。网络C通过最小化以下自监督对象对抗性特征学习。生成对抗网络（GAN）[19]已被用于以下目的：.（T，. - 是的- 是的，T）= min1ΣN Σ5.埃克尔斯角.TyxiΣΣ，y，在几个作品中的表示学习Radford等人[45]第一次证明卷积神经网络可以学习C6Ni=1y=0（一）相当不错的功能。Donahue等人[10，11]通过训练编码器来产生生成器的逆映射来学习特征Pathak等人[44]使用对抗性损失来训练用于修复的自动编码器。他们使用训练过的编码器作为特征提取器。Denton等人[7]也执行形式修复，而是转移的图像-其中，xcls是多类的标准交叉熵损失，分类问题3.1. 有限上下文修复我们建议在eq中使用的第一个转换（1）基于有限上下文修复（LCI）。目的6411其他TkLCI（T5）FeiRi分类器Xi贴片内绘器房贴片鉴别器D假图4：有限上下文修复（LCI）网络的训练。从训练图像x中提取随机块，并且除了像素的薄边界之外的所有像素都被随机噪声替换inpainter网络F用以剩余边界像素为条件的真实纹理填充补丁所得到的补丁被替换回原始图像，从而生成具有自然局部统计但不自然全局统计的图像。LCI的目的是仅局部地修改图像，即，在图像块的尺度上。我们训练一个inpainter网络F，条件是只在补丁的像素的薄边界上（见图1）。4）.修复后的补丁应该是真实的，并在边界处与周围的图像融合，但不应该有意义地匹配整个图像的内容（见图中的示例）。第2段（b）分段）。使用对抗性训练来训练内绘器F，对抗性训练针对补丁判别器D（其确保我们匹配局部统计数据）以及变换分类器C。要修复的补丁是在均匀采样的位置随机选择的其中，f是图像域。然后，W是周围的像素的正方形区域。我们将ei定义为W处的原始像素块，将ri定义为相应的修复后的像素块备注。与先前的SSL方法[25，44，7]相反，这里我们没有从我们用来学习转换的网络中获取特征（例如，D或F）。相反，这里我们从一个单独的分类器C中提取特征，它在F的训练中只起部分作用。这种分离有几个优点：1）训练参数的单独调整是可能的，2）GAN技巧可以在不影响分类器C的情况下应用，（3）GAN训练可以是稳定的，即使当分类器C不工作时，GAN训练也是稳定的。分类器获胜（LSSL饱和w.r.t. F）。3.2. 随机翘曲除了LCI，这是一个局部的图像变换，我们认为随机的整体翘曲作为我们的T4变换。翘曲是平滑的变形在由n个像素坐标定义的图像坐标ei（p−..n）=xi（p），p∈W（二）{（ui，vi）}i=1，.，n，作为控制点。我们将控制点放置在图像域的均匀网格上ri=F（ei<$（1−m）+z<$m）（3）其中m是在补丁中心为1并且在边界为0的掩模（在我们的基线中为2到4个像素），zN（0，I）是零均值高斯噪声，并且m表示Hadamard（像素到像素）乘积。LCI变换T5则为定义为.然后通过从矩形范围[-d，d]×[-d，d]中采样偏移来随机偏移每个控制点，其中d通常是图像大小的1/10然后，通过在非均匀流场和非均匀流场之间进行插值，计算翘曲的稠密流场。使用多谐样条[13]在控制点设置。扭曲对本地图像统计的影响很小：一般来说，很难区分扭曲的补丁，（T5）.xi）（p）=xi（p）如果p∈/W<$r（p−1）如果p∈W.（四）一个正在经历视角变化的补丁。因此分类器需要学习全局图像统计来检测IM，伊塔年龄扭曲最后，为了培训内画师F，我们将成本降到最1公斤23.3. 图像旋转最后，我们考虑T，T和T图像旋转Linp=GAN（ri，ei）+ λborder|（ri− ei）（1 −m）|1 2 3Ni=1-LSSL（T0，. - 是的- 是的，T5），（5）其中λborder= 50是调节输入边界自动编码重要性的调优参数，而λGAN（·，·）是对抗训练的铰链损失[30]，包括了最大化。641290度，180度，270度。这一选择受到Gidariset al的启发。[17]他提出了RotNet，这是一个预测图像旋转90度的网络。这被证明是一个简单而有效的SSL借口任务。这些转换是可预测的，因为摄影师的偏见introduces一个典型的参考方向，许多自然图像。它们还需要全局统计数据作为本地补丁6413为了进一步防止此类故障，我们还训练网络，F通过修改损失Linp由方程式(5)为L=L+λ1ΣN|二、|2,输入，AEInPAENi=1(a)（b）第（1）款图5：CelebA上的图像统计。(a)从CelebA的8000个样本获得的平均图像。(b)从平均图像中提取四个局部块。因为这些pat-tumor在数据集中总是以相同的方向出现，所以可以通过仅使用这些局部统计来区分旋转的图像。因为在未变换的数据集中可以找到类似的块，所以旋转图像的方向通常不指示图像的方向备注。然而，存在几种设置，其中图像旋转的预测不会导致良好的特征。例如，许多自然图像没有a canonical image orientation.因此，在这些情况下，图像旋转的预测是一个不适定的任务。还存在感兴趣的整个数据域，其中图像取向是模糊的，诸如卫星和细胞成像数据集。即使存在清晰的直立图像方向，这种方法也会导致非最佳特征学习。作为一个例子，我们证明了在CelebA [31]（一个人脸图像数据集）上预测图像旋转会导致比通过预测其他变换学习到的特征更差的特征（见表3）。这一限制背后的主要原因是，在数据集中总是可以找到具有相同方向的局部补丁（见图1）。（五）。例如，分类器可以通过简单地检测一只眼睛或嘴来容易地区分3.4. 防止学习退化正如Doerschet al. [8]被训练来解决自我监督任务的网络可以通过使用非常局部的统计来这样做（例如，通过检测色差进行定位）。这种解决方案被称为捷径，退化学习的一种形式，因为它们产生具有较差泛化能力的特征。当引入人工任务时，例如区分几种图像变换，重要的是要确保训练的网络不能利用由变换引入的（局部）伪影例如，分类器可以学习识别内画器F的处理伪影，以便识别LCI变换的图像。虽然对抗性训练应该有助于防止这种行为，但我们通过实验发现，它本身并不足够。到其中，λAE= 50是调节Im的调谐参数自动编码图像补丁的重要性。我们还创建了人工未变换的图像，通过用其自动编码版本替换随机补丁。在分类器的每个小批量中，我们用这些补丁自动编码的图像替换一半未变换的图像。以这种方式，分类器将不会集中在小的伪像（其甚至可能是肉眼不可见的）上作为区分变换的方式。在训练过程中，我们还在应用旋转之前用这些补丁自动编码的图像替换小批量中的一半原始图像。4. 关于变换的选择我们的目标是通过区分经历不同变换的图像来学习特征。我们指出，这种方法应该使用只能通过观察大的像素区域来区分的变换，并且是可缩放的，即，可以通过包括更多的变换来进一步细化它。在本节中，我们想把这两个方面讲得更清楚。确定合适的转换。我们发现，选择使用什么转换取决于数据分布。这种依赖性的一个例子是，CelebA上的RotNet如图所示。5.直观地说，理想的变换是这样的，即任何变换后的局部补丁都应该在原始数据集中找到，但任何变换后的全局补丁都不应该在数据集中找到。这也是LCI设计背后的关键思想。引入额外的转换。正如我们将在实验部分中展示的那样，添加更多的转换（如上所述）可以提高性能。一个重要的方面是分类器必须能够区分不同的转变。否则，它的任务是模糊的，并可能导致退化学习。简单地说，变换后的全局补丁应该不同于任何其他用不同变换变换的全局补丁（包括它自己）。我们验证了我们所选择的变换满足这一原则，因为LCI和图像扭曲不能产生旋转图像，扭曲是一个全球变形，而LCI是一个局部的。5. 实验我们进行了广泛的实验评估，我们制定了几个建立无监督特征学习基准。为了与之前的工作进行公平比较，我们使用标准AlexNet架构实现了转换分类器C[28]。根据之前的工作，我们删除了局部响应归一化层，并将批归一化[23]添加到除fi之外的所有层6414表1：STL-10上有限上下文修复（LCI）的不同设计选择的消融实验[5]。我们预训练AlexNet来预测图像是否已经用LCI进行了变换，并将冻结的卷积特征转移到线性分类中。消融精度(a)32×32贴片百分之六十一点二(b)40×40贴片70.6%(c)56×56贴片百分之七十五点一(d)预训练和冷冻F百分之六十三点七(e)无对抗性损失w.r.t. C68.0%(f)无修补程序自动编码百分之六十九点五基线（48×48片）76.2%最后一个没有对原始架构进行其他修改（我们保留了双流架构）。对于低分辨率图像的实验，我们删除了表2：我们报告了在STL-10上训练用于预测图像变换的不同组合的模型的冻结特征上训练的线性分类器初始化conv1conv2conv3conv4conv5随机48.4%百分之五十三点三51.1%48.7%百分之四十七点九经纱百分之五十七点二64.2%62.8%58.8%55.3%LCI58.8%百分之六十七点二67.4%68.1%68.0%腐百分之五十八点二百分之六十七点三百分之六十九点三百分之六十九点九百分之七十点一Warp + LCI百分之五十九点三68.1%百分之六十九点五68.5%百分之六十七点二旋转+扭曲百分之五十七点四百分之六十九点二70.7%百分之七十点五70.6%Rot + LCI58.5%百分之六十九点二71.3%百分之七十二点八72.3%旋转+翘曲+LCI百分之五十九点二69.7%71.9%73.1%百分之七十三点七表3：我们报告了线性分类器的平均精度，这些线性分类器被训练来预测模型的冻结特征上的面部属性，这些模型被训练来预测CelebA上的图像变换的不同组合。在conv 5之后使用max-pooling层，并使用padding2·10−4，β1= 0。五、在STL-10和CelebA上的实验中，补丁边界元的大小被设置为2个像素在ImageNet上，我们使用4像素边界。细节补充材料中提供了网络结构和其他结果5.1. 消融实验有限上下文修复。我们在STL-10 [5]上进行了消融实验，以验证联合内绘器和分类器训练的几种设计选择。我们还说明了补丁大小对学习功能性能的影响。我们在未标记训练集的64×64作物上预训练转换分类器200个epoch。小批量大小设置为64。然后我们将通过在小标记训练集的随机裁剪的96×96图像上训练线性分类器500个时期来冻结conv5特征仅使用LCI作为转换在这些实验中。表1中报告了以下消融的结果（a）-（c）改变斑块大小：我们改变了内绘补丁的大小。我们观察到，小补丁导致功能性能的显着下降。较小的补丁很容易修补，结果通常不会改变全局图像统计;整个网络。标准数据扩充初始化conv1conv2conv3conv4conv5策略（随机裁剪和水平翻转），随机68.9%百分之七十点一66.7%65.3%百分之六十三点二采用分类器的自我监督预训练是每-经纱71.7%百分之七十三点四71.2%68.8%64.3%使用AdamW优化器形成[34]，参数LCI71.3%73.0%72.0%71.1%68.0%β1= 0。5，β2= 0。99，重量衰减为10−4。我们-腐百分之七十点三百分之七十点九百分之六十七点八百分之六十五点六62.1%6415（d）-（f）防止走捷径：继SEC 3.4,我们展示了F的对抗性训练是如何通过在（d）中移除D和C的反馈以及在（e）中仅移除C来实现良好性能我们还证明了将自动编码的补丁添加到（f）中的非变换图像的重要性;图像变换的组合。我们在STL-10和CelebA [31]上进行了广告消融实验，其中C被训练来预测图像转换的不同组合。这些实验说明了我们的公式如何随着所考虑的图像变换的数量而扩展，以及变换的有效性如何取决于数据域。我们对AlexNet进行了预训练，以使用标准数据增强来预测 STL-10 上 64×64 作物上的 200 个时期和CelebA上96×96作物上的100个时期对于转移，我们训练线性分类器在冻结的卷积特征之上（不调整特征图的大小），以预测STL-10的10个对象类别，并预测STL-10的40个面部属性。Celeba的案例在STL-10的情况下，在64×64作物上执行700个epoch的迁移学习，并在100个epoch上6416表4：PASCAL上分类、检测和分割的迁移学习结果与最先进的特征学习方法相比（ * 使用更大的AlexNet）。分类检测分割型号[参考]（mAP）（mAP）（mIoU）Krizhevsky等人[28][55] 79.9% 59.1% 48.0%随机[44] 53.3% 43.4% 19.8%Agrawal等人[1][10] 54.2%Bojanowski等人[3][3] 65.3% 49.4%-表5：ImageNet上的验证集精度，其中线性分类器在冻结的卷积层上训练。†指示多作物评估和 * 使用更大的AlexNet。模型\层conv1 conv2 conv3 conv4 conv5ImageNet标签19.3%百分之三十六点三百分之四十四点二百分之四十八点三百分之五十点五随机11.6%百分之十七点一百分之十六点九百分之十六点三百分之十四点一Donahue等人[10个国家]17.7%百分之二十四点五31.0%百分之二十九点九28.0%Feng等人[14个]百分之十九点三33.3%百分之四十点八41.8% 百分之四十四点三Donahue等人[10个国家][10个国家]百分之六十点一46.9%35.2%Gidaris等人[17个]百分之十八点八百分之三十一点七百分之三十八点七38.2%百分之三十六点五Feng等人[14个][14个]74.3%百分之五十七点五百分之四十五点三Huang等人. [21日]15.6%27.0%35.9%百分之三十九点七百分之三十七点九Gidaris等人[17个][17个]73.0%54.4%百分之三十九点一[25]第二十五话百分之十九点五33.3%百分之三十七点九38.9%百分之三十四点九[24]第二十四话[24日]-41.7%-[38]第三十八话百分之十八点二百分之二十八点八34.0%百分之三十三点九27.1%[25]第二十五话[25日]69.8%百分之五十二点五百分之三十八点一Noroozi等人[39]第三十九届18.0%百分之三十点六百分之三十四点三32.5%百分之二十五点七Kr aühenb uühl等[27日][27日]56.6%45.6%百分之三十二点六Noroozi等人[第四十届]百分之十九点二32.0%百分之三十七点三37.1%百分之三十四点六Larsson等人[29日][29日]65.9%-38.0%Tian等人[47个]百分之十八点四33.5%百分之三十八点一百分之四十点四百分之四十二点六[38]第三十八话[38个]67.6%53.2%百分之三十七点六Wu等[五十一]百分之十六点八26.5%百分之三十一点八百分之三十四点一百分之三十五点六Noroozi等人[39]第三十九届[39]第三十九届67.7%百分之五十一点四百分之三十六点六Zhang等人[55个]13.1%百分之二十四点八31.0%百分之三十二点六百分之三十一点八Noroozi等人[第四十届][第四十届]72.5%百分之五十六点五百分之四十二点六Zhang等人[56个]17.7%29.3%35.4%35.2%百分之三十二点八Mahendran等人[35]第三十五届[35]第三十五届64.4%50.3%41.4%Zhang等人[五十四]百分之十九点二百分之三十二点八40.6%百分之三十九点七百分之三十七点七Doersch等人[8]*百分之十六点二23.3%百分之三十点二百分之三十一点七百分之二十九点六Caron等人[4]*百分之十二点九百分之二十九点二38.2%39.8%百分之三十六点一]*<$18.7%Caron等人[4]*[4] 73.7% 55.4% 45.1我们的-74.5%56.8%44.4在CelebA的情况下，在96×96作物上的时期。我们在表Pathak等人[四十三][四十三]61.0%百分之五十二点二-Zhuang等[60百分之三十二点七百分之三十八点一百分之四十二点三42.4%王古普塔[50][27日]63.1%47.4%-我们百分之二十点八百分之三十四点五40.2%43.1%41.4%Mundhenk等人[37]第三十七届[37]第三十七届69.6%55.8%41.4%Owens等人[第四十二届][第四十二届]百分之六十一点三44.0%-64172中报告了STL-10的结果，在表3中报告了CelebA的结果我们可以观察到，大量图像变换的区分通常会在两个数据集上产生更好的特征性能。当孤立地考虑每一个转换时，我们会发现并不是所有的转换都能很好地推广到不同的数据域。旋转预测在CelebA上的表现尤其比在STL-10上明显更差另一方面，LCI的性能在两个数据集上都很好。5.2. 无监督特征学习基准我们将我们提出的模型与已建立的特征学习基准上的最先进方法进行比较。我们在ImageNet训练集上对变换分类器进行了200个epoch的预训练图像被随机裁剪到128×128，并且在预训练期间删除最后一个最大池化层以保留特征图的大小在完全连接的层之前。我们使用了96个批量，并在4个GPU上进行了训练。Pascal VOC。我们对Pascal VOC数据集上的多标签分类、对象检测和语义分割的变换分类器功能进行了我们遵循既定的实验设置和使用的框架表6：具有在冻结卷积层上训练的线性分类器的位置上的验证集准确度。†表示多作物评估和 * 使用更大的AlexNet。模型\层conv1conv2conv3conv4conv5放置标注22.1%百分之三十五点一40.2%百分之四十三点三百分之四十四点六ImageNet标签22.7%34.8%百分之三十八点四百分之三十九点四百分之三十八点七随机百分之十五点七百分之二十点三百分之十九点八百分之十九点一百分之十七点五Donahue等人[10个国家]22.0%百分之二十八点七百分之三十一点八百分之三十一点三百分之二十九点七Feng等人[14个]百分之二十二点九百分之三十二点四百分之三十六点六百分之三十七点三百分之三十八点六Gidaris等人[17个]百分之二十一点五31.0%百分之三十五点一百分之三十四点六百分之三十三点七[25]第二十五话23.3%百分之三十四点三百分之三十六点九百分之三十七点三百分之三十四点四[38]第三十八话23.0%百分之三十一点九35.0%34.2%29.3%Noroozi等人[39]第三十九届23.3%百分之三十三点九百分之三十六点三34.7%百分之二十九点六Noroozi等人[第四十届]百分之二十二点九34.2%百分之三十七点五37.1%百分之三十四点四Owens等人[第四十二届]百分之十九点九29.3%32.1%百分之二十八点八百分之二十九点八Pathak等人[第四十四届]百分之十八点二百分之二十三点二百分之二十三点四百分之二十一点九百分之十八点四Wu等[五十一]百分之十八点八百分之二十四点三百分之三十一点九百分之三十四点五百分之三十三点六Zhang等人[55个]16.0%百分之二十五点七百分之二十九点六30.3%百分之二十九点七Zhang等人[56个]百分之二十一点三百分之三十点七34.0%百分之三十四点一32.5%Zhang等人[五十四]22.1%32.9%37.1%百分之三十六点二34.7%Doersch等人[8]*百分之十九点七百分之二十六点七百分之三十一点九百分之三十二点七百分之三十点九Caron等人[4]*18.6%百分之三十点八37.0%百分之三十七点五33.1%Zhuang等[60]**百分之十八点七百分之三十二点七38.2%百分之四十点三百分之三十九点五我们24.1%33.3%百分之三十七点九百分之三十九点五百分之三十七点七我们的†25.0%34.8%百分之三十九点七41.1%百分之三十九点四由K raühenbuühl 等人提供。[27]对于多标签分类，Fast-RCNN [18]框架用于检测，FCN [32]框架用于语义分割。我们将批量归一化参数吸收到参数中，6418图6：我们在Places验证集上报告了k-最近邻分类器的留一交叉验证（LOOCV）精度我们比较了我们的自监督变换分类器对不同k值的监督网络特征的性能。这两个网络都是在ImageNet上预先训练的。在AlexNet中的相关层的eters，并应用Kr aühenbuühl等人的数据相关的重新缩放。[27]这是一种惯例。这些迁移学习实验的结果报告在表4中。我们在分类方面实现了最先进的性能，并在检测和分割方面取得了有竞争力的结果ImageNet和Places上的线性分类器实验。为了衡量我们的自我监督学习任务的质量，我们使用变换分类器作为固定的特征提取器，并在每个卷积层上训练线性分类器。这些实验在Ima-geNet（用于预训练的数据集）和Places [58]上进行（以衡量特征对新数据的泛化程度）。我们遵循与最先进的方法相同的设置，并报告在单次作物上实现的精度。ImageNet的结果见表5，Places的结果见表6。我们学习的功能在ImageNet上实现了 conv1 ， conv2 和 conv4 在 Places 上，我们在conv1、conv3和conv4上实现了最佳结果。我们在conv4 上的结果是最好的，甚至稍微超过了在ImageNet上使用监督训练的AlexNet的性能最近邻评价通过监督学习在深度CNN中学习的特征倾向于分布，使得它们的欧几里得距离与语义向量密切相关它们所对应的图像的视觉相似性。我们想看看我们的SSL 功能是否也享有相同的属性。因此，我们在ImageNet 的验证集上计算我们的 SSL 和 SL 特征在conv5特征空间中结果示于图7.第一次会议。我们还在图6中展示了位置验证集上的k我们报告的留一交叉验证（LOOCV）的精度为不同的k值。这可以通过计算机有效地实现。图7：最近邻检索的比较。最左边的列显示查询图像。奇怪的行：与我们的功能重新trievals.偶数行：使用ImageNet标签学习的特征检索。最近邻是在ImageNet的验证集上使用余弦相似度计算的，具有conv5使用完整的数据集并通过排除每个查询的最近邻居来计算（k+1）-最近邻居来自五种128×128作物的特征的连接（以训练网络的分辨率提取）用于最近邻。特征是标准化的，余弦相似性用于最近邻计算。6. 结论我们引入了自监督特征学习任务，该任务将自然图像与通过局部修复（LCI）、图像扭曲和旋转变换的图像区分开，基于训练特征在其任务需要检测全局自然图像统计时更好地泛化的原则这一原则得到了大量实验评价的支持：经过训练的特征在几个迁移学习基准测试（Pascal VOC，STL-10，CelebA和ImageNet）上达到了SotA的性能，甚至在Places上的监督训练中表现略好。鸣谢。这项工作得到了瑞士国家科学基金会（SNSF）资助号200021 169622和Adobe奖的支持。6419引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。在IEEE计算机视觉国际会议论文集，第37-45页[2] Jawadul H Bappy 、 Amit K Roy-Chowdhury 、 JasonBunk、Lakshmanan Nataraj和BS Manjunath。利用空间结构来定位被操纵的图像区域。在IEEE计算机视觉国际会议的论文集，第4970-4979页[3] Piotr Bojanowski和Armand Joulin。通过预测噪声进行无监督学习。第34届国际机器学习会议论文集-第70卷，第517-526页，2017年[4] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集，第132-149页[5] Adam Coates，Andrew Ng，and Honglak Lee. 无监督特征学习中单层网络的分析第十四届人工智能和统计国际会议论文集，第215-223页，2011年[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第248[7] 艾米丽·丹顿，萨姆·格罗斯，还有罗伯·费格斯使用上下文条件生成对抗网络的半监督学习arXiv预印本arXiv：1611.06430，2016年。[8] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在IEEE InternationalConference on Computer Vision的Proceedings，第1422-1430页[9] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习。在IEEE国际计算机视觉会议论文集，第2051[10] Je f fDonahue ， PhilippK raühenbühl ，和 Tr ev 或Darrell 。对抗性特征学习。 arXiv 预印本 arXiv ：1605.09782，2016。[11] 杰夫·多纳休和凯伦·西蒙尼扬。大规模对抗表示学习。arXiv预印本arXiv：1907.02544，2019。[12] Alexey Dosovitskiy ， Jost Tobias Springenberg ， MartinRied-miller，and Thomas Brox.用卷积神经网络进行判别式无监督特征学习。神经信息处理系统的进展，第766-774页，2014年[13] 让·杜雄Sobolev空间中极小化旋转不变半范数的样条在建设性理论的职能的几个变量，第85-100页施普林格，1977年。[14] 风泽宇，常旭，大成涛。通过旋转特征解

下载后可阅读完整内容，剩余1页未读，立即下载