自监督表示学习的语义感知自动编码器

82 浏览量更新于2023-10-25 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9664用于自监督表示学习的语义感知自动编码器王广润1唐岩松2梁林1Philip H.S. Torr11牛津大学2清华-伯克利深圳研究院、清华大学3中山大学{guangrun.wang，philip. yansong} @ eng.ox.ac.uk，tang. sz.tsinghua.edu.cn，linliang@ieee.org摘要无监督学习的复兴可以归因于自监督学习的显着进步，其中包括生成（G）和判别（D）模型。在计算机视觉中，主流的自监督学习算法是D模型。然而，设计D模型可能过于复杂;而且，一些研究暗示D模型可能不像G模型那样通用和可解释。在本文中，我们从D模型切换到(a) D模型(b) 语义不可知的G模型(c) 语义感知G模型G模型使用经典的自动编码器（AE）。注意在自监督计算机视觉任务中，普通G模型的效率远远低于D模型，因为它在过度拟合语义不可知的高频细节上浪费了受感知学习的启发，可以使用跨视图学习来感知概念和语义1，我们提出了一种新的AE，可以通过跨视图图像重建来学习语义感知表示。我们使用图像的一个视图作为输入，同一图像的另一个视图作为重建目标。这类声发射以前很少有人研究，优化也很困难。为了提高学习能力并找到可行的解决方案，我们提出了一个语义对齐器，它使用几何变换知识来对齐AE的隐藏代码，以帮助优化。这些技术显著提高了AE的表示学习能力，使G模型的自监督学习成为可能。在许多大型基准上进行了广泛的实验（例如，，ImageNet，COCO 2017和SYSU-30 k）证明了我们方法的有效性代码可在 https ： //github 上获得。com/wanggrun/Semantic-Aware-AE.1. 介绍在没有人类注释的情况下学习表示是一个充满期待的长期愿景[5]。虽然经历了低迷，但它已经获得了复兴。最近，无监督学习的复兴归因于[1]在[26]之后，我们将语义称为视觉概念，例如语义件模型表明该模型能够感知视觉概念，学习到的特征在目标识别、检测等方面具有很好的效果图1.区别模型（D模型），现有的语义不可知的生成模型（G模型），和我们的语义感知的生成模型之间的比较自我监督学习（SSL）的显着过程，可以分为两组，即。生成模型（G模型）和判别模型（D模型）。在计算机视觉中，主流的SSL算法是通过代理任务学习表示的D模型，例如，[18]解拼图[43]和旋转预测[23]。在所有代理任务中，对比学习[12-但是正如[4，27，61]所指出的，如果没有仔细的设计，对比学习算法就会崩溃。特殊规则化（例如，损失[4]，归一化[27]，中心化[10]），不寻常的优化（例如，梯度停止[14]，平均教师[51]），和非平凡架构（例如，通常需要难以解释的附加预测器[25]）。此外，一些研究还表明，与G模型相比，D模型在通用性和可解释性方面可能存在一些缺点[3，6，26]。具体来说，G模型可能在预训练基础模型[6]中更有效，用于微调任务或下游任务，G模型的开发有助于统一CV和NLP领域的预训练范式[3，17]。此外，使用G模型，可以进一步进行反事实干预以获得可解释性[1]。在本文中，我们从D模型转换到G模型9665图2.通过我们的语义感知AE在验证集上生成交叉视图图像的示例。在每个三元组中，左边是输入，中间是生成的结果，右边是重建目标。生成的图像与重建目标相似。虽然有些可能与重建目标略有不同，但生成的图像是合理的（语义上似乎合理）。使用经典的自动编码器（AE）2.请注意，以前的作品很少使用G模型，因为它不像D模型那样有效。例如，一个典型的G模型Big-BiGAN [19]与ResNet-50 [30]在ImageNet [48]上的线性评估任务中实现了55.4%的top-1准确度，这比三重损失模型[61]低20.5分，这是表现最好的D模型之一。类似地，具有基本DeiT [52]的最新G模型BEiT [3]仅获得56.7%的top-1准确度，与D模型相比仍然具有19.2%的劣势。实际上，BEiT，iGPT [11]和MAE [26]只能在预训练任务中表现良好，但在直接判别表征学习任务中表现不佳，例如。ImageNet上的线性评估。G模型的低效率是由于过度拟合语义不可知的局部高频细节[3，11，19]的能力浪费和对高层语义的忽视造成的例如，传统的AE使用图像作为输入，并将同一图像作为回归目标，使得模型过度关注语义不可知的信息压缩，而不是视觉概念（见图 1（b））。为了使G模型在SSL中可行，我们需要解决上述语义不可知性问题。幸运的是，Becker Hinton（1992）发现跨视图学习可以使模型感知概念和语义，他们提出了感知学习[5]。受该现有技术的启发，我们提出了一种新颖的AE，其可以经由交叉视图图像重建来学习语义感知我们将图像的视图作为输入，并强制AE重建图像的另一个视图（参见图1（c））。但这[2]有时候，关于普通AE是否算作G模型会有一个小小的争议。然而，社区达成了一个共识，即AE新品种，如去噪AE [53]，掩蔽AE[3，26]和可变AE [35]是G模型，因为它们可以生成不包括在输入中的东西，例如。我们的语义感知AE可以生成一个新的图像与不同的角度从输入。这些AE生成器是GAN [ 24 ]中类似的条件生成器，例如：、Conditional GAN [33]、Cycle- GAN [66]和StyleGAN [34]，其中输入是条件。AE模型研究较少，在实际应用中很难优化。为了解决这个问题，我们进一步提出了一种新的语义对齐技术。利用几何变换知识，可以调整AE的隐藏代码，保证代码语义与重构目标一致这些技术显著提高了AE的表示学习能力，并使具有G模型的SSL在计算机视觉中成为可能，从而在特征学习、概括性和可解释性方面具有最先进的性能。图2显示了我们的交叉视图图像生成的一些结果，这是有前途的。总之，我们的贡献有三方面。• 我们寻求在计算机视觉中用SSL中的G模型代替D模型的可能性。我们从过度拟合语义无关的局部高频细节的角度重新思考G模型我们的AE使用一个图像视图作为输入，同一图像的另一个视图作为重建目标，这是以前很少探索的。• 为了帮助语义感知AE优化，我们提出了一种新的语义对齐技术，使用几何变换知识语义对齐隐藏的AE代码的重建目标。这些技术大大提高了AE的表示学习能力，使G模型的SSL在计算机视觉中成为可能。• 大量的实验表明，我们的方法在几个大规模的基准点（例如，，ImageNet [48]，SYSU-30 k [59]和COCO 2017 [40]）和各种任务，证明了有效性（例如，特征学习、泛化能力和可解释性）。9666··◦◦◦2. 相关工作SSL. 无监督表示学习的想法可以追溯到很多年前，例如。，classical clustering [42].起初它被寄予厚望，然后由于表现不佳而令人失望。虽然经历了衰退，但最近又获得了复兴。无监督学习的复兴归功于SSL的巨大过程，它在NLP [7，17]和计算机视觉[12一般来说，SSL可以分为两组，即：，生成性（D）和（G）模型。SSL中的G模型。虽然G模型在NLP [7，17，20]中的预训练语言模型中取得了良好的性能，但它们在计算机视觉中的SSL任务中效果较差。计算机视觉中的第一组G模型是代理生成任务。典型的工作包括图像去噪[53]，图像修复[44]和颜色抖动[64]。虽然他们对SSL的复兴做出了贡献，但他们的学术代表并没有很好地推广。第二类是纯生成方法。代表作是BigBi-GAN [19]。它的初衷是生成性的，而不是歧视性的表征学习;因此，它的学习特征在图像识别任务中不是很有帮助。第三类是NLP启发的生成模型。杰出的作品包括BEiT [3]和iGPT [11]，它们分别受到BERT [20]和GPT [7]的启发。iGPT使用图像标记作为输入和目标，这是相对低级的代码。尽管BEiT将掩码语言建模与DALL E代码结合在一起[46]，但DALL E代码仍然包含用于图像重建的局部依赖性。因此，这些简单的回归任务（例如，、BEiT、iGPT和MAE [26]）在捕获高级语义方面存在困难。因此，他们只能在预训练任务中表现良好，但在直接辨别表征学习任务中表现不佳，例如。ImageNet上的线性评估请注意，上述大多数方法都是AE，无论基于CNN [37]或变压器[21]。AE的概念可以追溯到几十年前，起点不明确/无法追溯[2，36，47]。基本上和传统上，AE用于生成表示学习，其目的是降维。然而，AE在区分表示学习中是低效的，因为它浪费了模型能力，过度拟合语义不可知的局部高频细节[3，11，19]以进行重建。SSL中的D模型。与G模型类似，计算机视觉中的第一组D模型是代理判别的任务典型的作品包括补丁排序[18]，解决拼图[43]和旋转预测[23]。由于代理任务和主任务之间存在间隙，它们的学习表征不能很好地概括。第二组是目前最有效的方法，即，对比[12-[5]的文件。知觉学习缺乏注释，使用跨视图一致来感知概念和语义.在此基础上，对比度量学习将图像随机地扩展到不同的视图中，并比较视图之间的然而，这种表示学习的方式往往会崩溃[4，27，61]。为了稳定学习，需要精心设计。Simplified [12]采用多节点计算来扩大批量。MoCo v1/v2 [13，27]、三重态损失模型[61]、BYOL [25]、DINO [10]和SimSiam[14]需要无梯度教师（例如，[51]第51话教师的态度三重损失模型、BYOL和SimSiam [14]需要额外的预测因子。迪诺需要集中和锐化的意思教师。Most abovemeth- ods benefit from synchronous batch normalization[32]. 尽管最近的VICReg [4]不需要归一化或预测器，但它需要三个特殊的损失（即，方差、方差内和协方差损失）进行正则化。此外，VICReg中的超参数不易调整，并且训练VICReg有时不稳定。总之，设计一个可行的D模型可能过于复杂。此外，文献暗示D模型可能不如G模型一般和可解释[3，6，26]。具体而言，D模型在微调任务或下游任务的预训练基础模型中不如G模型有效[6]，并且D模型在计算机视觉和NLP领域之间的预训练范例中存在差距[3，17]。此外，D模型比G模型具有更差的可解释性，例如，因果推理[1]。3. 方法3.1. Vanilla AE（语义不可知AE）AE是表征学习领域的经典模型基本上，普通AE包括两个模块，即编码器和解码器（参见图3（a）），其可以分别用两个映射g和f来定义，使得：f：z→h，g：h→z，f∈，g∈=arg minL（z，（g f）（z）），（1）f、g其中，L表示复合函数，L表示可以最小化重构误差（例如平方误差）的损失函数。f和g是训练的编码器和解码器。这个公式表明AE是学习两个复杂的映射，以最小化输入z和输出（g f）（z）之间的误差。因此，AE的基本目标是学习信息压缩的表示，而这种表示学习在语义上是无知的。3.2. 语义感知AE为了获得语义感知的AE，前人做了很多努力，提出了一些优秀的工作，包括变分AE [35]和掩蔽AE [3]。但这些作品9667◦◦◦◦ ◦◦◦◦ ◦ ◦◦◦◦◦ ◦ ◦◦(a) 投入（b）产出(a) Vanilla AE（语义不可知AE）(b) 语义感知AE图3.香草AE（即，语义不可知的AE）实现自重构，并且我们的语义感知的AE实现交叉视图生成。在捕获语义方面仍然是低效的，因为它们在过拟合局部高频信号上浪费了太多的容量我们问：我们能在没有标签的情况下学习语义感知表示吗？幸运的是，这个问题已经由Becker Hinton（1992）研究过了。他们发现跨视图学习可以使模型感知概念和语义，他们提出了感知学习[5]。具体来说，他们对每个图像执行两次独立的随机增强，以获得两个不同的视图。然后，通过学习同一图像的两个视图的相似性和不同图像的不相似性来获得语义感知表示。最近，感知学习已经成为D模型的基础（即，对比学习）。受感知学习的启发，我们提出了一种新的AE，它可以通过一种新的跨视图学习来学习语义感知表示，即，交叉视图图像生成。如图3（b）所示，我们对每个图像x执行两个独立的随机数据增强T1和T2，以获得z1和z2，使得：z1=T1（x）和z2=T2（x）。然后，我们的目标是从z1重建z2。总的来说，我们的语义感知AE被写为：z1=T1（x），z2=T2（x），(c) 语义对齐图4.语义对齐的一个例子（a-b）示出了输入和重建目标之间的几何变换(c)说明了语义对齐过程。（即：重建目标，见图4（b））。它们之间的几何变换总结如下。(1)随机裁剪：两个视图是从原始图像的不同位置裁剪的，因此感兴趣的区域(2)随机缩放：这两个视图由于不同的缩放比例而具有不同的感受野。(3)随机翻转：两种视角的水平翻转存在随机性差异，因此它们的镜像知觉能力也不同。我们的语义对齐器被放置在编码器的末尾，即。，在特征图上。具体来说，我们将输入z1发送到编码器中，并得到中间代码f（z1），它是特征图的形式。然后，在输入和重建目标之间进行几何变换，我们执行以下语义对齐步骤：(1) 放大/缩小（Z，即，图4（c）中的“缩放”）：我们将裁剪后的代码调整为目标大小，即，，（Zf）（z1）.(2) 翻转（F）：我们执行水平翻转，裁剪代码，即，（FZf）（z1）. (3)替换（R）：我们在适当的编码位置（对应于重建目标中的感兴趣区域的位置）替换变换后的代码，即，（RFZf）（z1）.最后，解码器将潜码解码到输出空间中，在输出空间中可以通过裁剪获得重建图像，即，，（C<$g<$R<$F<$Z<$f）（z1）.我们的例证f：z1→h，g：h→z2，f∈，g∈=arg minL（z2，（g f）（z1））.f、g3.3. 语义对齐（二）语义对齐过程如图4（c）所示。3.4.技术实施细节编码器。我们的编码器是一个标准的ViT [21]。我们在DeiT [52]之后实现 ViT，这与从经验上讲，我们发现优化方程中的目标是极其困难的（2）直接地;训练损失不能收敛（见第6节）。因此，它是不容易学习一个有效的语义感知表示与此公式。为了帮助优化，我们在下面介绍了一个新的语义对齐器。几何变换为了说明语义对齐过程，我们首先展示输入视图（图4（a））和预期输出视图在[3，10]中。我们的ViT架构是最广泛使用的基本架构（即，ViT-base）。有关架构方案的更多详细信息，请参见第4.1节。译码器我们的解码器g由几个简单的Transformer块组成。在3.3节中有了输出（Cg RF Z f）（z1），我们可以很容易地计算重建误差以得到重建损失L（z2，（Cg RF Z f）（z1）），并使用它来优化我们在公式（2）中的目标。更多详情请参见第6编码器输出输入解码器编码器输出缩放、翻转、替换输入解码器编码器输出输入解码器9668≫数据扩充。我们的数据增强方法都是标准方法，我们使用的方法与标准的ImageNet监督训练相似，甚至更少。我们没有使用标签平滑[50]，也没有使用丢弃路径[31]。有关更多数据增强信息，请参见第4.1节的他人此外，我们还在第6节中深入讨论了全局特征的排除。4. 主要结果4.1. 一般方案体系结构协议。正如[3，10，16]所暗示的，SSL在视觉Transformer（ViT）[21]中具有更大的潜力，因此ViT是检查SSL有效性的理想架构。因此，我们专注于VITs以测试我们方法的有效性（更多原因请参见脚注3），类似于[3，10，16，26]。我们在DeiT [52]之后实现ViT，这与[3，10]中的相同。我们的ViT架构是最广泛使用的基本架构（即：ViT-base）：具体地，它将224 x224图像作为输入，然后将其划分为14 x14块，每个块具有16 x16像素。编码器用线性映射将每个补丁嵌入到嵌入（包括位置编码）中，然后将这些嵌入平坦化为196个顺序向量。这些顺序矢量被输入到12个Transformer块中进行处理。Transformer块的隐藏大小为768。训练方案。在无监督表示学习阶段，我们对模型进行了400个epoch的训练，并使用了AdamW优化器。我们的学习率调整方案是余弦下降，基本学习率是5e-4。学习率在第一个时期期间线性升温我们将权重衰减因子设置为4 e-2。我们的数据增强非常常见，包括随机缩放，裁剪和水平翻转。我们的模型使用ImageNet上的1.28 M训练图像进行由于我们的方法简单，我们就像D模型一样。查看我们的代码了解更多详情。评价基准。由于ViTs是数据饥饿，我们验证了我们的方法的有效性，通过比较它与现有的最好的方法在三个大规模的基准。任务包括ImageNet上的线性评估[48] （128万张图像），SYSU-30 k上的人员重新识别[59]（30万张图像），对象分割和实例检测评估。对评价方案进行批判性讨论。目前，线性评价是检验SSL方法性能的最主流标准。标准过程是首先使用SSL方法来训练骨干网络，然后冻结训练的模型参数。接下来，人们在冻结的骨干网络的顶部添加一个线性分类器，并且仅仅训练这个线性分类器用于评估。[26]认为，线性评价和微调之间偶尔出现的不一致表明，应重视微调（见脚注4）。相反，我们持有略微不同的观点，认为线性评估/探测可以高度测量表征能力。• 如[10]所示，具有良好线性评估性能的表示甚至可以用于以无监督的方式直接分割对象。• 经典的视觉匹配任务，如人脸识别和人员重新识别，也使用线性查询方法。• 使用微调将带来新的不公平，因为微调高度依赖于超参数（例如，学习率和训练时期）。微调会改变原始参数，并且难以标准化允许改变参数以进行评估的程度事实上，微调本身仍然是一个悬而未决的问题[28，41]。(see脚注5）造成微调和线性评估之间偶尔不一致的原因可能是复杂的和多方面的（详见脚注6）。我们认为，广泛使用的线性评价仍应受到社会的重视因此，我们在ImageNet和SYSU-30 k上采用了这种广泛使用的线性探测。尽管如此，我们还报告了ImageNet上的微调结果。此外，我们遵循标准协议对COCO进行微调评估4.2. ImageNet上的线性评估We evaluate linear probes on ImageNet.在非监督学习阶段，我们对ImageNet训练集上的1.28 M图片执行SSL（但没有它们的符号）。在线性评估阶段，所有SSL方法都在相同的训练集上训练，并在验证集上标准批量为256。总共采用了100次训练。此过程不使用权重衰减。单尺度中心裁剪方案的前1精度请查看我们的代码了解更多详情。COCO 2017 [40]（123K图像，900K实例）。[4]实际上，[ 26 ]的线性评价精度并不十分令人满意。我们没有使用CNN有三个原因。首先，CNN通常在规则网格上运行，并且将掩码令牌等“指标”集成到CNN中并不简单，这是我们框架中所需要的其次，交叉视图生成是一项艰巨的学习任务，需要一个大模型来过拟合它。ViTs非常大（ResNets），并且倾向于过拟合[15，26，52]，所以我们选择ViTs而不是ResNets。第三，最近一些领先的SSL作品也只研究ViT（例如，[16][17][18] [19][15在[26]中，微调学习率是从头开始的监督训练的十倍（即，，1e-3对1 e-4）。由于大的微调学习率，它们的参数在很大程度上发生了变化6一个可能的原因是，具有良好线性评估性能的模型可能理想地适合源任务，因此在微调阶段需要不同的学习率[61]。另一个可能的原因是，G模型很可能已经学习了更多的局部依赖性，这对中级任务（例如，分割和检测任务）。9669表1.使用线性评估的ImageNet上最先进方法的前1精度和训练时期。方法Top-1历元骨干#param.D模型随机4.40R5023M订购[18]38.8200R5023M[第23话]47.0200R5023MDeepCluster [8]46.9200R5023MNPID [62]56.6200R5023MODC [63]53.4200R5023MSimCLR [12]60.6200R5023MSimCLR [12]69.31000R5023MMOCO [27]61.9200R5023M[13]第十三话67.0200R5023M[13]第十三话71.1800R5023MSwAV [9]72.7200R5023MBYOL [25]71.5200R5023MBYOL [25]72.5300R5023MBYOL [25]74.31000R5023M新加坡[14]68.1100R5023M新加坡[14]70.0200R5023M新加坡[14]70.8400R5023M新加坡[14]71.3800R5023M三胞胎[61]75.9700R5023MDINO [10]78.2400ViT-碱基86M[16]第十六话76.7600ViT-碱基86MG机型[19]第十九话55.4-R5023MiGPT [11]65.2-ViT-super1362MiGPT [11]65.2-ViT-super1362MBEiT [3]56.7800ViT-碱基86M[26]第二十六话68.01600ViT-碱基86M我们70.1400ViT-碱基86M与G模型的比较作为一种新的G模型，我们首先将我们的方法与现有的G模型进行了比较。由于G模型在识别任务中的效率较低，人们很少对该任务感兴趣，因此只有少数G模型可以进行比较，包括BigBiGAN[19]，iGPT [11]，BEiT [3]和MAE [26]。比较结果报告于表1中。该方法的精度远远超过现有的G模型。例如，我们的准确率为70.1%，明显高于之前的最佳方法（例如，BEiT为56.7%。注意，并发工作MAE 的性能也低于我们的方法（即， 68.0% 对70.1%）。这些比较证实了我们方法的优越性。与D模型比较在表1中，我们将我们的方法与最先进的方法进行了比较。也就是说，我们的G模型与D模型进行了比较。我们可以观察到，G模型还有很长的路要走。它们的学习效率明显低于D模型。但如表所示，我们的方法最接近D模型。值得注意的是，DINO使用了一个我们没有采用的额外的多作物方案表2.使用预训练和微调评估的ImageNet上最先进方法的顶级准确性。兰德[16]第十六话DINO [10]BEiT [3][26]第二十六话我们81.8 83.2 82.8 83.2 83.6多作物强化和Sinkhorn-Knopp，DINO仅达到72.5%;详情见[10]。4.3. ImageNet上的预训练和微调正如我们上面提到的，预训练-微调评估有几个缺点。然而，根据[3]和[26]，我们还在表2中报告了该评估指标下的准确度。我们有两个观察结果。首先，我们的方法的微调结果优于D模型。其次，与G模型相比，我们的结果略好于BEiT [3]，与MAE [26]相当。4.4. 转移到COCO 2017上的下游任务SSL的一个目标是学习一般功能。因此，我们需要通过将其转移到下游任务来测试我们方法的学习特征的泛化能力我们采用的下游基准是COCO 2017 [40]，它是目前通用对象检测和分割的最大基准之一，总共包含119k个训练图像。具体来说，我们的ViT骨干首先使用上述无监督学习进行训练。然后，这些预训练参数被用作Cascade Mask-RCNN [29]的初始化参数，Cascade Mask-RCNN [ 29 ]是对象检测中广泛采用的ViTs框架[65]。接下来，我们使用COCO 2017训练集来微调所有ViT层。正如[27，61]所建议的那样，通过无监督预训练获得的特征分布因此，在微调阶段，我们使用比监督预训练同行更大的学习率。我们报告了COCO 2017验证集的准确性。对于对象检测任务，我们报告标准AP框度量;对于实例分割任务，我们报告标准AP掩码度量。与G模型的比较表3显示，COCO 2017对象检测和实例分割任务，我们的SSL预训练方法实现了最先进的性能。我们的方法比BEiT更好（例如，，AP Box指标为51.0%与50.1%，AP Box指标为44.1%与AP掩码度量为43.5%）。值得注意的是，所有的G模型都优于D模型和有监督的对应模型。这些比较证实了我们的方法的有效性。此外，我们无法将我们的方法与MAE进行比较，因为他们的训练协议缺失。请注意，MAE将预训练的权重加载到新的窗口化ViT[38]中进行微调，声称MAE优于example方法。我们真的很担心这种说法，因为将权重加载到一个新的架构中会使现有的方法处于不利地位，因为它引入了架构9670表3. COCO 2017上用于Mask-RCNN的对象检测和实例分割。方法AP盒（%）AP掩蔽（%）表4. SYSU-30 k上重新识别任务的比较方法等级-1（%）骨干D模型D模型DINO [10]50.143.4G机型BEiT [3]50.143.5我们51.044.1监督监督49.843.2差距。此外，[38]的代码不可用。与D模型比较与ImageNet中的线性评估不同，在下游分割和检测任务中，目前表现最好的方法是G模型而不是D模型。例如，如表3所示，我们的方法在APBox精度上比最好的D模型DINO高0.9%。有两个原因可以解释这一点。首先，我们的方法学习了更多可转移到下游任务的一般特征。其次，作为一个G模型，我们的方法更加关注有利于密集预测任务的局部依赖性与监督学习的比较如表3所示，我们的AE方法完全超越了监督预训练方法。我们的AP盒是51.0%，而监督的对应物是49.8%。这些比较证实了我们的方法的有效性。请注意，总的来说，G模型优于D模型，D模型接近监督模型的性能。4.5. SYSU-30 k上的人员重新识别由于ViTs是数据饥饿模型，我们接下来在更广泛的数据集SYSU-30 k [59]上验证了我们方法的有效性，该数据集在类别数量和图像数量方面都比ImageNet大30倍。从更一般的角度来看，上述任务（图像分类、检测和分割）都是视觉分类任务7。鉴于此，我们的方法的有效性需要在更多类型的任务上进行验证。如第4.1节所述，如果我们能找到一个任务来直接评估SSL学习到的特性，而不需要微调网络参数，我们将对SSL的有效性幸运的是，person re-ID [22]是这样一个令人满意的视觉匹配任务8。因此，我们采用重新识别任务进行检查.基准SYSU-30 k是em-7这是因为对象检测和实例分割可以被视为对区域和像素进行分类。8具体而言，re-ID是识别跨相机的行人的视觉匹配问题[39，54但近年来，人脸识别和身份识别技术的隐私问题引起了一些关注，这超出了科学界的范围。我们在本文中评估SYSU-30 k仅用于研究目的。我们的源代码和模型不允许用于任何可能引起道德问题的应用程序，如监视G机型BEiT [3]8.3ViT-碱基我们11.8ViT-碱基有三个原因。首先，SYSU-30 k不仅是最大的re-ID数据集，也是计算机视觉中最大的数据集之一，包含30，508个行人的29，606，918张图像。其次，该数据集并不为每个图像保存精确的标签。对SYSU-30 k的评估意味着我们使用其训练集来执行SSL，然后直接使用学习的模型来提取特征进行匹配，无需任何微调。这种线性探测比ImageNet上的线性评估更具第三，线性探测中的另一个挑战是，图库中有478，730个使用SYSU-30 k测试集进行评估就像大海捞针。除非是一个非凡的SSL功能学习者，否则在这项任务中脱颖而出是具有挑战性的。与SSL方法的比较我们将我们的方法与现有的SSL方法进行了比较，包括 Simplified [12] ， MoCo v2[13]，BYOL [25]，MoCo v3 [16]和BEiT[3]的文件。其中，MoCo v3，BEiT和我们的方法使用ViT-base [52]作为主干，而其他方法使用ResNet- 50[30]作为主干。BEiT和我们的方法都是G模型;其他方法都是D模型。实验结果如表4所示。我们可以看到，我们的方法取得了良好的性能（11.8%），这是可比的D模型。总体而言，D型号的性能优于G型号。即便如此，我们的方法还是很科学的。这些比较证明我们的方法是一个有效的SSL视觉特征学习器。有一件事不能忽视的是，所有的SSL模型在SYSU-30 k的挑战性基准测试中的表现都不能令人满意，即。，秩-1值非常低。这是由于数据集的挑战，而警告我们SSL还有很长的路要走。5. 可视化我们在图2（第2页）中以三元组的形式显示了我们的图像生成结果。在每个三元组中，左边是输入图像，中间是我们生成的图像，右边是地面实况。我们可以看到，我们生成的图像非常接近地面实况。即使一些生成的im-SimCLR [12]10.9R50[13]第十三话11.6R50BYOL [25]12.7R50三胞胎[61]14.8R50[16]第十六话14.96ViT-碱基9671(a)（b）第（1）款0.80.60.40.2表5. 我们的方法的有效性分析和洞察力性能语义感知AE（完整）前1名（%）46.4图5.在G模型的帮助下，通过反事实干预实现可解释性。年龄与地面事实略有不同，生成的此外，可视化中存在一些网格效应，类似于MAE [26]中的网格效应。我们推测这是由于两个原因。首先，将损失应用于掩蔽区域。其次，它可能是由于特征失真。我们已经证明了我们的方法的普遍性，例如，在预训练任务和密集预测任务中优于D模型，并在CV和NLP之间统一预训练方法接下来，我们展示了我们的方法的可解释性我们的方法可以优雅地执行因果推理，这是超出D模型的能力。我们通过掩蔽图像进行反事实干预，每次只留下一个窗口，以排除重建的混杂因素。重建分数在图5中可视化。如图所示，鲨鱼是通过因果推理成功找到的。巨大的学习困难。我们观察到，训练损失在开始时迅速下降，然后几乎不再下降（见表5）。这种比较证实了语义对齐在一个好的特征学习器中是必要的。排除全局特征。与D模型不同，现有的最先进的G模型[3，11，26]没有全局特征向量。正如[3，11]所指出的，缺乏全局性会在预训练和线性评估之间产生差距。在这里，我们在编码器的末尾插入一个全局池化模块，然后使用Transformer解码器[45]和反卷积[49]重新增加特征图的空间大小，以完成图像重建。因此，无论使用Transformer解码器还是反卷积，训练损失都不能收敛（见表5）。7. 结论在NLP/NLU中，G模型在SSL预训练中起着至关重要的作用。但这个角色在计算机视觉中是不存在的，直到[3，26]出现。本文旨在弥合这一点6. 必要性、排除和选择本文其余部分的目的不是追求最先进的结果，而是深入了解我们方法中不同组成部分的作用。因此，我们将训练时期减少到100，以快速访问结果。本节中的其他培训方案与第4节相同。本节仅报告ImageNet上的线性评估结果，因为正如我们之前所说，它是一种通用且可靠的评估方法。语义感知生成的必要性。如上所述，我们的方法输入图像的一个视图，并生成它的另一个视图来感知语义。现在，我们删除了这种交叉视图生成设计，让模型执行自回归，将其退化为普通AE。表5示出了结果。可以看出，在去除语义感知生成之后，视觉特征学习器的性能从46.4骤降到6.1。这一比较证实了语义感知生成的必要性。语义对齐的必要性。如前所述，为了训练我们的语义感知AE，我们需要对齐语义。具体来说，我们需要知道输入和目标的几何现在我们移除校准器，直接将输入回归到目标。该学习目标与之前所有AE不同，间隙为了解决G模型浪费容量的问题，在学习语义无关的本地信号，我们提出了一种新的语义感知AE。我们的AE使用图像的一个视图作为输入，但重建图像的另一个通过这种方式，我们的AE学习语义表示，在许多任务中取得良好的性能。我们希望我们的方法将启发重新思考G模型作为计算机视觉中的特征学习器的新位置，特别是缩小NLP和计算机视觉之间的差距。更广泛的影响。本文使用现有数据集，因此也将继承现有数据集的潜在负面影响。例如，ImageNet和SYSU-30 k数据集不可避免地包含人类照片。本文的一个局限性是，建议G仍然有一个轻微的差距，到目前为止的D该方法可以生成不存在的图像，这可能是不可控的。确认本工作得到了EPSRC/MURI基金EP/N 019474/1、国家重点研发计划基金2021 ZD 0111600、国家自然科学基金 61836012 和广东省自然科学基金 2020A1515010423的支持。我们还要感谢英国皇家工程院。- 语义感知生成6.1（-40.3）语义感知AE（完整）- 语义对齐46.4不收敛语义感知AE（完整）+ 全局特征46.4不收敛9672引用[1] Arjun R Akula，Keze Wang，Changsong Liu，Sari Saba-Sadiya，Hongjing Lu，Sinisa Todorovic，Joyce Chai，and Song-Chun Zhu. Cx-tom：Counterfactual explanationswith theory of mind for enhancing human trust in imagerecognition models.Iscience，25（1）：103581，2022.第1、3条[2] 达纳·H巴拉德神经网络中的模块化学习。在KennethD.Forbus和Howard E.Shrobe，编辑，第六届全国人工智能会议论文集。Seattle，WA，USA，July 1987，pages279-284. 摩根·考夫曼，1987年.3[3] 包航波，李东，魏福如。Beit：BERT图像变换器的预训练. CoRR，abs/2106.08254，2021。一二三四五六七八[4] Adrien Bardes，Jean Ponce，and Yann LeCun. Vi-creg：Variance-Invariance-Covariance Regularization for Self-Supervised Learning。CoRR，abs/2105.04906，2021。第1、3条[5] 苏珊娜·贝克尔和杰弗里·E·辛顿。自组织神经网络，发现表面在随机点立体图。Nature，355（6356）：161-163，1992. 一、二、三、四[6] Rishi Bommasani，Drew A Hudson，Ehsan Adelli，RussAlt- man，Simran Arora，Sydney von Arx，Michael SBernstein ， Jeannette Bohg ， Antoine Bosselut ， EmmaBrunskill，et al.论基金会模式的机遇与风险。2021年12月28日，香港中文大学出版社。第1、3条[7] 汤姆湾Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan-tan ， Pranav Shyam ， Girish Sastry ， AmandaAskell ， Sand- hini Agarwal ， Ariel Herbert-Voss ，Gretchen Krueger ， Tom Henighan ， Rewon Child ，Aditya Ramesh ， Daniel M.Ziegler 、 Jeffrey Wu 、Clemens Winter、Christopher Hesse、Mark Chen、EricSigler、Mateusz Litwin、Scott Gray、Benjamin Chess、Jack Clark、Christopher Berner、Sam

下载后可阅读完整内容，剩余1页未读，立即下载