自我监督预训练对视觉任务的效用及其影响因素的评估

64 浏览量更新于2023-10-25 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1自我监督的预训练对视觉任务有多有用普林斯顿大学{anewell，jiadeng}@ cs.princeton.edu摘要最近的进展在自我监督的视觉预训练方面取得了令人难以置信的进展。我们调查哪些因素可能发挥作用，这些预培训方法的实用性从业者。为此，我们在一个综合的合成数据集和下游任务阵列中评估各种自监督算法。我们准备了一套合成数据，使注释图像的无限供应，以及对数据集的差异完全控制。我们的实验提供了关于自我监督的效用如何随着可用标签数量的增长而变化的见解，以及效用如何作为下游任务和训练数据属性的函数而变化。我们还发现，线性评价与微调性能无关。代码和数据可在github.com/princeton-vl/selfstudy上获得。1. 介绍自监督学习有可能彻底改变计算机视觉。它旨在从未标记的视觉数据中学习良好的表示，减少甚至消除对昂贵的手动标签收集的需求。在深度网络的背景下，自我监督最常见的用途是用未标记的数据预训练网络，以便稍后对下游任务进行微调。自我监督越好，下游业绩越好。近年来，自我监督预训练的进展加快了。特别是，自监督模型现在产生的特征与ImageNet预训练产生的特征相当或优于ImageNet预训练产生的特征[1，36，19，16]。虽然目前利用这些方法并不常见，但随着这些进步，可能会得到更广泛的采用。在这项工作中，我们调查可能存在的障碍之间的最新进展，自我监督和更广泛的使用在该领域，以及如何接近评估的方式，是信息和有用的从业者。我们的动机是观察到，大部分的实验文献评估自我监督，无论是在少数镜头设置或限制下游使用的模型。图1.我们强调了使用自监督预训练时的三种可能结果，预训练模型：a）即使在标记数据量增加的情况下，也始终比从头开始训练的模型有所改进，b）使用更少的标签达到更高的准确性，但达到与基线相同的准确性，c）在准确性平台之前收敛到基线性能。在我们的实验中，我们发现选项（c）是最常见的结果。例如，一种常见的评估形式是冻结预训练网络的所有权重，并为下游任务训练线性层。然而，对于许多计算机视觉任务，已经存在大量的标记数据，并且需要对模型进行微调以获得尽可能高的精度在不受限制的环境中评估自我监督很重要，因为在实践中，在许多情况下，最大限度地提高准确性至关重要（想想自动驾驶汽车的行人检测）。在这样的环境中，收集尽可能多的标记示例符合人们在这些情况下，自我监督有多大作用？我们如何衡量这种效用？给定一个下游任务，当将微调的自监督模型与从头开始训练的基线进行比较时，可能会出现几种结果（如图所示）。1）。有了更多的标记数据，模型的性能将得到改善，最终可能会达到平稳状态。但在实践中，一个人有一个有限的标签预算，这个预算将决定从头开始训练时达到的准确性。微调模型有三个后续结果：（a）自我监督实现了比基线更好的准确性;（b）自我监督实现了相同的准确性，但具有更少的标记示例;（c）自我监督实现了相同的准确性，具有相同数量的标记示例。73457346对于每一种结果，我们都可以量化自我监督的效用，即标签的节省。也就是说，要在没有自我监督的情况下达到同样的准确性，还需要多少标签具体来说，如果我们将a（n）定义为从头开始训练的模型的精度，给定n个标记的示例，将aft（n）定义为微调模型的精度，则n处的效用定义为U（n）=n/n−1，其中n是使a（n）=aft（n）所需的标记数。这是匹配微调模型精度所需的附加标签的比率。当自我监督在不降低标签成本的情况下达到相同的最大准确度时，效用为零（n=n）。当不存在任何数量的标记样本时，效用是无限的，使得从头开始训练的模型与微调的模型相匹配。请注意，在存在许多标记示例的情况下，人们可能不会期望自我监督有所帮助，因为在极限情况下，整个输入空间将被密集覆盖，而深度网络只需要很好地适应标记数据。然而，这是基于一个错误的假设，即我们可以很好地拟合大型标记数据SGD训练不能保证达到全局最优，自我监督的预训练可能会产生更好的表示，有助于优化，就像残差链接改善对数据的拟合一样。鉴于上述效用的定义，我们系统地评估了一些最近的自我监督算法。为此，我们构建了一个基准的合成图像。合成基准具有独特的优势。它允许轻松生成大量的标记示例。它还允许轻松探索从分类到密集预测以及从语义到几何的各种下游任务。最后，它允许通过颜色、纹理和视点等因素精确控制数据的复杂性和下游任务的难度我们的主要贡献是沿着所有这些维度进行了彻底的探索，以提供关于在何处以及何时可以期望自我监督在实践中有用的见解。我们发现，领先的自监督预训练方法在标签预算较小的情况下是有用的，但随着标签数量的增加，效用往往会下降。特别是，随着标签数量的增加，最常见的结果是图。1（c），其中来自自我监督预训练的收益往往在从头开始训练基线的表现平台之前消失。我们还发现，当应用于更大的模型和更困难的数据版本时，自我监督更有帮助。此外，我们发现方法的相对性能在下游设置中并不一致，并且常用的线性评估与效用不相关。2. 相关工作长期以来，预训练一直被用来提高视觉任务的表现[11，14]。通过卷积学习的特征-在像ImageNet [8]这样的大型数据集上训练的标准网络可以很好地转移到许多设置中。进一步表明，预训练对于非常大，噪声或弱标记的数据集是有效的[35，26，41，23]。在这项工作中，我们特别关注自监督预训练可以实现的结果，因此不考虑使用弱标签，也不涉及伪标签数据的半监督方法[2，40，41]。最近的研究表明，如果有足够的训练时间，从头开始训练的模型可以匹配COCO上ImageNet预训练的性能[17]。我们不研究如何从头开始改进训练以匹配预训练，也不对 ImageNet 预训练进行基准测试。ImageNet预训练会受到域偏移的影响，因此自监督方法在我们的基准测试中具有优势，因为预训练可以在用于下游任务的确切图像分布上执行在过去的几年里，已经看到了各种各样的方法提出了视觉自我监督[21，10，13，4，3，47]。这些方法可以采取多种形式，并且还依赖于各种线索，例如视频[46，38]中的帧或不同图像模态[36，34，32]中的信息。一系列的方法是那些围绕重建.这通常采用自动编码器的形式[20，22，45]，或者需要通过执行修复[31]或着色[44，37]等任务来推断数据的某些缺失部分其他方法利用图像的空间属性。这可以包括判断图像块的相对空间位置[9，27]，或者预测已经对图像应用了什么类型的变换[13，12]。最近，一波基于对比嵌入的方法被证明是有效的预训练[29，19，36，39、1、42]。这些方法产生的特征可以最大化图像[19，1]不同空间位置的表示或图像的不同视图[36关键的想法是，图像的不同补丁或图像的不同版本（例如，不同的图像通道或用数据变换增强的版本）应当映射到在图像样本中唯一的类似嵌入。最近也有一些研究对当今的自我监督方法进行了全面评估每项工作都侧重于不同的方面，例如架构设计的选择如何影响性能[24]，或者方法在多大程度上产生了分离的表示以及这如何影响下游任务性能[25]。其他工作通过增加未标记图像的数量和增加自我监督任务的难度来衡量性能[15]。我们的工作的一个显着特点是强调测量效用与大量的标签和微调时的完整模型。更多-7347图2.来自四个数据集的示例图像，这些数据集的复杂性不断增加（从左到右），控制视点和纹理。此外，我们的合成设置提供了深入了解图像复杂性如何影响自我监督性能的机会。3. 自我监督预训练我们遵循一个固定的策略进行预训练和微调。在预训练期间，选择自监督算法，并使用未标记的图像来呈现模型以拟合指定的损失。在微调过程中，一个新的输出层被添加到网络中，用于目标下游任务，模型在标记的图像上进行训练，以尽可能地适应任务。在任何时候，网络都不会在自监督任务和下游任务上进行联合训练，这既是为了简单起见，也是为了反映预训练模型的典型使用。自我监督预训练的有效性取决于许多因素。我们将这些因素分为以下四类：• 数据：数据集的难度与任务饱和性能所需的标记示例数量之间存在密切联系。因此，重要的是要进行实验，不仅要控制图像的数量，还要控制它们的复杂性。这里，复杂性指的是变化的因素，例如由于照明、纹理和视点的变化• 模型：任务的最高性能水平取决于用于学习该任务的模型我们尽最大努力控制主干模型，以便在方法之间进行公平的比较。• 自我监督算法：自我监督算法依赖于不同的线索进行学习，这种选择可能会影响下游性能。例如，特定方法可以显式地训练模型，使其对于特定下游任务所需的特征是不变的• 下游任务：同样，不同的任务可能会更好或更坏地适合不同类型的预训练。此外，下游任务的难度将影响需要多少数据才能做得好，以及随着标签数量的增加，性能稳定的程度。总之，在这项工作中，我们将评估不同数据的预训练的有效性，骨干，不同的预训练，以及不同的下游任务。所有这些因素的相互作用是复杂的，所以重要的是要看到它们如何在尽可能多的设置下相互影响。对于特定的设置，我们将预训练一个模型，然后在改变可用标签数量的同时对其进行微调。我们将性能与从头开始训练的基线模型进行比较。4. 合成基准控制数据集难度的需要以及对许多标记图像的需要促使我们使用合成图像。我们可以控制生成过程中的所有因素此外，获取用于各种各样的任务的注释是微不足道的，其中许多任务对于诸如地面实况深度之类的真实世界图像将是难以或不可能收集的。我们的合成图像由漂浮在空荡荡的空间中的物体组成对于给定的图像，我们可以改变物体的数量，它们的方向，它们的纹理，以及场景的如果场景仅由单个对象组成，则保持对象的位置固定在图像中心的固定距离处我们还规范化了比例，以便对象的大小在类和模型之间保持一致。如果有多个对象，则随机选择它们的位置，以便它们均匀分散并主要保留在相机帧中。我们使用来自ShapeNet [5]的对象模型使用Blender[7]渲染图像。我们选择了10个对象类用于所有版本的合成数据（飞机，长凳，橱柜，汽车，椅子，灯，沙发，桌子，船只，摩托车）。为了增加图像的多样性和帐户类有限数量的模型，我们增加了偶尔随机拉伸沿空间轴的模型。对于所有数据集，在我们的训练和评估设置中强制执行严格的分割。80%的模型随机子集用于训练，其余20%用于验证和测试。为了保持一致性，在我们的合成数据的所有版本中都强制执行相同的分割。4.1. 变异因素渲染时，我们控制四种不同的图像变化来源数据集的复杂性随着使用更多变异源而增加。纹理：我们可以将平面颜色材质或纹理应用于ShapeNet对象和背景（如7348图3.多对象设置中的示例图像以及地面实况语义分割和深度。图2）。纹理取自DTD [6]，它提供了各种各样的图像来源。这些可以从基本的模式，如彩色条纹的照片，复杂的纹理在世界上发现。颜色：在现实世界中，对象类通常与颜色相关联，许多自监督技术依赖于这一事实来训练模型[44，36]。考虑到这一点，我们定义了两个在合成数据中使用颜色的选项。在更简单的设置中，每个类都与固定的颜色分布相关联具体地，随机色调被分配给每个类。当渲染一个对象时，一个新的颜色是通过从该类别的相应色调周围的正态分布我们遵循这一策略，即使当一个纹理应用到对象通过混合纹理图像与目标颜色。严格根据图像中像素的颜色来预测对象类别并不简单，因为颜色的分布将在类别之间重叠。但是，颜色和对象类别之间的相关性确实使分类更容易。在较难的设置中，每个对象都用随机颜色渲染，因此颜色和对象类之间没有任何相关性视点：我们在一个固定的或者随机的方向上渲染物体.在固定的方向上，所有对象都被观察到，使得存在清晰可见的特征来区分每个类别，而不是模糊的俯视图或正面视图。当对视点进行随机采样时，旋转是从正态分布中选择的，其平均值在前面描述的固定方向上。该偏差足够大以包括许多极端视点，但是视图更可能被采样为接近原始固定视点。照明：场景中只有一个光源。我们可以在固定位置或随机放置每个样本的灯光来渲染数据。5. 下游任务为了确保我们对各种下游任务进行评估，我们考虑了例如，任务通常通过它们是否更多地涉及语义或几何信息来区分。前者的一个例子是重新识别对象类别，而后者表面法线估计。视觉任务之间的另一个主要这是对象分类和语义分割之间的区别，其中分类是按像素进行的。重要的是要考虑这些区别，因为预训练是否与几何特征相关而不是与语义特征相关可能存在差异。此外，许多预训练方法都是围绕生成单个特征向量而设计的，因此不清楚这些方法对需要密集预测的下游任务的效果如何我们基准测试的任务是对象分类，对象姿态估计，语义分割和深度估计。这些任务提供了提取语义和几何信息（分类/分割与姿态/深度），以及预测全局或密集特征（分类/姿态与分割/深度）。指导我们选择任务的另一个因素是简单性。我们对不需要复杂损失、两阶段管道或复杂后处理的任务进行基准测试。这是一个实际的决定，可以限制控制训练行为的超参数，并使我们能够更直接地关注预训练的影响。5.1.任务详细信息对象分类：对象分类是评估自我监督预训练的最标准基准之一。对于此任务，我们训练模型以区分用于渲染合成数据的十个ShapeNet类。生成的图像仅包含单个对象，并且在所有十个类中存在均匀分布我们通过标准分类准确度来衡量性能。物体姿态估计：为了评估对象姿态估计，我们再次使用仅包含单个中心对象的图像。我们不是预测一个完整的旋转矩阵（或一些替代表示），而是将姿势离散化为五个bin并训练分类器。以这种方式构建问题的一个原因是考虑到ShapeNet的某些类别（即灯和桌子）中存在的旋转对称性。选择五个仓，使得沿着该旋转方向的取向7349轴被忽略。模型必须预测对象的顶面是向上、向前、向后、向左还是向右。用于姿态估计的该公式化仍然要求模型提取与3D理解相关的特征，但是消除了在监督和评估姿态时出现的一些复杂性箱的选择使得样本均匀地分布在所有五个类别中。我们使用交叉熵损失进行训练，并报告分类精度。语义分割：对于语义分割，图像呈现多个对象（如图3所示）。我们不关心设计一个模型来输出高分辨率或精确的分割掩码，所以我们以相对于输入图像更粗糙的分辨率进行监督。我们应用每像素交叉熵损失并报告平均分类精度。深度估计：正如语义分割一样，深度估计是在具有多个对象的图像上测试的，并且比原始输入图像的分辨率要粗糙得多。我们用L1损失监督深度，用文献中的标准度量（δ<1. 25），它测量落在地面真实深度的给定比率内的预测的百分比。6. 预培训方法我们选择四种不同的自监督算法进行预训练：• 变分自动编码器（VAE）[22]：一种标准的、建立的基线，用于将图像映射到低维潜在空间。• Rotation[13]：一种简单而有效的预训练方法。该网络的任务是预测图像是否旋转了0度、90度、180度或270度。• 对比多视图编码（CMC）：一种最新的自我监督方法，通过将图像分割成多个通道（如Lab颜色空间中图像的L和ab分离的通道通过两个减半的网络，并将输出嵌入与其他图像的嵌入进行比较和对比。• Augmented Multiscale Deep InfoMax （ AMDIM ）[1]：与CMC类似，这种方法也通过对比编码来训练模型。AMDIM不是跨图像通道进行比较，而是比较来自同一图像的两个增强版本的表示以及在网络中间层产生的表示选择这些方法是为了在自我监督的风格和自我监督任务的复杂性之间取得平衡。 Rotation ， CMC 和AMDIM是三种高性能的自我监督方法，通过ImageNet上的预训练和评估进行测量。7. 实验细节数据集：我们为我们的实验提供了15个数据集变体。数据集的关键区别特征是它们属于低分辨率单对象设置还是高分辨率多对象设置。我们使用单对象图像来评估对象分类和姿态估计，并使用多对象图像进行语义分割和深度。数据集分辨率分别为64x64和128x128对于大多数数据集，我们渲染240，000张图像。唯一的例外是具有视点变化的单对象数据集，我们总共渲染了480，000张图像15%的图像子集用于验证和测试。在本文中呈现的图中，我们使用简写来总结特定数据集的变化因素每个字母对应一个特定的因子，破折号（-）表示使用该因子的更简单版本总而言之，T：纹理（平面颜色与DTD纹理）; C：颜色（固定分布与随机颜色）; V：视点（固定视点与随机视点）; L：照明（固定照明与随机照明）。一个示例数据集是模型：我们使用ResNet9 [30]和ResNet50 [18]进行所有实验。ResNet9模型非常适合我们的实验，因为它的训练和收敛速度要快得多，ResNet50更常用，可以说明结果如何随着网络容量的增加而变化。我们减少了模型执行的池化量，以考虑到我们的基准测试分辨率低于ResNet模型的典型分辨率对于密集预测任务，我们在全局池化之前预测特征的输出因此，我们以16x16的分辨率进行监控。虽然这是低的，但它允许我们评估模型在训练：对于给定的数据集，我们在所有可用的训练图像上预训练所有自监督算法。根据算法的不同，自监督算法的训练时间在100-200个时期对于微调，我们加载预训练模型并训练75到200个额外的时期。这取决于使用的图像数量，以及我们是否正在执行密集预测。评估：在所有任务中，我们报告第5.1节所述的标准绩效指标。我们测量在微调过程中提供更多标记示例时，per-prone如何变化。此外，我们还报告了实用方法-7350图4.预训练ResNet9模型在对越来越多的标记样本进行微调时的对象分类准确性和实用性。随着包含更多标记数据，效用（保存标签的比率）趋于零，最终在从头开始训练时收敛于性能。这发生在模型性能饱和之前。如引言中所述，它测量在没有预训练的情况下达到相同精度所需的额外标签的比例例如，如果一个自监督算法在100个样本时达到一定的精度，而从头开始训练时需要500个样本才能达到该性能，那么U（100）=（500/100）−1 = 4。我们报告效用的变化作为每个自监督算法的标记样本的函数请注意，如果模型达到的精度高于从头开始训练的基线达到的最大精度，则无法计算效用。这并不意味着不存在相应的值，因为在给定较大预算的情况下，基线可能达到更高的准确度，但确实意味着我们不能适当地计算效用值。为了直观地显示这一点，我们将无法计算效用的区域灰化。具体地，如果在100k个样本处达到从头开始训练的最大准确度，则当计算U（50k）时，不能计算出大于1的值，因此该区域将变灰。8. 结果效用与标记样本数量：我们首先研究效用如何随着下游训练样本数量的增加而变化。为了简单起见，我们从图4所示的对象分类结果开始。我们看到，自我监督具有显着的效用时，标记的样本的数量是小的，但效用接近零标记的数据的增长。这一观察结果适用于下游设置中的所有预训练方法。预训练模型的性能与基线的性能收敛，然后模型的准确性在任务上达到平台。这表明，自监督预训练主要来自减少过拟合的更好的正则化，而不是减少欠拟合的更好的优化-否则我们应该期望自监督即使在大量标记样本的情况下也具有不可忽略的效用。实用程序vs下游任务：接下来，我们研究预训练算法在不同的下游任务中是否更有用。在图5中，我们报告了姿势估计、深度和语义分割的性能。为了空间的缘故，我们只报告一个数据集变化（TCVL）的性能，但更多的结果可以在补充材料中找到不同预训练方法的相对排序随着下游任务的选择而变化。CMC在对象分类和对象姿态估计方面表现最好，我们观察到旋转和AMDIM分别在分割和深度估计方面表现更好由于效用取决于下游设置，因此一个重要的含义是对象分类性能可能无法预测其他任务的性能因此，在评估自我监督方法时，考虑不同的下游设置是很重要的，并且从业者的最佳预训练方法将取决于他们希望使用其模型的特定背景。实用程序与数据复杂性：我们的实验还允许我们测量图像变化的因素如何影响不同预训练方法的效用。在图6中，我们报告了控制单个因子的数据集对中每个方法的效用变化。我们观察到相对一致的变化时，调整一个特定的算法的效用的例如，在引入随机颜色或纹理时，CMC的效用始终上升，但7351图5.在最难的数据集设置（TCVL）上使用ResNet9执行其他下游任务的性能。最佳执行方法取决于下游任务，这表明在比较自监督模型时应考虑不同的设置---C--C-L-CVLT-T-VLTC-TCVL正常训练98.596.293.892.197.491.895.391.5AMDIM96.994.989.877.492.573.080.474.5CMC88.788.987.572.591.369.990.869.0旋转31.430.039.730.632.237.625.432.9VAE71.763.851.035.772.826.936.831.5表1.对象分类的线性评估结果图6.当控制图像变化因素时，数据集之间的效用变化（所有模型都使用ResNet9训练）。这些因素是：颜色（C）、纹理（T）、视点（V）和照明（L）。增加视点改变导致效用下降这些影响发生在多个数据集对之间。每个因子效用的变化在预训练算法中各不相同。也就是说，CMC的效用随着纹理的变化而上升，随着视点的变化而下降，而AMDIM的效用则相反。这种差异的一个可能来源是，与将损失应用于全局特征的CMC相反这可能增加对局部窗口中的证据的敏感性，这将解释随机纹理的不利影响和对视点变化的鲁棒性，其中局部对象证据的变化小于对象部分的全局布置。对于VAE，额外的变异因素降低了效用。一种可能的解释是，作为一种基于重建的方法，潜在空间必须对再现图像所需的所有信息进行编码。随着数据复杂性的增加，必须捕获更多与下游任务无关的虚假细节另一方面，对比方法教导网络在应用不同的图像变换后映射到相同的嵌入。因此，网络学会忽略像素空间中的变化，这些变化不对应于VAE将以其他方式编码的语义对象类中的变化线性评价：在表1中，我们使用其他工作中常见的线性评估报告了每个自监督方法的性能。我们冻结每个预训练的模型，并训练一个线性层进行对象分类。注意，线性层是用该数据集的所有可用样本训练的。我们报告了使用ResNet9模型进行对象分类的八个数据集的性能线性评价结果不反映图4所示的微调性能。尽管AMDIM具有最好的线性性能，但其实用性始终低于CMC和Rotation。而线性评价是不确定的，7352图7.ResNet9和ResNet50骨干在TCVL上的对象分类比较在标记样本较少的情况下，ResNet50模型的性能在从头开始训练时较差，但在预训练时优于预训练的ResNet9，这表明在使用较少数据时预训练大型模型的重要性。图8.在冻结不同数量的网络时微调性能。报告相对于所有权重均微调的基线数字（1-3）表示ResNet模型中已冻结的区块数对于利用冻结模型来说，它可能不对应于哪些模型在微调时表现最好。实用程序vs模型大小：接下来，为了衡量模型容量的影响，我们在图7中比较了ResNet9和ResNet50在对象分类方面的性能。使用ResNet50主干网时，实用性总是更高这是由于性能下降的基线和 per-tuned 模型的改进时， trans-sitioning到更大的模型。基线下降发生在小数据集大小和ResNet50确实优于ResNet9给出足够的标签。CMC实现了更高的性能与更大的骨干，即使在微调较少的标签.这表明，为了获得最佳的下游性能，在尽可能大的主干上进行预训练是有帮助的。当使用噪声标签进行预训练时，也会显示类似的结果[23]。效用与微调量：为了进一步扩展微调和线性评估之间的比较，我们在微调冻结到不同中间层的网络后测量性能。ResNet9模型由三个主要的层块组成，因此我们测试了如果我们将模型冻结到每个块，微调性能会如何变化。请注意，在第三个块之后，有两个完全连接的层，因此这比线性评估基线更具表现力。在图8中，我们显示了在冻结网络数量增加后，效用和准确性的变化。结果在多个数据集变化中取平均值。随着更多的模型被冻结，性能受到影响。正如预期的那样，当网络的大部分被冻结时（“冻结（3秒）”），具有最高线性性能的预训练技术的性能下降较少。虽然当标签数量较低（100-250个样本）时，一些冻结是有帮助的，但完全微调的模型始终可以达到最佳精度。9. 结论在这项工作中，我们研究了一些影响自我监督预训练效用的因素我们在不同的下游任务和合成数据集上提供了一我们的研究表明，预训练的最大好处是目前在低数据制度，效用接近零之前，性能高原的任务，从额外的标签。此外，自监督算法在一种设置中的性能可能不一定反映其在其他设置中的性能，这强调了在不同场景中研究和评估预训练方法的重要性。致谢作者要感谢Jonathan Stroud对论文草稿的反馈和许多有益的讨论。This work was partially sup- ported bytheNationalScienceFoundationunderGrantsNo.1734266 and No. 1617767。7353引用[1] Philip Bachman ， R Devon Hjelm ， and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示arXiv预印本arXiv：1906.00910，2019。一、二、五[2] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin Raffel 。Mixmatch：半监督学习的整体方法arXiv预印本arXiv：1905.02249，2019。2[3] Piotr Bojanowski和Armand Joulin。通过预测噪声进行无监督学习。第34届国际机器学习会议论文集-第70卷，第517-526页。JMLR。org，2017. 2[4] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集（ECCV）中，第132-149页，2018年。2[5] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Mano-lis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.ShapeNet：一个信息丰富的 3D 模型库。技术报告 arXiv ： 1512.03012[cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所，2015年。3[6] M. Cimpoi，S.马吉岛Kokkinos，S. Mohamed，和A.维达尔迪描述野外的纹理。在IEEE Conf. 计算机视觉和模式识别（CVPR），2014年。4[7] Blender在线社区。Blender -3D建模和渲染软件包。Blender基金会，Stichting Blender基金会，阿姆斯特丹，2018。3[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。2[9] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在IEEE InternationalConference on Computer Vision的Proceedings，第1422-1430页，2015年。2[10] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习。在IEEE国际计算机视觉会议论文集，第20512[11] J Donahue，Y Jia，O Vinyals，J Hoffman，N Zhang，ETzeng和T Darrell。Decaf：用于通用视觉识别的深度卷积激活Corr（2013）。arXiv预印本arXiv：1310.1531，2013。2[12] Alexey Dosovitskiy ， Jost Tobias Springenberg ， MartinRied-miller，and Thomas Brox.用卷积神经网络进行判别式无监督特征学习。在Advances in neural informationprocessing systems，第7662[13] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。arXiv预印本arXiv：1803.07728，2018。二、五[14] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构可实现精确的对象检测和语义分割。在Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 5802[15] Priya Goyal 、 Dhruv Mahajan 、 Abhinav Gupta 和 IshanMisra。自监督视觉表示学习的缩放和基准测试。arXiv预印本arXiv：1905.01235，2019。2[16] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比arXiv预印本arXiv：1911.05722，2019。1[17] Kai m ingHe，RossGirshick，andPiotrDoll a'r. 重新思考imagenet预训练。在IEEE国际计算机视觉会议集，第49182[18] K He，X Zhang，S Ren和J Sun。用于图像识别的深度残差学习计算机视觉和模式识别（cvpr）。在2016年IEEE会议上，第5卷，第6页，2015年。5[19] Oli vi erJHe′naf f ， AliRaza vi ， CarlDoersch ，SMEslami，and Aaron van den Oord.数据有效的图像识别与对比预测编码。arXiv预印本arXiv：1905.09272，2019。一、二[20] Geoffrey E Hinton和Ruslan R Salakhutdinov.用神经网络降低数据的维数。science，313（5786）：504-507，2006. 2[21] 景龙龙和田英丽。使用深度神经网络的自监督视觉特征学习：一个调查。arXiv预印本arXiv：1902.06162，2019。2[22] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。二、五[23] Alexander Kolesnikov 、 Lucas Beyer 、 Xiaohua Zhai 、Joan Puigcerver 、 Jessica Yung 、 Sylvain Gelly 和 NeilHoulsby。大规模学习一般视觉表示转移。arXiv预印本arXiv：1912.11370，2019。二、八[24] Alexander Kolesnikov，Xiaohua Zhai，and Lucas Beyer.自我监督的视觉表征学习。 arXiv 预印本 arXiv ：1901.09005，2019。2[25] 弗朗切斯科·洛卡泰洛、斯特凡·鲍尔、马里奥·卢西奇、西尔·瓦因·盖尔、伯恩哈德·斯科尔·科普夫和奥勒·维耶·巴赫姆。挑战无监督学习中的常见假设。arXiv预印本arXiv：1811.12359，2018。2[26] Dhruv Mahajan，Ross Girshick，Vignesh Ramanathan，Kaiming He ， Manohar Paluri ， Yixuan Li ， AshwinBharambe，and Laurens van der Maaten.探索弱监督预训练的局限性。在欧洲计算机视觉会议（ECCV）的会议记录中，第181-196页2[27] Mehdi Noroozi和Paolo Favaro。通过解决拼图游戏进行视觉表示的无监督学习。欧洲计算机视觉会议，第69施普林格，2016年。2[28] Avital Oliver、Augustus Odena、Colin A Raffel、EkinDogus Cubuk和Ian Goodfellow。深度半监督学习算法的现实评估。神经信息处理系统进展，第3235-3246页，2018年。27354[29] Aaron van den Oord、Yazhe Li和Oriol Vinyals。使用对比预测编码的表示学习。 arXiv 预印本 arXiv ：1807.03748，2018. 2[30] 大卫·佩奇如何训练你的Resnet，2018年。5[31] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在 Proceedings of the IEEEconference on computer vision and pattern recognition，pages 2536-2544，2016中。2[32] Zhongzheng Ren和Yong Jae Lee。使用合成图像的跨域自监督多任务特征学习。在IEEE计算机视觉和模式识别集，第762-771页，2018年。2[33] Cinjon Resnick，Zeping Zhan，and Joan Bruna.探索最新技术水平：视觉表征评价的批判性研究。arXiv预印本arXiv：1912.00215，2019。2[34] N a widSayed，BiagioBrattoli，andB joürnOm m er r. 交叉学习：跨模态自我监督。德国模式识别会议，第228-243页。Springer，2018. 2[35] Chen Sun ， Abhinav Shrivastava ， Saurabh Singh ， andAbhi-nav Gupta.在深度学习时代重新审视数据的不合理有效性。在IEEE计算机视觉国际会议论文集，第843-852页，2017年。2[36] Yonglong Tian，Dilip Krishnan，and Phillip Isola.对比多视图编码。arXiv预印本arXiv：1906.05849，2019。一、二、四、五[37] Carl Vondrick 、 Abhinav Shrivastava 、 Alireza Fathi 、Sergio Guadarrama和Kevin Murphy。通过对视频进行着色来实现跟踪。在欧洲计算机视觉会议（ECCV），2018年9月。2[38] 王小龙和阿比纳夫古普塔。使用视频的视觉表示的无监督学习。在IEEE计算机视觉国际会议论文集，第2794-2802页，2015年。2[39] Zhirong Wu，Yuanjun Xiong，Stella Yu，and Dahua Lin.通过非参数实例级判别的无监督特征学习arXiv预印本arXiv：1805.01978，2018。2[40] Qizhe Xie ， Eduard Hovy ， Minh-Thang Luong ， andQuoc V Le. 用吵闹的学生进行自我训练提高了图像分类。arXiv预印本arXiv：1911.04252，2019。2[41] IZ

下载后可阅读完整内容，剩余1页未读，立即下载