无监督学习的潜力：基于非策展数据的预训练卷积神经网络在图像分类上的改进

106 浏览量更新于2023-10-12 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于非策展数据的Mathilde Caron1，2，Piotr Bojanowski1，Julien Mairal2，and ArmandJoulin1 Facebook AI Research2大学Grenoble Alpes，Inria，CNRS，Grenoble INP，LJK，38000 Grenoble，France摘要用卷积神经网络预训练通用视觉特征而不依赖于注释是一项具有挑战性且重要的任务。最近在无监督特征学习方面的努力主要集中在小型或高度策划的数据集（如ImageNet）上，而使用非策划的原始数据集被发现会降低在传输任务中评估时的特征质量。我们的目标是弥合无监督冰毒-767472701 4 20 100数据集大小（x 10e6）767472701 2 4 8 16簇数（x 10e4）正式文件系统接受过精心策划的数据的培训，这些数据的获取成本很高，而大量的原始数据集很容易获得。为此，我们提出了一种新的无监督方法，该方法利用自监督和聚类来从大规模数据中捕获我们在来自YFCC 100M 的 9600 万张图像上验证了我们的方法[42]，在无监督方法中使用最先进的结果，标准基准，这证实了当只有非策划的原始数据可用时，无监督学习的潜力。我们还表明，预训练监督VGG-16与我们的方法达到74。在ImageNet的验证集上，9%的top- 1分类准确率，这是+0的改进。8%在同一个网络上从头开始训练。我们的代码可以在https：//github上找到。com/facebookresearch/DeeperCluster.1. 介绍预先训练的卷积神经网络或convnets是图像识别应用的重要组成部分[7，8，38，46]。它们提高了在有限数据量上训练的模型的泛化能力[39]，并在注释数据丰富时加快了应用程序的训练[20]。Convnets在像ImageNet这样的大型监督数据集上进行预训练时会产生良好的通用表示[11]。然而，设计这种完全注释的数据集需要研究界在数据清理和手动标记方面付出巨大努力。图1：数据量（左）和聚类数（右）对特征质量的影响。我们报告了Pascal VOC分类任务（FC68设置）的验证mAP。将注释过程扩展到更大数量级的数据集使用原始元数据作为替代方案已被证明表现相对较好[23，41]，甚至在数十亿张图像上训练时超过ImageNet预训练[30]。然而，元数据并不总是可用的，即使可用，它们也不一定覆盖数据集的全部范围。这些困难激发了学习可转移特征而不使用任何注释的方法的设计。最近描述无监督方法的工作报告了正在缩小与有监督方法的差距的性能[6，15，51]。然而，最好的无监督方法是在ImageNet上训练的，ImageNet是一个由精心挑选的图像组成的策划数据集，以形成平衡和多样化的类[11]。简单地丢弃标签并不会取消这种仔细的选择，因为它只是消除了部分人类监督。正因为如此，以前的工作已经用非策展的原始数据进行了实验，报告了特征质量的下降[6，12]。在这项工作中，我们的目标是从未标记和未策划的数据集中学习良好的视觉表示。我们专注于YFCC 100M数据集[42]，其中包含来自Flickr照片共享网站的9900万张图像。该数据集是不平衡的，具有2959DeeperCluster YFCCDeeperCluster ImNetRotNet YFCCRotNet ImNet地图地图2960hashtags与ImageNet的良好标签分布形成对比（参见附录）。例如，在ImageNet中，guenon和baseball对应的标签有1300个关联图像，而在YFCC100M中，分别有226个和256，758我们的目标是了解以手动管理的数据换取规模是否会导致功能质量的改善。我们提出了一种新的无监督方法，专门设计用于利用大量的原始数据。事实上，在大规模非策展数据上进行训练需要（i）模型复杂性随数据集大小而增加;（ii）模型对数据分布变化的稳定性。一个简单而有效的解决方案是结合来自两个无监督学习领域的方法：集群和自我监督。由于聚类方法（如DeepCluster [6]）根据图像间的相似性建立监督，因此当图像数量增加时，手头的任务本质上变得更加复杂。此外，当聚类的数量随数据集大小而变化时，DeepCluster可以捕获图像之间更精细的关系。聚类方法在学习特征的同时推断目标标签。因此，目标标签在训练期间演变，使得基于聚类的方法不稳定。此外，这些方法对数据分布敏感，因为它们直接依赖于底层数据中的聚类结构显式处理不平衡的类别分布可能是一种解决方案，但它假设我们知道潜在类的分布。我们设计我们的方法没有这个假设。另一方面，自监督学习[10]包括通过预测从输入信号中自动提取的伪标签来设计借口任务[12]。换句话说，像RotNet [15]这样的自监督方法利用图像内统计来构建超级视觉，其通常独立于数据分布。但是，数据集大小对任务的性质和结果特征的性能几乎没有影响（参见图1）。利用更大数据集的解决方案需要手动增加自我监督任务的难度[19]。我们的方法通过聚类策略自动增加了复杂性。图像内图像间图像稳定分布，方法统计统计位置变化自助（RotNet）C✗C深度聚类CC✗表1：在非策展的大规模数据上进行训练需要模型复杂性随着数据集大小和模型稳定性的增加而增加。一个简单的解决方案是结合自我监督和集群。我们的方法的新颖性在于这两种范式的结合（表1），使他们受益于一个另我们的方法，DeeperCluster，自动生成erates的目标，通过聚类的功能，整个数据集，来自自我监督的约束下。由于原始非策展数据的出于这个原因，我们提出了一种适合分布式训练的算法。这使得能够发现存在于图像分布的“尾部”中的潜在类别。虽然我们的框架是通用的，但在实践中，我们专注于结合Gidaris等人的大旋转分类任务。[15]用Caron等人的聚类方法。[6]的文件。图1左显示，随着我们增加训练图像的数量，特征的质量提高到超过那些在策展数据集上没有标签的情况下训练的特征。更重要的是，我们评估我们的方法的质量作为ImageNet分类的预训练步骤。用我们的无监督方法预训练监督的VGG-16导致74的top-1准确度。9%，这是一个进步。+0。比从头开始训练的模型高出8%这表明在大型非策展数据集作为一种提高视觉特征质量的方法。2. 相关工作自我监督。自监督学习从输入信号构建预文本任务以训练没有注释的模型[10]。许多借口任务已经提出[22，31，44，48]，利用，除其他外，空间，上下文[12，24，33，34，36]，跨信道预测[27，28，52，53]，或视频的时间结构[1，35，43]。一些托辞任务明确鼓励表示是不变的或歧视特定类型的输入转换。例如，Dosovitskiyet al. [13]将每个图像及其变换视为一个类，以增强数据变换的不变性。在本文中，我们建立在Gidaris等人的工作。[15]其中模型鼓励特征对大旋转具有区分性最近，Kolesnikovet al. [25]已经在不同的Convnet架构上进行了自监督学习方法的广泛基准测试与我们的工作相反，他们使用策划的数据集进行预训练。深度聚类。聚类与密度估计和降维一起，是标准无监督学习方法的一个家族。已经进行了各种尝试来使用聚类训练convnets [2，3，6，29，45，49，50]。我们的论文建立在Caron等人的工作。[6]，其中k-均值用于聚类视觉表示。与我们的工作不同，他们主要专注于使用不带标签的ImageNet训练他们的方法。最近，Norooziet al.[34]表明，聚类也可以用作蒸馏的一种形式，以提高网络的性能29612受过自我监督训练与我们的工作相反，他们只使用聚类作为后处理步骤，并没有利用聚类和自我监督之间的互补性来进一步提高特征的质量。在非策展数据集上学习。一些方法[9，17，32]旨在从非策划的数据流中学习视觉特征。他们通常使用诸如主题标签[23，41]或地理定位[47]之类的元数据作为噪声监视的来源。特别地，Mahajanet al. [30]训练一个网络，将数十亿张Instagram图像分类到预先定义的干净的主题标签集合中他们表明，几乎没有人的努力，有可能学习的功能，以及转移到ImageNet，甚至实现国家的最先进的性能，如果微调。与我们的工作相反，他们使用一个必须事先清理的外部3. 预赛在这项工作中，我们参考在因为它在标准评估基准上的表现是自监督学习中最好的。这个任务对应于一个具有四个类别的多类分类问题：在{0，90，180，270}中旋转。每一个-把xn代入方程（1）随机旋转并与一个目标yn，其表示所应用的旋转的角度。3.2.深度聚类用于深度网络的基于聚类的方法通常通过聚类由convnets产生的视觉特征来构建目标类。因此，目标在训练过程中与表示一起更新，并被更新。每个时期都可能不同。在这种情况下，我们为每个图像n定义Z中的潜在伪标签zn，以及对应的线性分类器W。这些基于聚类的方法在学习参数θ和W之间交替以及更新伪标签zn。在两次重新分配之间，伪标签zn是固定的，并且通过求解来ΣN作为特征或表示的卷积网络的倒数第二层。我们用fθ表示特征提取函数，由一组参数θ参数化。一组IM-1minθ，WNn=1（zn，Wfθ（xn）），（2）年龄，我们的目标是学习一个所谓3.1.自我监督在自监督学习中，使用借口任务直接从数据中提取目标标签[12]。这些目标可以采取各种形式。它们可以是与多类问题相关的分类标签，如预测图像的变换[15，51]或集合它与Eq的形式相同（一）. 然后，伪-可以通过最小化辅助损失函数来重新分配标签zn这种损失有时与Eq。（2）[3，49]，但有些作品提出使用另一个目标[6，50]。用k-均值更新目标。在这项工作中，我们专注于Caron等人的框架。[6]，DeepCluster，其中潜在目标是通过使用k均值对激活进行聚类来获得的。更确切地说，通过求解以下优化问题来更新目标zn[33]第33话或者，它们可以是与回归问题相关的连续变量，如预测图像时ΣNminC∈Rd×kΣminz∈{0，1}ks. t.z=1ΣCzn−fθ（xn）、（3）[52]或周围的补丁[36]。在这项工作中，我们感兴趣的是前者。我们假设给定一组N个图像{x1，. . . ，xN}，并且我们分配伪标签y n在Y到每个输入xn。给定这些伪标签，我们学习convet的参数θ与线性分类器联合V通过求解问题n=1n nC是矩阵，其中每一列对应于质心，k是质心的数量，并且zn是具有单个非零条目的二进制这种方法假设聚类数k是先验已知的;在实践中，我们通过下游任务的验证来设置它（参见第二节）。5.3）。潜在目标每T个随机梯度周期更新一次。1ΣNminθ，Vn=1n（yn，V fθ（xn）），（1）最小化目标（2）时的梯度下降步骤。请注意，这种替代优化方案倾向于平凡的解决方案，并且控制优化的方式，其中是损失函数。在优化期间，伪标签y，n是固定的，并且所学习的特征的质量完全取决于它们的相关性。轮换作为自我监督。Gidaris等人[15]最近已经表明，当训练一个卷积神经网络来区分不同的图像旋转时，可以获得良好的特征在这项工作中，我们专注于他们的借口任务，RotNet，这两个目标的持续相互作用是至关重要的。重新分配空簇并基于簇分配上的均匀分布执行批量采样是避免琐碎参数化的解决方案[6]。4. 方法在本节中，我们将描述如何将自监督学习与深度聚类相结合，N29622级子集群…集群X1级旋转Convnet数据集旋转nn直到大量的图像和目标。4.1. 结合自我监督和聚类我们假设输入x1，. . . ..在训练过程中，聚类分配随着视觉表现而变化我们用Y表示可能旋转的集合角度和Z，可能的集群分配的集合一种将自我监督与深度聚类相结合的方法是将等式中定义的损失相加。（1）和方程（二）、然而，将这些损失相加隐含地假设分类旋转和集群成员是两个独立的，削弱任务，这可能限制可以捕获的信号。相反，我们使用笛卡尔乘积空间Y × Z，它可以潜在地捕获两个任务之间更丰富的交互。我们得到以下优化问题：1) 层次聚类2) 无监督特征学习0 90 1802701ΣNmin（yn <$z n，Wf θ（xn））。（四）图2：DeeperCluster在特征的层次聚类和学习θ，WNn=1请注意，任何具有多类目标的聚类或自监督方法都可以与此公式相结合。例如，我们可以使用一个自我监督任务来捕获有关视频中的瓦片排列[33]或帧排序的信息[43]。然而，该公式在组合目标的数量上不成比例，即，其复杂性0 = 0（|Y|| Z|）的情况。这限制了大量球杆的使用-convnet通过预测旋转角度和集群分配在一个单一的分层损失。由zs表示对于属于超类s的图像n，分配到ks个子类的{0，1}ks中的向量。存在S个子类分类器W1，. . . ，WS，每个预测超类s内的子类成员。线性分类器（V，W1，. . .，W_S）和θ通过最小化以下损失函数来联合学习：ter或具有大输出空间的自监督任务[51]。特别是，如果我们想捕获包含在非策展数据集分布尾部的信息，我们可能需要大量的聚类。因此，我们提出了一个近似-1ΣNNn=1Σ.ΣV fθ（xn），yn+ΣSs=1Σy ns（Ws fθ（xn），zs）、（五）我们的配方基于可扩展的分层损失，它的设计，以适应分布式训练的模拟。4.2. 扩展到大量目标分层损失通常用于语言建模，其目标是从大型词汇中预测一个单词[5]。这些方法不是在整个词汇表上做出一个决定，而是将过程划分为决策层次，每个决策具有较小的输出空间。例如，词汇表可以被分成语义相似的词的集群，并且分层过程将首先选择集群，然后选择该集群内的词。按照这条工作线，我们将目标标签划分为2级层次结构，首先预测超类，然后预测其相关目标标签中的子类。第一层是将图像划分为S个超类，我们用yn表示超类分配向量，{0，1}S，并且通过yns获得yn的第s个条目。这个超类分配是用线性分类器V在功能的顶部。通过在每个超类内分区来获得层次结构的第二级。我们表示其中，log-softmax是负对数函数。注意，不属于超类s的图像也不属于其k个子类中的任何一个。超级类的选择一个自然的划分将是基于来自自监督任务的目标标签定义超类，并将子类定义为聚类产生的标签。然而，这将意味着整个数据集的每个图像将存在于每个超类中（具有不同的旋转），这没有利用分层结构的优势来使用更大数量的聚类。相反，我们通过在每个Tepoch的完整数据集上运行具有m个质心的k均值来将数据集分割成m个集合。然后，我们使用对这些m个聚类的分配与角度旋转类之间的笛卡尔积来形成超类。有4m个超类，每个超类与属于相应聚类（如果聚类是完全平衡的，则为N/m个图像这些子集然后被进一步用k-均值分割成k个子类。这相当于运行一个分层k-均值…………2963在完整数据集上具有旋转约束以形成我们的历史损失。我们通常使用m=4和k=80k，导致总共320k个不同的聚类分成4个子集。我们的方法“DeeperCluster”与Deep-Cluster有相似之处，但旨在扩展到更大的数据集。我们在对非旋转图像特征进行聚类和训练网络之间进行交替，以预测应用于输入数据的旋转及其在对应于该旋转的聚类中的聚类分配（图2）。分布式培训。基于数据分割构建超类有助于分布式实现，该分布式实现在图像数量方面具有很好的伸缩性具体地，当优化Eq.（5），我们形成与超类的数量一样多的p个G=4m。不同的通信组共享参数θ和超类分类器V，而子类分类器W1，. . .、W_S仅在通信组内共享。每个通信组s仅处理与超类s相关联的图像子集和旋转角度。分布式K均值算法。每个T epoch，我们通过在整个数据集上运行两个连续的k -均值来重新计算超类和子类分配。这是通过首先在不同的GPU上随机分割数据集来实现的每个GPU负责为其分区计算集群分配，而质心在GPU之间更新我们通过仅共享每个集群分配的元素数量及其特征的总和来减少GPU之间的通信然后根据这些统计数据计算新的质心我们观察经验，k-均值在10次迭代中收敛我们使用64个GPU（每次迭代1分钟）将维度为4096的96M特征聚类成m=4个簇然后，我们将这个GPU池分成4组，每组16个GPU。每个组将大约23M的特征聚类到80k个聚类中（每次迭代44.3. 实现细节方程中的损失（5）用小批量随机梯度下降法最小化[4]。每个minibatch包含分布在64个GPUs上的3072个实例，导致每个minibatch每个GPU有48个实例[18]。我们使用dropout，weight decay，momentum和一个0的常数学习率. 1.一、我们每3个时期重新分配一次集群。我们使用Pascal VOC2007分类任务作为下游任务来选择超参数。为了加快实验速度，我们用YFCC 100M训练的RotNet初始化网络。在聚类之前，我们对激活执行一个二进制化，并对每个激活进行二进制化。我们使用标准的数据扩充，即，随机大小和纵横比的裁剪以及水平翻转[26]）。我们使用对非策划数据进行Mahendran等人 [31] YFCCv- 76. 4†- - Wangand Gupta [ 43 ] YT8M - - - 60. 2†Wanget al. [44] YT9M 59.479六点四十。9632†79 .第七十九章784 3605678表2：比较DeeperCluster与最先进的无监督特征学习对PASCALVOC2007的分类和检测。我们将使用策展数据集的方法和使用非策展数据集的方法分离。我们为验证集上的每个转移任务选择超参数，然后在训练集和验证集上重新训练。我们报告的测试集上的结果平均超过5次运行。YFFC100M数据集。†来自原始论文的数字。VGG-16架构[40]具有批处理规范化层。在[3，6，37]之后，我们用Sobel滤波对图像进行预处理。我们在我们设法下载的YFCC 100M [42]的96M图像上训练我们的模型。我们仅将此公开数据集用于研究目的。5. 实验在本节中，我们将评估使用DeeperCluster在各种下游任务（如分类或对象检测）中学习的特征的质量。我们还提供了关于图像和集群数量对模型性能的影响的见解。5.1. 评估无监督特征我们通过考虑几个标准的迁移学习任务，即图像分类，目标检测和场景分类，评估从YFCC 100M上使用DeeperCluster训练的Pascal VOC 2007 [14]. 该数据集具有较小的训练集和验证集（2. 每个5k图像），使其接近真实应用的设置，其中使用大计算资源训练的模型适用于具有少量实例的新我们报告的数字分类检测。方法数据FC68 ALLFC68 ALLImageNet标签INet89岁。389岁。266岁。3七十3随机–10个。1四十九6五、455. 6无监督的精选数据Larsson等人[28日]INet+Pl.–七十七。2†四十九2五十九72964分类和检测任务，FC68设置可以更好地衡量所评估特征的质量，因为重新训练的参数较少对于分类，我们使用Caron等人的代码。[6]1和检测，快速rcnn[16]2。对于分类，我们训练模型进行150k次迭代，从学习率0开始。002每20k次迭代衰减10倍，我们报告了10次随机作物的平均结果对于物体检测，我们训练我们的网络-ImageNet70605040302010c1 c2 c3 c4c5层地方70深入集群60RotNet50监督40302010c1 c2 c3 c4c5层工作150k次迭代，在初始学习率为0的前50k步之后将步长除以10。01（FC 68）或0。002（ALL）和0的权重衰减。0001 Following Doerschet al. [12]，我们使用多尺度配置，尺度[400，500，600，700]用于训练，[400，500，600]用于测试。在表2中，我们将Deep-erCluster与两组使用VGG-16网络：那些在策划数据集上训练的人和那些在非策划数据集上训练的人。以前使用VGG-16在未构造数据集上工作的非监督方法使用视频：Youtube 8 M（“YT 8 M”）、Youtube 9 M（“YT 9 M”）或YFCC 100 M（“YFFCv”）的视频。我们的方法在所有使用VGG-16架构的无监督方法中实现了最先进的性能，即使是使用ImageNet作为训练集的方法当我们冻结卷积时（检测为6%，分类为10%），与监督网络的差距仍然很重要，但对于微调的两个任务，这一差距都下降到不到5%ImageNet 上的线性分类器 [11] 和 Places205 [54] 。ImageNet（是两个大规模图像分类数据集：ImageNet的领域涵盖对象和动物（1。3M图像）和Places205的领域涵盖室内和室外场景（2. 5M图像）。我们在不同深度的冻结卷积层上为了减少比较中特征维度的影响，我们将特征平均池化，直到它们的维度低于10k[52]。该实验探测在每个卷积层提取的特征的质量在图3中，我们观察到Deeper-Cluster匹配Places 205上所有层的监督网络的性能。在ImageNet上，它还匹配了最多到第4个卷积块的监督特征;然后差距突然增加到 20% 左右。这并不奇怪，因为监督特征是在ImageNet本身上训练的，而我们的特征是在YFCC100M上训练的。5.2. ImageNet的预训练在上一节中，我们可以观察到，在YFCC 100 M上训练的VGG-16与在ImageNet上训练的相同网络相比，具有类似或更好的低级特征。1github.com/facebookresearch/deepcluster2github.com/rbgirshick/py-faster-rcnn图3：ImageNet和Places205上使用不同层的激活作为特征的线性分类器的准确性。我们比较了在ImageNet上使用监督训练的 VGG-16 与在 YFCC 100 M 上使用RotNet或Deep-erCluster训练的VGG-16。确切数字见附录。透视在这个实验中，我们想检查这些在YFCC 100M上预先训练的低级特征是否可以作为完全监督的ImageNet 分类的良好初始化。为此，我们使用DeeperClus- ter或RotNet在YFCC 100 M上预训练VGG-16。然后将所得权重用作ImageNet上有监督的网络训练的初始化。我们在初始化期间将使用DeeperCluster预训练的网络的Sobel权重与第一个卷积层合并。然后，我们在ImageNet上使用mini-batch SGD训练网络100个epochs，学习率为0。1，权重衰减为0。0001，批量大小256人，0人。五、我们降低了学习率是0的系数。每20个时期2个。请注意，这个学习率衰减时间表与ImageNet分类PyTorch默认实现3略有不同，其中它们训练90个epoch并将学习率衰减0。1在时期30和60。我们在附录中给出了这个默认时间表的结果（结论不变）。在表3中，我们比较了使用标准初始化（“监督”）训练的网络与使用从YFCC 100 M上的DeeperClus- ter（“监督+ DeeperCluster预训练”）或RotNet（“监督+ RotNet预训练”）获得的预训练初始化的网络的性能。我们看到，我们的预训练将监督网络的性能提高了+0。8%，达到74。9%的前1名准确率。这意味着我们的预训练从YFCC 100M中捕获了重要的统计数据，这些数据可以很好地传输到ImageNet。5.3. 模型分析在最后一组实验中，我们分析了模型的一些由于DeeperCluster源自Rot- Net和DeepCluster，我们首先看看这些方法与我们的方法之间的差异，当在策划和非策划上训练时，github.com/pytorch/examples/blob/master/imagenet/3pytorch.org/docs/stable/torchvision/models分类精度分类精度2965ImageNettop-1 top-5监督（PyTorch文档4）七十三。491.5监督（我们的代码）74岁191.8监督+ RotNet预训练74岁592.0监督+ DeeperCluster预训练74岁992.3表3：使用不同初始化训练的监督VGG-16的ImageNet分类的验证集的准确性：我们将从标准初始化训练的网络与使用YFCC 100 M上的DeeperCluster或RotNet从预先训练的权重训练的网络进行比较。数据集大小和聚类数的影响。为了衡量图像数量对特征的影响，我们用1M、4M、20M和96M图像训练模型，并在Pascal VOC 2007分类任务的验证集（FC68设置）上报告其准确性我们还在20M图像上训练模型，其中集群的数量从10k到160k不等。对于总共160k个集群的实验，我们选择m=2，这导致8个超类。在图1中，我们观察到，当在图像和集群方面进行缩放时，我们的特征的质量得到了改善。有趣的是，需要4M到20M的YFCC 100 M图像才能满足我们的方法在图像上的性能。Genet.增加图像的数量具有更大的意义。方法数据ImageNet 地点VOC200770.最后的胜利2459848比集群的数量更小。然而，这一改进是显著的，因为它对应于减少超过相对误差的10%w.r.t.监督模型。Wu等[48个]ImageNet39岁2三十六3-RotNetImageNet三十二7三十二6六十岁。9DeepClusterImageNet四十八4三十七9七十一9RotNetYFCC100M三十三岁。0三十五562. 2DeepClusterYFCC100M三十四1三十五463岁9深入集群YFCC100M四十五6四十二1七十三。0表 4 ：在策划和非策划数据集上进行预训练时，DeeperCluster，RotNet和DeepCluster之间的比较。我们报告了在最后一个卷积层的特征上训练的线性分类器的几个数据集的准确性。所有方法都使用相同的架构。DeepCluster不能扩展到完整的YFCC 100M数据集，因此我们在1的随机子集上训练它。3M图像。策展的数据集。然后，我们报告使用DeeperCluster获得的聚类的定量和与RotNet和DeepCluster的比较。在表4中，我们将DeeperCluster与DeepCluster和RotNet进行了比较，当在几个数据集上的VGG-16的最后一个卷积层上训练线性分类器时作为参考，我们还报告了先前发布的VGG-16架构的数字[48我们平均池的最后一层的功能，从而在 8192 维的表示。我们的方法优于 RotNet 和DeepCluster，即使它们是在策展数据集上训练的（除了ImageNet分类任务，在ImageNet上训练的DeepCluster产生最佳性能）。更有趣的是，我们看到数据集的质量或规模对RotNet的影响很小，而对DeepCluster的影响很大。这证实了自监督方法比聚类对数据集分布的变化更鲁棒。2966集群的质量。除了特征之外，我们的方法还提供了对输入图像的聚类。我们通过测量它们与现有数据分区的相关性来评估这些聚类的质量。特别是，YFCC100M带有许多不同的元数据。我们考虑标签、用户、摄像头和GPS坐标。如果一个图像有几个主题标签，我们选择总主题标签分布中最不频繁的一个作为标签。我们还测量了我们的聚类与由ImageNet类别训练的分类器预测的标签的相关性。我们使用在ImageNet上预训练的ResNet-50网络[21]对YFCC 100M图像进行分类，并选择预测置信度高于75%的图像。这种评估省略了大量的数据，但给出了一些关于我们在对象分类中的聚类质量的见解。在图4中，我们展示了在训练我们的聚类和不同元数据之间的归一化互信息（NMI）以及ImageNet的预测标签期间的演变NMI越高，我们的集群与所考虑的分区的相关性越高。作为参考，我们计算了RotNet特征聚类的NMI（因为它对应于初始化时的权重）和监督模型的NMI。首先，有趣的是，我们的聚类对于每种类型的元数据都随着时间的推移而改进。一个重要的因素是，这些商品中的大多数是相关的，因为给定的用户可能用单个相机在特定的地方拍照，并使用优选的固定标签集。然而，这些图表明，我们的模型在输入信号中捕获了足够的信息来预测这些Meta数据，至少与监督训练的特征一样我们直观地评估图中聚类的一致性5. 我们显示9个随机图像从8个手动挑选的集群。前两个聚类包含YFC 100M数据集中与来自头部（第一聚类）和尾部（第二聚类）的标签相关联的大部分图像。的确，四一八538个YFC100M图像与标签cat相关联29670.5540.5520.5500.5480.5460.544标签0.5300.5280.5260.5240.5220.5200.5180.5160.514用户0.3700.3650.3600.355GPS0.204装置0.2020.2000.1980.1960.1940.1920.1900.650.600.550.500.450.40ImageNet分类器图4：我们的聚类和不同种类的元数据之间的归一化互信息：主题标签、用户ID、地理坐标和设备类型。我们还使用ImageNet分类器标记绘制了NMI。标签：猫标签：elephantparadelondon标签：始终设备：CanoScanGPS：（43，10）GPS：（−34，−151）GPS：（64，−20）GPS：（43，−104）图5：我们随机选择每个集群9个图像，并指出主要的集群元数据。底行描绘了对于GPS坐标纯的但对于用户ID不纯的正如预期的那样，它们与旅游地标相关训练期间不使用出于版权原因，我们在附录中提供了每张图像的摄影师用户名而只有384个图像包含标签ElephantParade-London（0.数据集的0004%）。我们还展示了一个集群，其中占主导地位的主题标签不会与集群的内容在视觉上相互腐蚀。如前所述，这个数据库是非策展的，包含的图像基本上不描述任何语义。顶行中最后一个群集的主要元数据是设备IDCanoScan。由于这组图片是关于绘画的，所以它的图像主要是用扫描仪拍摄的。最后，底行描绘了对于GPS坐标是纯的但对于用户ID是不纯的聚类。它会导致许多不同用户在同一个地方拍摄的图像集群：旅游地标6. 结论在本文中，我们提出了一个无监督的方法，专门设计来处理大量的非策展数据。我们的方法非常适合分布式训练，允许在具有96M图像的大型数据集上进行训练。有了这么多的数据，我们的方法超越了在策展数据集上训练的无监督方法，这验证了无监督学习在注释稀缺或策展不平凡的应用中的潜力。最后，我们证明了无监督的预训练提高了在ImageNet上训练的网络的性能。谢谢。Julien Mairal由ERC资助编号714381（SOLARIS项目）资助。DeeperCluster监督RotNetNMI10305070 90103050 7090103050709010305070 9010305070 90历元历元历元历元历元2968引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。通过移动来学习看东西。在 2015 年国际计算机视觉会议（ICCV）上发表。2[2] Miguel A Bautista 、 Artsiom Sanakoyeu 、 EkaterinaTikhoncheva和Bjorn Ommer。Cliquecnn：深度无监督范例学习。神经信息处理系统进展（NIPS），2016年。2[3] Piotr Bojanowski和Armand Joulin。通过预测噪声进行无监督学习。在2017年国际机器学习会议（ICML）上。二三五[4] 我在博图。随机梯度下降技巧。在神经网络中：贸易技巧，第421-436页。Springer，2012. 5[5] Peter F Brown ， Peter V Desouza ， Robert L Mercer ，Vincent J Della Pietra，and Jenifer C Lai.基于类的自然语言n-gram计算语言学，18（4）：467- 479，1992. 4[6] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年。一二三五六[7] Joao Carreira ，Pulkit Agrawal，Katerina Fragkiadaki，and Ji- tendra Malik.迭代误差反馈人体位姿估计。计算机视觉与模式识别会议（CVPR），2016年。1[8] Liang-Chieh Chen，George Papandreou，Iasonas Kokki-nos，Kevin Murphy，and Alan L Yuille. Deeplab：使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。arXiv预印本arXiv：1606.00915，2016。1[9] 陈新蕾和Abhinav Gupta。卷积网络的Webly监督在2015年国际计算机视觉会议（ICCV）的会议记录中。3[10] 弗吉尼亚河使用未标记数据学习分类。神经信息处理系统进展，1994年。2[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。计算机视觉与模式识别会议（CVPR），2009年。1、6[12] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在2015年国际计算机视觉会议（ICCV）上发表。一二三五六[13] Alexey Dosovitskiy ， Philipp Fischer ， Jost TobiasSpringenberg，Martin Riedmiller，and Thomas Brox.使用示例卷积神经网络进行区分性无监督特征学习。IEEEtransactionsonpatternanalysisandmachineintelligence，38（9）：1734-1747，2016。2[14] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010。5[15] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的选项。在国际学习代表会议（ICLR），2018年。一、二、三[16] 罗斯·格希克。快速R-CNN。在2015年国际计算机视觉会议（ICCV）的会议记录中。6[17] LluisGomez ， YashPatel ， Marc alRusinBachol ，DimosthenisKaratzas，and CV Jawahar.通过将图像嵌入到文本主题空间来进行视觉特征的自监督学习。在计算机视觉和模式识别会议（CVPR）上，2017年。3[18] PriyaGo yal ， PiotrDolla´r ， RossGirshi

下载后可阅读完整内容，剩余1页未读，立即下载