基于深度聚类的视觉特征训练方法

169 浏览量更新于2023-10-13 收藏 2.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于深度聚类的视觉特征玛蒂尔德·卡隆，彼得·博亚诺夫斯基，阿曼德·朱林，马蒂亚斯·杜兹Facebook AI Research{mathilde，bojanowski，ajoulin，matthijs}@ fb.com抽象。聚类是一种在计算机视觉领域得到广泛应用和研究的无监督学习方法。很少有工作已经做，以适应大规模数据集的端到端视觉特征的训练。在这项工作中，我们提出了DeepCluster，这是一种聚类方法，它联合学习神经网络的参数和所得特征的聚类分配DeepCluster使用标准聚类算法k-means对特征进行交互式分组，并使用后续分配作为监督来更新网络的权重我们将 DeepCluster 应用于 ImageNet 和YFCC100M等大型数据集上的卷积神经网络的无监督由此产生的模型在所有标准基准上都优于当前的技术水平关键词：无监督学习，聚类1介绍预训练的卷积神经网络或convnets已成为大多数计算机视觉应用中的构建块[8，9，50，65]。它们产生优秀的通用功能，可用于改善在有限数据量上学习的模型的泛化[53]。ImageNet [12]是一个大型的全监督数据集，它的存在推动了convnets预训练的发展然而，Stock和Cisse [57]最近提出的经验证据表明，ImageNet上最先进的分类器的性能在很大程度上被低估了，几乎没有未解决的错误。这部分解释了为什么尽管近年来提出了许多新的架构，但性能一直饱和[9，21，23]。事实上，ImageNet相对于现有的数据库和数据库来说是相对较小的一种自然的前进方式是建立一个更大、更多样化的数据集，可能由数十亿张图像组成。反过来，这将需要大量的手动注释，尽管社区多年来积累了众包方面的专业知识用原始元数据替换标签会导致视觉表示中的偏差，并产生不可预测的后果[41]。这就需要一种可以在没有监督的情况下在互联网规模的数据集上进行训练的方法。Mathilde Caron等2聚类分类伪标签图1：所提出的方法的图示：我们迭代地聚类深度特征，并使用聚类分配作为伪标签来学习convnet的参数无监督学习已在机器学习社区中得到广泛研究[19]，并且用于聚类、降维或密度估计的对于示例，“图像包”模式包括使用手动创建的本地脚本来生成良好的图像级特征[11]。它们成功的一个关键原因是它们可以应用于任何特定的领域或数据集，如卫星或医学图像，或者应用于以新模式捕获的图像，如深度，其中注释并不总是大量可用一些工作已经表明，可以将基于密度估计或维度降低的无监督方法应用于深度模型[20，29]，从而产生有希望的通用视觉特征[5，15]。尽管聚类方法在图像分类中取得了初步的成功，但很少有人提出[3，66，68]将其应用于convnets的端到端训练，并且从未大规模使用。一个问题是，聚类方法主要是针对固定特征之上的线性模型而设计的，并且如果必须同时学习这些特征，则它们几乎不起作用例如，用k-均值学习一个convnet将导致一个平凡的解决方案，其中特征被归零，聚类被折叠成一个实体。在这项工作中，我们提出了一种新的聚类方法，为大规模的终端-对convnet的端到端训练我们表明，它是可能的，以获得有用的通用视觉功能的聚类框架。我们的方法，总结在图1中，包括在图像描述符的聚类和更新的convnet的权重之间的交替预测的集群分配。为了简单起见，我们将我们的研究集中在k均值上，但是可以使用其他聚类方法，如幂迭代聚类（PIC）[36]。整个管道足够接近convnet的标准监督训练，可以重用许多常见的技巧[24]。与自监督方法[13，42，45]不同，聚类的优点是需要很少的领域知识，并且没有来自输入的特定信号[63，71]。尽管它的简单性，我们的方法实现了显着更高的性能比以前发布的无监督方法的ImageNet分类和传输任务。最后，我们通过修改实验协议，特别是训练集和convnet架构来探索我们的框架的鲁棒性。输入Convnet基于深度聚类的视觉特征无监督学习3由此产生的一组实验扩展了Doersch等人发起的讨论。[13]关于这些选择对无监督方法性能的影响我们证明，我们的方法是强大的架构的变化。用VGG替换AlexNet [55]显著提高了特性的质量及其后续传输性能。更重要的是，我们讨论了使用ImageNet作为无监督模型的训练集。虽然它有助于理解标签对网络性能的影响，但ImageNet具有特定的图像分布，这是从其用于细粒度图像分类挑战中继承而来的：它由平衡良好的类组成，并且包含各种各样的狗品种。我们认为，作为一种替代方案，随机Flickr图像从YFCC 100M数据集Thomee等人。[58]。我们表明，我们的方法保持最先进的性能时，这种未固化的数据分布训练。最后，目前的基准集中在无监督convnets捕获类级信息的能力。我们建议也评估他们的图像检索基准，以衡量他们的能力，捕捉实例级信息。在本文中，我们做出了以下贡献：（i）一种用于convnets的端到端学习的新型无监督方法，该方法可与任何标准聚类算法（如k-means）一起使用，并且需要最少的额外步骤;（ii）在无监督学习中使用的许多标准传输任务上的最新性能;（iii）在未固化的图像分布;（iv）对无监督特征学习中当前评估协议的讨论。2相关工作特征的无监督学习。与我们的工作相关的几种方法在没有监督的情况下学习深度模型。Coates和Ng [10]也使用k-means来预训练convnets，但以自底向上的方式顺序学习每一层，而我们以端到端的方式进行其他聚类损失[3，16，35，66，68]已被认为是联合学习convnet特征和图像聚类，但它们从未进行过规模测试，以允许对现代convnet架构进行彻底研究。特别感兴趣的是，Yanget al. [68]迭代地学习convnet特征和具有循环框架的聚类。他们的模型在小数据集上提供了有希望的性能，但要扩展到convnets具有竞争力所需的图像数量可能具有挑战性。更接近我们的工作，Bojanowski和Joulin [5]在一个大型数据集上学习视觉特征，并试图保留通过网络流动的信息[37]。他们的方法以类似于示例SVM [39]的方式区分图像，而我们只是对它们进行聚类。自我监督学习。一种流行的无监督学习形式，称为“自监督学习”[52]，使用借口任务来替换由人类通过“p s e ud o-l a b e ls”直接计算从a处输入的a中注释的标签。例如，Doerschet al.[13]使用面片相对位置的预测Mathilde Caron等4在图像中作为借口任务，而Noroozi和Favaro [42]训练网络在空间上重新排列混洗补丁。空间线索的另一个用途是Pathak等人的工作。[46]其中基于其周围来猜测丢失的像素Paulin等人[47]使用图像检索设置学习补丁级卷积核网络[38]其他人通过预测连续帧之间的相机变换[1]，利用跟踪的补丁的时间相干性[63]或基于运动分割视频[45]来利用视频中可用的时间信号除了空间和时间相干性之外，已经探索了许多其他信号：图像着色[33，71]、跨通道预测[72]、声音[44]或实例计数[43]。最近，已经提出了用于组合多个线索的若干策略[14，64]。与我们的工作相反，这些方法是领域依赖的，需要专家知识来仔细设计可能导致可转移特征的借口任务。生成模型。最近，无监督学习在图像生成方面取得了很大进展。通常，在预定义的随机噪声和图像之间学习参数化映射，使用自动编码器[4，22，29，40，62]，生成对抗网络（GAN）[20]或更直接地使用重建损失[6]。特别有趣的是，GAN的鉴别器可以产生视觉特征，但它们的性能相对令人失望[15]。Donahue等人[15]和Dumoulinet al.[17]已经表明，将编码器添加到GAN会产生更具竞争力的视觉特征。3方法在简短介绍了convnets的监督学习之后，我们描述了我们的无监督方法及其优化的特殊性。3.1预赛基于统计学习的现代计算机视觉方法要求良好的图像特征化。在这种情况下，convnet是将原始图像映射到固定维度的向量空间当在足够的数据上训练时，它们在标准分类基准上不断达到最佳性能[21，32]。我们用fθ表示convnet映射，其中θ是相应参数的集合。我们将通过将该映射应用于图像而获得的向量称为特征或表示。给定训练集X={x1，x2，. . .，x N}，我们希望找到一个参数θ*，使得映射f θ* 产生良好的通用特征。这些参数传统上是通过监督学习的，即每个图像xn被表示为具有{0，1}k的子图像。该标签将该信息的成员资格表示为k个可能的预定义类中的一个。参数化分类器gW预测特征fθ（xn）之上的正确标签。的参数W分类器和映射的参数θ然后通过下式联合学习：基于深度聚类的视觉特征无监督学习5n优化以下问题：1ΣNmin（gW（fθ（xn）），yn），（1）θ，W Nn=1其中是多项式逻辑损失，也称为负对数softmax函数。使用小批量随机梯度下降[7]和反向传播来计算梯度[34]最小化该成本函数。3.2无监督聚类当θ从高斯分布中采样时，没有任何学习，fθ不会产生好的特征。然而，这种随机特征在标准转移任务上的表现例如，在随机AlexNet的最后一个卷积层上的多层感知器分类器在ImageNet上实现了12%的准确率，而概率为0。1% [42]。随机卷积网络的良好性能与其卷积结构密切相关，卷积结构对输入信号具有很强的先验这项工作的想法是利用这种弱信号来引导convnet的鉴别能力。我们对convnet的输出进行聚类，并使用后续的聚类分配作为“p_s_ud_o_l_a_b_s”来优化最小化Eq。（一）. 该设计计算方法迭代地学习特征并将其分组。聚类已经被广泛研究，并且已经针对各种情况开发了许多方法。在没有比较点的情况下，我们专注于一个标准的聚类算法，k-均值。与其他聚类算法的初步结果表明，这种选择是不重要的。k-means以一组向量作为输入，在我们的情况下，由 convnet 产生的特征 fθ（xn），并基于几何标准将它们聚类成k个不同的组。更确切地说，它通过解决以下问题来联合学习d×k质心矩阵C和每个图像n的聚类分配ynmin1ΣNminfθ（xn）−Cyn<$2使得y 1 k= 1。（二）C∈Rd×kN n=12Nyn∈{0， 1}k解决这个问题提供了一组最优分配（y*）n≤N和一个质心矩阵C*。这些赋值然后被用作伪标签;我们不使用质心矩阵。总体而言，DeepCluster在聚类特征之间交替，以使用等式。(2)以及通过使用等式：（一）.这种类型的交替过程容易产生平凡解;我们将在下一节中描述如何避免这种退化3.3避免平凡的解决方案平凡解的存在并不特定于神经网络的无监督训练，而是任何联合学习判别分类器和标签的方法。判别式聚类即使在Mathilde Caron等6适用于线性模型[67]。解决方案通常基于约束或惩罚每个聚类的最小点数[2，26]。这些项是在整个数据集上计算的，这不适用于在大规模数据集上训练在本节中，我们将简要描述这些琐碎解决方案的原因，并给出简单且可扩展的解决方案。空群集。判别模型学习类之间的决策边界。最佳决策边界是将所有输入分配给单个集群[67]。这个问题是由缺乏防止空簇的机制引起的，并且在线性模型中和在convnets中一样多特征量化[25]中使用的一个常见技巧是在k均值优化期间自动重新分配空簇更准确地说，当一个集群变空时，我们随机选择一个非空集群，并使用其质心与一个小的随机扰动作为空集群的新质心。然后，我们将属于非空集群的点重新分配到两个结果集群。简单的参数化。如果绝大多数图像被分配到几个聚类，则参数θ将专门区分它们。在其中除一个集群之外的所有集群都是单例的最戏剧性的场景中，最小化等式。（1）导致平凡的参数化，其中convnet将预测相同的输出而不管输入。当每个类的图像数量高度不平衡时，在监督分类中也会出现这个问题例如，元数据，如hashtags，展示了Zipf分布，其中一些标签主导整个分布[28]。规避这个问题的策略是基于类或伪标签上的均匀分布对图像进行这等效于对输入对等式（1）中的损失函数的贡献进行加权。（1）通过其分配的簇的大小的倒数3.4实现细节训练数据和 convnet 架构。我们在 ImageNet 的训练集上训练DeepCluster[12]（1，281，167张均匀分布在1，000个类中的图像）。我们抛弃了标签。为了与以前的作品进行比较，我们使用标准的AlexNet[32]架构。它由五个卷积层组成，分别有96、256、384、384和256个滤波器;以及三个完全连接的层。我们删除局部响应归一化层并使用批量归一化[24]。我们还考虑了具有批量归一化的VGG-16[55]架构。非监督方法通常不直接对颜色起作用，并且已经考虑了不同的策略作为替代方案[13，42]。我们应用基于Sobel滤波器的固定线性变换来去除颜色并增加局部对比度[5，47]。优化.我们对中央裁剪图像的特征进行聚类，并使用数据增强（随机水平翻转和随机大小和纵横比的作物）训练convnet。这强制了数据增强的不变性，这对特征学习很有用[16]。该网络使用dropout进行训练[56]，基于深度聚类的视觉特征无监督学习7地图0.450.400.350.300.720.70660.68640.66620.64600.250 100 200300历元0.620 100 200300历元58102103104K105(a) 聚类质量(b) 群集再分配(c) K的影响图2：初步研究。(a)聚类质量随训练时期的演化;（b）：在每个分组步骤中分组重新分配的演变情况;（c）：验证针对k的各种选择的mAP分类性能一个恒定的步长，一个102的惩罚的权重θ和一个动量为0。9.每个小批量包含256个图像。对于聚类，特征是PCA-减少到256个维度，白化和2-归一化。我们使用Johnson等的k-means实现。[25]第20段。请注意，运行k-means需要三分之一的时间，因为需要对完整数据集进行前向传递我们可以每n个epoch重新标记一次集群，但我们发现我们在ImageNet上的设置（每个epoch更新一次集群）几乎是最优的。在Flickr上，epoch的概念消失了：在参数更新和集群重新分配之间选择折衷是更微妙的。因此，我们保持了与ImageNet中几乎相同的设置。我们训练了500个epoch的模型，在AlexNet的Pascal P100 GPU上需要12天。超参数选择。我们在下游任务上选择超参数，即对象分类的验证集的P作为一个没有罚款的VOC。我们使用Kra¨henb u¨hl1的公开可用代码。4实验在一组初步实验中，我们研究了DeepCluster在训练过程中的行为。然后，我们定性地评估了使用DeepCluster学习的过滤器，然后将我们的方法与标准基准测试中以前的最先进模型进行比较。4.1初步研究我们测量两个不同的作业A和B之间共享的信息通过归一化互信息（NMI）对相同的数据进行归一化，其被定义为：NMI（A;B）=√I（A;B）H（A）H（B）1https://github.com/philkr/voc-classificationNMI t / labels ImageNetNMI t-1 /tMathilde Caron等8图3：在原始RGB输入（左）或Sobel滤波（右）后，其中I表示互信息，H表示熵。该度量可以应用于来自聚类或真实标签的任何分配。如果两个赋值A和B是独立的，则NMI等于0。如果它们中的一个是相对于另一个确定性可预测的，则NMI等于1。簇和标签之间的关系。图2（a）显示了训练期间聚类分配和ImageNet标签之间的NMI的演变。它测量模型预测类级别信息的能力。请注意，我们仅在此分析中使用此度量，而不在任何模型选择过程中使用。集群和标签之间的依赖性随着时间的推移而增加，这表明我们的功能逐渐捕获与对象类相关的信息。历元之间的重新分配数。在每个时期，我们将图像重新分配到一组新的集群，但不保证稳定性。在t−1和t时刻测量集群之间的NMI可以了解我们模型的实际稳定性。图2（b）示出了在训练期间该测量的演变。NMI正在增加，这意味着重新分配越来越少，并且集群随着时间的推移而稳定。然而，NMI在0以下饱和。8，这意味着在时期之间有规律地重新分配图像的显著部分。在实践中，这对训练没有影响，并且模型不会发散。选择集群的数量。我们测量k均值中使用的聚类数k对模型质量我们报告了与超参数选择过程中相同的下游任务，即.PASALVOC 2007分类验证集上的mAP我们在对数尺度上改变k，并在图2（c）中报告300个时期后的结果。对于每个k，在相同数量的时期之后的性能可能不是直接可比的，但它反映了在这项工作中使用的超参数选择过程。当k=10，000时获得最佳性能考虑到我们在ImageNet上训练模型，一个基于深度聚类的视觉特征无监督学习9conv1 conv3 conv5图4：过滤器可视化和来自YFCC100M的100万个图像子集的前9个激活图像，用于ImageNet上使用DeepCluster训练的AlexNet的层conv1，conv3和conv5中的目标过滤器通过学习最大化对目标滤波器的响应的输入图像来获得滤波器可视化[69]期望k= 1000产生最佳结果，但显然一定量的过分割是有益的。4.2可视化第一层过滤器。图3显示了使用DeepCluster在原始RGB图像和使用Sobel滤波预处理的图像上训练的AlexNet的第一层的过滤器在原始图像上学习convnets的困难在[5，13，42，47]之前已经如图1的左面板所示3，大多数过滤器仅捕获通常对对象分类起一点作用的颜色信息[61]。使用Sobel预处理获得的滤波器的作用类似于边缘检测器。探测更深的层。我们通过学习来评估目标过滤器的质量最大化其激活的输入图像[18，70]。我们遵循Yosinki等人描述的过程。[69]在目标滤波器和同一层的其它滤波器之间具有交叉熵函数图4显示了这些合成图像以及来自YFCC100M的100万个图像的子集的9个顶部激活图像。正如预期的那样，网络中更深的层似乎捕获更大的纹理结构。然而，最后卷积层中的一些过滤器似乎只是简单地复制了先前层中已经捕获的纹理，如图2的第二行所示。5.这一结果证实了张等的观察。[72]来自conv3或conv4特征比来自conv5的特征更具区分性。最后，图5显示了一些conv5过滤器的前9个激活图像，它们似乎在语义上是一致的。顶行上的筛选器包含与对象类高度相关的结构的信息。最下面一行的过滤器似乎会触发风格，比如绘画或抽象形状。10 Mathilde Caron等人。过滤器0过滤器33过滤器145过滤器194过滤器97过滤器116过滤器119过滤器182图5：来自YFCC100M的1000万个图像的随机子集的前9个激活图像，顶行对应于对包含对象的图像的激活敏感的过滤器。底行展示了对风格效果更敏感的过滤器。例如，滤光器119和182看起来分别被背景模糊和景深效果激发4.3激活线性分类继Zhanget al.[72]，我们在不同的冻结卷积层上训练线性分类器这种与监督特征的逐层比较展示了convnet开始特定于任务的地方，即专门研究物体分类。我们在表1中报告了ImageNet和Places数据集[73]我们通过对训练集的交叉验证来选择超参数在ImageNet上，DeepCluster从conv 2到conv 5层的性能比现有技术水平高1 - 6%。在conv3层中观察到最大的改进，而conv1层表现不佳，可能是因为Sobel过滤丢弃了颜色。与Sec.的过滤器可视化一致。4.2，conv3比conv5工作得更好。最后，DeepCluster和有监督的AlexNet之间的性能差异在更高层上显着增长：在层conv 2-conv 3处，差异仅为大约4%，但是该差异上升到12%。conv5时为3%，这标志着AlexNet可能存储了大部分类级别信息。在补充材料中，我们还报告了在最后一层上训练MLP的准确性;DeepCluster的表现比最先进的技术高出8%。在Places数据集上进行的相同实验提供了一些有趣的见解：与DeepCluster一样，在ImageNet上训练的监督模型在更高层（conv4与conv5）的性能下降。此外，委员会认为，基于深度聚类的视觉特征无监督学习11表1：ImageNet和Places上的线性分类，使用AlexNet卷积层的激活作为特征。我们报告的分类精度平均超过10种作物。其他方法的数字来自Zhanget al.[72个]ImageNet地点方法conv1 conv2 conv3 conv4 conv5 conv1 conv2 conv3 conv4 conv5放置标注–––––二十二岁1三十五1四十2四十三344. 6ImageNet标签19号。3三十六344. 2 四十八350块5二十二岁7三十四8三十八岁。439岁4三十八岁。7随机11个国家。6十七岁1十六岁9十六岁3十四岁1十五岁720块319号。819号。1十七岁5Pathak等人[46个]十四岁120块721岁019号。8十五岁5十八岁223岁223岁421岁9十八岁4Doersch等人[13个国家]十六岁223岁3三十231岁729岁619号。7二十六岁731岁9三十二7三十9Zhang等人[第七十一届]12个。5二十四岁5三十431岁5三十3十六岁0二十五729岁6三十329岁7Donahue等人[第十五条]十七岁7二十四岁531岁029岁928岁021岁4二十六岁2二十七岁1二十六岁1二十四岁0[42]第四十二话18.228岁8三十四0三十三岁。9二十七岁123岁0三十二1三十五5三十四831岁3Noroozi等人[四十三]十八岁0三十6三十四3三十二5二十五723.3 33.9 三十六3三十四729岁6Zhang等人[72个]十七岁729岁3三十五4三十五2三十二821岁3三十7三十四0三十四1三十二5DeepCluster十三岁432.3 41.0 39.6 38.219号。6三十三岁。239.2 39.8 34.7DeepCluster产生的conv 3 -4特征与使用ImageNet标签训练的特征相当。这表明，当目标任务距离ImageNet覆盖的域足够远时，标签就不那么重要了。4.4Pascal VOC 2007最后，对DeepCluster在图像分类、目标检测和语义分割等方面的性能进行了量化评价。PASCALVOC上的训练集的相对小的大小（2，500个图像）使得该设置接近于一种“真正的”应用程序，其中，利用虚拟计算资源来实现的现代化的应用程序使用fast-rcnn2获得检测结果;使用Shelhamer等人的代码获得分割结果。3 .第三章。对于分类和检测，我们报告了在P asALVOC 2007的测试集上的性能，并在验证集上选择我们的超参数。对于语义分割，在相关工作之后，我们报告了PasALVOC 2012的验证集上的性能。表2总结了DeepCluster与其他特征学习方法在三个任务上的比较。至于以前的实验，我们在所有三个任务上都优于以前的无监督方法。与现有技术相比，微调的改进在语义分割上是最大的（7. 5%）。在检测方面，DeepCluster的性能仅略优于以前发布的方法。有趣的是，微调的随机网络与许多无监督方法相比表现得很好，但如果只学习Fc6-8，则为此，我们还报告检测和2https://github.com/rbgirshick/py-faster-rcnn10 Mathilde Caron等人。3https://github.com/shelhamer/fcn.berkeleyvision.org1 Mathilde Caronet al.表2：所提出的方法与最先进的无监督特征学习在分类、检测和分割上的比较。*i d i ca teseofthehedat-depen denti nii i zat i nofKrüahenb uühletal. [31]第30段。我们生成的其他方法的数字标有†分类检测分割方法Fc6-8所有Fc6-8 所有Fc6-8所有ImageNet标签78岁979岁。9–五十六8–四十八0随机RGB三十三岁。2五十七0二十二岁244. 5十五岁2三十1随机索贝尔29岁061岁9十八岁9四十七9十三岁0三十二0Pathak等人[46个]三十四6五十六5–44. 5–29岁7Donahue等人[15]52岁3六十岁。1–四十六岁。9–三十五2Pathak等人[45个]–61岁0–52岁2––Owens等人[44]52岁361岁3––––王和古普塔[63]55. 663岁1三十二8† 四十七2二十六岁0†三十五4†Doersch等人[13]55. 1六十五3–51岁1––Bojanowski和Joulin [5]五十六7六十五3三十三岁。7†四十九4二十六岁7†三十七1†Zhang等人[71]第一章61岁5六十五9四十三4† 四十六岁。9三十五8†三十五6Zhang等人[72]63岁067岁1–四十六岁。7–三十六0[42]第四十二话–67岁6–五十三2–三十七6Noroozi等人[四十三]–67岁7–51岁4–三十六6DeepCluster72.073.751.4 55.443.245.1对于DeepCluster和一些基线，使用Fc6-8进行分割。这些任务更接近于实际应用程序，其中不可能进行微调。正是在这种情况下，我们的方法和最先进的技术之间的差距更大（高达9%的分类）。5讨论目前评估无监督方法的标准涉及使用在ImageNet上训练并在类级任务上测试的AlexNet架构。为了理解和测量这个管道在DeepCluster上引入的各种偏差，我们考虑了不同的训练集，不同的架构和实例级识别任务。基于深度聚类的视觉特征无监督学习135.1ImageNet与YFCC100MImageNet是为细粒度对象分类挑战而设计的数据集[51]。它是面向对象的，手动注释和组织成平衡良好的对象类别。通过设计，DeepCluster支持平衡的集群，如上所述，我们的集群k 的数量与ImageNet中的标签这可能给了一个不公平的优势1 Mathilde Caronet al.表3：训练集对DeepCluster mea性能的影响根据第1.1.1节中所述，对PasALVOC转移任务进行确认。4.4.我们将ImageNet与来自YFCC100M的1M图像子集进行比较[58]。无论训练集如何，DeepCluster在大多数任务上的表现都优于最好的发布数字。我们生成的其他方法的数字标有†分类检测分割方法训练套件Fc6-8全部Fc6-8全部Fc6-8全部最大竞争对手63. biggest0677四十三4†53。2三十五8†37。7DeepCluster72 .第七十二章073751岁455.4四十三2451DeepCluster67. biggestbiggest3693四十五6五十三039岁2422在ImageNet上训练时，DeepCluster优于其他无监督方法为了衡量这种效应的影响，我们考虑从YFCC100M数据集[58]中随机选择1M图像的子集关于在YFCC100M中使用的标签的统计数据表明，“数据包”严重不表3示出了与ImageNet相比，在YFCC 100 M上预训练的DeepClus- ter在P asALVOC上的性能差异如Doerschet al. [13]，这个数据集不是面向对象的，因此性能预计会下降几个百分点。然而，即使在未固化的Flickr图像上进行训练，DeepCluster的表现也明显优于当前最先进的技术水平在大多数任务上（最多+4。3%的分类和+4。5%的语义分割）。我们在补充材料中报告了具有类似结论的其余结果。该实验验证了DeepCluster对图像分布的变化具有鲁棒性，即使这种分布对其设计不利，也能产生最先进的通用视觉特征。5.2AlexNet与VGG在监督设置中，像 VGG 或 ResNet [21] 这样的更深层次的架构在ImageNet上的准确性比AlexNet高得多。如果这些架构与无监督方法一起使用，我们应该期待同样的改进表4比较了VGG-16和在ImageNet上用DeepCluster训练的AlexNet，并在P asALVOC 2007对象检测任务上进行了测试。我们还报告了使用其他无监督方法获得的数字[13，64]。无论采用哪种方法，更深层次的体系结构都会显著提高目标任务的性能使用DeepCluster训练VGG-16提供了高于最先进水平的性能，使我们只有1。比监管的底线低4%。请注意，无监督和监督方法之间的差异对于两种架构（即1 .一、4%）。最后，对于较大的架构，具有随机基线的差距增大基于深度聚类的视觉特征无监督学习15表4：使用AlexNet和VGG的PAScALVOC 200716. 数字取自Wanget al.[64个]方法AlexNet VGG-1656.第五十六章867347. honor 八点三十九分7Doersch等人[13]51.1615[63]第四十七章.2602Wang等人[64]I'm sorry. 2DeepCluster 55.4 65.9表5：使用VGG-16对牛津和巴黎数据集进行实例级图像检索的mAP。我们应用分辨率为1024像素和3个网格级别的R-MAC [59]方法Oxford5K Paris6K72.第七十二章4815第六章. 九点二十二0Doersch等人[13]35.4531Wang等人[64]I'm sorry.3580DeepCluster 61.0 72.0证明了当很少有监督数据可用时，无监督预训练对于复杂体系结构的相关性。5.3实例检索之前的基准测试衡量了无监督网络捕获类级别信息的能力它们不评估它是否可以在实例级别区分为此，我们建议图像检索作为一个下游任务。我们遵循Tolias等人的实验方案。[59]在两个数据集上，即，牛津大厦[48]和巴黎[49]。表5报告了用Sobel滤波获得的不同方法训练的VGG-16的性能，除了Doersch等人。[13] Wanget al.[64]第一章。此预处理通过以下方式改进五、5点是牛津数据集上有监督的VGG-16的mAP，但不是巴黎的。这可能会转化为DeepCluster的类似优势，但它没有考虑19个点的平均差异有趣的是，与预先训练的模型相比，随机这表明，图像检索是一项任务，其中预训练是必不可少的，并将其作为一项下游任务来研究可以进一步深入了解由无监督方法产生的特征的质量。6结论在本文中，我们提出了一个可扩展的聚类方法的无监督学习的convnets。它在用k-均值对由convnet产生的特征进行聚类和通过预测聚类分配作为区分性损失中的伪标签来如果在像 ImageNet 或YFCC100M这样的大型数据集上进行训练我们的方法对输入做了很少的假设，并且不需要太多的领域特定知识，这使得它成为学习特定于注释稀缺的领域的深度表示的一个很好的候选者。1 Mathilde Caronet al.引用1. 阿格拉瓦尔，P.，卡雷拉，J.，Malik，J.：学习通过移动来观察In：ICCV（2015）2. 巴赫，F.R. Harchaoui，Z.：Diffrac：一个有区别的灵活的聚类框架。03The Dog（2008）3. Bautista ，文学硕士，Sanakoyeu，A.，Tikhoncheva，E.，Ommer，B.：Cliquecnn：深度无监督范例学习。神经信息处理系统进展。pp. 38464. Bengio，Y.，Lamblin，P.，Popovici，D. Larochelle，H.：贪婪的深度网络分层训练。03 The Dog（2007）5. Bojanowski，P.，Joulin，A.：通过预测噪声进行无监督学习ICML（2017）6. Bojanowski，P.，Joulin，A.，Lopez-Paz，D.，Szlam，A.：优化生成网络的潜在空间。arXiv预印本arXiv：1707.05776（2017）7. Bottou，L.：随机梯度下降技巧。在：神经网络：Tricks of the tra d e，pp. 42102TheDog（2012）8. 卡雷拉，J.，阿格拉瓦尔，P.，Fragkiadaki，K.，Malik，J.：迭代误差反馈人体位姿估计见：CVPR（2016）9. Chen ， L.C. ，帕潘德里欧， G. ，科基诺斯岛墨菲 KYuille ， A.L. ：Deeplab：使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割arXiv预印本arXiv：1606.00915（2016）10. Coates，A. Ng，A.Y.：使用k-means学习特征表示。在：神经网络工作：Tricksofthetrade，pp.56102TheDog（2012）11. Csurka，G.，跳舞C范湖，加-地Willamowski，J.，Bray，C.：使用关键点包进行视觉分类。在：计算机视觉中的统计学习研讨会，ECCV。vol. 第1页。一02TheDog（2004）12. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：CVPR（2009）13. Doersch，C.Gupta，A.，Efros，A.A.：通过上下文预测的无监督视觉表示In：ICCV（2015）14. Doersch，C.齐瑟曼，A.：多任务自监督视觉学习（2017）15. 别这样，杰， Kr¨ahenb u¨hl，P.，达尔尔，T. ：一个开发者有一个很好的解决方案。预印本：1605.09782（2016）16. Dosovitskiy，A.，Springenberg，J.T.，Riedmiller，M.，Brox，T.：用卷积神经网络进行判别式无监督特征学习在：NIPS（2014）17. Dumoulin，V.，贝尔加齐岛Poole，B.Lamb，A.，Arjovsky，M.，马斯特罗彼得罗岛 Courville ， A. ：逆向学习推理。 arXiv 预印本 arXiv ：1606.00704（2016）18. Erhan，D.，Bengio，Y.，Courville，A. Vincent，P.：可视化深度网络的高层功能。蒙特利尔大学1341，3（2009）19. Friedman，J.，Hastie，T.，Tibshirani，R.：统计学习的要素，卷。1.一、纽约统计中的施普林格数列（2001）20. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair ， S. ， Courville ， A. Bengio ， Y. ：生成性对抗网。在： NIPS（2014）21. 他，K.，张，X.，Ren，S.，孙杰：深入研究整流器：在imagenet分类上超越人类水平的性能。In：ICCV（2015）22. Huang，F.J.，Boureau，Y.L.，LeCun，Y.，等：不变特征层次的无监督学习在：CVPR（2007）23. Huang，G.，刘志，Weinberger，K.Q.，van der Maaten，L.：密集连接的卷积网络。arXiv预印本arXiv：1608.06993（2016）基于深度聚类的视觉特征无监督学习1724. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。In：ICML（2015）25. 约翰·索恩， Douze

下载后可阅读完整内容，剩余1页未读，立即下载