深度转移聚类学习发现新的视觉类别

71 浏览量更新于2023-10-12 收藏 692KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1通过深度转移聚类学习发现新的视觉类别Kai Han Andrea Vedaldi Andrew Zisserman视觉几何小组，牛津{khan，vedaldi，az}@ robots.ox.ac.uk摘要我们考虑的问题，发现新的对象categories在图像集合。虽然这些图像是未标记的，但我们也假设相关但不同的图像类的先验知识。我们使用这些先验知识来减少聚类的模糊性，并提高新发现的类的质量。我们的贡献是双重的。第一个贡献是将深度嵌入聚类扩展到迁移学习设置;我们还通过引入表示瓶颈、时间集成和一致性来改进算法。第二个贡献是一种方法来估计类的数量在未标记的数据。这也从已知的类中转移知识，使用它们作为探针来诊断未标记子集中的类数量的不同选择。我们彻底评估了我们的方法，在大量的基准测试中，包括 ImageNet ， OmniGlot ， CIFAR-100，CIFAR-10和SVHN，性能大大优于最先进的技术。1. 介绍通过现代监督学习方法，机器可以识别数千种具有高可靠性的视觉类别;事实上，当性能取决于广泛的特定领域知识时，机器可以超越人类个体，例如在ImageNet中识别数百种狗。然而，同样清楚的是，机器在一些基本方面仍然远远落后于人类智能。一个主要的例子是，只有在人工监督计算机视觉算法的情况下才能获得良好的识别性能。现代机器学习方法在开放世界环境中几乎没有什么可提供的，在开放世界环境中，图像类别没有先验定义，或者没有标记的数据可用。换句话说，机器缺乏自动构建数据的能力，无法在没有外部监督的情况下理解对象类别等概念在本文中，我们研究的问题，发现和识别的视觉类别自动。然而，在这方面，新类别的未标记数据聚类分配图1.学习通过深度转移聚类发现新的视觉类别。我们首先用标记的图像训练模型（例如，猫和狗）。然后将该模型应用于未标记的新颖类别的图像（例如，鸟和猴子），其将从标记图像学习的知识转移到未标记图像。有了这些传递的知识，我们的模型可以同时学习新类别的未标记图像的特征表示和聚类分配。与其考虑完全无监督的设置，我们认为机器已经拥有关于世界上某些类别的某些然后，给定属于新类别的广告图像，问题是告诉有多少新类别，并学习识别它们。其目的是通过将知识从旧类转移到新类来指导这一过程（见图2）。①的人。这一做法的动机是以下观察。与现有的机器学习模型不同，孩子可以很容易地说出看不见的动物类别（例如，鸟）在学习了一些其他（可见的）动物类别（例如，猫、狗）;并且在动物园或野生动物园中闲逛的成年人可以有效地发现新种类的动物（例如，霍加皮）的基础上，许多类别以前学到的。事实上，虽然我们可以手动注释世界上的某些类别，但我们无法注释所有类别，即使在相对受限的设置中也是如此。例如，考虑一下出于市场研究目的而对超市中的产品进行再识别的问题：每周都有数百种新产品推出，为所有产品提供手动注释是无望的8401经标记的训练数据猫模型狗转移模型8402贵了然而，算法可以利用数千种产品的知识，以便在新产品进入数据流时立即发现新产品。这个问题处于三个广泛研究的领域的交叉点：半监督学习[7]，迁移学习[24，37]和聚类[1]。然而，这些文书都没有广泛涉及这一问题。在半监督学习中，标记和未标记的数据包含相同的类别，这一假设在我们的情况下是无效的。此外，如果未标记的数据被新的类别污染，半监督学习的表现就会很差[23]，这在我们的情况下是有问题的。在迁移学习[24]中，模型可以在一组类别上进行训练，然后进行微调以识别不同的类别，但源和目标数据集都被注释，而在我们的情况下，目标数据集是未标记的。我们的问题更类似于机器学习中广泛研究的聚类[1然而，我们的目标也是利用其他类的知识来改进新类的发现。由于类是一种高级抽象，因此自动发现它们是具有挑战性的，并且可能是不可能的，因为有许多标准可以用于聚类数据（例如，我们同样可以通过颜色、大小或形状来聚类对象）。关于某些类的知识不仅是一个现实的假设，而且也是缩小聚类含义所不可或缺的我们的贡献是一种方法，可以发现和学习新的对象类别在未标记的数据，同时利用相关类别的这种方法有两个组成部分。第一种是最近的深度聚类方法的修改，深度嵌入式聚类（DEC）[38]，可以在学习数据表示的同时对数据进行聚类。修改的目的是允许聚类由已知类指导。我们还通过引入代表性瓶颈、时间集成和一致性来扩展算法，这大大提高了算法的性能。然而，该方法仍然需要知道未标记数据中的新类别的数量，这在许多应用中是不现实的假设。因此，第二个组件是一种估计数量的机制的阶级。这也从已知类的集合中转移知识。这个想法是使用已知类的一部分作为探测集，将它们添加到未标记的集合中，假装它们的一部分是未标记的，然后在扩展的未标记数据集上运行上述聚类算法。这允许根据探针集上的聚类准确度以及未标记集上的聚类质量指数来交叉验证要挑选的类的数量，从而得到未标记类的真实数量的可靠估计。我们以经验证明了我们的能力-方法，利用公共基准，如ImageNet，Om- niGlot，CIFAR-100，CIFAR-10，和SVHN，并在所有情况下以相当大的幅度超过竞争对手。我们的代码可以在www.example.com上找到http://www.robots.ox。ac.uk/www.example.com2. 相关工作我们的工作涉及半监督学习、迁移学习和聚类。这三个领域被广泛研究，这是本文的范围来审查所有这些。下面我们简要回顾一下每个领域最具代表性和半监督学习（SSL）[7，23，25]旨在解决闭集分类问题，其中部分数据被标记，而其余数据则没有。在SSL的上下文中，标记数据和未标记数据共享相同的类别，而这种假设在我们的情况下不成立。最近SSL方法的综合研究可以在[23]中找到。基于一致性的SSL方法（例如，[19，34]）已被证明取得了可喜的成果。Laine和Aila [19]提出在训练过程中通过数据样本的预测与其变换的对应物之间的一致性（他们称之为预测模型）或通过当前预处理模型之间的一致性来和时间集成预测。而不是保持时间集成预测，Tarvainen和Valpola [34]提出保持时间集成模型，并强制执行主模型和时间集成模型的预测之间的一致性在迁移学习[24，33，37]中，模型首先在一个标记数据集上训练，然后用另一个包含不同类别的标记数据集进行微调我们的情况类似于迁移学习，因为我们也将知识从源数据集转移到目标数据集，尽管我们的目标数据集是未标记的。随着深度学习的出现，现在最常见的迁移学习方法是微调在ImageNet上预训练的模型[11]，用于具有标记数据的特定任务。然而，在我们的例子中，没有标签可用于新任务。聚类[1]在机器学习中已经研究了很长时间。一些经典作品（例如，k-means[21]，mean- shift [9]）在许多应用中得到了广泛的应用。最近，在深度学习文献中有越来越多关于聚类的作品[6、12、38、39、40]）。其中，深度嵌入式聚类（DEC）[38]是最有前途的基于学习的聚类方法之一它可以同时对数据进行聚类并学习适当的数据表示。它分为两个阶段训练第一阶段使用重构损失来训练自动编码器，并且第二阶段使用辅助目标分布来微调自动编码器的编码器。然而，它没有考虑到现有的标记数据的可见类别，因此性能仍然是远远不能令人满意的。8403我我我们的工作也与度量学习[29，30，31]和域适应[36]有关。实际上，我们建立在度量学习的基础上，因为后者用于初始化。然而，大多数度量学习方法无法利用未标记的数据，而我们的工作可以自动调整嵌入空间的未标记的数据。更重要的是，我们的任务需要产生数据的分区（离散决策），而度量学习只产生连续的数据嵌入，将后者转换为离散类通常不是小事。域自适应旨在解决源数据集和目标数据集之间的域差异（例如，数码单反相机图像与网络摄像机时代的图像），同时通常假设共享类空间。因此，源数据和目标数据在不同的流形上。在我们的例子中，未标记的数据属于没有任何标签的新类别，并且未标记的数据与标记的数据在同一流形上，这是一个更实际但更具挑战性的场景。据我们所知，与我们最相关的工作是[15]和[16]，就将新的视觉分类发现视为深度转移聚类任务而言。在[15]中，Hsu等人介绍了一种约束聚类网络（CCN），该网络分为两个阶段进行训练。在第一阶段，在标记数据上训练二进制分类模型以测量图像的成对相似性在第二阶段，通过使用二进制分类模型的输出作为监督，在未标记的数据上训练聚类模型。该网络使用基于Kullback-Leibler散度的对比损失（KCL）进行训练。在[16]中，CCN通过用称为Meta Classifica- tionLikewise（MCL）的新损失替换KCL来此外，Huang等人。 [17]最近引入了用于少数镜头集群的质心网络，ing算法，将K×M个未标记图像聚类为K个聚类，每个聚类在标记数据上训练后得到M个3. 深度转移聚类我们提出了一种数据聚类的方法：给定一个未标记的数据集Du={xu，i = 1，. . . ，M}，通常是图像，目标是生成作为输出的类分配yu∈ {1，. . .，K}，其中不同类别的数目K知识从一组已知的类到一个新的（第3.1节）;第二个是一种方法，可靠地估计未标记的类K的数量（第3.2节）。3.1. 迁移聚类和表示学习在其核心，我们的方法是基于一个深度聚类算法，聚类数据，同时学习一个良好的数据表示。我们通过将神经网络fθ应用于数据来提取这种表示，获得em-层向量z=fθ（x）∈Rd.使用标记的数据初始化表示，然后使用未标记的数据。这是通过[ 38 ]的深度嵌入式集群（DEC）完成的，有三个重要的修改：该方法被扩展以考虑标记的数据，以包括紧密的瓶颈以改进泛化，并包括时间集成和一致性，这也有助于其稳定性和性能。算法1给出了我们方法的概述。3.1.1联合聚类和表示学习在本节中，我们总结了DEC [38]，因为该算法是我们方法的核心在DEC中，类似于k-均值，聚类由向量或原始类型U={µk，k=1，. . . .，K}，表示聚类“中心”。然而，与k-means不同的是，不仅要确定聚类，还要学习数据表示fθ。将表征学习（一种区分性任务）和聚类（一种生成性任务）天真地结合起来是一项挑战。例如，直接最小化k均值目标函数将立即将学习的表示向量折叠到最接近的聚类中心。DEC [38]通过缓慢退火聚类中心和数据表示来解决这个问题为了做到这一点，令p（k|i）是分配数据点i ∈{1，. . . ，N}到聚类k ∈ {1，. . . ，K}。DEC使用此条件的以下参数化假设学生.2π−α+1我不明因为可以有多个相同有效的条件-对于聚类数据，做出选择取决于AP-p（k|i）≦1+zi−µkα2.（一）折叠术因此，我们还假设我们有一个带标签的数据集D1={（x1，y1），i = 1，. . . ，N}，其中类分配进一步假设数据索引被均匀地采样(i.e.p（i）=1/N），我们可以写出联合分布我我yl∈ {1，. . . ，L}是已知的。p（i，k）= p（k|i）/N.这个有标号集合中的类在同一性和数量上不同于无标号集合中的类。因此，目标是从标记的数据中学习，而不是它的特定类，而是一般来说什么属性是好的类，以便这些知识可以用来发现新的类及其为了退火到良好的溶液，而不是最大-直接最大化模型p的似然性，我们将模型匹配到适当形状的分布q。这通过最小化联合分布q（i，k）= q（k）之间的KL发散来完成|i）/N和p（i，k）= p（k|i）/N，由下式给出未标记数据中的数字。我们提出了一种方法，两个组件。一是E（q）= KL（q||p）=1ΣN ΣKq（k|i）日志q（k|（一）.（二）8404深度聚类算法的扩展，可以将Ni=1k =1p（k|（一）8405我我算法1基数已知的转移聚类1：初始化：2：在标记数据Dl上训练特征提取器fθ。将fθ应用于未标记数据Du以提取特征，使用PCA将后者降低到K维，并使用K-均值初始化中心U。将PCA作为最终线性层并入fθ。构造目标分布q。3：热身训练：我们在图像表示fθ中捕获这样的信息，该图像表示f θ使用度量学习方法在标记的数据集Dl上进行预训练。为了训练fθ，可以使用交叉熵损失，三重损失或原型损失，这取决于什么是最好的监督方法。具体数据。瓶颈算法1需要对聚类中心U进行初始设置。我们通过在特征集上运行k均值算法来获得该初始化4：对于t ∈{1，. . . ，N热身}dofθ（xu），i = 1，. . . ，M}。5：使用q作为目标在Du上训练θ和U。第六章：端7：更新目标分布q。第八章：主回路：9：对于t ∈ {1，. . . ，N列车}做10：使用q作为目标，在D u上训练θ和U。11：更新目标分布q。12：结束13：预测p（k）|i）对于i = 1，. . . ，M且k =1，. . . 、K.14：返回yu= argmaxk p（k|i）对于i = 1，. . . ，M.它仍然表明如何构建目标分布q作为当前分布的逐渐清晰的版本。具体地说，这是通过设置q（k|i）∝ p（k|i）·p（i|k）。以这种方式，当当前分布p分配从i到k以及从k到k的高概率时，加强图像i到聚类k的分配。I.后者具有均衡效果，因为只有当聚类不太大时，聚类k中的采样数据点i 对p（i）使用贝叶斯规则|k），表达式可以重写为然而，我们发现这一步的表现要好得多，在-在特征表示zi∈Rd中引入了一个降维步骤。为此，将PCA 应用于特征向量 Zu ，从而产生降维层zi=Azi+b。重要的是，我们保留了与未标号类的数目K相等的分量数，使得A∈RK×d。然后永久添加此线性层作为深度网络的头部，并且参数A、b在聚类期间与其他参数一起被进一步微调。3.1.2时间组合和一致性DEC的核心思想是缓慢地退火集群，以学习数据的有意义的分区。在这里，我们提出了DEC的修改，可以通过时间集成进一步提高退火过程的平滑度[19]。为了将时间集成应用于DEC，通过保持先前分布的指数移动平均（EMA）来聚合在不同时期计算的聚类模型p更详细地说，我们首先通过以下方式将网络预测p累积到集合预测P中：Pt（k|i）=β·Pt−1（k|i）+（1−β）·pt（k|（i）、（4）p（k|i）2其中，β是动量项，其控制着q（k|（i）氯硝苯啶i=1.（三）p（k|（一）进入训练历史，t表示时间步长。为了纠正EMA的零初始化[19]，Pt因此，通过首先提高p（k）来构造目标分布|i）到二次幂，这使其锐化，并且然后通过每个簇的频率归一化，这使其平衡。在实践中，EQ。（2）以交替优化方式最小化即，固定目标分布q（k|i），使用随机梯度下降或类似方法来优化表示f θ以最小化eq. （2）对于某迭代次数，通常对应于对可用训练数据的完整扫描（一个时期）。然后使用等式（3）来锐化目标分布，并且重复该过程。从已知的类别转移知识。上述聚类算法是完全无监督的。然而，我们的目标是通过利用一定数量的已知类来帮助发现新类。以获得平滑的模型分布pt（k|i）= 1·Pt（k|i）。（五）1 −βt将等式（5）代入等式（7）。（3）获得新的目标分布qt（k|i）。反过来，这定义了eq的变量。（2）然后优化以学习模型。一致性约束已被证明在SSL中是[19，34]）。一致性约束可以通过强制数据样本的预测和其变换的对应物（可以通过对原始数据样本应用数据变换（例如随机裁剪和水平翻转）来获得）接近（在SSL中称为递归模型），或者通过强制数据样本的预测和其时间集合预测来合并8406RRARRRARRVRARVvRRRRRVRR算法2估计类的数量1：准备：包含剩余的L-Lr类。 L-Lr类用于监督特征表示学习-2：将探针组Dl拆分成Dl 和Dl.而Lr探针类则与联合国r ra rv3：使用f θ提取Dl和Du的特征。第四章：主回路：标记的数据用于类数估计。然后我们进一步将Lr个探测类分成子集Dl La类5：对于0≤K≤K，以及子集D1Lv类（例如，La：Lv=4：1），最大值rv r r r r6：假设Lr+K个类，在DlDu上运行k-均值在半监督模式（即，强制D1中的数据映射到地面实况类标签）。我们称之为锚定探针集和验证探针集RE。分别为。然后，我们在DlDu上运行约束（半监督）k-均值，以估计Du中的类的数量。7：计算D1的ACC和CVI为Du。也就是说，在k-means过程中，我们强制锚中的图像第八章：端探针组D1来映射到它们所在地的集群9：获得最佳：10：设K是使D1的ACC最大化的K真值标签，而验证探针集合D1中的图像被认为是额外的“未标记”数据。我们推出的rv并且K是使Du的CVI最大化的值，并且通过扫描K=（K+K）/2。对Dl∪Du中的总类别数C运行半监督K-均值，并测量a vrDlDu再次假设Lr11：删除离群值：+K类。约束聚类质量对于每个C值，我们考虑下面给出的两个质量指数。的图12：观察在Du中得到的簇，去掉任何质量小于最大簇τ输出剩余聚类数。亲近这种一致性约束也可以用来改进我们的方法。在引入一致性之后，EQ的损失。（2）现在变成第一个测量Lv标记的验证探针组中的聚类质量，而第二个测量未标记数据Du中的质量。每个指标用于确定最佳类别数，并对结果取平均值。最后，最后一次运行k-均值，并将此值作为num。Du中的类和任何离群聚类的BER，定义为包含小于τ的值（例如，τ=1%）的质量最大的集群，下降。在算法2中给出了细节。聚类质量指标。我们测量我们的聚类，1ΣNE（q）=Nkq（k|（一）q（k|i）日志p（k|（一）两个指标的类数估计第一索引是平均聚类精度（ACC），适用于i=1k =1（六）电缆连接到验证探头组中的Lv标记类1+ω（t）ΣN ΣK p（k|i）−p′（k|i）102，l，由下式给出NKi=1k =1Max1ΣN1{y<$i=g（yi）}，（7）其中p′（k|i）是变换后的预测样本或时间集合预测p_t（k|i），和g∈Sym（Lv）Ni=1ω（t）是如在[19，34]中使用的斜坡上升函数，以逐渐地其中yi和yi表示地面实况标签和聚类每个数据点xi∈Dl 并且Sym（Lv）是将一致性约束的权重从0增加到1.3.2. 估计班级数量到目前为止，我们假设未标记数据中的类K的数量是已知的，但在实际应用中通常不是这种情况。在这里，我们提出了一种新的方法来估计类的数量在未标记的数据，利用标记的探针类。将探测类与未标记的数据组合，并使用k均值多次对结果集进行聚类，改变数量。rv rLv元素的置换群（作为聚类算法以任意顺序恢复簇）。另一个指数是聚类有效性指数（CVI）[2]，其通过捕获诸如聚类内凝聚力与聚类间分离的概念，适用于未标记的数据 Du 。有几个 CVI 指标，如 Silhouette[26] ， Dunn [13] ， DaviesBouldin [10] 和 Calinski-Harabasz [5];虽然没有指标是一致最好的，但Silhouette指数通常工作良好[2，3]，我们发现它也是我们案例的好选择。该指数由下式给出：班的班。然后，通过计算两个质量指数来检查所得到的聚类，其中一个质量指数检查探测类有多好，对于探测类，地面实况数据是有用的。D8407Σx∈Dub（x）−a（x）、（8）max{a（x），b（x）}能，已被确认。类别的数量，然后估计是一个最大化这些质量指数。更详细地说，我们首先将L个已知类分成一个Lr个类的探测子集Dl和训练子集Dl\Dl其中x是数据样本，a（x）是x与同一聚类内的所有其它数据样本之间的平均距离，b（x）是x到任何其他簇（其中x不是成员）中所有点的最小平均距离。R r84084. 实验结果我们在多个基准测试中评估了两种情况：第一，OmniGlot ， ImageNet ， CIFAR-10 ， CIFAR-100 和SVHN的新类数量已知;第二，OmniGlot，ImageNet和CIFAR-100的新类数量未知对于未知的情况下，我们从标记的类中分离出一个探针集。4.1. 数据和实验细节[20].该数据集包含来自50个不同字母表的1，623个手写字符。它分为一个30个字母（964个字符）的子集称为背景集和一个20个字母（659个字符）的子集称为评估集。每个字符被视为一个类别，并有20个示例图像。我们使用的背景和评价集作为标记和未标记的数据，分别。为了用未知数量的类进行实验，我们从背景集合中随机拿出5个字母（总共169个字符）用作算法2的探测器，剩下的795个字符用于学习特征提取器。ImageNet[11]. ImageNet包含1,000个类，每个类大约有1,000个示例图像。我们遵循[35]并将数据分为两个子集，分别包含882和118个类。分别为。在[15，16]之后，我们将882类子集视为标记数据，并使用从剩余的118类子集中随机抽样的3个为了对未知数量的类进行实验，我们从882个类的子集中随机选择82个类作为探针，剩下的800个类用于训练特征提取器。CIFAR-10/CIFAR-100CIFAR-10包含50，000个训练图像和来自10个类的10，000个测试图像。每个图像的大小为32×32。我们将训练图像分成标记和未标记的子集。特别地，我们考虑前5个类别的图像（即，飞机，汽车，鸟，猫，鹿）作为标签集，而重新-维持5个类别（即，狗，青蛙，马，船，卡车）作为未标记的集合。CIFAR-100类似于CIFAR-10，除了每类图像少10倍。我们认为前80类标记的数据，和最后10类未标记的数据，留下10类作为探测集的类别数估计未标记的数据。SVHN[22]. SVHN包含用于训练的73，257个数字图像和用于测试的26，032个图像。我们将73，257个训练数字分成标记和未标记的子集。即我们将数字0-4的图像视为标记集合，而将数字5-9的图像视为未标记集合。标记集包含45，349个图像，而未标记集包含27，908个图像。评估指标。我们采用常规使用的聚类精度（ACC）和归一化互信息（NMI）[32]来评估我们方法的聚类性能。这两个度量的值都在[0，1]的范围内。并且更高的值意味着更好的性能。我们测量新类别数量估计的误差，|其中，Kgt和Kest分别表示类别的基础事实和估计数量。|, where Kgtand Kestdenote the ground-truth andestimated number of categories, respectively.网络架构。为了进行公平的比较，我们遵循[15，16]，并为OmniGlot和CIFAR-100使用6层VGG类架构[27]，为ImageNet和所有其他数据集使用ResNet 18 [14]培训配置。OmniGlot被广泛用于少镜头学习的背景下，因为它包含的类别数量非常大，每个类别的示例图像数量很少。因此，为了在OmniGlot的背景集上训练特征提取器，我们使用原型损失[28]，这是少数学习的最佳方法之一。我们训练特征提取器，批量大小为200，通过随机抽样20个类别形成批次，每个类别包括10张图像。对于每个类别，使用5幅图像作为支持数据来计算原型类型，而其余5幅图像用作查询样本。我们使用Adam 优化器，学习率为0.001 ，持续200个epoch。然后，我们微调fθ，并为评估集中的每个字母表训练瓶颈和聚类中心U对于预热（在算法1中），Adam优化器以0.001的学习率使用，并在不更新目标分布的情况下训练10个之后，训练继续另外90个时期，更新每个时期的目标分布对于ImageNet和其他广泛用于监督图像分类任务的数据集，我们使用标记子集上的交叉熵损失来预训练特征提取器。按照通常的做法，我们删除分类网络的最后一层，并使用模型的其余部分作为特征提取器。在我们对ImageNet的实验中，我们将[16]的预训练ImageNet882分类网络对于新类别的数量未知的情况，我们训练ImageNet800分类网络作为我们的初始特征提取器。我们使用初始学习率为0.1的SGD，每30个epoch除以10，共90个epoch。对于预热，特征提取器与瓶颈和聚类中心一起，通过SGD以0.1的学习率训练10个epoch;然后，我们训练另外60个epoch，每个epoch更新目标disc。在其他数据集上的实验遵循类似的配置。我们对所有数据集的结果都是在 10 次运行中平均的，除了 ImageNet ，ImageNet是在3次运行中使用不同的未标记子集进行平均的[15，16]。4.2. 用已知数量的类别学习在表 1 中，我们比较了我们的深度转移聚类（DTC）方法的变体与第3.1.2节中介绍的时间集成和一致性约束，即DTC基线（我们使用DEC损失训练的模型），DTC-基线（我们使用DEC损失训练的模型，具有一致性约束），8409表1.视觉类别发现（已知类别数量CIFAR-10 CIFAR-100 SVHN OmniGlot ImageNet方法ACCNMIACCNMIACCNMIACCNMIACCNMIk-均值[21]百分之六十五点五0.422百分之六十六点二0.555百分之四十二点六0.182百分之七十七点二0.88871.9%0.713DTC-基线74.9%0.57272.1%0.630百分之五十七点六0.34887.9%0.933百分之七十八点三0.790DTC-100百分之八十七点五0.73570.6%0.605百分之六十点九0.41989.0%0.94976.7%0.767DTC-TE82.8%0.66172.8%0.63455.8%0.35387.8%0.931百分之七十八点二0.791DTC-TEP百分之七十五点二0.59172.5%0.632百分之五十五点四0.32987.8%0.932百分之七十八点三0.791样本的预测与其变换的对应物之间的一致性约束）、DTC-TE（我们的模型使用DEC损失进行训练，其中DEC损失具有每个样本的当前预测与时间系综预测之间的一致性约束）以及DTC-TEP（我们的模型使用DEC损失进行训练，其中目标是从时间系综预测构建的）。在我们的实验中，我们只使用随机裁剪和水平翻转的标准数据增强。为了测量基于度量学习的初始化的性能，我们还显示了k-均值[21]对由我们的特征提取器（使用标记数据进行训练）产生的未标记数据的特征的结果。k-means在使用标记数据训练的模型对未标记数据进行聚类时显示出相当好的结果我们的方法的所有变体都大大优于k均值，表明我们的方法可以有效地微调特征提取器并对数据进行聚类。DTC-TBI似乎是CIFAR-10、SVHN和OmniGlot最有效的一种。一致性约束使一个巨大的IM-用于 CIFAR-10 的方法（例如，第74 章 . 9% →-87。5%），图2. CIFAR-10上的表示可视化。左：未标记数据的学习特征的t-SNE投影（用GT标签着色）;中：将马聚类为狗的失败案例;右图：将卡车集群为船舶的失败案例。表2. OmniGlot和ImageNet上的结果，已知类别数。OmniGlot ImageNet方法ACCNMIACCNMIk-均值[21]21.7%0.35371.9%0.713LPNMF [4]22.2%0.37243.0%0.526LSC [8]百分之二十三点六0.376百分之七十三点三0.733KCL [15]百分之八十二点四0.889百分之七十三点八0.750[第16话]百分之八十三点三0.89774.4%0.762[17]第十七话86.6%---DTC89.0%0.949百分之七十八点三0.791SVHN（例如， 57. casino 6%→-60。9%）。当谈到更具挑战性的数据集，CIFAR-100和ImageNet，DTC-TE和DTC-TEP似乎是最有效的ACC为72。8%，78。分别为3%。我们将我们的learened特征在CIFAR-10的未标记子集上的t-SNE投影可视化在图2中。二、可以看出，我们学习的表示对于不同的新类别具有足够的区分力，清楚地表明我们的方法可以有效地发现新类别。我们还展示了一些失败的案例，其中在绿色选择中的狗和马头之间存在一些混淆（由于相似的姿势和颜色），在橙色选择中的卡车和船之间存在一些混淆（卡车要么停在海边，要么与大海有相似的颜色）。我们在表2中将我们的方法与传统方法以及最先进的基于Om-niGlot和ImageNet的学习方法进行了比较。我们使用与KCL [15]，MCL [16]和Centroid Networks [17]相同的6层VGG架构传统方法的结果是[16]中报告的结8410果所有这些方法都是通过假定已知的范畴数来应用的。值得注意，质心网络[17]还假设聚类器具有均匀的大小。这个假设虽然在实际应用中不实用，但在使用OmniGlot进行实验时是有益的，因为每个类别正好包含20个图像。对于这两个数据集，我们的方法在ACC（89.0% vs 86.6%）和NMI（0.949 vs 0.897）中均优于现有方法与KCL和MCL不同，我们的方法不需要维护额外的模型来为聚类模型提供此外，我们还根据CIFAR-10、CIFAR-100和SVHN的官方发布代码，在表3中与KCL和MCL进行了我们的方法在这些数据集上的性能始终优于KCL和MCL，这进一步验证了我们方法的有效性。表3. 与 KCL 和 MCL 在 CIFAR-10/CIFAR- 100/SVHN 上的比较。CIFAR-10 CIFAR-100 SVHNACCNMIACCNMIACCNMIKCL [15]百分之六十六点五0.438百分之二十七点四0.151百分之二十一点四0.001[第16话]64.2%0.398百分之三十二点七0.202百分之三十八点六0.138DTC百分之八十七点五0.73572.8%0.634百分之六十点九0.4198411表4.类别数估计结果。数据GT我们误差OmniGlot20-4722-514.60ImageNetA，B，C{30，30，30}{34，31，32}2.33CIFAR-10010111表5. OmniGlot和ImageNet上的结果，类别数量未知。OmniGlot ImageNet方法ACCNMIACCNMIk-均值[21]百分之十八点九0.464百分之三十四点五0.671LPNMF [4]百分之十六点三0.498百分之二十一点八0.500LSC [8]18.0%0.50033.5%0.655KCL [15]百分之七十八点一0.87465.2%0.715[第16话]80.2%0.89371.5%0.765DTC87.0%0.945百分之七十七点六0.7864.3. 发现小说类别我们现在在更具挑战性（和现实主义）的情况下进行实验KCL和MCL假设类别的数量是一个大值（即，100)而不是明确地估计类别的数量。相比之下，我们选择在使用算法2（对于我们所有的实验，Kmax=100）运行转移聚类算法之前估计类别的数量，然后才应用算法1来找到聚类。新类别数量估计结果见表4。三个数据集的平均误差均小于5，验证了该方法的有效性在表5中，我们显示了算法1在OmniGlot和ImageNet上的聚类结果，以及对新类别数量的估计，并与其他方法进行了比较传统方法的结果是[16]中报告的结果，使用OmniGlot的原始图像和ImageNet的预训练特征在这两个数据集中，我们的方法都取得了最好的结果，在OmniGlot和ImageNet上分别比之前的最先进水平高出6.8%和6.1%。我们还通过使用我们在OmniGlot和ImageNet上估计的集群数量对KCL和MCL进行了实验（见表6）。有了这种增强，KCL和MCL在ACC方面显着改善，在NMI方面相似，表明我们的类别数估计方法也可以有益于其他方法。我们的方法在所有指标上仍然显着优于增强的KCL和MCL。表6.KCL和MCL与我们的类别数估计。表7.从ImageNet转移到CIFAR-10的结果ACCNMIk-均值[21]71.0%0.639DTC-基线百分之七十六点九0.729DTC-100百分之七十八点九0.753DTC-TE78.5%0.755DTC-TEP77.4%0.7344.4. 从ImageNet预训练模型转移使用现代深度卷积神经网络进行迁移学习的最常见方法是使用ImageNet预训练模型。在这里，我们探索了杠杆老化ImageNet预训练模型的潜力，以转移新类别发现的特征。特别地，我们将ImageNet预训练模型作为我们的特征提取器，并在新的数据集上采用我们的转移聚类模型。我们用CIFAR-10进行实验，结果示于表7中。在这里，我们将整个CIFAR-10训练集视为未标记数据，而不是仅将部分类别视为未标记数据。与之前类似，我们的深度transfering聚类模型配备了时间集成或一致性约束，始终优于k-均值和我们的基线模型。DTC-TE在NMI方面表现最好。我们也尝试了SVHN ，但我们没有太大的成功。这可能是由于ImageNet和SVHN之间的小差异。这一结果与半监督学习（SSL）的结果一致[23]。使用ImageNet预训练模型，SSL可以在CIFAR-10上实现我们的研究结果证实，为了成功地从深度转移聚类的预训练模型中转移知识，标记数据和未标记数据应该密切相关。5. 结论我们介绍了一种简单有效的方法，在未标记的数据中发现新的视觉类别，将其视为一个深转移聚类问题。我们的方法可以同时学习数据表示和聚类新的视觉类别的未标记数据，同时利用标记数据中相关类别的知识我们还提出了一种新的方法来可靠地估计类别的数量在未标记的数据，通过转移聚类先验知识，使用标记的探针数据。我们已经在公众席上彻底评估了我们的方法马克，它大大优于国家的最先进的技术在已知和未知的类别数的情况下，证明了我们的方法的有效性。致谢。我们非常感谢 EPSRC 项目资助 SeebibyteEP/M013774/1和ERC StG IDIU-638009的支持。OmniGlot ImageNetACCNMIACCNMIKCL [15]百分之七十八点一0.87465.2%0.715KCL [15] w/ ourk80.3%0.87571.4%0.740[第16话]80.2%0.89371.5%0.765[16]第十六话百分之八十点五0.879百分之七十二点九0.7528412引用[1] 查鲁角Aggarwal和Chandan K.雷迪数据聚类：算法与应用。CRC Press，2013. 2[2] 奥拉茨·阿贝莱茨，伊拜·古鲁塔，J·维耶·穆格尔扎，Jesu's M.佩雷斯，还有我，伊果·佩罗纳。聚类有效性指标的扩展比较研究Pattern Recognition，2012. 5[3] James C.Bezdek和Nikhil R.伙计一些新指标聚类有效性IEEE Transactions on Systems，Man，andCybernetics，Part B，1998. 5[4] 邓才，何小飞，王宣辉，胡军宝，季-阿伟汉。局部保持非负矩阵分解。InIJCAI，2009. 七、八[5] TadeuszCali n'ski和JAHarabasz。一种枝晶法聚类分析统计学中的通信-理论与方法，1974年。5[6] 常建龙，王凌峰，孟高峰，石明Xiang和Chunhong Pan。深度自适应图像聚类。InICCV，2017. 2[7] Olivier Chapelle、Bernhard Scholkopf和Alexander Zien。半监督学习麻省理工学院出版社，2006年。2[8] 陈新蕾和邓才。基于地标表示的大规模谱聚类。在AAAI，2011中。七、八[9] Dorin Comaniciu和Peter Meer。均值漂移：一个强大的ap-向特征空间分析方向发展。IEEE TPAMI，1979年。2[10] David L.作者声明：

下载后可阅读完整内容，剩余1页未读，立即下载