新类发现：一种解决深度学习模型大型注释训练集需求的方法

137 浏览量更新于2023-10-15 收藏 928KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9284≈新类发现Enrico Fini1Env er Sangineto1Ste´ phane Lathuilie` re2 Zhun Zhong1* Moin Nab i3Elisa Ricc i1，41Uni versityofTrento，Trento，意大利2LTCI，Te´le´ comParis，InstitutPolytechniquedeParis，法国3SAP AI Research，柏林，德国4Fondazione Bruno Kessler，特伦托，意大利摘要本文研究了一类新的分类问题（NCD）。NCD旨在通过利用包含不同但相关类的标记集的先验知识来推断未标记集中的新对象类别。现有的方法通过考虑多个目标函数来解决这个问题，通常涉及分别用于标记和未标记样本的特定损失项，并且通常需要辅助正则化项。在本文中，我们离开了这个传统的计划，并介绍了一个统一的目标函数（UNO）发现新的类，明确的目的支持监督学习和无监督学习之间的协同作用。使用多视图自标记策略，我们生成的伪标签，可以处理均匀的地面真值标签。这导致在已知和未知类别上操作的单个分类尽管它很简单，但UNO在几个基准测试中的表现明显优于最先进的水平（在CIFAR-100上为+ 10%，在ImageNet上为+ 8%）。该项目的网页可在https://ncd-uno.github.io上找到。1. 介绍深度学习使计算机视觉取得了惊人的进展。然而，这些模型的大型注释训练集的必要性例如，训练用于分类的深度神经网络需要针对每个感兴趣的类别的大量标记数据。在为每个类别收集足够的数据是昂贵的或甚至是不可能的情况下，例如在医疗应用中，这种约束甚至更加严重。为了缓解这些问题，新类发现（NCD）[7，6，8]最近已经成为一种实用的解决方案。NCD旨在训练一个网络，该网络可以同时对一组标记的类进行分类，同时在未标记的图像集中发现新的类。基本动机*通讯作者以前的作品监督辅助聚类目标“猫”“狗”统一目标（UNO）这项工作图1：我们的统一目标（UNO）与以前的作品的视觉比较。现有的方法使用多个目标函数，如监督，聚类和辅助目标来解决NCD。相反，我们设计了一个单一的分类目标上操作的已知和未知的类。在这种设置的背后是，网络可以受益于在标记集合上可用的监督，以学习丰富的图像表示，该丰富的图像表示可以被传送以发现未标记集合中的未知类。在训练时，数据被分成一组标记的图像和一组未标记的图像，假设不相交的类集。这两个集合用于训练单个网络来分类已知和未知类别。请注意，这个问题与半监督学习类似但不同[22，24]，因为在后者中，工作假设是标记和未标记的集合共享相同的类。不同的是，在NCD中，两组类应该是不相交的。此外，与常见的聚类[1，25]场景不同，在NCD框架中，可以在训练时使用标记数据，并且挑战在于传输已知类上的监督知识以改进未知类的聚类。大多数NCD方法通常在标记集上执行初始监督预训练步骤，然后执行clus-9285≈对未标记数据进行排序步骤[8，10，11]。这个简单的流水线提供了一种有效的手段，将表示能力从标记的集合转移到未标记的集合。一般来说，这些方法结合了两个独立的目标。一方面，通过标记集合上的标记存在直接另一方面，使用聚类目标来发现新的类别。聚类目标通常基于在未标记集合上估计的伪标记[7，12，14，29，30，31]在实践中，这些目标分别通过诸如交叉熵（CE）和二进制交叉熵（BCE）的独立损失来组合通常，BCE损失与伪成对标签一起计算，伪成对标签通常通过设置ad-hoc阈值来确定，这严重影响了这些方法的性能。此外，NCD方法通常需要标记类和未标记类之间的强语义相似性，以便获得用于发现新概念的表达性表示。为了减少特征朝向已知类别的偏差，Han等人（2005）在2006年10月10日的研究中提出了一种新的分类方法。[7]建议在监督预训练之前，对所有可用的图像（包括标记和未标记的图像）使用自监督预训练的附加阶段。此外，聚类阶段通过另一个自监督目标（一致性）来加强，这强制模型为同一图像的两个不同数据增强输出类似的预测。添加额外的辅助目标使得该模型的优化甚至更加麻烦，因为它需要进一步调整这些竞争目标中的每一个的超参数。此外，该方法假设在预训练阶段未标记集的可用性当以顺序方式学习时，这是不合适的，因为每次未标记集合改变时，它需要重复昂贵的自我监督预训练阶段。出于简化NCD方法的需要，并受到自监督学习[2，3]的最新进展的启发，在本文中，我们建议消除自监督预训练步骤，并通过单个损失函数统一所有目标（见图1）。①的人。具体地，使用多视图自标记策略，我们生成可以与地面真实标签均匀处理的伪标签。这使得可以在标记和未标记集合上使用统一的更详细地说，给定一批图像，我们使用随机变换生成每个图像的两个视图然后，我们的网络预测所有类别（标记为+ 未标记）。这导致两个独立聚类的子批次，因此每个视图的聚类分配被简单地用作另一个视图的伪标签地面实况和伪标签，然后在组合中使用，重要的是，使用在完整类集上运行的统一框架使我们能够学习单个该模型可以联合识别标记和未标记的类别。我们强调，这是在非传染性疾病任务的现有解决办法中常常被忽视的一个关键点。捐款. 我们的贡献可归纳如下：（i）我们引入了用于NCD的统一目标（UNO），其中集群伪标签与地面真实标签被均匀地处理，允许单个CE损失在标记和未标记的集合上操作;（ii）使用多视图、多头和过度聚类策略，我们在发现新类的同时学习强大的表示，事实上消除了对NCD中的自我监督预训练的需要;（iii）实验表明，我们的方法在三个公开可用的基准上大大超过了所有以前的工作。值得注意的是，我们在ImageNet上的准确率比以前的方法高出8%，并且CIFAR-100 +10%。（iv）最后，我们将非传染性疾病推向通过改变标记和未标记的比例来限制样本，并发现我们的目标优于国家的最先进的更显着复杂的基准。2. 相关工作小说类发现。新的分类障碍的概念最早是由Han等人在[8]中正式提出的，但对新的分类障碍的研究可以追溯到在[10，11]中。在[10]中，Hsuet al.引入问题在任务上传输聚类模型，其对应于NCD设置：目标是在给定无类重叠的标记数据集的情况下对未标记数据集进行聚类。在[10，11]中，预测网络在标记数据上训练，然后用于估计未标记样本之间的成对相似性最后，通过使用预测的成对相似度来训练聚类网络以识别未标记数据集中的新类别[10]和[11]之间的主要区别在于应用于预测网络的训练损失的选择。最近，Hanet al. [8]分两步处理同一问题：使用度量学习技术在标记数据上学习数据嵌入，然后在学习未标记数据上的簇分配时进行微调。有趣的是，他们还解决了估计未标记数据集中类的数量的问题。后者，许多NCD作品[7，14，29，30，31]都是按照两步训练策略设计的。Han等人[7]发现使用旋转预测以自监督方式预训练骨干网络可以显着提高聚类精度。此外，他们采用秩统计来识别属于同一类的数据对，并最小化BCE，以使这些对的网络输出更接近[11]。这种伪标签的损失与标记集上的CE损失和一致性损失一起最小化，该一致性损失强制网络不变性以9286Y∈Y{}Y{|∈ Y}YΣ11NN1M我J[yl，0Cu]x∈Du我LL∈∈∈一些随机的数据转换。OpenMix [31]通过混合标记和未标记的数据来生成虚拟样本，这可以抵抗未标记数据的噪声标签。为了利用更多的阳性样品，Zhonget al.[30]引入邻域对比学习（NCL），通过对比学习来聚集伪正对。从该文献综述中，我们观察到现有方法通常需要（i）学习具有未标记样本之间的成对关系的新颖类的分类器，（ii）使用一致性损失来强制网络对数据变换的不变性，以及（iii）联合训练具有若干损失的网络。与他们不同的是，在这项工作中，我们提出了一个统一的框架，通过使用一个单一的目标，通过一个伪标签的过程来执行深度聚类。以无监督的方式识别类可以被形式化为聚类问题。深度聚类[1]可以被认为是第一种能够在没有监督的情况下使用深度网络学习丰富图像表示的聚类方法。该方法在提供伪标签的k均值步骤和网络训练步骤之间交替，其中聚类分配用作监督。最近，VanGansbekeet al. [25]还表明，特征学习和聚类分离两步方法可以导致最先进的性能。已经提出了几种方法来避免这种迭代过程。在[28]中，由于在线训练公式，Deep Clus- ter的训练稳定性得到改善。由于互信息最大化目标，深度聚类网络在[13]和[20]中以端到端的方式其他方法提出了更复杂的伪标记策略：Asano等人[27日]使用Du来发现Cu聚类，其中Cu是先验已知的。假设Cl标记类的集合与Cl未标记类的集合不相交。请注意，在测试时，我们的目标是分类图像对应的标记和未标记的类。我们将这个问题表述为学习从图像域到完全标签集=1，…，Cl，Cl+1，…Cl+Cu，其中第一个Cl元素对应于1，而随后的Cu元素对应于应该从聚类过程中出现的潜在类。在下面的小节中，我们首先介绍我们的统一目标如何学习这种映射（第二节）。3.1），然后我们解释如何使用多视图自标记策略来获得强伪标签（ Sec.3.2），最后，我们展示了如何使用多头聚类和过聚类来提高我们的方法的性能3.3）。3.1. 统一目标为了解决NCD问题，我们建议训练一个由θ参数化的神经网络fθ，它计算以下的后验概率：：f θ（x）= p（y x）;y.我们的网络架构如图所示2：其由共享编码器E和两个头h和g组成。编码器E是标准卷积网络（CNN），后面是平均池化层，并且z=E（x），zRk是表示输入图像x的特征向量。第一头部h是具有Cl输出神经元的线性分类器另一方面， g 是使用多层感知器（MLP）和具有C u输出神经元的线性分类器来实现的，MLP将z投影到较低维度的表示z’。在[2，26]之后，我们对z，z′和线性分类器进行l2采用最佳运输配方，以获得稳健的伪标签这一提法是基于辛霍恩-重要的是，logitslh生产商：∈RCl和l∈RCurespec-Knopp算法[4]将样本表示映射到原型。Caron等人[2]建议使用这种聚类算法来引入“交换”预测机制，该机制使用相同图像的两个随机变换，称为视图。为每个视图估计聚类分配，并将其用作其他视图的伪标签在这项工作中，我们利用这种交换的预测机制，以获得伪标签的未标记的集合，但我们将这种机制的网络头对应的标记类，以指导聚类。3. 方法在NCD任务中，训练数据被分成两个集合：标记集合D1={（x1，y1），… （xl，y l）}和一个无标号集合h和g是级联的：l=[lh，lg]。然后，它们被馈送到共享softmax层σ，其输出完整标签集上的后验分布：P=σ（1/τ），其中τ是softmax的温度。一旦我们有了p，我们就可以使用标准的交叉熵来训练整个网络f：C（x，y）=− yclog（pc），（1）c=1其中C = Cl+Cu。 yc和pc分别是标签y和网络预测p =f（x）的第c个元素。用于图像X的标签y取决于是XDl还是XDU。如果x属于标记数据集，则我们对y 1应用零填充，而如果xD u，则我们对与x相关联的伪标签y 0进行零填充：Du ={Xu，… Xu}，其中Dl中的每个Xl和Du中的每个Xu是an.图像和yl∈ Yl ={1，…，C1}是分类标签。的y=L（二）Yi的独热表示被表示为Yi。目标是[0Cl，y]x∈D.G9287GG∈∈Cu图2：所提出的架构的概述在绿色中，我们表示“标记的分量”（标记的子集Dl、标记的头部h、标记的样本），在蓝色中，我们表示它们的未标记的对应物（未标记的子集Du、未标记的头部g、未标记的样本），并且在橙色中，我们表示粗略性指示未标记的logits和伪标记中的不确定性。编码器E和磁头（h和g）的参数对于两个视图是共享的。给你，你 0Cl 表示维度Cu的零向量和Cl。这种填充配方是一种天然的选择，这源于假设已知的关于伪标签的计算，一个简单的解决方案是简单地使用g（z1）的预测，其中z1=E（v1）。设pi= σ（ll/τ），G g和未知类是不相交的。3.2. 多视图和伪标记在本节中，我们将展示如何利用多视图策略为统一目标生成伪标签。给定图像x，我们采用常见的数据增强技术，包括对x应用随机裁剪和颜色抖动，并且我们获得x的两个不同的这些数据增强技术最初在自监督学习领域[3]中被利用，最近已成功地应用于标准监督学习。其中11是由g（z1）计算的对数，并且softmax运算仅应用于g（z1）的 C u 输出神经元。 We 可以设置 y（2=p1并且在等式2中使用y（2）。（2）得到y2。然而，如在[27]中观察到的，该伪标签分配可以导致退化解，其中，例如，对于任何输入，g总是预测相同的logits向量。在这种情况下，由方程式在（1）中，网络预测和标签基本相同，并且没有学习。相反，受[2，27]的启发，当计算y？2时，我们添加了一个entropy项，该项惩罚所有logit彼此相等的情况，并激励所有Cu集群上伪标签的均匀分区。具体地，令L =[11，…[1B]是矩阵，其列是对数-G g学习[16]。相干地，我们提取两个视图v1和v2，其由g相对于小批量图像计算当x∈Dl和x∈Du时（见图2）。 2）的情况。尺寸B。更进一步地，令Y=[y（1，…，yB]是矩阵在（x，yl）Dl的情况下，我们将vl和v2与相同的标签 yl=y2=[yl ， 0Cu] 相关联。另一方面，如果 xDu，然后我们使用v1来计算y1，使用v2来计算y2，然后我们将两个伪标签都插入等式中。（二）、在这一点上，Eq。（1）可以独立地应用于每个视图。然而，这种方法并不鼓励网络为同一图像的不同视图输出一致的预测。为了执行这样的行为，在[2]之后，我们使用交换预测任务：其行是当前批次的未知伪标签。Y通过求解得到Y=maxTr（YL）+εH（Y），（4）Y∈Γ其中ε>0是超参数，H是用于“分散”伪标签的熵Cu×B1个1个（v1，y2）+（三）Γ ={Y ∈ R+|Y 1B=Cu 1Cu，Y1Cu=B1B}。（五）当我们评估上式中的每个项时，我们对伪标签应用“停止梯度”，即，梯度仅流过f（v1）。注意，这两个损失项是应用于不同视图的相同目标的实例。这些约束强制执行，平均而言，每个聚类在批次中被选择Bu次，其中Bu是批次中未标记样本Eq.的解使用Sinkhorn-Knopp算法[4]获得（对于更多标头交叉熵PLPL未标记股骨头仅未标记的样本辛霍恩-诺普仅未标记的样本未标记股骨头辛霍恩-诺普PLPL标头交叉熵0GT0GT0GT0GT编码器编码器9288JuΣ∈详情参见[27]。由此产生的伪标签，表示为Y？中的每个r wy？i，然后可以被离散化。然而，我们发现使用软伪标签yi∈[0，1]C可以实现最佳性能。已标记未标记3.3. 多头聚类与过聚类为了提高聚类性能，受[13]的启发，结合主聚类任务，我们还采用了过聚类，即我们强制F产生更细粒度的未标记数据的备选分区。已知这增强了表示的质量具体地，与E连接的过聚类头〇是类似于g，但具有K=Cu×m簇输出神经元。此外，受[1，13]的启发，我们还使用多个聚类（g1，...， gn）和过聚类（o1，…，0/n）头。这是有用的，因为头部可以收敛到次优聚类配置。通过使用多个头，我们可以平滑这种影响，并增加反向传播到网络共享部分的整体在训练时，对于给定的一批数据，我们迭代g1，…， g n，并且对于每个头部gi，我们将由h（lh）产生的逻辑数与由gi产生的逻辑数（即， Igi ）。我们将结果馈送到 Cl+Cu 元素softmax层，并且遵循上述过程，我们计算Eq.（1）对于批中的每个x类似地，对于每个o j，我们将lh与由 o j 产生的logit（即 10 ），我们使用 C1+K 元素softmax层，并且我们再次计算Eq.（1）对于批中的每个x4. 实验4.1. 实验装置数据集。我们在[8，7]之后的三个完善的NCD基准上评估了我们的方法的性能，即， CIFAR10 [17] ，CIFAR100 [17]和ImageNet [5]。每个数据集被分成两个子集，标记集包含属于一组已知类的标记图像，以及未标记的新类集合，我们不知道（4）ImageNet 1.25M 882 ≈30K 30表1：在我们的新颖类发现基准中使用的数据集和分割的在我们的实验中，我们表明，在提出的分裂的所有方法的性能下降相当大的比较，比较容易的一个（CIFAR 100 -20）。这表明目前的NCD解决方案尚未准备好部署。图中分析了更具挑战性的设置。3 .第三章。议定书我们使用两个评估集来评估我们的模型：任务感知和任务不可知。在任务感知评估中，我们使用任务信息来排除与当前样本不相关的换句该评价通常用于文献中。然而，在实际场景中，这种评估不是很有意义，因为它不确定模型是否能够区分标记的类和未标记的类。因此，我们还报告了与任务无关的准确性，其中预测只是连接标记和未标记的logits后最有可能的输出。对于任务感知协议，我们报告了训练集上的性能（Tab. 3）和测试集（表2），而对于任务不可知协议，我们报告了测试集上的性能（表2）。2、Tab。4）. Tab中的结果。2是3次运行的平均值，而对于Tab.3和2是按照[7]的方案在10次运行中的平均值。指标. 我们使用标记样本的准确性度量和未标记样本的平均聚类准确性。平均聚类准确度定义为：1NClusterAcc=max1{y=perm（y（i）}，（六）除了班级数量之外，没有任何监督拆分的详细信息显示在选项卡中。1.一、文献中使用的标准数据分割（表1、2和4）1）证据ei-其中yi和yiperm∈PNi=1代表地面真实标签和预-u（i）少量的类或（ii）两个子集的类的数量的强烈不平衡然而，这两个假设在现实世界的场景中并不成立，其中未标记的数据远比其标记的对应部分丰富。因此，我们引入了一个新的拆分，更好地近似NCD的实际应用：CIFAR100-50如Tab.所示。1、CIFAR 100 -50包含大量未标记类（50个），使任务更具挑战性。样本xi的口述标签D，分别。P是集合所有的排列，这是计算与Hungar- ian算法[18]。由于我们使用多个头部来训练网络，因此我们独立地计算每个头部的评估指标我们将最佳头部定义为在最后一个时期中表现出最低训练损失的头部实施详情。为了与现有方法进行公平比较，我们对所有数据集使用ResNet18 [9]编码器我数据集图像类图像类(1)CIFAR1025K525K5(2)CIFAR100-2040K8010K20(3)CIFAR100-5025K5025K5092898月份的方法对比CIFAR10 CIFAR100-50任务感知任务不可知任务感知任务不可知Lab Unlab All Lab Unlab AllLab Unlab All Lab UnlabAll表2：消融研究。我们的方法的每个核心组件都被隔离删除。“Concat” stands for the 我们还报告了完整模型的性能以进行比较。本表中报告的所有结果均在测试装置上使用最佳头进行测量。标记的头部h是具有Cl输出神经元的12归一化线性层，而未标记的头部g由具有2048个隐藏单元和256个输出单元的投影头部组成，随后是具有Cl输出神经元的12我们在标记的数据集上预训练我们的模型200个epoch，然后在标记和未标记的数据集上训练200个epoch。对于这两个阶段，我们使用具有动量的SGD作为优化器，具有线性预热和余弦退火（ lr base=0. 1 ， lrmin=0。001），重量衰减10−4。对于所有实验，批次大小始终设置为512。关于分散阶段，我们使用过聚类因子m=3和n=4的头聚类和过聚类。温度参数τ被设置为0。1用于所有softmax层。对于伪标记，我们使用由[2]提供的Sinkhorn-Knopp算法[4]的实现，并且我们继承了[2]的所有超参数，例如。n iter=3且ε= 0。05.训练前。在[7]中，提出了一种三阶段流水线，其中网络首先在标记和未标记集合的组合上进行自我监督训练，然后在标记集合上进行微调，最后用于发现新的类。这种复杂的程序使得NCD繁琐且昂贵。此外，它基于未标记数据在训练时可用的假设，这在现实世界的场景中可能并不总是成立（例如在线设置）。由于这些原因，我们决定在我们的方法中不使用自监督预训练，并表明在发现时使用统一目标就足以获得最佳性能。尽管如此，为了完整起见，我们使用自监督预训练来检查模型的行为，发现相对于更简单，更实用的监督预训练没有任何改进在我们的方法中，标记头部h由l2-归一化的原型组成，最后一层计算每个原型与l2-归一化特征z为了一致性和性能，我们还在预训练期间将这些特征和原型标准化。4.2. 消融研究在选项卡中。2我们报告了消融研究的结果，通过单独移除我们方法的每个核心组件获得，即logit级联、过聚类和增强。为了更好地检查我们模型的行为，我们报告了两个测试子集（标记和未标记）以及使用两个建议的评估设置（任务感知和任务不可知）的聚类准确性。Logit级联。如第3.1中，我们的主要贡献是对标记和未标记数据进行联合训练的统一目标换句话说，我们的模型通过连接标记和未标记的logits来预测所有类的后验概率分布。我们的实验表明，这种设计选择确实是我们的方法的最终性能至关重要。消融和灰表明，治疗聚类和监督学习与不同的目标是高度次优相对于使用我们的统一目标。特别是，结果指出了两个方面。首先，很明显，使用分开的对象会在两项任务之间产生更大的干扰。重要的是，当单独评估它们时（任务感知），也存在这种效果。第二，性能下降更显着时，使用任务不可知的评估，特别是在标记集。后一个结果是合理的，因为没有级联的训练不会鼓励网络区分标记的样本和未标记的样本。过度聚类。节中3.3我们描述了如何从未标记数据中提取细粒度聚类。已知这显著提高了表示的质量[13，2]。我们在我们的框架中研究了这种效应，发现过度聚集在NCD中可以有效地杠杆化的证据选项卡. 2表明，当使用过聚类头时，未标记集上的性能注意，聚类头被保留并用于评估，而过聚类头在测试时被丢弃。有趣的是，标记类的性能并没有受益于细粒度的聚类提取。这是✗✓强90.689.990.2 48.583.365.978.444.562.4 65.543.254.3UNO✓强大96.493.094.793.590.592.078.949.864.471.548.459.0✓✓弱96.192.794.4 93.490.291.878.450.664.5 71.148.659.1✓✓强96.695.195.8 93.593.393.478.852.065.4 71.550.761.19290≈方法CIFAR10CIFAR100-20C I F A R 1 0 0 -50ImageNetk-均值[19]72.5±0.056.3±1.728.3±0.7KCL [10] 72.3±0.2 42.1±1.8 - 73.8MCL [11] 70.9±0.1 21.5±2.3 - 74.4DTC [8] 88.7±0.3 67.3±1.2 35.9±1.0 78.3RS [7] 90.4±0.5 73.2±2.1 39.2±2.3 82.5RS+ [7] 91.7±0.9 75.2±4.2 44.1±3.7 82.5UNO（平均值）96.1±0.5 84.5±1.0 52.8±1.4 89.2UNO（最佳）96.1± 0.5 85.0± 0.6 52.9± 1.4 90.6表3：使用任务感知评估协议与CIFAR-10、CIFAR-100和ImageNet上的现有技术方法进行比较，以用于新的类发现。在未标记集（训练分割）上报告聚类准确性。除了UNO之外的所有方法都使用自监督学习来初始化编码器，除非在ImageNet上进行评估。“RS+” is [这是合理的，因为已经使用监督学习了标记数据的良好表示然而，当使用过聚类时，整体准确性始终较高，因此激励我们选择。数据扩充。最近，在自监督学习的背景下，已经彻底研究了强数据增强技术的使用[3]。同时，基于自我监督的无监督聚类技术已经出现在文献[25，21]中。我们遵循这些工作，并调查的好处，使用的SimCLR样增强NCD。首先，我们发现使用非常小的作物并不能提高性能。相反，它阻止网络学习有意义的集群。我们认为这种行为是合理的，因为裁剪遮挡了图像的重要部分，使网络难以产生有意义的预测，这反过来又降低了伪标签的质量。相反，在我们的实验中，使用适度的随机裁剪（如[7]中所发现的）被证明是最好的选择。此外，我们发现，使用强烈的颜色抖动和灰度是有益的，我们的方法。在选项卡中。2，我们评估两种类型的数据扩充：弱（中等随机裁剪和随机翻转）对强（中等随机裁剪、翻转、抖动和灰度）。在ImageNet上，我们还使用了高斯模糊。从结果中可以看出，通过使用强增强，我们始终提高了我们的方法在标记和未标记集上的准确性。为了公平比较，我们还将这些强变换应用于RS [7]，而没有获得性能改进。4.3. 与最新技术水平的我们将我们的方法与当前NCD的最新技术进行比较：包括KCL [10]、MCL [11]、DTC [8]、RS [7]和RS+[7]（RS的“增量分类器”版本）。CIFAR10 CIFAR100-20 CIFAR100-50方法实验室Unlab所有实验室Unlab所有实验室Unlab所有KCL [10]79.460.169.823.429.424.6---MCL [11]81.464.873.118.218.018.2---故障诊断码[8]58.778.668.747.649.147.930.234.732.5RS+[7]90.688.889.771.256.868.369.740.955.3UNO（平均）93.593.393.473.272.773.171.550.661.0UNO（最佳）93.593.393.473.273.173.271.550.761.1表4：使用任务不可知的评估方案，在标记和未标记的类别上对CIFAR-10和CIFAR-100进行与现有技术方法的比较。在测试集上报告准确度和聚类准确度。此外，我们报告了在预训练特征之上应用的k-means的性能。在选项卡中。3，我们专注于未标记的类，报告训练集的聚类准确性（文献[7，8]中的常见做法）。对于所有相关方法，我们使用自我监督预训练报告结果，如第2节所述。4.1，除了ImageNet，我们只使用监督预训练报告结果。仅对相关方法使用监督预培训的结果推迟到补充材料中。尽管其简单性和缺乏自我监督的预训练，但UNO的性能大大超过最先进的（具有自我监督预训练的RS+[7]），在某些情况下超过10%。在CIFAR10上，聚类误差减少到大约一半，非常接近监督精度。在ImageNet上，UNO达到了90.0%以上的准确率，考虑到数据集的复杂性，这是一个了不起的结果。我们相信这样强有力的结果vali日期我们的假设，统一聚类和监督的目标是一个更有效的解决方案NCD。对于简单数据集，“avg”和“best”之间的性能差异我们还彻底比较了我们的方法与测试集上的任务不可知评估设置中的最新技术。CIFAR 10和CIFAR 100 -50的结果见表1。4.第一章对于UNO，我们报告聚类头的平均准确度。这些结果表明，我们的方法不仅更好地聚类未标记的数据，但它也优于国家的最先进的标记测试集，表明我们的统一目标有利于更好的合作和标记和未标记的头之间的干扰较少。此外，我们注意到，在CIFAR 100 -20上，当相对于任务感知评估使用任务不可知评估时，相对于RS+[7]的聚类准确性的相对改善这意味着UNO也比相关方法更好地区分标记和未标记的类最后，在图3我们检查了最佳方法（我们的，RS和RS+）的行为，其中越来越多的929180604020203040506070八十Num.无标号类604020020三十个四十个50人六十七十八十Num.无标号类图3：随着未标记类数量的增加，聚类精度（左）和相对增量相对增量被计算为UNO和相关方法之间的裕度，并通过UNO的准确度进行归一化。Rs+共享特征空间UNO共享特征空间无标号类Cu。所有方法的任务感知聚类精度随着任务变得越来越困难而降低。发生这种情况有两个原因：第一，随着类的增多，聚类变得更加困难;第二，标记类C1的数量减少，并且反过来，利用监督学习的表示的质量降低。后者对我们的模型特别不利，因为RS和RS+是在两个数据集的联合上使用自我监督进行预训练的，而我们的模型只在标记集上使用监督尽管如此，我们的方法总是优于其他方法的大利润率。此外，如图3（右），当C u增加时，我们的方法和其他方法之间的相对差距会变大，这表明即使在复杂的场景中，我们的目标也是优越的。4.4. 定性结果除了定量结果，我们还报告了定性分析，显示了我们在CIFAR10上的统一目标所学习的特征空间。在图4中，我们可视化共享特征空间（在最后一个卷积块之后）以及头部h和g的对数l的级联。由于我们有多个未标记的头部，因此对于所有数据样本，我们将所有头部的logit连接起来以用于可视化目的。对于这些特征，我们运行PCA [15]来降低它们的维度。最后，我们使用t-SNE [23]在两个维度上投影数据。相同的过程适用于RS+[7]产生的特征。从图中可以清楚地看出，我们的模型为相同类别的样本产生了同时，在RS+中，几个类纠缠在一起（例如猫、狗、马），使得线性分类器难以区分样本。根据我们的定量结果，我们的方法做了更好的工作，在分离的类，在共享的特征空间和logits空间。此外，我们研究的影响，我们的architec- tural设计的选择上的表示。从图中可以清楚地看出，在logits空间中，样本大致均匀地分布在其类别的质心周围。对UNO级联logits图4：CIFAR 10上所有类的t-SNE可视化。对于这两种方法，另一方面，在共享特征空间中，标记样本仍然以盘状组组织，而未标记样本表现出更不规则的形状。这是合理的事实，即标记的头部h线性地将特征投影到logits中，而未标记的头部g包含多个层和非线性。此外，在特征空间中的未标记的样本似乎被组织在子组中。这可能是由于过度聚类的使用。5. 结论我们提出了一种简单的方法，用于在未标记的数据集中发现和学习新的类，同时在标记的数据集中利用监督提取出好的特征。我们的方法从文献中脱颖而出，因为我们在统一目标（UNO）中使用伪标签与地面真实标签相结合，这使得监督和无监督学习之间能够更好地合作和更少的干扰。此外，我们还消除了昂贵的自我监督预训练的需要，使NCD更加实用。我们通过大量的实验和细致的分析证明了我们所提出的方法我们发现，UNO优于所有相关的方法显着，尽管在概念上更简单，更容易实现和培训。鸣谢。这项工作得到了欧洲创新技术研究所（EIT）和H2020欧盟项目SPRING -老年医疗保健中的社会相关机器人的支持。这项工作是在FBK和UNITN之间的“视觉和学习联合实验室”下进行的UNORSRS+UNO vs RS+UNO vs RS聚类精度已标记未标记飞机狗汽车辙叉鸟马猫船鹿车相对9292引用[1] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。Proc. ECCV，2018。一、三、五[2] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在Proc. NeurIPS，2020中。二三四六[3] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。InProc. ICML，2020. 二四七[4] 马可·库图里Sinkhorn距离：最佳运输的光速计算。在Proc.NeurIPS，2013中。三、四、六[5] 加登河Socher、Li Fei-Fei、Wei Dong、Kai Li和Li- JiaLi。Imagenet：一个大规模的分层图像数据库。在Proc.CVPR，2009中。五个[6] K Han ， SA Rebuffi ， S Ehrhardt ， A Vedaldi ，和 AZisser-man。Autonovel：自动发现和学习新的视觉类别。TPAMI，2021年。一个[7] Kai Han、Sylvestre-Alvise Rebuffi、Sebastien Ehrhardt、Andrea Vedaldi和Andrew Zisserman。自动发现和学习新的视觉类别与排名统计。InProc. ICLR，2020. 一、二、五、六、七、八[8] Kai Han，Andrea Vedaldi，and Andrew Zisserman.学习通过深度迁移聚类发现新的视觉类别。InProc. ICCV，2019. 一、二、五、七[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在procCVPR，2016年。五个[10] Yen-Chang Hsu，Zhaoyang Lv，and Zsolt Kira.学习集群，以便跨领域和任务转移在procICLR，2018年。二、七[11] Yen-Chang Hsu，Zhaoyang Lv，Joel Schlosser，PhillipOdom，and Zsolt Kira.无需多类标签的多类分类InProc.ICLR，2019. 二、七[12] Ahmet Iscen 、Giorgos Tolias 、Yannis Avritis 和OndrejChum。深度半监督学习的标签传播在Proc. CVPR，2019中。二个[13] XuJi，Jo a oFHenriques，andAndreaVedaldi.基于非监督信息聚类的图像分类与分割。在Proc. CVPR，2019中。三五六[14] Xuhui Jia，Kai Han，Yukun Zhu，and Bradley Green.单模态和多模态数据的联合表示学习和新类别发现。在Proc.ICCV，2021中。二个[15] 伊恩·乔利夫主成分分析2011. 八个[16] Prannay Khosla ， Piotr Teterwak ， Chen Wang ， AaronSarna ， YonglongTian ， PhillipIsola ， AaronMaschinot，Ce Liu，and Dilip Krishnan.监督对比学习。Proc.神经IPS，2020年。四个[17] Alex Krizhevsky等人从微小的图像中学习多层特征。特隆托大学，2009年。五个[18] 哈罗德·库恩。指派问题的匈牙利方法。1955年海军研究后勤季刊。五个[19] James MacQueen等人多元观测值分类与分析的若干方法。在proc BSMSP，1967年。79293[20] 威廉·梅纳帕切、圣·法恩·拉图尔和伊丽莎·里奇。学习域转移下的聚类。Proc. ECCV，2020. 3[21] Sylvestre-Alvise Rebuffi 、 Sebastien Ehrhardt 、 KaiHan、Andrea Vedaldi和Andrew Zisserman。Lsd-c：可线性分离的深星系团。InProc. ICCV Workshop，2021.七个[22] Kihyuk Sohn ， David

下载后可阅读完整内容，剩余1页未读，立即下载