垃圾变宝藏：跨模态匹配收集OOD数据的开放集半监督学习

171 浏览量更新于2023-10-14 收藏 12.79MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

CNNBinary OOD ClassifierTarget Category ClassifierOOD FilteringCNNTarget Category ClassifierCross-modal matchingRotation RecognitionPseudo-label GuessingOOD FilteringDataset for open-set SSL,consisting of labeled ID,unlabeled ID and unknownOOD samplesMTCF proposed in [39]ID+OOD SamplesCNNTarget Category ClassifierRotation Recognition83100垃圾变宝藏：利用交叉模态匹配收集OOD数据进行开放集半监督学习0Junkai Huang 1 * Chaowei Fang 2 * Weikai Chen 3 Zhenhua Chai 40Xiaolin Wei 4 Pengxu Wei 1 Liang Lin 1 Guanbin Li 1 †01中山大学 2西安电子科技大学 3腾讯美国 4美团0摘要0开放集半监督学习（open-setSSL）研究了一种具有挑战性但实际的场景，即未标记数据中包含超出分布（OOD）样本。虽然主流技术在半监督学习（SSL）中试图完全过滤掉OOD样本，但我们提出了一种新的训练机制，可以有效利用OOD数据来增强特征学习，同时避免其对SSL的不利影响。我们通过首先引入预热训练来实现这一目标，该训练利用所有未标记数据，包括ID和OOD样本。具体而言，我们执行一个预设任务，强制我们的特征提取器对训练图像获得高级语义理解，从而得到更具区分性的特征，有利于下游任务。由于OOD样本对SSL不可避免地具有负面影响，我们提出了一种新颖的跨模态匹配策略来检测OOD样本。与直接应用二元分类[39]不同，我们训练网络来预测数据样本是否与分配的独热类别标签匹配。所提出的跨模态匹配相对于二元分类的吸引力在于能够生成与核心分类任务对齐的兼容特征空间。大量实验证明我们的方法显著提升了开放集SSL的性能，并且在很大程度上优于现有技术。01. 引言0“一个人的垃圾是另一个人的宝藏。” - Hector Urquhart半监督学习（SSL）提供了一种有效的方法，利用大量未标记数据来提高深度神经网络的性能，当只有有限的标记样本可用时。大多数现有的SSL方法0* 同等贡献。†通讯作者。0我们提出的方法0（a）我们提出的方法和MTCF [39]提取的特征0ID样本（b）收集OOD样本0图1：从CIFAR100 [20]中提取的图像特征的t-SNE[26]可视化。相同类别的图像以相同的颜色显示。（a）我们的方法学习到的特征比MTCF[39]学习到的特征更紧凑、更清晰。（b）通过利用所提出的预训练中的OOD样本，我们在特征空间上实现了比仅使用ID样本更具区分性的效果。0假设标记和未标记数据共享相同的类别空间。然而，这个假设很难满足，因为仍然需要繁琐的工作来确认未标记数据的纯度。最近，Yu等人[39]提出了一种更现实的设置，称为开放集半监督学习（open-setSSL）。开放集SSL考虑了一个更具挑战性但实际的场景，即未标记数据中可能存在不属于标记数据类别的异常值。解决开放集SSL问题在实际应用中具有重要的意义，因为它可以显著减少数据准备的工作量。0处理超出分布（OOD）样本的一个直接方法是完全删除它们83110从SSL训练中排除OOD未标记数据，因为之前的研究[28]表明，包括OOD未标记数据会严重影响SSL的性能。虽然存在各种各样的OOD样本检测方法，但它们通常需要具有类别标签的大量ID数据。然而，由于SSL中标记数据的稀缺性，现有的OOD检测方法无法达到令人满意的性能，因此不适合在开放集SSL中部署。0为了消除OOD样本的影响，[39]设计了一个多任务课程框架（MTCF），其中包含一个二进制OOD分类头，旨在过滤掉所有OOD样本。ID样本的分类和OOD样本的检测被统一到一个联合优化框架中，其中具有较低OOD分数的未标记样本将逐渐添加到半监督训练中。然而，所提出的二进制OOD分类任务和ID分类在特征学习方面存在冲突的目标。具体而言，OOD检测的训练旨在将所有ID样本（无论其类别如何）聚类到一个类别（即ID数据）中，而ID分类的任务则倾向于增强ID样本之间的类别区分。将相互矛盾的优化目标统一到共享骨干网络的一个框架中可能会损害最终的性能，并增加训练的难度。0本文提出了一种新颖的开放式SSL训练框架，可以在增强特征学习的同时避免对SSL的不利影响。首先，我们不完全丢弃OOD数据，而是引入了一种热身训练，充分利用所有未标记数据，包括OOD样本，以增强我们骨干网络的表示学习。与传统的预训练不同，我们的热身训练以一种自我监督的方式执行一个与目标应用不同的预训练任务。具体而言，我们要求网络预测旋转增强数据的旋转。这使得我们的骨干模型能够获得图像的高级语义理解，从而得到更具区分性的特征，有利于下游应用，如分类任务。特别是，如图1(b)所示，OOD样本在SSL算法中是离群值，但在所提出的自我监督预训练中充分利用时，它们可以增强特征学习。在先前的工作中已经证明了利用自我监督技术提升半监督学习性能的有效性[41]。然而，这仅在传统的SSL中得到验证，其中未标记数据与标记数据共享相同的类别空间。我们是第一个在开放式设置中研究这个想法，并展示了自我监督辅助任务在正确设计的训练策略下对开放式SSL有益。0其次，我们提出了一种更有效的方法来检测和过滤OOD样本，该方法基于一种新颖的跨模态匹配机制。首先，将每个未标记样本分配给模型预测概率最高的类别作为伪标签。然后，我们提出了一个跨模态匹配头来推断图像嵌入和其伪标签是否匹配。经过训练，由于OOD样本与所有ID类别的置信度较低，可以将其筛选出来。与基于二分类的OOD检测不同[39]，跨模态匹配的特征学习与目标ID分类任务的特征学习相吻合，因为两者都致力于实现不同类别图像特征的更好区分。如图1(a)所示，我们的方法可以获得比[39]更紧凑和纯净的聚类特征。此外，我们可以通过跨模态匹配有效地检测到具有错误伪标签的ID样本，即所谓的“困难”样本。这有助于进一步提高训练模型的性能，因为困难样本可能会对模型训练造成伤害，特别是在伪标签的预测准确率相对较低的早期阶段。我们提出了一种自适应训练机制，随着模型的进展逐渐引入更多的困难样本，以实现更好的性能。我们提出的方法是一个通用的训练框架，可以很容易地应用于现有的SSL方法。我们展示了我们的方法在广泛的开放式半监督图像识别基准测试中（包括CIFAR-10[20]，Animals-10，CIFAR-100和TinyImageNet[22]）大大提高了最新的性能。我们总结我们的贡献如下：0•一种新颖的开放集SSL训练流程，利用OOD样本的存在来增强特征学习，同时避免其负面影响。0•一种特别定制的预热训练方法，利用自监督学习来提高开放集SSL的性能。0•一种基于跨模态匹配的新颖OOD和难样本检测算法，实现与目标分类任务兼容的特征空间。0•在包括CIFAR-10、CIFAR-100、TinyImageNet和Animals-10在内的广泛基准测试中，实现了开放集SSL的最新最佳性能。02. 相关工作0半监督学习。半监督学习（SSL）通常指的是一系列旨在使用来自相似分布的标记和无标记数据进行模型训练的方法。在各个学科领域中都有大量关于SSL的经典作品[16, 5,17]。其中，半监督图像分类一直是一个长期而广泛的研究课题。最经典的解决方案是83120对于SSL问题，最常用的方法是自训练，它通过猜测未知样本的标签来迭代地扩大标记集。我们建议感兴趣的读者参考[35]进行详细调查。其他技术包括共训练[3]、标签传播[31]和图模型也广泛用于这个任务[43, 36, 1,13]。借助深度学习，SSL取得了突破性的成就。传统的半监督技术通过深度卷积神经网络进行重新实现，例如自标记[35]、多视图训练[30,8]、标签传播[15]和基于图的方法[18]。这些方法侧重于为未知样本分配伪硬/软标签或将具有相似语义的样本聚类。考虑到决策边界附近的样本密度较低，假设训练样本与其附近的合成样本共享相同的标签。受到这种直觉的启发，可以对已知样本的标签和未知样本的可信预测进行一致性正则化。在[21]中，提出了两个模型，包括π模型和时间集成模型，用于规范化对训练样本的两种不同增强的预测。与在每次迭代中对预测进行平均的时间集成模型不同，均值教师[34]通过指数移动平均聚合模型权重。MixMatch[2]引入了mixup[42]来探索SSL中的类间关系。[37,33]采用两种变体的增强方法，并将弱增强图像的预测传播到强增强的对应图像。上述大多数主流SSL算法都基于标记和无标记样本共享类别空间的假设。我们打破了这个假设，专注于开放集SSL的新设置。0自监督学习。自监督学习是一种新兴技术，被广泛认为具有初始化具有强大表示能力的卷积神经网络的潜力。它巧妙地设计了预训练任务，这些任务可以使用无标签数据来制定，但需要高级语义理解。因此，为解决这些预训练任务而训练的卷积神经网络的中间层编码了可以普遍应用于下游任务（例如图像分类）的高级语义表示。最常用的预训练任务包括基于变换的正则化[9]、基于拼图的补丁[27]、相对位置推断[7]和旋转识别[10]等。[19]重新审视了这些自监督方法并提供了全面的定量比较。最近，翟等人[41]证明了额外的自监督（例如旋转识别和基于变换的正则化）可以提高半监督图像分类的分类性能。然而，目前尚未探索自监督所获得的性能提升是否会被交叉验证所耗尽。0在开放式SSL过程中引入旋转识别作为辅助任务，充分利用包括OOD样本在内的所有样本进行特征表示增强。0开放式半监督学习。最近，研究人员逐渐关注解决开放式SSL问题。[6]提出了解决标记和未标记样本类别不完全匹配的问题。[39]首次提出了开放式SSL的概念。借助二元OOD分类器，提出了一个课程框架来解决这个问题。我们认为OOD分类对于学习核心类别识别任务的判别特征表示没有益处，实际上与目标类别分类存在冲突的目标。基于这个问题，我们提出了一种基于自标记和图像与标签的跨模态匹配来过滤OOD样本的新方法。UASD[6]通过自蒸馏临时累积网络预测，并使用最大预测分数的简单阈值来检测OOD样本。然而，它对OOD数据的检测对最终分类器的性能非常敏感。我们提出的跨模态匹配策略通过推断输入图像的嵌入是否与分配的伪标签匹配来消除对分类器结果的依赖。它还有助于检测具有错误伪标签（“困难”样本）的ID样本，这些样本无法被UASD处理。DS3L[12]引入元学习来抑制OOD样本的权重。[25]试图通过样式转换消除ID和OOD样本之间的分布差异，然后通过无监督数据增强[37]在训练过程中探索OOD样本。ID和OOD样本之间的分布差距是由类别差异引起的。样式转换只能改变OOD图像的样式，而不能改变语义内容。因此，样式转换技术仍然难以完全消除ID和OOD样本之间的特征差异。03. 方法0与SSL问题类似，开放式SSL问题的训练数据集包含一小部分标记样本Dl = {(xli, yli)}ni=1和一大部分未标记样本Du ={xui}Mi=1。这里，xli或xui表示标记或未标记的图像，yli表示xli的真实类别，假设有K个目标类别，yli ∈ {1, ...,K}。'开放式'设置表示未标记训练集中存在OOD样本。即，xui可能不属于任何一个目标类别。我们假设一个训练批次由n个标记图像和m个未标记图像组成。我们的方法的整体框架如图2所示。Cross Entropy: 𝐿𝑟𝑜𝑡0°90°180° 270°0°90°180° 270°0°90°180° 270°0°90°180° 270°𝐱𝑖,𝟏 𝐱𝑖,𝟐𝐱𝑖,𝟑 𝐱𝑖,𝟒𝐪𝑖,1𝐪𝑖,2𝐪𝑖,3𝐪𝑖,4ℎ𝜔𝑟(⋅)Consistency Constraint: 𝐿𝑐𝑐Cross Entropy: 𝐿𝑐𝑒𝑔𝜃(⋅)𝐱𝑖𝐟𝑖12𝐾⋯𝐩𝑖12𝐾⋯෥𝐩𝑖෤𝐱𝒊𝑔𝜃(⋅)ℎ𝜔𝑚(⋅)ℎ𝜔𝑚(⋅)𝑦𝑖 ത𝑦𝑖ℎ ത𝑦𝑖𝑠⋯⋯⋯𝐱𝑖 ∈ 𝔻𝑙ො𝑦𝑖 ത𝑦𝑖⋯⋯𝐱𝑖 ∈ 𝔻𝑢BCE: 𝐿𝑐𝑚𝑙Entropy: 𝐿𝑐𝑚𝑢𝑔𝜙(⋅)ℎ𝜔𝑚(⋅)Unlabeled Data: 𝔻𝑢83130旋转预测分支0K分类预测分支0跨模态匹配分支0� �0标记数据：��完整数据集0OOD0� �0OOD过滤0ID0图2：我们提出的开放式半监督分类方法的整体架构。它由一个多任务框架组成，包括一个核心类别预测分支，一个自监督特征学习的旋转预测分支，以及一个用于过滤未标记数据中的OOD样本的跨模态匹配分支。03.1. K分类预测0选择卷积神经网络作为从输入图像中提取特征表示的骨干。它用于从输入图像xi中提取一个128维特征fi，即fi =gθ(xi)。θ表示网络参数，gθ(∙)表示骨干模型的计算函数。为了获得K个目标类别的预测分数，线性层和softmax层被附加到骨干上，得到一个K维的类别概率向量pi = hωc(fi) =hωc(gθ(xi))。ωc包含线性层的权重和偏置。在训练过程中，使用交叉熵来规范化标记图像的类别概率向量。0Lce = -10n0i = 1 ln(pli[yli]). (1)0这里，pli[k]表示pli的第k个元素，pli是xli的预测概率向量。受[37]的启发，采用无监督一致性约束来拉近每个样本的预测与其邻近点之间的距离。为训练图像xi合成一个强烈增强的对应图像˜xi。将xi的类别预测和˜xi分别表示为pi和˜pi。采用KL散度计算两个预测之间的距离，一致性约束的损失函数如下所示：0Lcc = 10n + m0n +m ×0i = 10j = 1 pi[j]ln(pi[j]0˜pi[j]). (2)03.2. 自监督表示增强0为了增强包括身份和OOD样本在内的所有训练样本的主干网络的表示能力0为了增强主干网络的表示学习，特别是利用大量的无标签样本，尤其是OOD样本，引入了旋转识别作为辅助任务。具体而言，将一个由1个线性层和1个softmax函数组成的额外的4路旋转分类头部附加到主干网络上，如图2所示。将旋转分类头部的计算过程表示为hwr(∙)，其中wr表示相关参数。对于每个训练图像，通过将其旋转0°、90°、180°和270°生成四个对应图像。将通过旋转xi生成的图像表示为(j-1)*90°0将 x i,j 的分类预测表示为 q i,j =hwr(gθ(xi,j))。在训练阶段添加以下损失函数：0Lrot = -104(n + m)0n +m ×0i = 10j = 1 ln(qi,j[j]). (3)0这个旋转预测分支对于利用大量的无标签样本，特别是OOD样本，改进表示学习非常重要。03.3. 跨模态匹配0为了保护K路类别识别任务的学习不被OOD样本扭曲，设计了一个跨模态匹配分支来净化无标签样本。对于一个无标签样本xui，假设其预测的概率向量为pui。将具有最高置信概率值的类别分配为xui的伪标签，即ˆyui = arg max jpui[j]。跨模态匹配分支的目标是训练判断一个ID图像和来自目标类别集合的标签是否匹配。它可以用来识别OOD样本，因为它们不属于任何目标类别，即它们与任何目标类别不匹配。̸̸̸m̸83140给定一个输入样本 x 和一个类别标签y，我们首先提取特征向量 f = gθ(x) 用于 x。将 y转换为一个独热向量，然后通过线性层将其转换为一个 128维的嵌入向量，e = gϕ(y)。然后，将 e 和 f进行拼接，并输入到一个多层感知机中，该感知机由一个具有 128 维输出的隐藏层、ReLU 函数和一个带有 Sigmoid函数的线性层组成，得到匹配分数 s(x, y) = hωm(f, e) =hωm(gθ(x), gϕ(y))。匹配分数 s(x, y) 衡量了 y 是否是 x的正确类别标签。在训练跨模态匹配头部时，可以通过标记图像轻松收集到正样本。负样本是通过生成图像和类别的配对来合成的，这些配对与真实标签不相同。对于每个训练图像，以两种方式构建负训练样本：1）受到难例挖掘的启发[32]，选择一个称为最难标签的标签，该标签与真实标签不同，但具有最大的预测分数；2）从类别集合中随机选择另一个相对简单的标签，排除真实标签和最难标签。使用以下损失函数来训练跨模态匹配头部：0L l cm = -10n � ni=1 [ln(s(xli, yli)) + ln(1 - s(xli, �yl,hi))0+ ln(1 - s(xli, �yl,si))] . (4)0这里，�yl,hi和�yl,si分别表示最难和相对简单的负标签。0�yl,hi = arg max y ≠ yli pi[y], (5)0�yl,si = rand({y ∈ [1, K] | y ≠ yli; y ≠ �yl,hi}). (6)0考虑到在开放集SSL中标记样本有限，利用未标记样本进一步加强跨模态匹配头，采用熵最小化[11]，0L u cm = -10i=1 [s(xui, �yui) ln(s(xui, �yui))+0(1 - s(xui, �yui)) ln(1 - s(xui, �yui)) +0s(xui, �yui) ln(s(xui, �yui)) +0(1 - s(xui, �yui)) ln(1 - s(xui, �yui))]，(7)0其中，�yui = rand({y ∈ [1, K] | y ≠ �yui}).除了识别OOD样本外，跨模态匹配头的另一个用途是排除部分被错误分类的ID样本。这对于减少训练核心分类任务的不稳定性至关重要，特别是当模型的分类性能在早期迭代中仍然不理想时。跨模态匹配0使用分支来估计所有未标记样本的匹配分数和通过 K分类预测分支推断的伪标签。使用Otsu算法[29]选择阈值，以清除与其伪标签相对低的匹配分数的样本。03.4. 训练过程0训练过程分为两个阶段。在第一阶段，我们采用热身训练阶段来优化完整的架构，损失函数为 L = L ce + L l cm + Lrot。在第二阶段，使用跨模态匹配头定期清理未标记样本。分别对 K 分类预测分支和跨模态匹配分支添加一致性约束(2) 和熵最小化 (7) 进行训练。该阶段的损失函数为 L = Lce + L l cm + L u cm + L rot + Lcc。通过这种方式，在第一阶段充分利用特征增强后，排除了OOD样本。04. 实验04.1. 数据集0以下四个公共数据集用于验证开放集SSL算法的性能。CIFAR-10[20]包含60,000张尺寸为32×32的图像，属于10个类别。按照原始划分，使用10,000张图像进行测试。采用[39]中的相同划分进行训练和验证。标记训练图像的数量在{250,1,000,4,000}中变化。从Kaggle获取的Animals-10包含10个动物类别的26,179张图像。选择500/1,000、1,000和2,000张图像作为标记的训练、验证和测试样本。其余图像用作未标记样本。CIFAR-100有100个类别，每个类别包含600张图像。我们选择前50个类别的25,000张图像作为分布内样本，形成CIFAR-ID-50数据集。它们分为22,500个样本用于训练和2,500个样本用于验证。标记训练图像的数量为2,000或2,500。TinyImageNet（TIN）[22]由120,000张属于200个类别的图像组成。与CIFAR-100类似，前50个类别的27,500张图像被视为分布内样本，分为22,500个样本用于训练，2,500个样本用于验证，2,500个样本用于测试。我们将上述TIN的子集命名为TIN-ID-50。在下面的实验中，选择2,000/2,500个训练图像作为标记样本。我们的实验中使用以下的跨数据集和跨数据集OOD设置。跨数据集OOD设置对于CIFAR-10数据集，我们按照[39]的方法合成OOD样本。从TIN数据集和大规模Alg.TINLSUNGaussian NoiseUniform Noise25010004000250100040002501000400025010004000Table 1: Comparisons with the conventional SSL and open-set SSL algorithms, including MixM (short for MixMatch) [2],UDA [37], UASD [6] DS3L [12], MTCF [39], and OTCT [25], on variants of CIFAR-10 which are respectively corruptedwith two real-world OOD datasets (TIN and LSUN) and two synthetic OOD datasets (Gaussian Noise and Uniform Noise).Accuracy (%) is used for evaluating algorithms. The subscript of the accuracy value indicates its standard deviation. 250,1000, and 4000 labeled images are used for training respectively. We use the reported results of [39] for UASD and that of[25] for DS3L and OTCT.4.2. Implementation detailsExisting methods including MixMatch [2], UDA [37]FixMatch [33], UASD [6], DS3L [12], OTCT [25] andMTCF [39], are used for comparison. For UDA, FixMatchand our method, SGD is used to optimize network weights.The learning rate is initially set to 0.03 and adjusted viathe cosine decay strategy [37, 33]. The momentum is setto 0.9. In each training batch, n = 64, and m = 320.For our method, the first stage costs 50,000 iterations, andthe second stage takes 200,000 iterations. Without specifi-cation, the cycle length of using the crossmodal matchinghead to clean unlabeled data is 2 × 104.For UDA andFixMatch, models are trained with 250,000 iterations fora fair comparison. When training MixMatch and MTCF,we follow the original settings of [39] in which models aretrained with 1,024 epochs, and each epoch contains 1,024iterations. During the training stage, network weights aresaved every 1,000 iterations. The averaged classificationaccuracy of the last 20 copies is used to evaluate the per-formance of all methods. For all experiments, we use theWide-ResNet28-2 [40] as the backbone model.4.3. Experimental Results4.3.1Comparison with Other MethodsMethodAnimals-10CIFAR-ID-50500100020002500200025002000250083150MixM 82.42 0.70 88.03 0.22 91.25 0.13 76.32 4.19 87.03 0.41 91.18 0.33 75.76 3.49 85.71 1.14 91.51 0.35 72.90 0.96 84.49 1.06 90.47 0.38 UDA 88.83 0.49 91.75 0.12 93.63 0.11 88.54 1.10 91.12 0.31 93.25 0.1288.93 0.73 89.23 0.41 92.35 0.18 88.69 0.93 89.74 0.42 92.74 0.35 UASD 83.53 - - 80.87 - - - - - - - - DS3L - 70.10 0.47 82.58 0.14 - 69.74 0.08 82.89 0.69 - 62.86 0.67 80.44 0.01 - 62.89 1.65 80.59 0.03 MTCF86.44 0.64 89.85 0.11 93.03 0.05 86.65 0.41 90.19 0.47 92.91 0.03 87.34 0.13 89.80 0.26 92.53 0.08 85.54 0.11 89.87 0.08 92.83 0.04 OTCT - 91.10 0.65 93.84 0.10 - 91.30 0.36 94.27 0.21 - 92.33 0.59 94.52 0.07 -91.82 0.04 94.50 0.130Ours 91.52 0.11 93.26 0.14 94.71 0.06 91.13 0.21 94.43 0.10 94.97 0.10 90.81 0.12 93.63 0.06 94.38 0.12 89.95 0.18 94.12 0.14 94.83 0.150Scene Understanding (LSUN) dataset [ 38 ], Gaussiannoise dataset, and uniform noise dataset, forming into4 OOD settings. For the Animals-10 and CIFAR-ID-50datasets, 10,000 images from TIN are used as OODsamples. Intra-Dataset OOD Setting对于CIFAR-ID-50，我们从CIFAR-100的其他50个类别中选择100张图像作为OOD图像。对于TIN-ID-50，我们从TIN的其他150个类别中选择50张图像作为OOD图像。0Inter-Dataset OOD Setting在第4.1节中介绍了三个数据集，包括CIFAR-10（表1），Animals-100MixMatch [ 2 ] 78.35 83.15 62.10 64.78 UDA [ 37 ] 83.3084.74 64.34 66.65 MTCF [ 39 ] 73.50 75.83 63.22 65.10MTCF+UDA 79.85 85.60 65.20 67.30 FixMatch [ 33 ]89.06 91.00 68.98 72.920Ours+UDA 87.86 89.70 71.58 73.19 Ours+FixMatch 89.4391.50 72.06 73.800表2：Animals-10和CIFAR-ID-50的准确率（％）。使用TIN的图像作为OOD样本。在Animals-10数据集上，使用500或1000个标记图像进行训练。在CIFAR-ID-50数据集上，使用2000或2500个标记图像进行训练。0方法 CIFAR-ID-50 TIN-ID-500MixMatch [2] 60.20 66.17 48.12 50.52 UDA [37] 66.0267.82 54.03 55.39 MTCF [39] 63.48 65.38 49.64 52.08MTCF+UDA 60.06 63.08 47.32 51.20 FixMatch [33] 68.0671.01 56.82 60.330Ours+UDA 67.36 69.14 54.87 57.08 Ours+FixMatch 68.6573.14 57.48 62.640表3：CIFAR-ID-50和TIN-ID-50在内部数据集OOD设置下的准确率（％）。在这两个数据集上，使用2000或2500个标记图像进行训练。0（表2），以及CIFAR-ID-50（表2）用于验证交叉数据集OOD设置下的分类性能。对于CIFAR-10的所有交叉数据集OOD设置，我们的方法都显著超过所有比较方法。如表1所示，当提供250个标记图像并使用TIN的图像作为OOD样本时，我们的方法的平均准确率为91.52％，比MTCF和UDA分别高出5.08％和3.69％。与两个合成噪声OOD数据集相比，真实世界数据集的丰富语义信息对我们提出的方法是有益的。例如，在LSUNOOD设置上，我们的方法的准确率达到91.13％，比均匀噪声OOD设置上的准确率高出1.28％。表2报告了Animals-10和CIFAR-ID-50在交叉数据集OOD设置下的结果，其中添加了TIN的图像作为OOD样本。我们的方法能够改进现有的SSL方法，如UDA和FixMatch，并且比MTCF表现更好。our method achieves an average accuracy of 91.52% whichis 5.08% and 3.69% higher than MTCF and UDA, respec-tively. Compared with two synthetic noise OOD datasets,the rich semantic information of real-world datasets is ben-eficial to our proposed method. For instance, the accuracyof our method achieves 91.13% on the LSUN OOD setting,which is 1.28% higher than the accuracy on the uniformnoise OOD setting.Table 2 reports the results of Animals-10 and CIFAR-ID-50 under the inter-dataset OOD setting in which images ofTIN are added as OOD samples. Our method is capable ofimproving existing SSL methods, e.g. UDA and FixMatch,and performs much better than MTCF.83160图3：不同数量OOD样本对基线方法和我们方法的影响。0我们进一步研究了SSL和开放集SSL算法中OOD样本数量的影响。在这个实验中，我们使用CIFAR-10作为ID数据集，LSUN作为OOD数据集。OOD样本的数量从0变化到4×10^4。每个类别提供25个标记样本。结果如图3所示。我们的方法在有更多OOD样本的情况下表现更好，并且在所有设置中始终优于其他方法。0内部数据集OOD设置在这个实验中采用了CIFAR-ID-50和TIN-ID-50数据集。与ID类别不同的相同数据集的图像被视为OOD样本。实验结果如表3所示。我们的方法始终比其他方法表现更好。我们尝试通过使用UDA对MTCF进行修改来进行半监督学习，形成一个新的开放集SSL算法，称为'UDA+MTCF'。在MTCF中，目标类别分类器的学习与二进制OOD分类器的学习相冲突，因此MTCF学习的特征不够具有区分性。同时，UDA依赖于从弱增强图像到强增强图像的标签传播，对于混淆的特征空间敏感。引入MTCF只带来了边际改进。0ID OOD ODIN SUF MTCF 我们的方法0CIFAR-10 LSUN 98.47 99.03 99.82 99.98 Animals-10 TIN76.35 90.01 92.59 93.51 CIFAR-ID-50 TIN 88.82 97.98 98.1799.85 CIFAR-ID-50 CIFAR-50 69.47 72.32 69.75 74.13TIN-ID-50 TIN-150 59.83 65.59 63.92 65.670表4：我们的方法与ODIN [24]，SUF [23]和MTCF[39]在OOD检测任务上的比较。评估指标为AUROC（％）。ODIN和SUF是基于UDA学习的分类器模型实现的。在CIFAR-10和Animals-10上，分别在训练过程中使用250个标签和500个标签。对于其他数据集，在训练过程中使用2500个标签。0第1000次迭代0第19000次迭代0第28000次迭代0图4：不同迭代中匹配分数的可视化。样本数量以10为底的对数坐标（纵轴）展示。'Positive ID'/'NegativeID'表示ID样本具有正确/错误的分类结果。通过OTSU获得的阈值值由虚线垂直线表示。0（例如表2中的CIFAR-ID-50）甚至会导致性能严重下降（例如表3中的两个数据集）对UDA来说是不适用的。0OOD检测性能在表4中，我们将我们的方法与ODIN[24]，Mahalanobis [23]和MTCF[39]在ID和OOD数据集的广泛组合下进行比较，以验证交叉模态匹配分支在检测OOD图像方面的有效性。在我们的方法中，图像与其伪标签的匹配分数被视为图像属于ID样本的概率值。接收器操作特性曲线下的面积（AUROC）用于衡量OOD检测算法的性能。我们的方法在所有设置下都优于ODIN、Mahalanobis和MTCF。04.3.2消融研究0我们在CIFAR-10和CIFAR-ID-50上进行了广泛的消融研究，以分析对我们方法成功的实验因素。83170M-# 设置 CIFAR-10 CIFAR-ID-5001 监督 39.66 53.18 2 监督+SS 75.69 59.82 3 UDA88.83 64.78 4 UDA+SS 90.69 70.1005 UDA+SS+CT 90.81 71.16 6UDA+SS+CMF-w/o-Lucm 91.09 72.38 7UDA+SS+CMF-w/o-WU 89.45 71.81 8UDA+SS+CMF-full 91.52 73.190表5：在CIFAR-10和CIFAR-ID-50上的消融研究。TIN被选择为OOD数据集。CIFAR-10和CIFAR-ID-50分别有250和2500个标记图像。缩写：无监督数据增强（UDA）[37]，基于交叉模态匹配的过滤（CMF），基于旋转识别的自监督（SS），预热（WU），基于置信度的阈值处理（CT）。0如表5所示。0自监督学习在开放集SSL中的应用M-2和M-4在表5中分别代表简单监督学习和UDA的变体，它们采用旋转识别作为辅助任务。M-2和M-4在CIFAR-I

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

垃圾变宝藏：跨模态匹配收集OOD数据的开放集半监督学习

ood数据检测方法 研究背景

目录名称无效。: 'D:\\OOD500K\\CAP\\1\\1_001537\\1_001537_000005.jpg'

OOA类图和OOD类图

OOD detection model

out of distribution(ood)

out-of-distribution

简述OOD的建模过程和主要活动

metric_ood（）

ooa和ood的区别与联系

OOA/OOD是什么

面向对象开发方法ooa ood oop

OOA类图和OOD类图有什么区别？

重要缩写 SA SC SD DFD SRS UML CMM OO OOA OOD

图书管理系统ooa和ood模型

图像分类dataset构建

面向对象开发方法包括OOA、OOD和OOP三部分，分别指什么

搞嵌入式医疗行业要学习哪些软件上技能点

最新资源

ood数据检测方法研究背景