无移位增强（NSA）：紧凑分布的鲁棒自监督异常检测

36 浏览量更新于2023-10-16 收藏 704KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5511无移位增强（NSA）：用于鲁棒自监督异常检测的紧凑分布Mohamed Yousef1，Marcel Ackermann1，Unmesh Kurup1*; Tom Bishop2*1Intuition Machines，Inc.2Glass Imaging，Inc. ‡@ imachines.comtom@glass-imaging.com，摘要无监督异常检测（AD）需要建立一个正常的概念，区分分布（ID）和分布（OOD）数据，只使用可用的ID样本。最近，在自然图像领域，使用自监督对比特征学习作为第一步，然后使用kNN或传统的一类分类器进行特征评分，在这一任务上取得了很大的进展。在单位超球面上非均匀分布的学习表示已被证明对这项任务是有益我们进一步研究了ID特征分布的几何紧凑性如何使孤立和检测离群值变得更容易，特别是在ID训练数据被污染的现实情况下（即，ID数据包含用于学习特征提取器参数的一些OOD数据）。我们对自监督特征学习步骤提出了新的架构修改，使ID数据的紧凑分布能够被学习。我们表明，所提出的修改可以有效地应用于大多数现有的自监督对象，在性能上有很大的增益此外，这种改进的OOD性能是在不诉诸技巧的情况下获得的，诸如使用强烈增强的ID图像（例如，通过90度旋转）作为不可见的OOD数据的代理，因为这些强加了关于ID数据及其不变性的过度规定性假设。我们对单类OOD检测的基准数据集进行了广泛的研究，并在ID数据中存在污染的情况下显示了最先进的性能，否则性能相当。我们还提出并广泛评估了一种基于角度Mahalanobis距离的新型特征评分技术，并提出了一种简单而新颖的评估期间特征集成技术，与标准的基于角度Mahalanobis距离的特征评分技术相比，该技术可以在几乎为零的运行时间成本下大幅提高性能*最后一位作者的贡献相等。在Intuition Machines，Inc.模型集成或试验时间增加的危险使用。源代码在这里1. 介绍异常检测（AD）或分布外（OOD）检测需要仅使用可用的分布内（ID）样本来训练分类器，以在测试时间决定样本的相对正态性，而不知道OOD数据的性质。OOD检测是具有实际应用的重要问题，例如，工业缺陷检测、欺诈检测、自动驾驶、生物识别、欺骗检测和许多其他领域[38]。1.1. 背景对于自然图像（根据流形假设，其位于合适空间中的紧凑集中），OOD检测转化为在正常集周围找到尽可能紧密的决策边界，同时排除来自其他类或分布的未见过的样本。传统上，这种检测是在浅层特征之上使用生成模型[49]或判别模型[34]进行的。深度表征随后提供了一个大的提升per-task。然而，深度生成图像模型的密度通常被证明是无效的[17]，与观测数据的校准可能性很差相反，最近有两个方向来学习用于OOD评估的合适的深度特征：a）在外部数据集上进行有监督的预训练。b）仅在正常集上或也在外部数据集上进行自监督学习（SSL）预训练。然后，在这些学习的特征之上采用了各种学习的度量、评分函数或单类分类器，并且这种一般范式在许多情况下都非常有效[36]。最近基于SSL的OOD培训的最佳结果是对比学习[38，36，35，43]。反5512已经证明，传统学习可以将ID数据均匀地分布在超球体上[42]。虽然这有助于一般的多类SSL训练，但它会损害OOD检测，因为它使从单个类中隔离离群值变得更加困难[36]。这种一致性也使得OOD检测对内点训练数据中的污染更加敏感[13，36]。有关相关方法的更多背景信息，请参见附录H（补充材料）如果一些标记的OOD数据是否定的，则可以使用半监督学习[31，13]。如果没有这样的标记的否定是可用的，一种方法来软化对比学习的统一表示的效果是引入人工否定样本作为这些异常值的代理。使用硬增强（例如，90度旋转）被称为分布移位[38，36，24，39]。这样的扩充旨在使分布数据不那么均匀，从而更容易从OOD数据中分离然而，他们也做出了一个重要的假设，即数据对这些增广不是（完全或部分）不变的，并且增广是真实负分布的一个很好的代理另一个方向是使用在大型外部数据集上预先训练的模型的特征，希望产生可以在任何OOD检测场景中工作的通用特征。这可以通过监督[29]或自我监督的方式[46]来完成。然而，在后一种情况下，这种代表性的标记样本将是可用的，或者从ImageNet等一般数据集学习的图像特征将很好地转移，这一假设充其量可能是限制性的。1.2. 贡献在这项工作中，我们首先研究了对比SSL方法的训练动态我们发现学习ID表示的一致性或非紧性是这种衰减的主要原因我们使用SimSiam[6]研究了这种对仅含正对SSL的影响，并表明在这种情况下，不会发生衰减。我们提出了一个架构的修改，可以适用于一般在这样的网络，并显示了广泛的分析，这种修改提高了性能，并始终鼓励学习更紧凑的ID representations。在这样做的时候，我们能够学习高质量的一类分类器，而不诉诸于分布移位的增广样本作为否定，因此我们称之为无移位增广（NSA）的结果方法我们将我们的贡献总结如下：• 我们调查并实证验证和量化学习ID的非均匀性和紧凑性是最终OOD检测性能的主要因素，独立于学习特征的质量。• 我们提出了一种免编译、简单且新颖的架构修改，用于诱导非均匀的学习ID表示，并表明这与SimSiam和Simplified配合使用效果非常好，并产生了坚实的性能改进。• 我们在SimSiam（以及BYOL）中识别、调查并解决了一个梯度问题，该问题极大地影响了网络内部范数的正确传播;我们解决了它，并注意到更高的稳定性，特别是在低批量训练方案中。• 我们考虑改进的OOD检测的特征评分方法，包括在我们提出的解决方案中的Mahalanobis Cosine分数最近的邻居，相对于开集度量学习的方法。然后，我们提出了一种计算效率高的方法，也提高了性能的功能集成。• 我们显示意外情况（例如，SVHN），其中通常的ImageNet预训练ResNet方法在单类分类异常检测任务中失败，即使具有特征自适应。我们表明，从头开始训练，而不使用移位增强，避免了这一点。• 我们广泛地评估和消融提出的模型与各种不同的数据集和sce- narios，分离表示学习，评分，数据增强和其他变化，如集成的贡献。我们证明了我们的解决方案与更复杂的方法具有可比的性能。更重要的是，它们显示出最先进的性能，在很大程度上，实现了小批量和污染数据的鲁棒性。2. 表示质量是OOD检测的唯一重要因素吗？最近使用预训练网络进行OOD检测的工作表明，OOD检测性能取决于ID数据的更强表示[8，41，18]。我们在这里进行了一个实验，以检查ID数据的表示质量和OOD性能之间的相互作用。2.1. 实验我们在CIFAR 10的一个类上训练Simplified，并在整个训练过程中评估学习表示和OOD检测的质量;这是例如在以下中使用的标准一类协议：[35、38、29]。然而，为了在训练过程中检查模型的所有模式，我们训练的时间比平时长得多。我们重复5513|| ||--∈n∈不向前传递（激活）向后传球（梯度）输入图像损失函数新区块图1：修改后的SimSiam的图示，黄色框显示了我们在第2节中描述的拟议更改。三点二3.3. 在最初的版本中，zi=zi/ zi2的梯度通过停止梯度操作防止在所有可能的路径在我们的修改版本中，由于添加了操作，我们可以模拟zi=zi/||zi||2个被封锁。本实验对4个不同的班级进行实验，并报告平均值。图2a（蓝色曲线，基线）显示了OOD检测性能，很明显，性能非常快地达到峰值（在几百个epoch内），然后随着训练的进行而显著附录A（补充材料）显示了使用另外两个OOD评估指标的完全相同的现象，并为每个类提供了详细的如果表示质量假设是正确的，那么我们应该看到特征质量的比例下降。在图2c中，我们使用线性评估[50]来评估学习表示的质量。我们可以看到，在整个训练过程中，表示的质量得到了保持，即。在峰值之后只有预期的小的下降，然后只有小的波动。支持相同事实的加权k-NN[44]结果将所有这些数据放在一起，OOD性能和特征质量在几百个epoch中一起达到峰值，然后对于其余的训练，特征质量保持不变，但OOD性能显着恶化。使用4个不同类别中的5个不同指标验证了这一点，所有指标都显示出相同的趋势。2.2.使用von Mises-Fisher分布进行为了研究所发生的事情，我们使用冯米塞斯-费舍尔（vMF）分布，这是（n1）维超球面Sd−1Rd上的基本概率分布。它的概率密度函数是fn（z，µ，κ）=C（κ）eκµz，其中µ是平均方向，κ是浓度参数。vMF的形状取决于κ：对于高值，分布在平均方向μ上有一个模式;对于κ= 0，它在超球面Sd−1上是均匀的。vMF已成功用于分析[42，21，23]和学习[14，7，20]深度神经网络。我们将vMF[1，37]拟合到Simplified的学习归一化嵌入，并研究κ在训练过程中如何变化ing.图2b显示了Simplified如何以相对较大的κ（高浓度）开始，然后随着训练的进行单调减少（低浓度，更均匀）在附录A图2b中，我们注意到使用另一种工具时也会出现同样的问题：学习的表示与来自单位超球面上均匀分布的样本之间的最大平均差异（MMD）[11]，如[36]中所建议的。MMD测量两个概率分布之间的距离，因此高MMD意味着更不均匀和更集中的分布，而低MMD则相反。我们注意到，这与[42]中的发现完全一致，即相似（通常是对比）特征收敛于均匀分布。这解释了图2a（蓝色曲线）中所示的性能衰减在保持特征质量的同时，它们的分布发生了戏剧性的变化。随着ID特征的分布变得更加均匀，找到任意接近离群查询样本x ′ OOD的内即ID和OOD变得越来越难以区分。这正是许多AD方法背后的直觉，例如[31，10，32]鉴于此分析，我们采取自然的步骤，并在SimSiam（一种非对比SSL方法）上执行相同的分析结果如图2c和2d所示，我们可以看到与Simplified相比有很大的差异。OOD性能在达到峰值后几乎保持不变在图2e、2f中，尽管表示也变得更加均匀，但它以慢得多的速率变化，并且即使在数千次训练之后也能够保持高密度（高κ数据还表明，训练时期的数量是用于OOD的对比方法的重要超参数。然而，非对比方法对时期的数量不太敏感其他注意到的作品5514|| ||我|| ||J在这种情况下，早期停止重要性包括[29，13，30]3. 方法3.1. 自监督学习（SSL）设置类似 SimSiam [6] 的一般SSL设置如图 1 所示。Simsiam是一个非常类似的架构，但省略了预测网络，因此我们使用SimSiam进行演示。该图示出了输入图像x的两个随机增强x1和x2的前向传递和后向传递。两者都由共享的编码器（卷积骨干网络）f编码成y1和y2。这两个增广通过投影网络g投影到z1和z2中。预测网络h将z i变换为p i= h（z i），并且整个网络学习将预测网络的输出与一个视图的投影p i= h（z i）匹配到另一个视图的投影zj=g（yj），反之亦然，通过最小化它们的negative余弦相似性：只有这样才能真正降低损失函数。以这种方式正则化模型应该对学习的嵌入进行更精细的方向控制（余弦距离更有意义），并产生更有效的体积使用，从而产生更密集的表示。我们做了一系列实验来验证我们的直觉。图2a（红色曲线）显示了添加归一化后Simplified的评估日志。很明显，训练现在更加规则化，峰值之后OOD性能的下降要小得多，并且性能保持数千个epoch。图2b（红色曲线）显示了与原始Simplified相比，更密集的学习表示。我们可以在图2d、2e中看到SimSiam的相同的情况。这里要注意的一件事是，极大地加强了前一节中所做的分析，即线性探测精度和w/o范数（图2c），即使在5000个时期之后，它们基本上是相同的，另一方面，在该点上，它们的OOD性能之间存在很大的差异（参见图2a）。进一步说明这是一个特征piD（pi，zj）=−pzj公司简介.（一）分布不具有特征质量。最后，我们要强调，大多数当前的SSL算法在卷积特征提取器的顶部使用投影头g，因为这被经验地发现有助于学习更好的最终表示[4，5，12，6]。然而，还发现在下游任务[4]中学习的投射更差，包括OOD [36]。因此，在大多数OOD方法中的特征评估期间使用的编码器骨干f的输出是基于SSL的，因为它学习到更好的表示。我们称f的输出为学习嵌入。3.2. 学习稠密表示[33]表明鲁棒学习的样本复杂度可以显著大于标准学习。虽然一些作品试图用额外的正或负数据来解决这种差异，[27]提出了一个有趣的想法，即通过适当的训练目标来操纵训练数据的局部样本分布，这样通过引入高密度特征区域，将有足够的局部样本来训练鲁棒分类器并返回可靠的预测。我们建议追求与OOD检测问题相同的方向，并提出了一个架构修改，可以帮助诱导高密度特征空间。我们建议增加一个可微的l2-归一化运算-在编码器F之后和投影头之前的操作G.因此，输出yi=f（x i）被变换为yi=yi/yi2（如图1所示）。直觉是，当嵌入的范数改变时，添加归一化步骤将剥夺模型的任何梯度，从而强制模型学习方向变换，密集的ID表示对于OOD检测很重要与干净的ID数据相比，在ID数据中存在污染的情况下更重要。在这种污染的设置中，一些OOD数据在训练过程中混合在一起，并被认为是ID的损失。在这种情况下，紧凑的ID数据分布尽可能地减少其他OOD数据被认为是ID的机会。这一点在实验部分得到了经验验证。3.3. SimSiam和BYOL梯度流问题为了避免塌陷表示的退化解，SimSiam[6]的作者发现，至关重要的是要有一个梯度阻塞操作（stop-grad），阻止从zi开始的梯度流回到网络的其他部分。这种梯度的缺乏就像一个正则化器，使得优化器很难达到折叠表示的平凡解。请注意，这里给出的相同分析同样适用于BYOL[12]：动量编码器的存在强制执行隐式停止梯度。然而，两个文献[6，12]都没有研究停坡可能对网络中的适当梯度流产生的影响。研究图1，我们可以看到预测网络pi=pi/ pi2的输出的l2范数给出了流回网络其他部分的适当梯度。对于编码器网络输出的l 2范数，情况正好相反：该操作的所有梯度都被停止梯度阻挡，尽管它是损失函数的组成部分。225515DD|| ||(a)(b)（c）第（1）款(d)（e）（f）图2：在CIFAR10上对Simplane和SimSiam进行训练和评估的分析，用于OOD，使用和不使用所提出的归一化。这些图上的每个点代表4个独立类别的平均值。第一行，通过拟合vMF（c）线性探头准确度，使用（a）c-Cos（b）κ评估第二行，SimSiam通过拟合具有均匀分布的vMF（f）最大平均离散度（MMD），使用（d）c-Cos（e）κ进行评估建议的解决方案简单地删除stop-grad操作可以快速收敛到折叠表示[6]。另一个明显的直接解决方案是使编码器f的输出表示的范数最小化，但是这限制了编码器的表示能力并且也迅速崩溃。最后一个试验是完全去除归一化，但是这会收敛到具有无界范数的次优表示[12]。相反，我们提出的解决方案是基于一个简单的实验。来自z_i的丢失梯度携带两条信息：（a）移动编码器z_i的输出以更接近预测器p_i的输出（这是我们想要对优化器隐藏的(b)鼓励投影仪g学习L2范数不变表示;这有助于训练预测器网络，从而也有助于训练编码器，这也是我们想要保持的。为了保持（b）而放弃（a），我们赞成，提出一个小的修改（见图1）：我们对投影zi应用一个可微分的l2-归一化，使得新的投影是zi=zi/ zi2。这为网络提供了适当的梯度，用于学习满足损失函数的l2归一化表示，同时仍然具有stop-grad操作并避免相关崩溃。3.4. 分布外检测的特征评估最近许多关于OOD检测的工作都是基于使用给定测试样本到最近训练样本的距离来对给定测试样本进行评分[38，35，22]。这提供了一个简单的评价基线，结果很好。许多度量已经用于此，最常用的是Mahalanobis距离[22，35]和余弦距离[38]，在最后一个卷积块之后的网络输出处进行评估为了利用这两个距离的优势，我们去5516m=1DSMMS--22进一步，用马氏余弦相似性的反余弦对特征进行评分（即，角马氏距离）[3]，这在人脸识别领域已经被提出并研究得很好[3，40]。Mahalanobis Cosine是向量之间在投影到Mahalanobis空间之后的余弦相似性，其中著名的如果xm，y分别是训练样本和测试样本，并且使用样本协方差矩阵μm和训练数据xmM的平均值μm，它们的特征f（xm），f（y）在马氏空间中的投影是u，v，则马氏余弦距离MC和我们的评分k-Cos为u=−1/2（xm−µm），包括ensembling严格具有E后缀，表示使用Ens.组合，其组件在附录C中有精确描述。4. 实证评价4.1. 实验装置我们对SimSiam、BYOL和Simplified（有和没有负/移位增强）上提出的归一化修改在3.3节中讨论的问题不适用于Simsiam（没有stop-grad），因此，虽然这两个修改都适用于SimSiam，但我们的Simsiam规范化变体仅包括3.2节中针对y提出的更改。我们在CIFAR-10、CIFAR-100超类[19]、Fashion-MNISTDMC （xm）uv，y）=u·v，（二）[25][26][27][28] 在此设置中，一个类被视为正常类，其余的被视为离群值。Sk-Cos（y）=arccos（maxDMC（xm，y））k-Cos只考虑到最近的训练样本的距离，并用于我们的大多数实验。在附录C和附录G（补充材料）中，我们研究了一种对污染特别鲁棒的变体Sc-Cos;它计算到µm的距离，即训练数据{xm}的平均向量。Sc-Cos（y）=arccos（DMC（µm，y））。特征集成我们还提出了另一种评估方案，其中网络的所有中间特征图都是独立评分的，然后它们的分数都加在一起。这个想法是使用不同的特征图来获得高级别（从最终层）和低级别（从初始层）的OOD分数请注意，这与[22]学习所有特征分数加权和，其中权重是在验证集上学习的;我们提出的方法是一个简单的求和，并且不需要验证集。与[38]中使用的测试时增强（TTA）或[36]中使用的模型集成相比，它还节省了大量的运行时间，因为它需要在单个实例上进行单个模型它包括三个步骤：1. 计算每个特征图的得分，使用Sk-Cos或Sc-Cos或两者。2. 使用训练数据分数的范围，将分数的范围归一化为0和1之间。3. 对标准化分数求和。由于篇幅限制，我们在附录C中显示了详细的功能评估结果，并比较了不同的评估指标。然后，我们在附录G中显示了广泛消融在第4.2节中，我们首先考虑了没有集成的实验结果，然后与第4.2.4节中使用集成的方法进行比较。的任何结果对于所有结果，我们使用ResNet-18，使用Adam [16]训练，学习率为0.0001，余弦学习率衰减[25]。对于Simplified，我们使用2层MLP作为投影头，其架构类似于[36]。对于SimSiam，我们对投影仪和预测器都使用了3层MLP。Simplified训练了500个epoch，而Sim-Siam和BYOL训练了4000个epoch。所有模型都在Nvidia V100 16GB GPU上训练，并使用Pytorch编写[28]。我们所有报告的结果都没有测试时间的增加。为了简洁起见，我们通常将SimSiam称为SS，SimSiam称为SC。此外，SS（n）、SC（n）和BYOL（n）表示包含所提出的归一化，并且SC（-）具有负增强。除非另有说明，否则我们的无整体结果使用k-Cos评分。数据集的更多详细信息以及竞争方法的其他比较/描述见附录B和F（补充材料）。Ap中提供了一项广泛的消融研究，包括培训640种不同的模型佩尼亚湾4.2. 结果(a)单值分类表1比较了我们的基线BYOL、SimSiam和Simplayer的无集成版本（有和没有标准化）与当前最先进的（没有集成）DROC [36]、RotNet [9]和GOAD [2]。我们的结果（未进行汇编）与许多其他已发表方法的扩展比较见附录F。我们看到，在所有场景中，添加规范化在BYOL、SS和SC中始终有效。此外，SS（n）和BYOL（n）总是能够获得非常有竞争力的结果，这与使用负增广（SC（-）和DROC）的方法相比，同时对底层训练数据的假设要少得多5517数据pBYOLBYOL（n）SSSS（n）SCSC（n）SC（-）SC（n-）RotNetDROCGOADC10088.590.589.591.786.388.990.792.989.392.588.20.182.985.383.286.365.679.879.683.978.580.583.0C100079.680.281.484.380.584.084.787.081.986.574.50.176.277.878.980.375.980.080.582.8---fMNIST095.395.195.995.094.694.994.795.794.694.594.10.161.373.263.075.346.553.178.780.9-76.6-表1：基线和拟定变体与最新技术水平（未组合）相比的结果。p是训练集中离群污染数据的比率。SS是SimSiam，SC是Simsiam。BYOL（n）ESS（n）ESC（n）ESC（n-）E CSISTOC#推理步骤/示例1111 1601#训练模型/类1111 160需要很好地近似p✗✗✗✗ ✗✓假设旋转变量数据✗✗✗✓ ✓✓数据pCIFAR100.091.992.590.393.094.392.10.188.388.586.787.884.589.9fMNIST0.096.296.196.395.9-95.50.187.987.887.590.9-85.7CIFAR1000.083.486.689.489.6-0.180.782.583.085.7--表2：在不同的组装设置下与现有技术相比的性能。p是训练数据中离群值的比率。(b)污染下的性能表1还显示了在非常现实的情况下的性能比较，即一些p%的训练数据被OOD数据污染。可以看出，添加所提出的归一化大大降低了污染数据的影响表中的一个重要信息是，正如我们在第3.2节中的分析所预测的，仅正SSL（例如SS或BYOL）更适合于现实世界的OOD检测，与对比SSL（没有负增强）相比，OOD检测可能包含一小部分受污染的数据，在这种情况下，OOD检测的性能会大幅下降在负增广是一个合适的假设的情况下，建议的SC（n-）得到更好的结果。(c)正常化的影响表3检查了两种拟定标准化对不同批量SS的影响，以评估CIFAR10 CIFAR100批量3251232512无规范77.9789.5674.4681.38仅正规化f85.7691.6378.782.27仅归一化g81.7389.2273.181.15normalzie都92.991.781.7384.31表3：SimSiam的消融显示了第3.2节和第3.3节中提出的归一化方案的重要性，特别是在低批量训练中。训练正如我们所看到的，对于两种批量大小，两种建议的规范化都有助于性能，并且它们的组合（建议）是最好的。我们还可以看到，对于小批量，没有范数的SS会遭受很大的性能损失，而所提出的归一化修复了这一点;这是一个非常重要的属性，因为大批量训练并不总是一种选择。5518从零开始预训练（1M图像）预训练（1B图像）经过预先培训和调整监督自监督SS（n） SC（n）PT R18PT R50PT R152PT R50（SC）PT R50PT R5094.993.8616664657068表4：各种预先训练的骨干对SVHN与从头开始训练(d)特征集成表2显示了第3.4节中提出的特征集成的结果，与也使用集成的最新技术进行了比较：[38]第48话：为了公平比较，我们还列出了每种方法的相对计算与CSI和STOC相比，所提出的特征集成在大致相同的分数下提供了很大的计算节省。最后，当训练数据中存在离群值时，集成的改进更显着。(e)SVHN上的预训练骨干最近的一些作品[30，8]声称ImageNet预训练模型可以作为通用的OOD检测器，并且可以在几乎任何域内分布上工作。[15]表明，对于预训练数据中不存在的类，预训练的模型在OOD检测方面表现不佳。我们在这里证实了这一点，并表明即使对于非常简单的数据集（例如，SVHN）需要与自然图像所需的不同种类的区分特征，预训练模型的表现非常差。表4显示，无论模型大小（ResNet 18到152）或预训练数据集的大小（从1M图像到1B图像[47]），或者使用完全监督或SSL预训练，甚至在预训练后使用最先进的特征自适应[30]，与从头开始训练相比，所有SVHN都灾难性地失败，这可以获得近乎完美的分数。5. 结论我们已经考虑了检测图像中异常的一般框架：使用各种SSL方法作为深度特征提取器;接着是用于离群值评分的度量学习。对于每个阶段，我们都研究了在各种场景下哪些是有效的，哪些是我们已经调查和研究的ID表示分布的紧凑性我们的实验表明，无论学习特征的质量如何随着其分布越来越接近均匀，OOD检测性能显着恶化。我们已经激发、提出并研究了一种无干扰的、新颖的架构修改，用于诱导这种非均匀性，并使用它来稳固地提高基于对比和非对比SSL的OOD检测的性能。我们还研究了几种变体在这些不同的方法中都能很好地工作。更重要的是，在完全无监督AD的现实世界中，ID训练数据可能会被一些OOD离群值污染，我们提出的修改在所有竞争方法中提供了最先进的性能。先前用于OOD检测的最新文献基于具有负“分布移位”增强的基于对比的SSL（例如，90度旋转）。这些方法适用性的一个大障碍是，它们对训练数据所做的假设在现实世界的场景中可能部分或完全无效。使用我们提出的虽然在文献中已知模型集成或测试时增强对于OOD非常有效，但增加的训练/推理计算要求通常是禁止的。我们进一步研究了使用轻量级多层次特征集成进行面向对象设计。这使我们能够在AUCROC方面展示最先进的性能，同时节省了大量的计算预算。引用[1] Arindam Banerjee，Inderjit S Dhillon，Joydeep Ghosh，Su- vrit Sra和Greg Ridgeway。使用冯米塞斯-费舍尔分布在单位超球面上进行聚类。《机器学习研究》，2005年第6期第9期.[2] Liron Bergman和Yedid Hoshen。基于分类的通用数据异常检测。在2020年的学习代表国际会议[3] J罗斯贝弗里奇，大卫博尔梅，布鲁斯A德雷珀，和马西奥特谢拉。csu人脸识别评估系统。机器视觉与应用，16（2）：128[4] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.对比学习的简单框架5519视觉表示的处理2020年国际机器学习会议[5] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey Hinton.大的自监督模型是强半监督学习器。 arXiv 预印本 arXiv ：2006.10029，2020。[6] Xinlei Chen，Kaiming He.探索简单的连体表征学习。arXiv预印本arXiv：2011.10566，2020。[7] Tim R Davidson，Luca Falorsi，Nicola De Cao，ThomasKipf，and Jakub M Tomczak.超球面变分自动编码器。arXiv预印本arXiv：1804.00891，2018。[8] 斯坦尼斯拉夫堡、杰仁、巴拉吉·拉克什米纳拉亚南。探索分布外检测的极限。 arXiv 预印本 arXiv ：2106.03004，2021。[9] 伊扎克·戈兰和兰·亚尼夫。使用几何变换的深部异常检测在神经信息处理系统，2018年。[10] Sachin Goyal、Aditi Raghunathan、Moksh Jain、HarshaVard-han Simhadri和Prateek Jain。Drocc：深度鲁棒的一类分类.国际机器学习会议，第3711-3721页。PMLR，2020年。[11] ArthurGretton，Karsten M Borgwardt，Malte J Rasch，Bern-hardSchoülk opf，andAl e xanderSmola. 一个核双样本检验。The Journal of Machine Learning Research，13（1）：723[12] Je a n-BastienGrill ， FlorianStrub ， FlorentAltch e´ ，CorentinTallec，PierreHRichemond，ElenaBuchatskaya ， Carl Do- ersch ， Bernardo Avila Pires ，Zhaohan Daniel Guo，Moham- mad Gheshlaghi Azar，etal. Bootstrap你自己的潜在：一种自我监督学习的新方法。arXiv预印本arXiv：2006.07733，2020。[13] Sungwon Han ， Hyeonho Song ， Seungeon Lee ，Sungwon Park，and Meeywon Cha. 艾尔莎：基于能量的半监督异常检测学习。 arXiv 预印本 arXiv ：2103.15296，2021。[14] MdHasnat ， JulienBohn e' ， JonathanMilgram ， S te'phaneGentric，Liming Chen，et al.基于von Mises-Fisher混合模型的深度学习：申请进行人脸验证。arXiv预印本arXiv：1706.04264，2017。[15] 丹·亨德里克斯，史蒂文·巴萨特，曼塔斯·马泽卡，莫哈姆-马德雷扎·莫斯塔贾比，雅各布·斯坦哈特，和道恩·晓东·宋。针对真实世界设置的扩展分布外检测。在ICML，2022。[16] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[17] Durk P Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流。在神经信息处理系统的进展，2018年。[18] RajatKoner 、 PoulamiSinhamahapatra 、 KarstenRoscher、StephanGünnemann和Volk erT。Oodformer：配电外检测 Transformer 。 arXiv 预印本 arXiv ： 2107.08976 ，2021。[19] Alex Krizhevsky等人从微小图像中学习多层特征，2009年。[20] Sachin Kumar和Yulia Tsvetkov。连续输出序列到序列模型训练的 vonmises-fisher 损失。 arXiv 预印本 arXiv ：1812.04616，2018。[21] Cheolhyoung Lee，Kyunhyun Cho，and Wanmo Kang.深度学习中通过von Mises-Fisher分布的随机梯度下降的方向分析。arXiv预印本arXiv：1810.00150，2018。[22] Kimin Lee，Kibok Lee，Honglak Lee，and Jinwoo Shin.用于检测分布外样本和对抗性攻击的简单统一框架。在神经信息处理系统的进展，2018年。[23] Kuang-Huei Lee，Anurag Arnab，Sergio Guadarrama，John Canny，and Ian Fischer.压缩的视觉表现。arXiv预印本arXiv：2109.12909，2021。[24] Chun-Liang Li ， Kihyuk Sohn ， Jinsung Yoon ， andTomas Pfister. Cutpaste：用于异常检测和定位的自监督学习。arXiv预印本arXiv：2104.04015，2021。[25] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：Stochas-tic 梯度下降与热重启。 arXiv 预印本 arXiv ：1608.03983，2016。[26] Yuval Netzer ， Tao Wang ， Adam Coates ， AlessandroBis- sacco，Bo Wu，and Andrew Y. Ng.使用无监督特征学习读取自然图像中的数字在神经信息处理系统的进展研讨会上，深度学习和无监督特征学习，2011。[27] 庞天宇、徐坤、董银鹏、杜超、陈宁、朱军。重新思考softmax交叉熵损失对抗鲁棒性。arXiv预印本arXiv：1905.10626，2019。[28] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al.Pytorch：一个操作风格的高性能深度学习库。arXiv预印本arXiv：1912.01703，2019。[29] Tal Reiss，Niv Cohen，Liron Bergman，Yedid Hoshen.PANDA ： Adapting Pretrained Features for AnomalyDetection and Segmentation.十月2020年。[30] Tal Reiss和Yedid Hoshen。用于异常检测的均值偏移对比度损失。arXiv预印本arXiv：2106.03844，2021。[31] Lukas Ruff ， Robert Vandermeulen ， Nico Goernitz ，Lucas Deecke ， Shoaib Ahmed Siddiqui ， AlexanderBinder，Em-manuelMüller，andMariusKloft. 深度一级分类。国际机器学习会议，第4393PMLR，2018。[32] 卢卡斯·拉夫，罗伯特·A·范德默伦，比利·乔·弗兰克斯，克劳斯-罗伯特·穆勒和马里乌斯·克洛夫特。深部异常探测中的再思考ICML 2021深度学习中的不确定性鲁棒性研讨会，2021年。[33] 路德维希·施密特、希巴尼·桑图尔卡、迪米特里斯·齐普拉斯、库纳尔·塔尔瓦尔和亚历山大·马德里。逆鲁棒泛化需要更多的数据. arXiv预印本arXiv：1804.11285，2018。[34] Bernha rdScho？lk opf ， RobertCWilberson ， AlexJSmola，John Shawe-Taylor，and John C Platt.新颖性检测的支持向量神经信息处理系统进展，2000年。5520--[35] Vikash Sehwag、Mung Chiang和Prateek Mittal。SSD：一个自监督离群点检测的统一框架。2021年，在国际学术会议上发表。[36] Kihyuk Sohn ， Chun-Liang Li ， Jinsung Yoon ， MinhoJin，and Tomas Pfister.学习和评估表示用于深度单类分类。arXiv预印本arXiv：2011.02578，2020。[37] 苏弗里特山关于von Mise

下载后可阅读完整内容，剩余1页未读，立即下载