深度迁移学习：多类新奇检测

18 浏览量更新于2023-10-18 收藏 2.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于多类新奇检测的深度迁移学习Pramuditha Perera和Vishal M.电子与计算机工程约翰霍普金斯大学，巴尔的摩，MD 21218，美国∗网址：pperera3@jhu.edu，vpatel36@rutgers.edu摘要我们提出了一种基于迁移学习的多类新奇检测问题的解决方案。特别是，我们提出了一种基于端到端深度学习的方法，在该方法中，我们研究了如何使用外部分布数据集中包含的知识来提高深度网络的视觉新颖性检测性能。我们的解决方案与标准的深度分类网络有两个不同之处。首先，我们使用一种新的损失函数，成员损失，除了经典的交叉熵损失的训练网络。其次，我们更有效地使用来自外部数据集的知识来学习全局负过滤器，即响应已知类集之外的通用对象的过滤器我们表明，阈值的最大激活所提出的网络可以用来有效地识别新的对象。在四个公开的新颖性检测数据集上的实验表明，该方法与现有方法相比具有显著的改进效果1. 介绍近年来，由人工智能和计算机视觉驱动的执行视觉识别的智能系统受到了广泛关注[8]，[12]，[1]，[25]。这些系统在训练过程中观察已知对象类的实例和标签，并学习可以在推理过程中使用的关联模式。一个实用的视觉识别系统应该首先确定所观察到的实例是否来自已知类。如果它来自一个已知的类，则通过分类查询实例的标识。前一个过程在文献中通常被称为新颖性检测（或新颖类检测）[14]。给定一组来自已知类别的图像实例，新颖性检测的目标是确定在推理期间观察到的图像是否属于已知类别之一。这项工作得到了NSF资助1801435的支持图1.犬种分类中的新颖性检测。左：示例图像。右：特征表示。已知图像（第一行）和新图像（第二行）都是狗的图像。在已知图像的情况下，新颖性检测的目标是剔除新图像。为了这样做，使用分布外图像（最后一行）（在这种情况下是非狗图像）的知识来学习合适的表示。班新颖性检测通常是比分布外检测更具挑战性的任务[29]，[9]因为新对象样本预计来自与已知样本相似的在实践中，未知类的知识并非完全不存在。给定来自某个问题域的一组已知类，通常来自相同问题域的未知类数据不可用。然而，在某些情况下，有可能从不同的问题域获得已知类之外的数据，我们称之为分布外样本。例如，对于狗品种识别应用程序，包含对象图像的ImageNet数据集[21]可以被视为分布外数据，如图1所示。然而，由于分布外数据来自不同的问题域，因此它们不能很好地近似新然而，由于深度模型产生可概括的特征，因此可以将分布外样本的知识转移到原始问题中，以帮助新颖性去保护当所考虑的问题是c类问题时，并且当C类的分布外数据可用时，文献中使用以下三种策略来传递用于新颖性检测的知识：11544小说已知新奇探测器分布外样本狗（Dogs）小说类（狗）非分布类115451. 微调：网络首先在分布外的数据上进行预训练，然后在给定域的训练数据上进行微调通过设定最终激活评分阈值来查询新颖性[2]。2.特征提取：传统的新颖性检测技术[4]，[13]，[24]基于微调的特征使用。3. 微调（c+C）：首先对分布外数据进行网络预训练。训练数据和分布外数据都用于在（c+C）类中一起执行微调。新颖性的确定方式与在方法1中，我们注意到，在所有这些基线中，在训练过程中使用了分布外事实上，对预训练/微调的深度特征进行操作的任何新检测方法都隐含地利用了分布外数据。在这项工作中，我们介绍了一个新的框架工作进行新奇检测的基础上迁移学习。首先，我们证明了单独使用交叉熵损失进行训练对于新颖性检测任务不是最佳的。其次，我们的经验表明，分布外的数据可以更有效地用于训练，以产生更好的新颖性检测性能相对于考虑的基线解决方案。具体而言，本文主要做了以下几个方面的工作。1. 我们提出了一个基于深度学习的端到端新奇检测框架。据我们所知，这是第一个针对视觉新奇检测的端到端深度学习解决方案之2.我们引入了一个新的损失函数，成员损失，它具有类似的功能，交叉熵损失，但鼓励嵌入，产生高激活已知的对象类一致。3.我们建议利用大规模的外部数据集来学习全局负滤波器，以减少由新图像引起的高激活。4. 我们的经验表明，所提出的方法优于在四个公开可用的数据集的基线新颖性检测方法。2. 相关工作对象分类方案通常配备有合适的机制来检测新对象。例如，Eigenfaces [28]伴随着一种基于反射误差的新型对象检测方法。在基于稀疏表示的分类（SRC）算法[30]中，稀疏集中指数（SCI）被提出用于相同的目的。相比之下，没有针对基于深度学习的分类提出正式的新颖性检测机制。在没有深度模型的情况下，深度模型的最高类激活分数的阈值在文献中被用作基线[2]。作为替代方案，一些最近的工作已经提出了基于以下的新颖性检测方案：[ 24 ]第24话：本着同样的精神，也可以在深度特征上使用经典的新颖性检测工具，例如核PCA [10]，基于核零空间的新颖性检测（KN-FST）[4]及其变体[3]，[13KNFST在深度特征上的操作产生了视觉新颖性检测的当前最先进性能[13]。然而，由于缺乏端到端的学习框架，深度学习的优势在所有这些方法中都没有得到适当的利用。另一方面，新奇检测问题与异常检测[17]，[19]，[20]，[18]，[5]，[16]和开集识别问题[22]，[2]，[7]，[15]非常相似。因此，有可能使用在这些替代领域中提出的工具在异常检测中，给定一个正常类，目标是检测类外实例。单类支持向量机[23]和SVDD [27]是异常检测中使用最广泛的两种工具。如果所有已知类都被看作是一个单一的增广类，则新奇性检测可以被看作是一个异常检测问题。另一方面，开集识别（OSR）的目标与新颖性检测的目标相似。但除此之外，OSR还需要将检测到的样本正确分类为已知样本。因此，还可以使用开集识别工具来执行新颖性检测。然而，我们注意到，由于目标的细微差异，OSR算法不是最佳的新颖性检测。在所提出的框架中，深度网络的最后一层的最大激活被认为是执行新颖性检测的统计量我们设计网络并适当地选择损失函数，以便与已知对象类相比，新对象的统计量较低。3. 背景在本节中，我们将简要回顾深度网络如何响应输入刺激而产生激活在此基础上，引入了正滤子和负滤子的概念。考虑一个c类全监督对象分类问题，训练图像集x=x1，x2，. . .，xn和相应的标签y =y1，y2，. . . ，yn，其中yi∈ {1，2，. . . c}。深度卷积神经网络（CNN）寻求学习一个分层的，卷积的，具有响应于不同水平的视觉刺激的滤波器的逻辑滤波器组在c类分类中，卷积滤波器激活g经历非线性变换以生成最终激活向量f∈Rc（例如，g是VGG 16中的conv 5 -3层和Resnet 50中的conv 5c。F是相应网络中的FC 8和FC 1000层）。在监督设置中，网络参数被学习，使得arg max f =yi，其中，i∈ {1，2，. . .，n}。这通常是通过优化网络路径来完成的。基于交叉熵损失的参数。如果在最上面的卷积滤波器中存在k个滤波器，115462006年f使用DeepVis工具箱[31]为所考虑的类创建负过滤器（这些是最有可能激活相应过滤器的图像通过观察，我们注意到当网络观察到类似于蛇的结构时，顶部的正过滤器另一方面，顶级负过滤器与沙蛇的出现无关。-0.094-0.076-0.0750.431 0.3030.2474. 深度新奇检测图2.在ILSVRC 12数据集上训练的Resnet50中的sand snake类的正和负过滤器Top：对应于sand snake类的全连接层的权重。我们称与正权重相关的过滤器为沙蛇类的正过滤器。所有其他过滤器都被称为负过滤器。底部：顶部阴性和阳性过滤器的可视化。这些模式可能在这些过滤器中产生高激活。我们注意到顶部正过滤器被蛇形结构激活。bank，其输出g是k个激活图的集合。网络的最终激活向量f是下式的函数G. 对于给定的类i，在滤波器组（1≤ki≤k）中存在ki个滤波器，它们通常产生正的激活值。这些激活提供支持（积极）证明观察到的图像来自I类。相反，所有剩余的过滤器提供了反对这一假设的证据。f中每个类别的激活分数通过考虑支持和反对每个类别的证据来确定。对于本文的其余部分，我们将为特定类提供证据的过滤器分别称为该类的正过滤器和负过滤器这个概念可以很容易地通过Resnet架构[8]作为例子来解释。在Resnet中，最终卷积输出g经过全局平均池化，然后是全连接层。因此，最终激活向量f的第i个分量可以写为：fi=Wi×GAP（g），其中GAP是全局平均池化运算（滤波器图的平均值），W是权重矩阵完全连接层的这里，第i类的激活是g中找到的平均特征图的加权和。根据上述定义，与W中给定类别的正权重相关联的过滤器可以被识别为该特定类别的正过滤器。相反，与负权重相关联的过滤器成为该类的负过滤器例如，考虑ILSVRC 12数据集中出现的Sand Snake类[21]。图2（顶部）显示了在ILSVRC 12数据集上训练的Resnet50网络的最终全连接层中与Sand Snake类相关的权重。对于给定的类，我们分别将与正权重和负权重相关联的过滤器识别为正过滤器和负过滤器在图2（底部）中，我们将顶部阳性和顶部阳性的每单位可视化基于上述背景，我们建议学习使用CNN框架的已知对象类的分布，其目的是执行联合分类和新颖性检测。在我们的公式中，假设每个已知类都有一个唯一的单个标签，我们强制最终的激活向量f来模拟已知类的概率分布向量。形式上，对于给定的数据标签对，（xi，yi），我们期望fi=1和fj=0，一旦学习了这样的表示，arg max f将返回观察到的样本的最可能类。然后，max f产生样本属于最可能的类的似然性模拟与二进制分类不同，可以使用硬阈值来查询测试实例的身份I为了学习适合于所述目标的表示，我们使用传统的分类网络作为我们工作的基础，并提出以下两种替代方案。1. 失去会员。假设每个已知类别都有一个唯一的标签，如果观察到的图像来自一个已知类别，那么f中只会出现一个正激活。我们观察到，当使用交叉熵损失时，情况并非如此。为了缓解这一点，我们引入了一个新的损失称为成员损失除了交叉熵损失。2. 全球负过滤器在分类设置中，某一类别的负过滤器也是另一类别的正过滤器换句话说，不存在明确的否定过滤器。在我们的公式中，我们建议生成全局否定过滤器（为所有已知类别生成否定证据的过滤器），以减少新样本注册高激活分数的可能性。4.1. 交叉熵损失（Cross EntropyLoss）当训练分类网络时，首先使用softmax函数对激活向量f的每个元素fi进行归一化，以得到归一化的激活向量Σcf为，fj= ej/el。当假设所有图像l=1在推断期间出现的类是提前已知的，矢量i的第j个元素被解释为属于第j个类的输入图像xi的第i个元素。神经网络-的分类系统是通过最小化交叉熵损失来学习的，交叉熵损失是正确的类是C。然而，由于这是一个相对的度量，学习的表征偏离了我们的目标，原因如下。207579148385389981顶部顶部负正过滤器过滤器11547正滤波器（计算器）全局负过滤器(a)（b）第（1）款图3. (a)在VGG16模型中激活已知样本（计算器）和未知样本（扑克牌）。在传统的CNN中，已知和未知样本都会激活类似的conv 5 -3滤波器，并产生类似的fc 8激活图。由于fc8层中存在高活化分数，新样品的新颖性检测失败。在所提出的方法中，Calculator对象激活与Calculators相关的过滤器，而Playing Cards中的顶级激活过滤器与已知类无关（全局为负）。由于对于Playing Cards对象，fc8中的所有激活都非常小，因此可以通过阈值处理将其检测为新样本。(b)计算器类的顶级正过滤器和顶级全局负过滤器。首先，假设所有其他（非匹配）类的激活非常低，则即使地面真值类的低激活也可以产生低交叉熵。因此，较低的得分值在训练期间可能不会受到严重惩罚。因此，使用交叉熵损失训练的模型可能最终在推理期间产生已知类别的低激活分数。在闭集分类中，只要正确的类记录了最高分数，这种行为就不会引起并发症。然而，在基于阈值的新颖性检测中，这带来了一个问题，因为阳性类别的低分数将导致假阴性。其次，交叉熵损失不一定会驱动不相关类的激活低于零。因此，在培训期间鼓励不准确的跨类关系为了说明这一点，我们训练了一个VGG16 [26]。给定观测值x是y，我们的目标是学习一个函数，该函数为每个类的成员产生绝对概率，如下所示P（y=i）=σ（f（x）i）<$i∈ {1，2，. . .c}。（ 1）理想情况下，学习的变换将产生σ（f（x）i）=1（i=y）和σ（f（x）i）=0，否则。我们将较高分数与错误类别相关联的风险（对于i=y，σ（f（x）i）=1）表示为RW1，将较低分数与正确类别相关联的风险（对于i=y，σ（f（x）i）=0）表示为RC0。我们将成员损失LM定义为分类为LM（x，y）=RC0（x，y）+RW1（x，y），（2）其中λ是正标量。通过我们的公式，我们定义RW1（x，y）=[1−P（y= 1）]2=[1−σ（f（x）y）]2.在这里，引入二次项以施加重惩罚非常高的偏差。类似地，RC0（x，y）变为，基于CNN的分类网络使用Caltech 256数据集的前128对于所考虑的示例，Calculator类（索引为27）是已知类，而Playing Cards类（索引为163）是新颖类。示RC0（x，y）==1c−11Σci=1，i/=yΣc[P（i=1）]2[σ（f（x）i）] 2.在图3中是conv 5 -3和fc 8层的激活，两个类的两个输入的网络。从这个图中可以看出，当网络观察到一个计算器时c−1i=1，i/=y通过代入，我们得到1美元c对于对象（已知对象），它正确地将f中的最高分数与正确的类（类27）相关联。然而，计算器之间也存在显著的误关联，LM（x，y）=λ[1−σ（f（x）y）]2+c−1i=1，i/=y[σ（f（x）i）]2.（三）类和硬币（类43），键盘（类45），骰子（类55）和操纵杆类（类120）。4.2. 会员损失这里，参数λ控制给予每个风险源的相对权重在我们的实验中，我们设置λ=5。取隶属损失的偏导数产生以下反向传播。状态公式在我们的方法中，我们首先独立地翻译每个激活得分值fi到范围0-1中，使用fc8conv5_3fc8conv5_3osed方法道具传统CNNCon扑克牌计算器11548M（x，y）=f（x）−2λ[1−σ（f（x）i）]×σ（f（x）i）′，对于i=y2σ（f（x））×σ（f（x））′，其中i/=y，ic−1isigmoid（σ）函数。我们解释每一个转变的行为-vation分数作为输入图像所属的概率到每一个班级。如果一个其中，σ（f（x）i）′=σ（f（x）i）（1−σ（f（x）i））。建议的成员资格损失不对11549闭集假设它在绝对意义上考虑了个体得分值。因此，当使用成员身份损失时，产生小激活的已知样本当成员损失与交叉熵损失一起使用时，网络学习一种表示，该表示为正确的类产生相对较高的激活分数。例如，考虑图3所示的Calculator对象输入的建议方法的fc8激活图。在那里，我们观察到正确的类（索引为27）产生一个大的正分数，而所有其他类产生负分数。4.3. 全局负过滤器当使用传统的分类网络时，新图像通常能够通过导致假阳性检测而产生非常高图3（底部）显示了这样一个示例，其中Playing Cards实例在对应于Calculator类（索引为27）的索引中产生了非常高的激活分数。根据第3节中讨论的阳性和阴性过滤器的响应生成类别的最终激活评分。一旦网络被训练，给定一个特定的已知类的输入，该输入会刺激与该类相关的一些正滤波器和负滤波器如果模型经过良好训练，则正滤波器的响应超过负滤波器的响应，以产生高的正激活分数。在这种背景下，研究一种新的样品如何能够产生高激活分数是有趣的。让我们重新激活扑克牌图像（小说图像），如图3（底部）所示。在这个例子中，扑克牌的形象刺激了一些积极的过滤器的计算器类，尽管在内容上的差异。同时，偶然地，它没有在计算器类的负滤波器中产生足够的刺激，从而在f中产生大的正激活。这可以在图3中清楚地观察到，计算器和扑克牌图像都激活了conv 5 -3层中的类似过滤器。为此，我们提出以下建议。我们希望学习一组滤波器，这些滤波器通常由自然图像刺激，并产生针对所有已知类别的证据。换句话说，这些过滤器是关于所有已知类的负过滤器-因此我们称它们为全局负过滤器。如果在推理过程中，任何一个这样的过滤器被激发然而，只有当全局负滤波器由已知类集之外的任意图像激励时，该建议才能成功为了学习全局负滤波器，我们提出了一种联合学习网络结构。除了已知的对象数据集外，我们还使用分布外的数据训练中的样本对于本文的其余部分，我们将分布外数据集称为参考数据集。我们学习可以在已知数据集和参考数据集中执行分类的特征如果参考数据集有C类，一旦训练好，滤波器组将包含所有C+C类的正滤波器。与参考数据集关联的过滤器可能充当负过滤器对于已知数据集中的所有类，从而是全局否定的。在这个框架中，全局负滤波器可能对任意自然图像做出响应，只要参考数据集是大规模的多样化数据集。在图3中，我们展示了使用全局负过滤器的影响。Calculator类的顶部激活过滤器的可视化显示在图3（ b ）的顶部。从图中可以看出，这些过滤器与Calculator类正相关.使用新的公式，我们观察到扑克牌对象激活了一些额外的过滤器，这些过滤器与计算器类不同（以红色突出显示）。在图3（b）的底部，我们可视化了具有最高激活的扑克牌对象的过滤器通过检查，这两个可视化看起来是任意的，并且与Caltech256课程中的任何一个都没有明显的关联我们将这些过滤器解释为全局负过滤器的实例。由于更多负面证据的可用性，扑克牌对象的整体激活值已大幅降低。4.4. 训练过程我们提出了一种网络结构和训练机制，以确保网络学习全局负过滤器。为此，我们使用外部多类标记数据集，我们将其称为参考数据集。我们首先选择一个CNN主干（这可能是一个简单的网络，如Alexnet [12]或一个非常深/复杂的结构，如DenseNet [11]）。如图4（a）所示，使用所选主干的两个park-cnn网络进行训练。两个并行网络之间的唯一区别是最终的全连接层，其中输出的数量等于任一数据集中存在的类的数量。为了便于讨论，我们将CNN倒数第二层的子网络称为特征提取子网络。最初，两个特征提取子网络的权重被初始化为相同的权重，并且它们在训练期间保持相同。权重不共享之间的两个并行网络的最后一层在训练过程中，两个数据集（参考数据集）(R)和已知类（T）），并且它们被独立地馈送到两个分支中。我们计算相对于参考数据集的样本的交叉熵损失（Lce）以及相对于已知数据集的样本的隶属度损失（Lm）和交叉熵损失班网络的累积损耗然后变成11550两种损耗的线性组合如下，累积损失 = Lce （ R ） + α1Lce （ T ） + α2Lm（T）。（四）在我们的实验中，我们保持α1，α2=1。累积损失被反向传播以学习两个CNN分支的权重减少关于已知类别数据集的成员损失和交叉熵损失增加了执行新颖性检测的可能性，除了如前面小节中所讨论的分类之外。另一方面，在参考数据集中具有良好的性能（低交叉熵损失）表明存在响应于通用对象的过滤器，只要参考数据集足够多样化。当出现在参考数据集中的类与已知类不相交时，这些过滤器用作全局负过滤器。图4.新颖性检测的建议架构。除了已知的对象数据集（T）之外，我们还使用外部多类数据集（参考数据集（R））。两个具有相同结构和权重的并行CNN网络用于从两个数据集中提取特征。我们训练不同的分类器网络，在相同的特征上运行，以在任一数据集中执行分类。在推理过程中，通过对网络底部分支的最大激活进行阈值化来进行新颖性检测。4.5. 测试（新颖性检测）在推理过程中，我们建议使用图4（b）中所示的设置，其中我们只考虑训练网络的底部CNN分支。给定测试图像x，我们使用学习的CNN网络执行前向传递以获得最终特征 f （ x ）。使用预定阈值 γ 对 σ （ f（x））的最大元素maxσ（f（x））进行阈值化，以得到测试图像的标识。如果产生的分数低于阈值γ，则我们将测试样品鉴定为新颖的。在实际系统中，考虑匹配分数分布的百分位数来选择阈值γ除了新颖性检测过程之外，相同的网络结构也可以用于执行分类。这里，arg maxσ（f（x））产生测试样本x的预测类的标识。我们注意到，这一步骤是相同的在标准的基于CNN的分类中使用的分类过程。5. 实验设置和结果在本节中，我们将展示新颖性检测任务的实验结果。我们首先描述用于比较的基线方法。然后，我们介绍了用于评估的四个数据集。最后，我们讨论了所获得的结果，随后分析所提出的方法。5.1. 基线方法我们评估所提出的方法在四个新奇检测数据库，我们比较其性能与标准的新奇检测方案。我们使用以下基于AlexNet [12]和VGG16 [26]在给定数据集上微调的特征的基线比较。1. Finetune [26]：fc8训练的深度模型的特征得分被阈值化以检测新样本。2. 单类SVM [23]：针对所有已知类训练单类SVM分类器。在推断期间考虑最大SVM得分。3. KNFST [4]，[13]：对深度特征进行归一化，并使用直方图交集核方法生成样本之间的内积4. 局部KNFST [3]：考虑具有直方图交叉核的深度特征，具有600个局部区域。5. OpenMax [2]：深度模型倒数第二层的激活用于构建单通道类平均激活向量（MAV）和相应的Weibull分布。6. K-极值[24]：考虑每个类别的VGG 16fc7特征的平均激活，并将前0.1激活指数二进制化以获得极值信号。7. Finetune（c+C）：通过将参考数据集的类作为附加类来训练（c+C）此外，我们基于预训练的深度特征（在ILSVRC 12数据库上训练）评估KNFST和局部KNFST方法的性能。每当使用预训练的特征时，它们都由后缀pre表示。5.2. 数据集我们使用四个公开的多类数据集来评估所提出的方法的新颖性检测性能加州理工学院-256Cub-200狗FounderType-200图5.来自评估数据集的样本图像。每个列包含从每个数据集的单个类中获取的图像。11551Caltech256数据集。Caltech256数据集是一个完全注释的数据集，由来自256个对象类的30607幅图像组成。遵循[13]中提出的协议，我们首先对类名进行分类，并选择前128个类作为已知类，并将其余128个类中的图像视为新图像。Caltech-UCSD Birds 200（CUB 200）数据集。CUB- 200数据集包括属于200种不同鸟类类别的6033张图像。提供了每个图像的地面实况标签在我们的实验中，我们对鸟的名字进行了分类，并将前100个类作为已知类。其余的类用于表示新的图像。斯坦福狗数据集。该数据集是Im-ageNet数据集的子集，最初用于细粒度分类。在这个数据集中有20580张图像，属于120个不同的狗品种。在性能评估过程中，我们将前60个类视为已知类，并将其余类视为新类。FounderType-200数据集。该数据集是不同字体类型的汉字图像的集合。数据集是根据字体类型组织的总共有200种不同的字体类型，每个类别中有6763张图像。遵循与之前相同的约定，我们选择了前100个班级来代表注册的班级。剩下的100个类用于模拟新图像。在所有数据集中，按照[13]中的方案，将注册类别的图像随机分为两个偶数集，以形成注册类别的训练和测试数据集。新类的图像仅在测试期间使用。当在[6]之后从cal-tech 256数据集中微调/提取特征时，我们使用了在Places 365数据集上训练的预训练模型[32]。对于所有其他任务，我们使用在ILSVRC 12数据集上训练的预训练模型因此，Places365的验证集被用作Caltech256的参考数据集。对于所有其他任务，考虑了ILSVRC 12的验证集。5.3. 结果我们评估了基于VGG16和AlexNet功能的所有方法。我们在评估KNFST [4]和局部KNFST [3]方法时使用了作者提供的训练代码。使用受试者工作特征（AUC）曲线下面积评估每种方法的性能。对于所有数据集1，每种方法获得的AUC值列于表1中。当考虑基线方法时，可以在数据集之间观察到性能的差异。一般来说，K极端报告低于标准的性能相比，其他方法。当注册班级1所提出的方法的源代码可在https://github.com/PramuPerera/TransferLearningNovelty上获得表1.评价数据集上的新颖性检测结果（ROC曲线的每个数据集的最佳执行方法以粗体显示。第二个最佳方法以斜体显示。方法加州理工-256CUB-200狗S丰德r键入VGG16AlexNetVGG16AlexNetVGG16AlexNetVGG16AlexNet[12]第26话：我的世界0.8270.7850.9310.9090.7660.7020.8410.650单类SVM[23]0.5760.5610.5540.5320.5420.5200.6270.612KNFST前[4]0.7270.6720.8420.7100.6490.6190.5900.655KNFST[4]，[13]0.7430.6880.8910.7480.6330.6020.8700.678本地KNFST前[3]0.6570.6000.7800.7170.6520.5890.5490.523KNFST [3]0.7120.6280.8200.6900.6260.6000.6730.633[24]第二十四话0.5460.5210.5200.5140.6100.5920.5570.512OpenMax[2]0.8310.7870.9350.9150.7760.7110.8520.667Finetune（c+C）0.8480.7880.9210.8990.7800.6920.7540.723Deep Novelty（英语：Deep Novelty）0.8690.8070.9580.9470.8250.7480.8930.741的平均激活签名会失去其唯一性。这就是为什么K-极端方法在[24]中建议的大量课程注册时失败的原因。在Caltech-256和CUB-200数据集中，阈值深度激活和OpenMax在基线方法中产生了更好的在Caltech 256中，当参考数据集（ILSVRC 12）被合并时，这已经稍微改善了。该方法在FounderType-200数据集中表现相当不错，但一般来说与预训练的深度特征相比，在微调的深度特征上操作的KNFST（和局部KNFST）通常表现得更好。这一趋势仅在斯坦福犬数据集中发生了变化在这里，我们注意到没有一个基线方法在数据集上产生相比之下，所提出的方法能够在所有数据集上产生最佳性能。当AlexNet被用作骨干网络时，在CUB-200和Stand- ford Dogs数据集中的基线上有大约3.0%的改进。在其他两个数据集中，该裕度为2.0%。在Caltech256、CUB-200和FounderType-200数据集中，VGG 16模型的AUC改善超过2.0%。在Standford Dogs数据集中，与基线方法相比，所提出的方法能够在AUC中引入超过7.0%的显著一般来说，我们注意到，在基线性能已经非常好的数据集中，如CUB-200和FounderType200数据集，所提出的方法的改进相对较小。另一方面，当基线性能较差时，所提出的方法能够产生显著的性能改善5.4. 消融研究在本小节中，我们将研究拟议框架中每个单独组成部分的影响。出于消融研究的目的，我们使用ILSVRC12数据集的验证数据集作为参考数据集。应该注意的是，由于这一原因，本小节中报告的数字与表1从transmartCNN架构开始，我们添加了一个组件，11552提出的框架，并评估了新颖性检测性能的加州理工学院-256数据集作为案例研究。在所有情况下，均遵循前一小节中提供的测试方案。考虑的情况如下。a) 具有交叉熵损失的单个CNN（AUC 0.854）。这是CNN基线，其中CNN通常使用注册的类进行训练b) 具有交叉熵损失 + 成员损失的单个 CNN （ AUC0.865）。网络架构相同如情况（a）。除了交叉熵损失之外，还计算关于注册数据集的成员关系损失。c) 具有交叉熵损失的两个并行CNN（AUC 0.864）。使用图4（a）中提出的网络结构。相比之下，在底部子网络中仅使用交叉熵损失。d) 拟定方法（AUC 0.906）。拟议结构图4（a）用于培训。在所提出的方法中，我们引入了成员损失和并行网络结构的贡献。从进行的案例研究，它似乎是新颖性检测性能提高相比，基线，即使使用的贡献之一。此外，我们观察到，这两种贡献相辅相成，结合在一起时会产生更好的结果。5.5. 参考数据集在所提出的方法中，我们假设一个参考数据集的可用性在本小节中，我们通过改变所选择的参考数据集来研究参考数据集的影响。特别地，我们使用ILSVRC12、Caltech-256和Standford Dogs数据集作为参考数据集，在CUB-200数据集上使用所提出的方法进行新颖性检测。所得结果列于表2中。在此，我们将表1中CUB-200数据集（Finetune）的最佳基线方法的性能作为基线。与ILSVRC 12相比，当使用Caltech-256作为参考数据集时，AUC下降了0.005%。当使用Standford Dogs数据集时，该值下降了0.008%。ILSVRC 12数据集包含1000个图像类，每个类内的图像具有显著的差异。Caltech-256是一个类似的多类数据集，但类别较少。这两个数据集都包含自然图像。然而，由于ILSVRC12具有更多的类和更多的类内方差，我们期望它更好地生成全局负过滤器因此，与 ILSVRC 12 相比，Caltech- 256的性能下降是意料之中的。另一方面，Standford Dogs数据集只包含狗的图像。因此，使用此数据集学习的过滤器可能不会被任意输入所激励。因此，业绩下降是有道理的。最后，我谨指出，我们注意到，即使当参考数据集变化时，所提出的方法也能够优于基线新颖性检测方法然而，当使用具有高度类内变化的较大数据集作为参考数据集时，可以获得更好的结果表2.所用参考数据集的影响。通过改变参考数据集对CUB-200数据集进行的案例研究的结果基线ILSVRC12加州理工学院-256狗新颖性检测AUC0.9310.9580.9530.9455.6. 对分类准确性的当测试图像存在时，所提出的方法产生一组类激活分数。它仍然是可能的执行分类使用相同的系统，通过关联的测试图像与类包含最高的激活。在下文中，我们考虑已知类别的测试样本，并在5.3节中描述的相同实验设置中执行闭集分类。换句话说，我们不考虑用于本研究目的的新样本。四个数据集的分类精度列于表3。虽然所提出的方法是为了新颖性检测的目的而设计的，但我们注意到，所提出的变化也有助于提高系统的分类准确性这是因为成员关系丢失明确地强制正确的类具有高分数，而所有其他类具有接近于零的分数。表3.分类精度获得的常规微调和提出的方法的四个评估数据集。加州理工学院-256Cub-200狗FounderTypeVGG160.9080.9880.7300.945该方法0.9390.9900.8010.9506. 结论我们提出了一种端到端的基于深度学习的图像新颖性检测解决方案。我们建立在传统的分类网络，并介绍了两个新的贡献;即成员损失和产生全局负过滤器的训练过程。在所提出的方法中，新颖性简单地通过对输出向量的最高激活进行阈值化来挖掘。我们证明了所提出的方法的有效性在四个公开的多类图像数据集，并获得最先进的结果。引用[1] M. Abavisani，H.R. Vaezi Joze和V.帕特尔利用多模态训练提高单模态动态手势识别的性能在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。111553[2] A. Bendale和T.E. 博尔特开放深度网络。在2016年IEEE计算机视觉和模式识别会议上，CVPR 2016，美国内华达州拉斯维加斯，2016年6月27日至30日，第1563-1572页，2016年。二六七[3] P. Bodesheim，A. Freytag，E. Rod，和J.登茨勒多类识别问题中的局部新颖性检测。2015年IEEE计算机视觉应用冬季会议，第813-820页，2015年。二六七[4] P. Bodesheim，A. Freytag，E. Rodner，M. Kemmler和J. Denzler新颖性检测的核零空间方法。在IEEE计算机视觉和模式识别会议中，2013年6月。二六七[5] V. Chandola，A. Banerjee和V。库玛异常检测综述。ACM计算监视器，41（3）：15：12[6] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR09中。7[7] A. R. 达米亚湾 Gunther和T. 博尔特减少网络工作不可知恐惧症。神经信息处理系统进展31，第9157-9168页。2018. 2[8] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。IEEE计算机视觉和模式识别会议，第770-778页，2016年6月。第1、3条[9] D. Hendrycks和K.吉姆佩尔用于检测神经网络中错误分类和分布外示例2017年学习表征国际会议论文集。1[10] H. 霍夫曼新颖性检测的核主元分析。 PatternRecognition，40（3）：863- 874，2007. 2[11] G. Huang，Z.柳湖，加-地van der Maaten和K.Q. 温伯格密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，2017年。5[12] A. 克里热夫斯基岛Sutskever和G.E. 辛顿使用深度卷积神经网络进行图像网在Advances in Neural InformationProcessing Systems 25，第1097-1105页，2012中。一、五、六、七[13] J. Liu，Z.利安，Y.Wang和J.萧增量核零空间鉴别分析用于新颖性检测。2017年IEEE计算机视觉和模式识别会议（CVPR），第4123-4131页，2017年7月。二六七[14] M. Markou和S.辛格.新颖性检测：检讨-第一部分：统计方法。Signal Processing，83（12）：2481- 2497，2003.1[15] P. Oza和V.帕特尔C2ae：用于开集识别的类条件自动编码器。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。2[16] P. Oza和V. M.帕特尔使用autoencoder正则化基于cnn的一类分类器的主动认证。2019年第14届IEEE自动人脸手势识别国际会议（FG 2019）。IEEE，2019。2[17] P. Oza和V. M.帕特尔一类卷积神经网络。IEEE SignalProcessing Letters，26（2）：2772[18] 佩雷拉河Nallapati和B.翔Ocgan：使用具有约束潜在表示的gans的一类新颖性检测。在IEEE计算机视觉和模式识别会议上，2019年6月。2[19] P.Perera和V. M.帕特尔学习深度特征类别分类。ArXiv电子打印。2[20] P.Perera和V. M.帕特尔一类移动主动认证的双极小极大概率机。IEEE Conference on Biometrics：理论，应用和系统（BTAS），2018年9月。2[21]O. 鲁萨科夫斯基Deng，H.Su，J.Krau

下载后可阅读完整内容，剩余1页未读，立即下载