没有合适的资源?快使用搜索试试~ 我知道了~
13480开集识别的孙欣1,杨振宁1,张驰1,凌文2,彭国浩1新加坡南洋理工大学1{xin001,zhenning002,chi007,peng0086}@ e.ntu.edu.sg,2ekvling@ntu.edu.sg摘要深度神经网络在广泛的识别/分类任务中取得了最先进的性能。然而,当将深度学习应用于现实世界的应用时,仍然存在多种挑战。一个典型的挑战是,在测试阶段,未知样本可能会被输入到系统中,传统的深度神经网络会错误地将未知样本识别为已知类别之一。开集识别是解决这一问题的一种有效方法,它要求开集分类器在保持对已知类的高分类精度的同时,还具有拒绝未知样本的能力变分自动编码器(VAE)是一种流行的模型来检测未知,但它不能提供判别表示已知的分类。在本文中,我们提出了一种新的方法,条件高斯分布学习(CGDL),开集识别。除了检测未知样本外,该方法还可以通过迫使不同的潜在特征逼近不同的高斯模型来对已知样本进行分类。同时,为了避免输入中隐藏的信息在中间层消失,我们还采用了概率阶梯结构来提取高层抽象特征。在几个标准图像数据集上的实验表明,该方法明显优于基线方法,并取得了新的最先进的结果。1. 介绍在过去的几年里,深度学习在许多识别/分类任务中取得了最先进的性能[9,10,19,26],但在将深度学习应用于现实世界问题时仍然存在多种挑战。一个典型的挑战是在训练阶段存在不完整的知识,并且在测试阶段可能会将未知的样本输入系统。虽然传统的识别/分类任务是在一个共同的闭集假设下进行的:所有的训练和测试数据都来自相同的标签空间。当遇到未知样本时,传统的深度神经网络(DNN)会错误地识别(a) VAE(b) 我们的:CGDL图1:VAE(a)和所提出的方法CGDL(b)在MNIST数据集上的潜在表示比较。 VAE被广泛应用于未知检测中,但由于所有特征只服从一种分布,无法提供有区别的特征来承担分类任务。相比之下,该方法可以通过强迫不同的潜在特征逼近不同的高斯模型来学习条件高斯分布,从而使该方法既能对已知样本进行分类,又能剔除未知样本。它是已知的类之一。提出了开集识别(OSR)的概念[31]开集分类器应该具有双重性质:未知的去-13481θ保护和已知分类1.考虑到在训练过程中无法从未知样本中提取信息,为了实现未知检测,许多先前的工作通过无监督学习来分析已知样本中的信息[2,28,43,44]。其中,变分自动编码器(VAE)[13]是一种流行的方法,结合聚类[2],GMM [44]或单类[28] Algorithm. VAE是一种概率图模型,它不仅被训练成精确地重建输入,而且还被训练成迫使后验分布qφ(z|X)在潜在空间近似一个先验分布pθ(z),例如多变量高斯或伯努利分布。经过良好训练的VAE能够正确描述已知数据,偏离的样本将被识别为未知。图1a是当先验分布pθ(z)是多元高斯分布时MNIST数据集虽然VAE在未知检测方面表现出色,但由于所有特征仅遵循一个分布,因此无法提供区分性表示来进行分类任务。在这里,为了克服这个缺点,我们提出了一种新的方法,条件高斯分布学习(CGDL),开集识别。与传统的VAE方法不同,该方法能够生成类条件后验分布qφ(z|x,k),其中k是已知类的索引。这些条件-函数分布被迫近似不同的多元高斯模型p(k)(z)=N(z;μk,I)其中μk是第k个多元高斯分布的平均值通过将输入标签的独热编码映射到潜在空间的全连接层获得。图1b是所提出的方法在MNIST数据集上的潜在表示的示例这些学习到的特征将被馈送到一个开集分类器,该分类器由两部分组成:未知检测器和闭集分类器。由于已知样本往往遵循先验分布,未知检测器会将位于较低概率区域的样本识别为未知。同时,对于已知样本,闭集分类器将计算其在所有已知类别上的预测得分,并将其预测为得分最高的类别当前的网络倾向于在识别/分类任务中更深入以获得更高的准确性[35]。然而,trans-martVAE仅限于浅层模型,因为输入的细节可能在更高层中丢失[25],这限制了VAE为了充分利用已知样本的信息,我们将概率梯形网络[34]引入所提出的方法。这种概率梯形架构允许向上路径和向下路径之间的信息交互,这使得解码器能够恢复被丢弃的细节。1我们将未知样本的检测称为未知检测,将已知样本的分类称为已知分类。编码器。虽然概率梯形网络有几个成功的应用[7,14,25],本文是第一次将其应用于开集识别。在我们的实验中,我们探讨了概率梯形结构和开集识别的潜在空间中我们emperically证明,我们的方法显着优于基线方法。综上所述,本文做出了以下贡献:• 我们提出了一种新的开集识别方法,称为条件高斯分布学习(CGDL)。与以往基于VAE,所提出的方法能够学习已知分类和未知检测的条件分布• 我们开发了一个全连接层来获取不同多元高斯模型的均值,后验分布在潜在的空间,以近似不同的高斯模型。• 我们采用了一个概率阶梯架构来学习高层次的抽象潜在表示,以进一步提高开集分类分数。• 在几个标准图像数据集上进行了实验,结果表明,该方法优于现有方法,取得了新的研究成果。艺术表演2. 相关工作打开集合识别。用于开集识别(OSR)的方法可以大致分为两个分支:SVM、稀疏表示、最近邻等)基于深度学习的方法。在传统方法中,Scheirer等人 [31]提出了一种基于SVM的方法,该方法添加了一条额外的超线来检测未知样本。Jain等人 [11]提出了PI-SVM算法,该算法通过采用EVT对决策边界处的正训练样本进行建模,从而能够拒绝未知样本。Cevikalp等人。[5,6]用一系列准线性“多面体圆锥”函数定义了已知样本的接受区域Zhang等 [42]指出判别信息大多隐藏在重构误差分布中,提出了基于稀疏表示的OSR模型,称为SROSR。Bendale等人。[3]根据测试样本与已知类的质心之间的距离识别未知样本。 Ju 'nior等. [12]提出了最 近 邻 距 离 比 ( Nea-est Neighbor Distance Ratio ,NNDR)技术,该技术根据图像之间的相似性得分来执行OSR。两个最相似的班级。考虑到深度学习在广泛的应用中实现了最先进的性能,13482j jj在识别/分类任务中,基于深度学习的开集识别方法正受到越来越多的关注。在基于深度学习的方法中,Bendale等人 [4]提出了Openmax函数来取代CNN中的Softmax函数。该方法对Softmax的概率分布进行重新分布,得到未知样本的类别 概 率 。 基 于 Openmax , Ge 等 人 [8] 提 出 了 生 成Openmax方法,使用生成模型来合成未知样本来训练网络。Shu等人。 [33]提出了深度开放分类器(DOC)模型,它用包含sigmoid函数的1-vs-rest层取代Softmax层。反事实图像生成是Neal等人提出的数据集增强技术。[22]旨在合成未知类别的图像。然后,未知类和已知类之间的决策边界可以从这些已知的,但实际上是未知的样本集收敛Yoshihashi等人。 [37]提出了CROSR模型,该模型结合了有监督的学习预测和无监督的重建潜在表示来重新分布概率分布。Oza和Pa- tel[24]训练了一类条件自动编码器(C2 AE),以通过极值理论(EVT)从重建误差中获得决策边界C2AE的培训阶段训练GAN以根据训练样本生成相似样本。给定一个测试样本,GAN试图在生成器的潜在空间中找到可以生成最接近输入的样本的点直觉上,经过良好训练的GAN可以对正常样本给出很好的表示,而对异常样本给出很差的表示.也有一些相关的任务集中在小说类。例如,少镜头学习[39,40,41]旨在利用稀缺的训练数据在新类别上进行视觉任务。增量学习[20]旨在对旧类和新类进行预测,而无需访问旧类中的数据。3. 预赛在介绍所提出的方法之前,我们简要介绍VAE的术语和符号[13]。VAE通常由编码器、解码器和损失函数L(θ;φ;x)组成。编码器是具有参数φ的神经网络。 它的输入是样本x,输出是隐藏表示z。解码器是另一个参数为θ的神经网络。它的输入是表示z,它输出样本的概率分布。VAE中的损失函数定义如下:分为两步(闭集训练和开集训练训练),并需要从L(θ;φ;x)=−DKL.Σqφ(z|x)||pθ(z)训练数据以产生不匹配的重建误差。+Eqφ(z|x)Σ对数pθΣ(1)(x|z)这在实践中是困难的,并且测试结果是高度不确定的。取决于所选样本。相反,所提出的方法是端到端的系统,并且不需要额外的数据预处理。异常检测。异常检测(也称为离群点检测)旨在区分异常样本和正常样本,可以将其引入OSR进行未知检测。一些一般的异常检测方法是基于支持向量机(SVM)[36,21]或森林[27]。近年来,深度神经网络也被用于异常检测,主要基于以无监督方式训练的自动编码器[43,2,28,44]。自动编码器通常有一个瓶颈架构来诱导网络学习抽象的潜在表示。同时,这些网络通常通过最小化重建误差来训练。在异常检测中,训练样本通常来自同一个分布,因此训练良好的自编码器可以从正常样本中提取出共同的潜在表征并正确重构,而异常样本不包含这些共同的潜在表征,不能正确重构虽然VAE是其中qφ(z|x)是近似后验,pθ(z)是潜在表示z的先验分布,pθ(x|z)是给定潜在表示的输入x的似然性z.在Eqn的右侧。1,第一项是近似后验和先验之间的KL-散度。它可以被看作是一个正则化子,以满足近似后验接近先验pθ(z)。第二项可以被视为重建误差。通常,潜在表示z的先验是中心各向同性多元高斯pθ(z)=N(z;0,I)。在这种情况下,变分近似后验可以是具有对角协方差结构的多变量高斯:qφ(z|其中近似后验的平均值μ和标准偏差σ是编码多层感知器(MLP)的输出。潜在表示Z定义为z=µ+σ,其中N(0,I)和是元素级乘积。设J是z的维数,然后可以计算KL发散度[13]:它广泛应用于异常检测,但不能为分类任务提供区分特征。−DKL.Σqφ(z|X||pθ (z))除了自动编码器之外,一些研究使用生成对抗网络(GAN)来检测异常[32]。1ΣJ=2j=1.1 + log(σ2)−µ2−σ2Σ(3)13483LLL利用损失函数L(θ;φ;x),训练VAE不仅能准确地重建输入,而且能强制后验分布qφ(z)|x),以逼近先验分布pθ(z)。如果样本位于学习分布的低概率区域,该样本将被识别为未知。4. 该方法在本节中,我们详细描述了所提出的方法。首先,我们描述了所提出的模型的体系结构。然后,我们介绍了训练阶段和测试阶段来描述每个模块的功能。4.1. 架构所提出的方法的架构由四个模块组成2):1. 编码器F2. 解码器G3. 已知分类器C4. 未知探测器D编码器F. 为了提取高层次的抽象潜在特征,在每一层中采用概率梯形结构。详细地,编码器F中的第1层表示如下:xl=Conv(xl−1)hl=Flatten(xl)µl= Linear(hl)σ2 =Softplus(Linear(hl)其中Conv是卷积层,后面是批量范数层和PReLU层,Flatten是将 二维数据 平坦化 为一维 的线性层 ,Linear是单个线性层,Softplus将l〇 g(1+exp( ·))非线性应用于其参数向量的每个分量(图11)。3说明了这些操作)。潜表示z定义为z=μ+σε,其中εε N(0,I),ε是元素的乘积,μ,σ是顶层湖解码器G. 解码器G中的第1层表示如下:图2:所提出方法的框图:编码器F和解码器G采用概率梯形结构提取高层次的抽象潜在特征。已知分类器C将潜在表示作为输入,并产生已知类上的概率分布未知检测器D由训练样本的条件高斯分布和 在训练期间,对所提出的模型进行训练以最小化重建损失Lr,KL-发散LKL(在潜在空间和中间层两者中)和分类损失Lc的总和。在测试过程中,未知检测器D将根据采样器的潜在特征和重构误差来判断该采样器是否未知。如果这个样本是已知的,已知的分类器C将给出其预测的标签。cl+1=Unflatten(zl+1)xl+1=Con vT(cl+1)hl+1=Flatten(xl+1)µl=Linear(hl+1)σ2=Softplus(线性(hl+1))zl=µl +σ2图3:向上路径中的操作。其中ConvT是转置卷积层,并且Unflatten是用于转换一维数据的线性图层二维(Fig.4说明了这些操作)。在13484θθθφx,k)dz第l层,自下而上的信息(μl和σl)和自上而下的信息(μl和σl)通过[34]中定义的以下等式相互作用µlσ−2+µlσ−2损失Lc,我们使用预测和地面实况标签的softmax交叉熵。为了测量重建损失Lr,我们使用输入图像x和重建之间的L1距离structedimagexmage. 由于采用了概率梯形结构,因此不仅在q µl=l lσ−2+σ−2(四)潜在的空间,但也在中间层:L lq σ2=1(5)Σ。Σlσ−2+σ −21L=−Dq(z|x,k)||p(k)(z)l l KLLKLφθL-1。ΣΣ+DKLqθ(xl|x(l+1,x)||qθ(x)|x(l+1)l=1哪里q(x~|x~(七),x)=N(x;qµ,qσ2)(8)θ ll+1ll lq(x~|x~)=N(x;μ,σ2)(9)图4:下行路径中的操作。θ ll+1ll l分类器C已知的分类器C是Soft-max层,其将潜在表示z取为放。它产生已知类的概率分布。未知探测器D 当训练完成时,未知检测器D由隐藏在潜在表示和重构误差中的信息建模。在测试阶段,未知检测器D用作我们模型中使用的损失函数总结为如下所示:L= −(Lr+βLKL+λLc)(10)其中β在训练阶段从0线性增加到1,如[34]所述,λ是常数。4.3. 测试当训练完成后,我们对每个类进行建模,多元高斯模型fk(z)=N(z;mk,σ2)其中一个二元分类器来判断输入是已知的还是2k未知(细节在第二节中讨论)4.3)。4.2. 培训在训练阶段,所提出的模型强制条件后验分布qφ(z|x,k)约-mk和σk是潜在代表的均值和方差中所有正确分类的训练样本的表示K级。如果潜在空间的维数是n:z=(z1,.,z n),样本位于分布k(z)中的概率定义如下:模拟不同的多元高斯模型p(k)(z)=N(z;μk,I)其中k是已知类的索引,第k个高斯分布μk的平均值通过以下公式获得: 一个全连接层,映射独热编码Pk(z)=1−联系我们|z0 −m0|m 0 −|z 0 −m0|···mn+|zn−mn|m n −|z n −m n| fk(t)dt(十一)输入的标签到潜在空间。潜在空间中的KL-发散(Eqn.(3)修改如下:我们还分析了隐藏在再现误差中的信息。已知类输入的重构误差一般小于未知类输入的−DKL(qφ(z|x,k)||p(k)(z))[24]第10段。 在这里,我们通过以下方式获得重建误差阈值:确保95%的训练数据被识别为已知。去-∫。=qφ(z|x,k)∫logp(k)(z)− log q(z| Σ.Σ测试过程的尾部在Algo中描述。1.一、5. 实验和结果=N(z;µ,σ2) logN(z;µk,I)−logN(z;µ,σ2)dz5.1. 实现细节1 J=1 + log(σ2)−(µj−µ(k))2−σ213485在所提出的方法中,我们使用SGD优化器,2Jj=1JJ(六)学习率为0.001,并将批量大小固定为64。主干是在[37]中定义的重新设计的VGGNet。的在训练阶段,训练模型以最小化重建损失Lr、KL-发散LKL和分类损失Lc的总和。衡量分类潜在表示z的维数固定为32。对于第2节中描述的损失函数,4.2中,参数β在训练阶段期间从0线性增加到1,.Σ13486KK算法1测试程序要求:测试样品X要求:经过培训的模块F、G、C要求:高斯分布的阈值τl要求:重建误差的阈值τr要求:对于每个类k,设zi,k是每个正确分类的训练样本xi,k的潜在表示1:对于k= 1,. . .,Kdo2:计算每个类的均值和方差mk=meani(zi,k),σ2=vari(zi,k)3:对每个类的多变量高斯模型进行建模:f k(z)=N(z;mk,σ2)第四章: 端第五章: 隐表示Z = F(X)。7:重建图像X=G(Z)8:重建误差R=||X−X~||19:如果k∈ {1,...,K},Pk(Z)<τ l或R > τ r,则10:预测X为未知11:其他12:用标签y预测已知X十三: end if在[34]中描述,而参数λ被设置为等于100。这些网络经过训练,与原始网络相比,闭集精度没有任何大的下降。表中列出了每个数据集的网络闭集精度。1.一、条件高斯分布的阈值τl取0.5,重建误差的阈值τr取95%的训练数据被识别为已知。5.2. 消融分析在本节中,我们分析了CIFAR-100数据集[16]上所提出方法的每个组成部分的贡献。CIFAR-100数据集由100个类组成,每个类包含500个训练图像和100个测试图像对于消融分析,性能通过F测量(或F1评分)[30]与不同开放度[31]进行测量开放性的定义如下:.2 ×N列车表1:普通CNN和所提出的方法CGDL之间的闭集测试准确度的比较。虽然CGDL的训练目标是对已知样本进行分类以及学习条件高斯分布,但闭集精度没有显著下降架构MNISTSVHNCIFAR-10普通CNN0.9970.9440.912CGDL0.9960.9420.912类和未知)。我们比较了以下消融分析基线:I. CNN:在这个基线中,只有编码器F(没有梯形架构)和已知的分类器C被训练用于闭集分类。该模型可以被视为卷积神经网络(CNN)。在测试过程中,学习到的特征将被馈送到C以获得已知类的概率得分。如果预测标签的概率得分小于0.5,则样本将被识别为未知。II. CVAE:编码器F、解码器G和分类器C在没有梯形结构的情况下进行训练,测试过程与基线I相同该模型可被视为一类条件变分自动编码器(CVAE)。III. LCVAE:在CVAE中采用概率阶梯架构,这有助于训练期间的KL-发散(等式11)。(七).我们称这种模型为LCVAE。测试程序与基线I和二.IV. CVAE+CGD:模型架构和训练过程与基线II相同,而条件高斯分布(CGD)用于检测测试期间的未知数。V.LCVAE+CGD:在此基线中,LCVAE与基于CGD的未知检测器一起引入。训练和测试程序分别与基线III和IV相同。VI. LCVAE+RE:与基线V不同,LCVAE中使用重建误差(RE)而不是CGD来检测开放度= 1−N测试+N目标(十二)未知样品VII. 拟定方法: 训练程序是其中,Ntrain是在训练期间看到的已知类的数量,Ntest是在测试期间将观察到的类的数量,并且Ntarget是在测试期间要识别的类的数量。我们从100个类中随机抽取15个类作为已知类,未知类的数量从15到85不等,这意味着开放度从18%到49%不等通过16个班级(15个已知班级)的宏观平均F1分数来评估性能与基线V和VI相同,而在测试条件下,常规高斯分布和重构误差一起用于未知检测。实验结果如图所示。五、在基线I、II和III中,未知检测简单地依赖于已知分类器C。虽然采用概率梯形结构后性能略有改善13487表2:检测已知和未知样品的ROC曲线下面积(AUROC)结果在五个随机试验中平均方法MNISTSVHNCIFAR10CIFAR+10CIFAR+50Ting-ImageNetSoftmax0.978 ±0.0020.886 ±0.0060.677 ±0.0320.816 ±-0.805 ±-0.577 ±-Openmax [4]0.981 ±0.0020.894 ±0.0080.695 ±0.0320.817 ±-0.796 ±-0.576 ±-G-Openmax [8]0.984 ±0.0010.896 ±0.0060.675 ±0.0350.827 ±-0.819 ±-0.580 ±-OSRCI [22]0.988 ±0.0010.910 ±0.0060.699 ±0.0290.838 ±-0.827 ±-0.586 ±-C2AE [24]0.989 ±0.0020.922 ±0.0090.895 ±0.0080.955 ±0.0060.937 ±0.0040.748 ±0.005我们的:CGDL0.994 ±0.0020.935 ±0.0030.903 ±0.0090.959 ±0.0060.950 ±0.0060.762 ±0.005表3:MNIST数据集上的开集分类结果,将各种离群值作为未知值添加到测试集中通过11个类别(10个已知类别和未知类别)的宏观平均F1分数来评估性能。方法OmniglotMNIST噪声噪声Softmax0.5950.8010.829Openmax [4]0.7800.8160.826CROSR [37]0.7930.8270.826我们的:CGDL0.8500.8870.859图5:消融分析中不同基线下不同开放度的F1评分(基线III),这三条基线的整体表现较弱,因为F1分数随着开放性的增加而迅速下降。在CVAE模型(基线IV)中添加了条件高斯分布(CGD)用于未知检测在 基线 V 中 ,通 过 将基 于CGD 的 未知 检 测器 引入LCVAE来缓解这种趋势。这表明了概率梯形结构对于开集识别的重要性。这也是为什么基于CGD的未知检测在基线V中比在基线IV中实现更好的性能的原因。如果我们只使用重建误差来检测未知数(基线VI),结果是最差的。然而,如果将重建误差添加到基于CGD的未知检测器(基线VII),则per-speed略有改善。因此,应用条件高斯分布和重构误差来检测具有概率阶梯结构的未知数,实现了最佳性能。5.3. 与最新技术水平结果的在本节中,我们将所提出的方法与最先进的方法进行比较。我们在两个不同的实验设置下报告了我们的结果,其中的区别在于,在第一个设置中,性能是由模型检测未知样本的能力来衡量的未知检测。遵循[ 22 ]中定义的协议,我们使用四个标准图像数据集:MNIST [18],SVHN [23],CIFAR-10 [15]和Tiny-ImageNet [17],以衡量模型识别未知样本的能力。对于MNIST、SVHN和CIFAR-10数据集,每个数据集被随机划分为6个已知类和4个未知类。同时,该模型也在CIFAR-10上进行了训练,如前所述,使用4个已知类,但测试集被从CIFAR-100 [16]数据集中随机选择的10个未知类所取代。此任务报告为CI-FAR+10。类似地,从CIFAR-100 [16]数据集中随机选择50个未知类,对于Tiny-ImageNet数据集,我们随机选择20个类作为已知类。其余180个类别被定义为未知。通过检测已知和未知样品的ROC 曲线下面积(AUROC)来衡量性能,结果见表。2是已知和未知的5个单独样本的平均值。从这个表中,我们可以看到我们的方法sig-13488表4:CIFAR-10数据集的开集分类结果,将各种离群值作为未知值添加到测试集中。通过11个类别(10个已知类别和未知类别)的宏观平均F1分数来评估性能。我们报告了在[37]中复制的实验结果方法ImageNet-cropImageNet-resizeLSUN-cropLSUN-resize美国[37]0.6390.6530.6420.647Openmax [4]0.6600.6840.6570.668[37]第三十七话0.6400.6460.6440.647[37]第三十七话0.6530.6700.6520.659DHRNet+Softmax [37]0.6450.6490.6500.649DHRNet+Openmax [37]0.6550.6750.6560.664CROSR [37]0.7210.7350.7200.749C2AE [24]0.8370.8260.7830.801我们的:CGDL0.8400.8320.8060.812显著优于以前的作品,并实现了新的国家的最先进的性能。打开集合识别。一个理想的开集分类器不仅可以拒绝未知样本,而且可以分类已知类别。在下面的实验中,模型由一个数据集的所有训练样本进行训练,但在测试阶段,来自另一个数据集的样本作为未知样本添加到测试集中。我们通过MNIST和CIFAR-10数据集上已知类和未知类的宏观平均F1分数来衡量开集识别性能。图6:MNIST、Omniglot、MNIST- Noise和Noise数据集的示例。首先,我们选择了最流行的手写数字数据集MNIST作为训练集.作为离群值,我们遵循[37]中的设置,使用Omniglot [1],MNIST噪声和噪声这三个数据集。Omniglot是一个包含各种字母字符的数据集。Noise是通过独立于[0,1]上的均匀分布设置每个像素值而合成的数据集。MNIST-噪声也是通过在MNIST测试样本上添加噪声而合成的数据集。每个数据集包含10,000个测试样本,与MNIST相同,这使得已知与未知的比例为1:1。图6示出了这些数据集的示例。开集识别评分见表。3、亲--提出的方法在所有给定的数据集上都取得了最好的结果其次,按照[37]中定义的方案,收集CIFAR-10数据集中的所有样本作为已知数据,并收集来自其他数据集的样本,即,ImageNet [29]和LSUN [38]被选为未知样本。我们调整未知样本的大小或裁剪未知样本,使其与已知样本具有相同的大小。生成ImageNet-crop、ImageNet-resize、LSUN-crop和LSUN-resize这四个数据集,每个数据集包含10,000个测试图像,与CIFAR-10相同。这使得在测试期间已知与未知的比率为1:1。该方法的性能通过11个类(10个已知类和未知类)的宏观平均F1分数来评估,我们的结果如表所示。4.第一章从实验结果可以看出,在所有给定的数据集上,该方法比以往的方法更有效,达到了新的最先进的性能。6. 结论本文提出了一种新的开集识别方法与以往单纯基于VAE的方法相比,该方法通过迫使潜在空间中的后分布逼近不同的高斯模型,既能对已知样本进行分类,又能检测未知样本采用概率梯形结构来保留中间层可能消失的信息这种梯形结构明显提高了开集性能。此外,重建信息被添加到未知检测器,以进一步提高性能。在两种设置下的多个标准图像数据集上的实验表明,该方法的性能明显优于基线方法,并取得了新的最先进的结果。13489引用[1] 西蒙·艾格全世界的书写系统和语言2008年1月27日,2008年1月27日,2008年1月27日。8[2] Caglar Aytekin,Xingyang Ni,Francesco Cricri和EmreAksu。使用l2归一化深度自动编码器表示的聚类和无监督异常检测。2018年神经网络国际联合会议,第1-6页。IEEE,2018年。二、三[3] Abhijit Bendale和Terrance Boult。走向开放世界的认可。在IEEE计算机视觉和模式识别会议论文集,第1893-1902页2[4] Abhijit Bendale和Terrance E Boult。开放深度网络。在IEEE计算机视觉和模式识别会议论文集,第1563-1572页,2016年。三、七、八[5] Hakan Cevikalp和Hasan Serhan Yavuz。使用图像集进行快速准确的人脸识别在IEEE计算机视觉国际会议论文集,第1564- 1572页2[6] 哈坎·切维卡普和比尔·崔格斯用于视觉目标检测和分类的多面体圆锥在IEEE计算机视觉和模式识别会议论文集,第261-269页,2017年。2[7] Marco Fraccaro、Søren Kaae Sønderby、Ulrich Paquet和Ole Winther。具有随机层的序列神经模型。神经信息处理系统的进展,第2199-2207页,2016年。2[8] ZongYuan Ge , Sergey Demyanov , Zetao Chen , andRahil Garnavi.多类开集分类的生成openmax。2017年英国机器视觉会议。三、七[9] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页1[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。1[11] Lalit P Jain,Walter J Scheirer,and Terrance E Boult. 利用包含概率的多类开集识别。欧洲计算机视觉会议,第393Springer,2014. 2[12] PedroRMendesJu´nior,RobertoMdeSouza,RafaeldeOWerneck,Bernardo V Stein,Daniel V Pazinato,WaldirRdeAlmeida,Ota´vioABPenatti,RicardodaSTorres,and Anderson Rocha.最近邻距离比开集分类器。Machine Learning,106(3):359-386,2017. 2[13] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。2014年,在学习代表国际会议上。二、三[14] Rahul G Krishnan,Uri Shalit,and David Sontag.非线性状态空间模型的结构化推理网络。2017年第31届AAAI人工智能会议。2[15] Alex Krizhevsky和Geoff Hinton CIFAR-10上的卷积深度生存网络未发表的手稿,40(7):17[16] Alex Krizhevsky,Geoffrey Hinton,等.从微小的图像中学习多层特征。技术报告,Cite- seer,2009年。六、七[17] 雅乐、玄阳。微型图像网视觉识别挑战。CS 231 N,2015年。7[18] Yann LeCun,Corinna Cortes,and CJ Burges. Mnist手写数字数据库。AT T Labs [Online].可查阅:http://yann.乐村com/exdb/mnist,2:18,2010。7[19] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C Berg. Ssd:单发多盒探测器。在欧洲计算机视觉会议上,第21-37页。施普林格,2016年。1[20] 刘瑶瑶,刘安安,苏玉婷,Bernt 席勒和孙倩茹。记忆术训练:多课学习,不忘初心。arXiv预印本arXiv:2002.10211,2020。3[21] 拉里·M·曼内维茨和马利克·优素福。用于文档分类的单类支持向量机。Journal of Machine Learning Research,2(Dec):139-154,2001. 3[22] Lawrence Neal , Matthew Olson , Xiaoli Fern , Weng-Keen Wong,and Fuxin Li.用反事实图像进行开放式学习。在欧洲计算机视觉会议论文集,第613-628页,2018年。三、七[23] Yuval Netzer , Tao Wang , Adam Coates , AlessandroBis-sacco,Bo Wu,and Andrew Y Ng.使用无监督特征学习读取自然图像中的数字。2011. 7[24] Poojan Oza和Vishal M Patel。C2ae:用于开集识别的类条件自动编码器。在IEEE计算机视觉和模式识别会议论文集,2019年。三五七八[25] Antti Rasmus 、 Mathias Berglund 、 Mikko Honkala 、Harri Valpola和Tapani Raiko。使用梯形网络的半监督学习。神经信息处理系统的进展,第3546-3554页,2015年2[26] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。神经信息处理系统的进展,第91-99页,2015年。1[27] 斯蒂芬·罗伯茨和莱昂内尔·塔拉森科。一种用于新颖性检 测的 概率 资源 分配 网络 。Neural Computation ,6(2):270-284,1994. 3[28] Lukas Ruff , Robert Vandermeulen , Nico Goernitz ,Lucas Deecke , Shoaib Ahmed Siddiqui , AlexanderBinder,Em-manuelMüller,andMariusKloft. 深度一级分类。在国际机器学习会议上,第4393-4402页,2018年。二、三[29] OlgaRussakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein , et al. 图 像 网 大 规 模 视 觉 识 别 挑 战 。International Journal of Computer Vision,115(3):211-252,2015. 8[30] Yutaka Sasaki等人f测度的真实性Teach Tutor Mater,1(5):1-5,2007. 613490[31] Walter J Scheirer,Anderson de Rezende Rocha,ArchanaSapkota , and Terrance E Boult. 开 集 识 别 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,35(7):1757-1772,2012. 一、二、六[32] ThomasSchle gl , PhilippSeebo¨ck , SebastianMWaldstein ,Ursula Schmidt-Erfurth,and Georg Langs.使用生成对抗网络进行无监督异常检测,以指导标记发现。在医学成像信息处理国际会议上,第146Springer,2017. 3[33] 雷舒,胡旭,刘冰。文档:文本文档的深度开放分类。在2017年自然语言处理经验方法集,2017年。3[34] Casper Kaae Sønderby , Tapani Raiko , Lars Maaløe ,Søren Kaae Sønderby,and Ole Winther.如何训练深度变分自编码器和概率梯形网络。2016年第33届机器学习国际会议二、五、六[35] Christian Szegedy , Wei Liu , Yangqing Jia , PierreSermanet , Scott Reed , Dragomir Anguelov , DumitruErhan,Vincent Vanhoucke,and Andrew Rabinovich.更深的回旋。在IEEE计算机视觉和模式识别会议论文集,第1-9页,2015年。2[36] David MJ Tax和Robert PW Duin。支持向量域描述。Pattern recognition letters,20(11-13):1191- 1199,1999. 3[37] Ryota Yoshihashi,Wen Shao,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功