开集胶囊网络：用于开集识别的条件变分胶囊网络模型

151 浏览量更新于2023-10-15 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于开集识别的条件变分胶囊网络Yunrui Guo* 1，2，Guglielmo Camporese* 2，Wenjing Yang1，Alessandro Sperduti2，and LambertoBallan21国防科技大学，中国2意大利帕多瓦大学数学系摘要在开集识别中，分类器必须检测在训练时未知的未知类。为了识别新的类别，分类器必须将已知类别的输入样本投影在特征空间的非常紧凑和分离的区域中，以区分未知类别的样本。最近提出的胶囊网络在许多领域都表现出优于替代品，特别是在图像识别方面，但它们尚未完全应用于开集识别。在胶囊网络中，标量神经元被胶囊向量或矩阵代替，其条目表示对象的不同属性。在我们的建议中，在训练期间，鼓励相同已知类的胶囊特征匹配预定义的高斯，每个类一个。为此，我们使用变分自动编码器框架，一组高斯先验作为后验分布的近似。以这种方式，我们能够控制高斯中心周围的同类特征的紧凑性，从而控制分类器在检测来自未知类的样本中的能力。我们对我们的模型进行了几次实验和消融，在开集识别和未知检测任务中的不同数据集上获得了最先进的结果。1. 介绍在过去的十年中，深度学习已经成为许多计算机视觉问题的主导方法，在许多视觉识别任务上取得了惊人的成果[13，27，7，29]。然而，这些结果中的大多数是在闭集场景中获得的，其中一个关键假设是所有样本应该属于至少一个标记类别。当观察来自未知类别的样本时，闭集方法被迫从已知类别之一选择类别标签，从而限制了它们在动态和不断变化的场景中的应用。*表示等额缴款。图1：CVAECapOSR模型。输入样本被馈送到胶囊网络中，该胶囊网络在潜在空间上产生分布。每个类别在特征空间中具有其自己的先验高斯分布，其在图中被表示为球体。在训练之后，已知样本（表示为小点）被聚类在类目标高斯周围属于未知类的样本被表示为远离目标分布的黑色三角形。为了克服这种限制，已经引入了开集识别，以使分类系统能够识别所有已知类别，同时检测未知的测试样本[25，1]。在开集场景中，标签空间中包括/排除的样本被称为已知/未知。因此，开集分类器需要使用从有限的可访问类别集合中学习到的不完整知识早期的工作已经确定了这个问题，因此提出了采用不同阈值策略来拒绝未知数的方法[25，1]。尽管深度神经网络在封闭场景中表现出很强的学习判别表示的能力，但在开集设置中显示出准确性下降[2]。作为一个简单的策略，建模一个阈值-103104旧的Softmax输出已被证明是深度神经网络识别未知数的次优解决方案。因此，引入了极值理论，以更好地适应这些判别模型，完全基于监督学习，用于开集设置。基本思想是校准Softmax评分，以便估计未知数的概率[32，2]。除了深度判别模型之外，深度生成模型专注于通过无监督学习来学习有效的潜在特征表示，已被广泛用于开集识别任务，并且一个接一个地取得了成功[16，19，21，28]。特别是，变分自动编码器（VAE）是一个典型的概率生成模型，理想的检测未知数，由于它的学习能力，在潜在空间中的低维表示，不仅支持输入重建，但也近似一个指定的先验分布。另一方面，基于VAE的模型对于识别已知类别可能不够有效，因为所有特征表示仅遵循一个分布。为此，我们采用了一个条件VAE（CVAE），使用多个先验分布建模的已知类，并间接未知的对手。此外，我们建议用概率胶囊表示输入样本，因为它们已经证明了表示能力[22，24]。胶囊网络（CapsNet）[24]被提出作为卷积神经网络（CNN）的替代方案。不像CNN的标量神经元，胶囊集合了一组神经元来接受和输出向量。激活的胶囊的矢量表示特定对象的各种性质，例如位置、大小、取向、纹理等。从本质上讲，CapsNet可以被视为通过分布式表示对对象进行编码的编码器，这比通过激活高维空间中的单个神经元对它们进行编码效率更高。此外，Cap-sNet已成功用于在类似于开集识别的任务设置中检测假图像和视频[18]。这促使我们设计了一种新颖的胶囊网络架构，结合CVAE用于开集识别问题，称为CVAECapOSR，如图1所示。本文的贡献有三个方面：i）我们提出了一种新的基于CapsNet的开集识别框架，并展示了其在学习已知类的有效表示方面的优势。ii）我们集成了CapsNet和条件VAE。与增强潜在表示以近似单个先验分布的一般VAE相比，我们的模型利用多个先验（即，每个类一个），并且它迫使潜在表示遵循由输入样本的类选择的高斯先验。iii）我们在用于开集识别的所有标准数据集上进行了广泛的实验，获得了非常有竞争力的结果，在某些情况下优于与现有技术的方法相比有很大的差距。2. 相关工作开集识别问题由[25]引入，并且最初被形式化为基于支持向量机（SVM）的约束最小化问题，而随后的工作集中在其他更传统的方法上，例如极值理论[9，26]，稀疏表示[34]和最近邻[10]。在深度学习在许多计算机视觉任务中取得成功之后，深度网络在[2]中首次引入开集识别，其中通过使用Weibull分布模型校准每个类的Softmax概率来提出Openmax函数。随后，[5]通过引入一个生成对抗网络将Openmax扩展到G-Openmax，在该网络中，生成器生成新类别的合成样本，而判别器学习未知类别的显式表示。在[16]中采用了类似的策略，该策略提出了一种基于生成对抗网络的数据增强技术，称为反事实图像生成。最近，Yoshihashiet al. [32]分析并证明了在开集场景中联合训练深度网络进行分类和重建的有用性。具体而言，作者提出使用由无监督训练产生的表示将已知与未知分开，同时使用通过监督学习过程计算的表示来保持模型的辨别能力C2AE [19]通过基于极值理论对模型的重建误差进行建模，引入了基于类条件VAE的开集识别和未知检测的架构Sun等人[28]最近提出，用于开集识别的基于VAE的体系结构的一个缺点是对已知类的实例的辨别能力不足。因此，作者采用条件高斯分布VAE模型学习已知类的条件分布在[33]中提出了一种不同的方法，其中归一化流用于已知样本的密度估计。具体来说，作者提出了一种架构，该架构使用CNN编码器和可逆神经网络，共同学习输入的密度然而，本文中没有讨论的一个潜在问题是CNN编码器没有双射属性，这对于使用变量变化公式进行密度评估至关重要此外，[3]在原型学习中引入了互惠点的概念来管理开放空间。虽然这项工作在拒绝来自与已知样本不同的数据集的未知数方面表现出优异的性能，但当未知样本的来源与已知对应物相同时，未知检测能力下降105.我们考虑开放性测度为O=1-，其中联系我们{}∈XΣ|（吨）||||ΣΣNN||||我|我IJIJJ|我KLJφθ角2我我我二二二Σ ΣΣǁ ǁ3. 预赛3.1. 开集识别问题在开集识别问题中，模型必须对测试样本进行分类，这些样本可能属于训练期间未看到的类别。给定分类数据集D=（x1，y1），. . . ，（xn，yn），使得是输入样本，y i1，. . . ，K是相应的类别标签，开集问题在于在K + U个类别中对测试样本进行分类，其中U是未知类别的数量。在文献中，用于训练的数据集被称为封闭数据集，而在评估期间使用的包含来自未见过类的样本的数据集被称为开放数据集。为了在评估期间量化数据集的开放性，遵循[25，16]KMK和M=K+U分别是在训练和测试期间观察到的类的数量3.2. 条件性VAE制剂条件变分真编码器（CVAE）直接源自VAE模型[11]，并且其目标基于给定标签y的数据x的条件密度p（x y）的估计。它以其理论简洁、框架兼容性强、流形表示高效等特点成为概率生成模型中最具威力的模型之一。CVAE通常包括将输入x和类y映射到潜在变量z上的预先固定的分布的编码器，以及在给定潜在变量z和类y的情况下尝试重构输入x和类y的解码器。X. 在训练期间，通过最小化数据的条件密度的负变分下限，定义如下：LΣx，y; θ，φΣ = DKLΣq φ（z|x）p（z|y）Σ- Eqφ（z|x） logp θ（x|z，y）其中qΦ（z x）表示编码器的后验，并且pθ（zy）表示以类y为条件的潜在变量z上的先验分布。损失函数中的第一项是使近似后向分布qφ（x z）接近于前向分布pθ（zy）的正则化子，而第二项是链式编码-解码过程的平均重构误差。原始VAE [11]使用无条件先验分布，假设pθ（z）是各向同性多变量高斯（0，I），qφ（z x）是一般多变量高斯（µ，σ2）。利用这些假设，给定K维z的KL散度项可以以封闭形式计算并表示为：1KDq （ z|x ） p （ z ） =−（ 1+log （ σ ）−µ−σ）。我对于CVAE，可以仅使用易处理的潜在先验分布p（z）来计算或估计KL散度项|y）[20]。3.3. CapsNet配方胶囊网络，由Hinton等人提出。[8]是由两个卷积层和两个胶囊层组成的浅架构。第一卷积操作将输入图像X的像素强度转换为初级局部特征图，而第二卷积层产生初级胶囊U1。每个胶囊对应于一组矩阵，这些矩阵旋转主胶囊以预测姿势变换uj|i=Wijui。之后，用于分类的数字胶囊vj被产生为初级胶囊vj= vjicijuj|i，其中，系数t，c，i，j由动态路由算法（DR）确定，其中，初级封装与数字封装进行比较。对于DR的第t次迭代，系数通过下式更新：c（t+1）=Softmax（b（t+1）），b（t+1）=b（t）+u·v.对于胶囊的所有层，使用挤压函数来引入非线性并将胶囊向量的长度收缩为[0，1]。v2vSquash（v）=.1 +v2v以这种方式，胶囊的范数代表输入图像X中存在特定特征的概率。4. 该方法4.1. 模型架构如图2所示，我们的模型基于具有K个不同高斯先验分布的CVAE，每个已知类别一个。给定输入图像x及其对应的标签y，编码器处理x，产生特征表示xf。之后，胶囊网络计算分布q（z x），该分布在学习过程中被推向有条件的先验p（zy）=Ty。使用q（z x）和所有目标之间的距离信息，我们估计类y，并使用重新参数化技巧，我们从q（zx）中采样z。我们通过解码器计算重建x，解码器是使用转置卷积的卷积神经网络在对我们的模型的计算进行了一般性描述之后，我们现在逐步深入地介绍架构。编码阶段。编码阶段中涉及的块是编码器和胶囊网络。编码器是一个卷积神经网络，它处理输入图像x∈RC×H×W，产生特征xf∈ Rdc×dh×dw。然后，类似于[24]，胶囊网络处理106∈C∈∈C联系我们联系我们KΣxdcRK×f2的动态路由算法。我们用f1表示初级胶囊的尺寸，并且Jyk=p（y=k|X）=Kj=1 e−γd（C，T），contrK−1K∈C|Kk=1K图2：CVAECapOSR模型的概述。橙色虚线表示模型在训练期间的计算，而黑色实线表示模型在训练和测试期间完成的计算特征表示xf通过计算主帽-f1×（dcdh dw）哪里sulesxpc∈Rf1，然后是数字胶囊∈1Σd（C，Ti）=KDKL其中f2是数字胶囊的尺寸给定胶囊xdc，我们通过应用具有d个输出单元的胶囊级全连通层来计算胶囊分布= q（z x）的平均值zµRK×d和方差zσ2RK×d。这样，概率胶囊网络亲-引入K平均胶囊{z（k）}K和K variance胶囊是概率胶囊与目标Ti之间的距离，并且γ是控制概率分配的难度的系数参数。通过这种方式，我们估计x属于k类的概率，同时考虑胶囊{C（k）}K的整个配置，而不仅仅是{z（k）}Kµ，每一个的大小为d。k=1如[24]中所做的单个最活化胶囊。解码阶段。给出类估计σ 2k=1y∈RKwe计算其勒阿纳布尔嵌入对比变化阶段。我们设计了每个CVAE初级。rta rgetΣp（z|y=k）是高斯分布Tk=Nµ~k，Σ~k其中可学习的平均向量μ~k∈RKd，并且y=嵌入g（argma xk（y（k））∈Rd，并且g iven采样的潜在胶囊z ∈ RK×d，我们计算重建通过解码器从xy可学习对角协方差矩阵Σ~ k∈RKd×Kd，其中zy∈RK×d，其中z（k）=ye+z（k）. 所述解码器为1k K。为了简化我们的模型框架的符号，我们将目标Tk视为高斯分布，定义为µkRK×d是µ~k和Σk的整形版本RK×d是的整形对角线Σ~k。为了映射来自同一个类的输入实例在学习过程中，我们让概率胶囊C被第y个目标分布吸引，同时我们让所有其他目标被排斥。使用这种对比策略，我们鼓励编码表示属于潜在空间，同时保持所有目标彼此足够远地分开。然后将输入样本X的类y估计为：卷积神经网络具有遵循编码器的对称结构的转置卷积。类似于[23]，我们实现横向连接xA，其中1L4从编码器的内部特点到解码器在训练期间被随机丢弃，以使解码器更少地依赖于编码器的内部表示。4.2. 培训我们在封闭数据集上训练模型，并且在单个输入样本（x，y）的学习过程中，我们最小化以下损失函数：L（x，y）=LKL（x，y）+αLcontr（x，y）+βLrec（x），（1）其中LKL（x，y）=d（C，sgΣTyΣ），（2）e−γd（C，Tk）L（x，y）=1 ΣΣm−d（sgΣCΣ，T）Σ+，C||不k=1、（k）（k）我107（3）k/=y108（4）·CCLL×个×个·×个C2Lre c（x）=x−x2。如在[30]中已经定义的，等式（1）中的函数sg[ ]可以是等式（2）中的函数sg [ ]。（2）和Eq。（3）代表停止梯度算子，其被定义为在向前计算时间的恒等式并且具有零偏导数，将其自变量约束为非更新常数。方程中的损失项（2）负责将概率胶囊推向目标Ty，导致目标区域中已知样本另一方面，方程中的对比损失项（3）使用边际损失将与y无关的所有目标推到远离分布的地方，其中[]+是返回其自变量的正部分的函数通过将Ty视为Ty的他性，因此，对比项不仅避免了先前目标的崩溃，而且还鼓励一个类别与所有其他类别（潜在地未知对应物）之间的分离。最后，等式中的损失项（4）是模型的输入和输出之间的均方误差重构。我们将等式中的所有损失项合并。（1）我们控制的强度用参数α和强度进行控制rec具有参数β。在训练期间，我们发现在解码器中使用教师强制是有益的，即我们决定将y而不是估计值y′馈送到解码器r，而在验证和测试期间，我们仅馈送估计量，以这种方式使得能够在推断期间我们的模型相对于标记y的独立性。4.3. 推理我们使用该模型给定一个新的样本x，我们决定它是否是离群值，如下所示如下所示：K+1,ifmax,d(C,Tk),=d∗τK并且存在严重的再现性问题。此外，不仅分裂对结果有很大的影响，而且用于选择属于未知类的样本的策略因此，从[16]和[21]中使用的拆分开始，我们公开发布我们的代码和数据1，以及其他最先进方法的实现，以促进对这项任务的公平比较。5.1. 数据集我们评估了开集识别性能的标准数据集上使用以前的作品，即。 MNIST [15] 、 SVHN [17] 、 CIFAR10[12]、CIFAR+10、CIFAR+50和TinyImageNet [14].MNIST、SVHN、CIFAR10。所有三个数据集包含十个类别。MNIST由手写数字图像组成，训练用60，000张28，28灰度图像，测试用10，000张SVHN包含街景门牌号，由10个数字类组成，每个数字类具有9，981 和 11 ， 37932 32 彩色图像。然后，我们考虑CIFAR10数据集，其中有50，00032，32彩色图像用于训练和10，000用于测试。在[16]之后，在未知检测任务中，每个数据集被随机分成6个已知类和4个未知类。在此设置中，开放性得分固定为22。百分之五十四CIFAR+10，CIFAR+50。为了在更高开放值的设置中测试我们的模型，我们使用CIFAR10和CIFAR100[12]执行CIFAR+Q实验。为此，从CIFAR10中采样4个已知类，并从更多样化和更大的CIFAR100数据集中随机抽取Q个CIFAR+10和CIFAR+50的开放性得分为46。54%和72。分别为78%TinyImageNet. 对于 TinyImagenet 数据集，它是ImageNet的一个子集，包含200个类，我们随机抽取了20个已知类，其余类为未知类。在这种情况下，开放性得分为68。百分之三十七y=最大参数K，d（C，Tk），否则。5.2. 度量其中τ是使用交叉验证找到的，K+1是在训练期间未看到的新的未知类5. 实验最近在这一领域的工作遵循[16]中提出的协议。在这项工作中，通过从K个类中随机选择K个类来获得开集识别序列。已知的特定数据集（更多细节见下文），而其余类被认为是开集类。此过程应用于五个随机拆分。然而，正如最近[ 21 ]所示，不同分割的性能差异很大（例如CI-FAR 10上的AUROC在不同的分裂中在77%至87%之间变化），通常测量使用F评分和AUROC（ROC曲线下面积）[6]。F-score用于测量分布内分类性能，而AUROC通常由开集识别和分布外检测文献报道AUROC提供免校准测量，并通过改变区分阈值来表征给定评分的性能[4]。在我们的实验中，我们使用宏观平均F1分数的开集识别任务，和未知的检测任务的AUROC。对于这两个指标，值越高越好。1代码和数据可在https://github.com/guglielmocamporese/cvaecaposr上公开获取。109† ‡§K方法MNISTSVHNCIFAR10CIFAR+10CIFAR+50TinyImageNet[28]第二十八话Openmax† [2]G-Openmax† [5]OSRCI† [16]CROSR [32]C2AE‡ [19][21]第二十一话CGDL§ [28]RPL§ [3]0.9780.9810.9840.988±0. 0040.991±0. 004--0.977 ±0.0080.917±0. 0060.8860.8940.8960.91±0. 010.899±0. 0180.892±0. 0130.955±0. 0180.896±0. 0230.931±0. 0140.6770.6950.6750.699±0. 038-0.711 ±0.0080.831±0. 0390.681±0. 0290.784±0. 0250.8160.8170.8270.838-0.810 ±0.005-0.794±0. 0130.885±0. 0190.8050.7960.8190.827-0.803 ±0.000-0.794±0. 0030.881±0. 0140.5770.5760.5800.5860.5890.581±0. 0190.657±0. 0120.653±0. 0020.711±0. 026CVAECapOSR（我们的）0.992±0. 0040.956±0. 0120.835±0. 0230.888±0. 0190.889±0. 0170.715±0. 018表1：已知和未知样品检测的AUROC评分。结果在已知和未知类分区的5个如第5.3节所述，我们报告了相同数据分割的结果，为了清楚起见，我们强调了用于填充表的结果的来源：由[16]提供，来自[21]，并且是我们通过运行原始论文的代码获得的结果。方法MNISTSVHNCIFAR10CIFAR+10CIFAR+50TinyImageNetCVAECapOSR固定目标0.997±0. 0060.953±0. 0220.823±0. 0120.868±0. 0180.829±0. 0090.706±0. 014CVAECapOSR学习目标0.992±0. 0040.956±0. 0120.835 ± 0. 0230.888±0. 0190.889±0. 0170.715±0. 018表2：已知和未知样品检测的AUROC得分，比较了我们使用固定靶标的模型（第一行）与我们在学习过程中学习靶标的模型（第二行）结果在5次分裂上取平均值5.3. 实验结果在[28]之后，我们进行了两个主要实验，其中我们的模型必须解决未知检测任务和开集识别任务。对于所有实验，我们使用ResNet34 [7]作为我们模型的编码器主干未知检测。在未知检测问题中，使用K个类在数据集的子集上训练模型，并且通过测量模型在检测未知类（在训练期间未看到）上的能力来进行评估。评价是通过考虑双具有相同的分割并使用相同的评估设置，并且可以再现。如表1所示，我们在所有数据集上获得了最先进的结果，优于所有先前的此外，如前所述，我们将发布所有数据和代码，以保证可重复性。我们在训练过程中观察到的一个重要事实是，通过学习目标分布Tk而不是将其用作固定先验，我们获得了提升，如表2所示。我们初始化了可学习的目标已知类与未知类的零识别任务，以及（一）K=1d·δk=i和Σ（i）=1天。我们注意到学习-根据AUROC评分报告性能。表1中所示的结果是由[16]提供的已知和未知类别的五个随机分割的平均值。正如已经讨论过的（以及最近在[6，21]中显示的），不同分割的性能差异很大。出于这个原因，我们使用[16]提供的确切数据分割，这些数据分割也在其他近期作品中使用[32，21]。然而，并非所有这些研究中报道的结果都具有直接可比性;尽管分裂是相同的，[21] 遵循特定策略在CIFAR+10和CIFAR+50实验中选择开集类（即，他们从车辆类别中选择了10个和50个样本，而不是纯粹随机的类别，这对这些结果产生了很大的影响）。因此，在[21]之后，我们运行了[28]和[3]的代码（而[19]的结果由[21]提供，因为代码不再可用），并且我们将所有结果与以下最新论文进行比较：在不考虑损失函数中的对比项（α = 0）的情况下处理目标会导致目标崩溃成一个单一的分布，从而导致较差的结果。因此，我们考虑对比项，并设α = 1。0，β = 0。05且m k= 10。打开集合识别。在开集识别问题中，模型在包含K个类的封闭数据集上训练，并在考虑K + 1个类的开放数据集上评估。在这个实验设置中，我们使用宏F1-分数对模型进行评估。K+1班。在开集识别的第一个实验中，我们在MNIST数据集的所有类上进行训练，然后通过在开集中包含新数据集来评估性能。与[32]类似，我们使用了Om-黑，MNIST-噪声和噪声，它们是灰度图像的数据集。每个数据集包含10，000个测试图像，与MNIST相同。Omniglot数据集包含µ110O方法OmniglotMNIST噪声噪声Softmax [28]0.5950.8010.829Openmax [5]0.7800.8160.826CROSR [32]0.7930.8270.826CGDL [28]0.8500.8870.859CVAECapOSR（我们的）0.9710.9820.982表3：MNIST数据集上的开集识别的结果我们报告了11个类的宏观平均F1分数（10个来自MNIST的测试分区，1个来自另一个数据集的测试）。AUROC评分w.r.t. 不同的开放度值（O）开度变化：O=0%O=15。98%O=30。72%O= 39。百分之六十九特征提取器的影响（CapsNet之前）CapsNet0.9710.7530.7670.781ResNet20 + CapsNet0.9810.9480.9490.950改进+0.020+0.195+0.182+0.169CapsNet的影响ImageNet-resize、ImageNet-crop、LSUN-crop和LSUN-resize。模型结构的消融研究。为了验证我们的模型的每个部分的贡献，我们对主要模型的组件的相关性执行消融：胶囊网络CapsNet和特征提取器。选择ResNet20作为特征提取器，以获得更短的训练时间。我们还调查了CapsNet的不同组成部分的影响，以了解它们的重要性。我们考虑模型架构的四种不同变体：CapsNet和动态路由的模型，不使用ResNet 20特征提取器，而只使用单个卷积层; ResNet 20 +CapsNet，包括CapsNet之前的残差特征提取器，并且不使用动态路由; ResNet 20+FC，其中完全连接的层取代CapsNet;以及ResNet 20+CapsNet+DR，其实现dy-ResNet20 + FCResNet20 + CapsNet0.9750.9810.5810.9480.5950.9490.6060.950CapsNet中的动态路由。对于所有的CapsNets不im-改进+0.006+0.367+0.354+0.344为了实现动态路由，我们通过以下方式Dy的影响ResNet20 + CapsNet 0.981纳米奇·鲁蒂0.948ng0.9490.950ResNet20 + CapsNet + DR0.9820.9520.9540.955改进+0.001+0.004+0.005+0.005表4：模型结构的消融研究。我们报告了SVHN数据集上的未知检测任务的结果，其中异常值来自CIFAR100。通过AUROC评估不同开放度值的性能。从许多语言的字母表中提取手写字符，而Noise数据集具有通过独立于[0，1]上的均匀分布对每个像素值进行随机采样而合成的图像。MNIST-噪声也是一个合成集，通过叠加MNIST的测试图像噪声。在这些数据集上的开集识别的结果示于表3中。在每个数据集上，我们的表现都远远超过了最先进的结果。在Omniglot上，我们将F1分数提高+0。121，在MNIST噪声中+0。095，在噪音中+0。一百二十三在开集识别的第二个实验中，遵循[16]中使用的相同协议，来自CIFAR10数据集中10个类的所有样本都被认为是已知数据，来自ImageNet和LSUN的样本被选为未知样本。为了具有与已知样本相同的图像大小，我们调整或裁剪未知样本，获得以下数据集：ImageNet-crop、ImageNet-resize、LSUN-crop和LSUN-resize。对于每个数据集，我们将其所有10，000个测试样本视为开集中的未知样本。使用11个类别（10个已知类别和1个未知类别）中的宏观平均F1分数来评估该方法的性能，并且结果示于表5中。我们可以看到，我们的方法在F1得分下优于所有以前的方法。完全连接的层。对于消融，我们认为整个SVHN数据集作为封闭数据集，并且我们考虑来自CIFAR100的未知样本作为开放数据集。然后，我们考虑CIFAR100的不同数量的未知类，导致不同的开放性值O。消融分析的结果报告在表4中。我们可以看到，在编码器中用作特征提取器的残差网络有所帮助，特别是当开集的开放度O这一事实突出了当开放性增加时，CapsNet在未知检测问题上已经预处理的特征的重要性。此外，另一个新出现的事实是CapsNet相对于FC层具有更高的表示能力：随着开放度的增加，AUROC改善增加到+0。344该结果表明，胶囊相对于标准人工神经元更能够检测未知样品这一事实也出现在图3中报告的潜在空间的t-SNE[31]可视化中，其中概率胶囊产生的已知和未知之间的分离相对于标准FC产生的分离更加明显最后，从实验中我们看到，动态路由相对于不使用它实现了更好的性能，并且使用胶囊网络的最大提升是由姿势变换给出的。实作详细数据。我们还研究了参数α，β，mk和γ的重要性。为此，我们在 SVHN 上采用 ResNet 20+CapsNet+DR架构，以CI-FAR 100为开放数据集，进行了未知检测实验=30。百分之七十二如表6中报告的结果所建议的，我们设置α=1。0且m k=10。0，最后我们设β=0。05和γ=1。111(a) CVAECapOSR与胶囊（b）CVAECapOSR与标准神经元图3：利用不同组件（即，(a)胶囊，（b）标准神经元），包括从其采样未知样品的CIFAR+100测试集。特别地，我们使用O = 35的开放性值。百分之六十七在两个图片中，未知样本由黑色三角形表示。方法ImageNet-cropImageNet-resizeLSUN-cropLSUN-resize[28]第二十八话Openmax †[2]CROSR [32]C2AE ‡[19]CGDL §[28]RPL §[3]0.6390.6600.7210.8370.8400.8110.6530.6840.7350.8260.8320.8100.6420.6570.7200.7830.8060.8460.6470.6680.7490.8010.8120.820CVAECapOSR（我们的）0.8570.8340.8680.882表5：CIFAR-10上的开集识别结果，其中各种异常值作为未知值添加到测试集中。我们使用11个类的宏观平均F1分数来评估模型（10个来自CIFAR10的测试，1个来自各种测试数据集）。为了清楚起见，我们强调了用于填充表格的结果的来源：†由[16]提供，‡来自[21]和§是我们通过运行原始论文的代码获得的结果对照Paramsm k=5。0m k=10。0m k=20。0α= 0。5α= 1。0α= 2。00.5270.5640.9470.9490.9450.9370.9440.9540.951表6：损失函数中参数α、m、k的不同值的AUROC评分。红细胞表示学习过程中的目标在某个点重叠，导致结果不佳。绿色单元格表示先前目标没有崩溃，表明α和mk的良好值。6. 结论在本文中，我们介绍了CVAECapOSR，一个基于CVAE的开集识别模型我们扩展了标准框架的CVAE使用多个高斯先验分布，而不是一个封闭的数据集中的所有已知类。此外，目标设置为可学习的，以便clus-在其目标区域内称为已知。对比项用于对已知类别的差异性进行建模，并保持目标区域相互分离。在多个数据集上的实验结果表明，该算法在未知检测和开集识别任务上具有很高的性能。鸣谢。这项工作得到了意大利 MUR （ CUP ：E94I19000650001）。YG得到了CSC奖学金的支持。我们还感谢UniPD-DM和CAPRI集群的HPC资源，以及NVIDIA对本研究中使用的GPU捐赠的支持。最后，我们要感谢匿名评论者的宝贵意见和建议。引用[1] A. Bendale 和T.E. 博尔特走向开放世界的认可。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的论文集，第1893-1902页，2015年。一个112[2] A. Bendale和T.E. 博尔特开放深度网络。IEEE/CVF计算机视觉和模式识别会议（CVPR），2016年。一、二、六、八[3] G. 陈湖，澳 - 地 Qiao ， Y. Shi ， P. Peng ， J. Li ， T.Huang，S. Pu和Y.田具有可判别倒易点的开集网络学习。在proc 欧洲计算机视觉会议（ECCV），第507-522页，2020。二、六、八[4] J. Davis和M.戈德里奇查准率-查全率与ROC曲线的关系。国际机器学习会议（ICML），2006年。五个[5] Z. Ge，S. Demyanov和R.加纳维多类开集分类的生成式openmax。英国机器视觉会议（BMVC），2017年。二六七[6] C. 耿，S.J. Huang和S.尘开集识别的最新进展：一个调查。 IEEE Trans. on Pattern Analysis and MachineIntelligence（TPAMI），2020年出版。五、六[7] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的集，第770-778页1、6[8] G. E. Hinton，A. Krizhevsky和S. D.王.变换- ING自动编码器。国际人工神经网络会议（ICANN），2011年三个[9] L. P. Jain，W. Scheirer和T. E.博尔特基于包含概率的多类开集识别。欧洲计算机视觉会议（ECCV），2014年。2[10] P. R. M. 朱尼尔河M. 德苏萨河O. 韦内克湾诉斯坦D. V. Pazinato，W. R. de Almeida、O. A. B.佩纳提河S.Torres和A.Rocha 最近邻距离比开集分类器。MachineLearning，106（3）：359-386，2017. 二个[11] D. P.Kingma和M.威林自动编码变分贝叶斯。2014年，国际学习表征会议（ICLR）。三个[12] A.克里热夫斯基从微小的图像中学习多层特征。2009.五个[13] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在proc 神经信息处理系统进展（NeurIPS），2012年。一个[14] Y. Le和X.杨微型图像视觉识别挑战。2015. 五个[15] Y. LeCun和C.科尔特斯MNIST手写数字数据库。2010.五个[16] L. Neal，M.Olson，X.弗恩，W.-K. Wong和F.李用反事实图像进行开放欧洲计算机视觉会议（ECCV），2018年。二、三、五、六、七、八[17] Y. Netzer，T. Wang，中国山核桃A. Coates，A.比萨科湾Wu，和A. Ng.使用无监督特征学习读取自然图像中的数字。2011. 五个[18] H. H. Nguyen、J. Yamagishi和I。越前胶囊-法医：使用胶囊网络检测伪造的图像和视频。在 IEEE Int'lConference on Acoustics的Proc.中，语音和信号处理（ICASSP），2019年。二个[19] P. Oza和V. M.帕特尔C2AE：用于开集识别的类条件自动编码器。 IEEE/CVF计算机视觉和模式识别会议（CVPR），第2302-2311页，2019年。二、六、八[20] A.帕尼奥尼河 Liu和S. 李用于神经机器翻译的条件变分自动编码器。ArXiv，abs/1812.04405，2018。三个[21] P. 佩雷拉河谷I. 莫拉留河贾恩河曼朱纳塔角威金顿，V。Ordonez和V.M. 帕特尔开集识别的生成-判别特征表示。IEEE/CVF 计算机视觉和模式识别会议（CVPR），第11811-11820页，2020年。二五六八[22] J. 拉贾塞加兰河谷 Jayasundara ， S.Jayasekara ，H.Jayasekara，S. Seneviratne和R.罗德里戈Deepcaps：深入胶囊网络。在 proc IEEE/CVF Conf. 计算机视觉和模式识别（CVPR），2019年。二个[23] O.龙内贝格山口Fischer和T.布洛克斯U-Net：用于生物医学图像分割的卷积网络。在国际会议上。医学图像计算和计算机辅助干预（MICCAI），2015年。四个[24] S. Sabour，N. Frosst和G. E.辛顿胶囊之间的动态路由神经信息处理系统进展（NeurIPS），2017年。二、三、四[25] W. J. Scheirer，A. de Rezende Rocha、A. Sapkota和T. E.博尔特开集识别。IEEE Trans. on Pattern Analysis andMachine Intelligence （ TPAMI ）， 35 （ 7 ）： 1757-1772，2013. 一、二、三[26] W. J. Scheirer，L. P. Jain和T. E.博尔特开集识别的概率模型。 IEEE Trans·on Pattern Analysis and MachineIntelligence（TPAMI），36（11）：2317-2324，2014。二个[27] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。在国际学习表征会议（ICLR）的集，第1-14页，2015年。一个[28] X. 太阳，Z

下载后可阅读完整内容，剩余1页未读，立即下载