开集识别的分类-重构学习

191 浏览量更新于2023-10-17 收藏 838KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1开集识别的分类-重构学习吉桥亮太1少地你21东京大学文少1饭田诚1川上玲1内村武12Data61-CSIRO{yoshi，shao，rei，naemura}@ nae-lab.org，Shaodi. data61.csiro.au，iida@ilab.eco.rcast.u-tokyo.ac.jp摘要a) 现有的深度开集分类器（Openmax、G-Openmax、DOC）开集分类是处理训练数据集中不包含的“未知”类的问题存在-深网埃什基输入预测N +1方式类概率ing开放集分类器依赖于经过以下训练的深度网络：在训练中对已知类的监督方式深网b) 分类-重构学习集合;这会导致已学习表示输入重建开集识别（CROSR）已知的类，使它很难区分非-从已知的知识中。相比之下，我们训练网络来联合分类和重建输入数据。这增强了所学习的表示，以便保留对于将未知数与已知数分离以及区分已知数的类别有用的信息。我们新的开集y预测��˜z潜在变量。N +1方式类概率识别（CROSR）利用潜在表示进行重构，并在不损害已知类别分类准确性的情况下实现强大的未知检测。大量实验表明，该方法在多个标准数据集上的性能优于现有的开集分类器，并且对不同的离群值具有鲁棒性.1. 介绍为了能够部署到实际应用中，识别系统需要能够容忍在训练阶段没有预料到的未知事物和事件。然而，大多数现有的学习方法都是基于封闭世界假设的，也就是说，训练数据集被假设为包括出现在系统将被部署的环境中的所有类。在现实世界的问题中，这种假设很容易被违反，在现实世界中，覆盖所有可能的类几乎是不可能的[25]。闭集分类器对未知类的样本容易出错，这限制了它们的可用性[46，43]。相比之下，开集分类器[36]可以检测不属于任何训练类的样本。通常情况下，它们在某些特征空间中为训练样本拟合概率分布，并将离群值检测为未知值。对于代表样本的特征，几乎所有现有的深度开集分类器都依赖于通过完全监督学习获得的特征[3，10，40]，如图所示第1（a）段。怎么-图1.现有和我们的深度开集分类概述模型现有模型（a）仅利用其网络的最终预测y进行分类和未知检测。相比之下，在CROSR（b）中，训练深度网络以提供预测y和用于已知类内的重构z的潜在表示。开集分类器（右）由未知检测器和闭集分类器组成，利用y进行闭集分类，利用y和z进行未知检测。然而，它们是为了强调已知类的区别性特征，它们不一定对表示未知或区分未知与已知有用。在这项研究中，我们的目标是学习有效的特征表示，这些特征表示也能够对已知类进行分类来检测未知的异常值。关于我们不能事先假设的离群值的表示，添加无监督学习作为正则化器是很自然的，使得学习的表示获取一般重要但可能对分类给定类没有用的信息。因此，除了分类的监督学习之外，我们还利用重建的无监督学习。从网络内部的低维潜在表示重建输入样本是无监督学习的一般方式[16]。通过重建学习的表示在几项任务中很有用[50]。虽然之前有一些成功的分类重构学习的例子，比如半4016开集分类器未知探测器闭集分类器开集分类器未知探测器闭集分类器4017监督学习[31]和域适应[11]，这项研究是第一个将深度分类重建学习应用于开集分类的研究。在这里，我们提出了一个新的开集分类框架，称为开集识别的分类-重构学习（CROSR）。如图1（b），开集分类器由两部分组成：一个闭集分类器和一个未知检测器，两者都利用了深度分类重构网络。[1]当已知类分类器利用监督学习的预测y时，未知检测器使用重建的潜在表示z和y。这使得未知的检测器，以利用更广泛的池的功能，可能不是歧视性的已知类。此外，在监督深度网络的更高级别层中，输入的细节往往会丢失[50，6]，这在未知检测中可能不是优选的CROSR可以利用重构表示z来补充预测y中丢失的信息。为了同时提供有效的y和z，我们进一步设计了深度层次重建网（DHR-Nets）. DHRNets的关键思想是带校验的横向连接，这对于学习用于分类的丰富表示和用于联合检测未知量的紧凑表示非常有用。DHRNet使用潜在表示学习分类网络中每个中间层的表示，即，映射到低维空间，并且作为结果，它获得层次潜在表示。由于DHRNets的层次校验表示，CROSR中的未知检测器可以很容易地利用多层次异常因素，由于表示紧凑。这种检查是至关重要的，因为由于集中在球体上，离群值在高维特征空间中更难检测到[52]。现有的自动编码器变体，通过学习紧凑表示[51，1]来进行离群值检测是有用的，但无法承受大规模的分类，因为其主流中的瓶颈限制了分类的表达能力。具有DHRNet的CROSR对各种未知样本变得更加鲁棒，其中一些样本与已知类样本非常相似。我们在五个标准数据集上的实验表明，通过引用学习的表示可以补充通过分类获得的表示。我们的贡献有三个方面：首先，我们首次讨论了基于深度重构的表示学习在开集识别中的用途;所有其他深度开集分类器都基于已知类中的判别表示学习。第二，我们发展一种新的开集识别框架CROSR，它基于DHRNets，并使用它们联合执行已知分类和未知检测。第三，我们在五个标准中进行了开集分类的实验。[1]我们把对未知数的检测称为未知检测，把已知类的分类称为已知分类。dard图像和文本数据集，结果表明，对于已知数据和离群值的大多数组合，我们的方法优于现有的深度开集分类器。该守则将在本文件被接受后公布。2. 相关工作与已经研究了几十年的闭集分类[8，5，9]相比，开集分类一直被令人惊讶地忽视。关于这一主题的少数研究大多使用线性，核或最近邻模型。例如，威布尔校准的SVM [37]考虑未知检测的决策得分的分布。基于中心的相似性空间模型[7]通过它们与类质心的相似性来表示数据，以便收紧正数据的分布。极值机[34]使用基于极值理论的密度函数对类包含概率进行建模。开集最近邻方法[18]利用最近和第二最近类的距离比。其中，基于稀疏表示的开集识别[48]与我们共享基于重构的表示学习的思想。不同之处在于我们考虑深度表示学习，而[48]使用单层线性表示。如果没有特征工程，这些模型就不能应用于大规模的原始数据。深度开集分类器的起源是在2016年[3]，从那以后很少有深度开集分类器的报道。 G-Openmax [10] 是Openmax的直接扩展，通过生成模型使用合成的未知数据训练网络。然而，由于生成建模的困难，它不能应用于手写字符以外的自然图像DOC（深度开放分类器）[40，41]专为文档分类而设计，通过消除网络外部的离群值检测器并在网络中使用sigmoid激活来执行联合分类和离群值检测，从而实现端到端训练。它的缺点是S形不具有压缩衰减特性[37];也就是说，它们可能被来自所有训练数据的无限远输入激活，因此其开放空间风险没有限制。异常检测（也称为异常或新奇）检测可以作为未知检测器纳入开集分类的概念中。然而，离群检测器本身并不是开集分类器，因为它们在已知类中没有区分能力。一些用于异常检测的通用方法是判别模型的一类扩展，例如SVM [24]或森林[21]，生成模型，例如高斯混合模型[33]和子空间方法[32]。然而，最近的大多数异常检测文献都集中在将特定于手头任务的领域知识结合起来，例如来自视频的线索[47，15]，并且它们不能用于构建通用的开集分类器。4018我α=我i iΣN深度网络也被用于离群值检测。深度方法主要使用以无监督方式训练的自动编码器[51]，结合GMM [53]，聚类[1]或单类学习[29]。生成式对抗网络[12]可以通过使用其重建误差和鉴别器的判定来进行离群值检测[39]。x∈ K，在开集设置中，我们需要考虑x∈ K。这是通过用每个类别的包含概率校准AV来实现的：Openmaxi （ x ）为Softma xi （ y），（ 2）.yiwi（i≤N）Ssions。这种用法与我们使用潜在表征的用法不同。然而，在离群点检测中，联系我们i=1yi（1−wi）（i=N+1），与监督学习不同，网络并不总是绝对的赢家，因为网络需要以无监督的方式进行训练，因此效率较低。一些研究使用以监督方式训练的网络来检测不是来自训练数据分布的异常[14，20]。然而，他们的方法不能简单地扩展到开集分类器，因为他们使用输入预处理，例如对抗扰动[13]，并且这种操作可能会降低已知类的分类。半监督学习在包括域自适应的半监督学习设置中，重建可用作数据相关正则化器[31，23]。其中，梯网[31]就我们而言，与我们部分相似- 横向连接，除了阶梯网没有瓶颈结构。我们的工作旨在证明其中wi表示相信x属于已知的C类i. 这里，校准的激活向量防止Openmax对给出小w的离群值给出高置信度，即，不属于C i的未知样本。形式上，类CN+1表示未知类。p（x∈Ci）的使用可以理解为p（x∈Ci）的代理K），由于类间方差，这更难建模为了对类相似度p（x∈ K）建模，我们需要一个距离函数d（·，·）及其分布。距离测量数据点对每个类的亲和力统计-极值理论表明威布尔分布族适合于此目的[34]。假设d个内点遵循威布尔分布，则类相似性可以使用累积密度函数来表示，p（x∈Ci）=1−Rα（i）·Weibull CDF（d（x，Ci）;ρi）重构正则化子在开集分类中也很有用。然而，正则化器的用法有很大的不同; CROSR使用它们来防止表示，.= 1−Rα（i）exp−.d（x，C）miηi.（三）从过度专业化到已知类的句子，而半监督学习者使用它们来合并未标记的这里，ρi=（mi，ηi）是分布thatarederived命令iv e d.从类别Ci的训练数据，在其培训目标中。此外，在半-监督学习设置重建错误是COM-Rα（i）=max0，α−rank（i）是一种启发式校准器，在未标记的数据以及标记的训练数据上进行。在开集设置中，不可能计算任何未知数据的重建误差;我们只使用标记（已知）训练数据。3. 预赛在介绍CROSR之前，我们简要回顾一下Open- max[3]，现有的深度开集分类器。并介绍了有关的术语和符号。Openmax是Softmax的扩展。给定已知类的集合K={C1，C2，.，C N}和输入数据点x，Softmax定义如下：y=f（x），（1）p（C|x，x∈ K）=Softmax（y）=exp（xi），exp（x）在更有信心的类别中，折扣更大，由超参数α定义。rank（i）是按降序排序的AV中的索引。作为类相似性度量，我们使用AV与类均值的l2距离，类似于最近的非离群值分类[2]：d（x，C i）=|y− µi|二、（4）这给出了一个强简化，假设p（x ∈ C i）只取决于y。4.CROSR：开集识别的分类重构我们的CROSR设计是基于对Openmax的观察，配方：AVS 是不一定最好的表示建模类相似性JJp（x∈Ci）. 虽然在监督网络中的AV是操作-其中f表示作为函数的网络，y表示其最终隐藏层的表示，其维数等于已知类的数量。为了与[ 3 ]保持一致，我们将其称为激活向量（AV）。y4019Softmax专为封闭设置而设计，最小化以给出正确的p（Ci|x），不鼓励对x的信息进行编码，但不足以测试x本身在Ci中是否可能。我们缓解了这个问题，利用重构的潜在表示，编码更多关于x。40204.1. 具有潜在表示的开集分类为了能够在未知检测器中使用潜在表示来进行反射，我们扩展了Openmax类滤波器（等式2）。（1我们替换Eqn。1用于将主体网络f应用于已知的分类和重建：（y，z）f（x），p（Ci|x，x∈K）为 Softmaxi（y），（5）x~ 为g（z）。在这里，我们引入了g，这是一个解码器网络，只用于训练，通过重构使潜在表示z有意义。 x是x使用z的重构。这些方程对应于图1的左半部分。第1段（b）分段。网络而不是Eqn。4，CROSR认为y和z的联合分布是每个类的超球面：d （ x ， Ci ） =|[y ， z] −µi| 二、（6）这里，[y，z]表示y的向量的级联，并且z，μi表示它们在Ci类中的平均值。4.2. 深度层次重建网络在设计开集分类框架之后，我们必须指定函数形式，即，F. CROSR中使用的网络需要有效地提供预测y和潜在表示z。我们设计的深度分层重建网络（DHR-Nets）同时保持了已知分类中y的准确性，并提供了紧凑的z。为了进行概念解释，DHRNet从分类网络中的中间层的每个阶段提取潜在表示。特别是，它提取了一个自-一系列潜在表示z，z，z，...，z从多-除y外，还有用于离群值检测的有用因子，因为对于已知类分类，xl使用自编码器（b）是引入潜在表示进行重构的一种简单方法，但将其用于开集分类存在问题。深度自动编码器逐渐降低中间层x1，x2，x3，.，用于有效的信息压缩。这对于大规模闭集分类来说并不好，因为它需要所有层中的大量神经元来学习丰富的特征层次。LadderNet（c）可以被视为自动编码器的变体，因为它执行重构。然而，不同之处在于横向连接，通过该横向连接，xl的一部分流到重建流而没有进一步压缩。它们的作用是在细节-抽象分解[45]中;也就是说，Lad- derNet在主流中编码抽象信息，在横向路径中编码细节。虽然这对于开集分类是优选的，因为未知的外围因素可能在细节中以及在抽象中，但LadderNet本身并不提供紧凑的潜在变量。(d) 通过以紧凑表示z1，z2，.压缩横向流， z湖详细地，DHRNet的第l层表示为：xl+1=fl（xl），zl=hl（xl），（7）xl=gl（x<$l+1+h<$ l（zl））.这里，fl表示网络中的特征变换的块，即，在普通CNN中的下采样层或DenseNet中的密集连接块之间的一系列卷积层[17]。 hl表示操作的非线性降维，其由ReLU和卷积层组成，而h_l表示对原始维数xl的再现。这对hl和h_encode_l类似于自动编码r。gl是一个组合子，上向信息x_1+ 1和横向信息h_1（z_1）。1 2 3L阶段特征x1，x2，x3，...，xL. 我们把这些潜在的表征称为瓶颈。这种架构的优点是，它可以检测出隐藏在输入数据中，但消失在中间的推理链无关的因素。由于我们不能假设一个阶段，其中外围因素是最明显的，我们构建的输入向量为未知的检测器z通过简单地连接zl从层。这里，z1，z2，z3，...，zL可以被解释为分解因子以生成x。打个比方，使用分解的潜在表示进行未知检测类似于检修[26]机械产品，其中将x拆解为部分z1，z2，z3，.， zL，调查零件的异常情况，并将它们重新组装成xL。图2比较了现有架构和DHR-Net.大多数闭集分类器和Openmax依赖于监督的仅分类模型（a），虽然[30]研究了gl的函数形式，但我们选择使用逐元素求和以及后续卷积和ReLU层作为可能变体中最简单的形式。当将z1输入到未知检测器时，通过全局最大池化来减少空间轴以形成一维向量。这比使用平均池化（ average pooling ）或平均化（ averagepooling）的矢量化效果稍好。图3示出了这些操作，并且操作栈给出了图1所示的整个网络。第2段（d）分段。训练我们最小化来自已知类的训练数据中的分类误差和重建误差之和。为了测量分类误差，我们使用y的softmax交叉熵和地面真值标签。利用图像中的l2距离和文本中的单热词表示的交叉熵来度量x和x的重构误差请注意，我们不能使用4021拉克(a) 监督网(b) Autoencoder(c) LadderNet��˜2��˜1��˜0(d) 我们的：深度分层重建网络图2.（a）现有模型和（d）我们的模型的概念说明。斜纹宽×高×宽ConvzLW×H×nConv宽×高×宽未知探测器表1.所用网络的闭集测试精度尽管在LadderNet和DHRNet的训练目标中添加了重建项，但已知分类的准确性没有显著下降。池化编码器1×1×n解码器在完整的训练数据上训练，但在测试阶段，图3.使用卷积层实现深度分层在训练中使用未知类，并且仅使用已知样本来计算重建损失。整个网络是可微分的，可以使用基于梯度的方法进行训练。在网络经过训练并固定其权重后，我们计算Weibull分布以进行未知检测。实现我们的实现和[31]中的梯形网之间有一些更小的差异。首先，我们在中间层使用dropout而不是噪声添加，因为它会导致更好的闭集精度。其次，我们不惩罚中间层的重建误差。这使得我们能够避免中间层重建最初需要的“噪声”和“干净”层的单独计算。我们简单地说，我们的网络没有瓶颈;换句话说′其中hl和hl是恒等变换，如梯形变换。Net.对于实验，我们实现了各种骨干架构的LadderNet和DHRNet。5. 实验我们在五个标准数据集上试验了CROSR和其他方法： MNIST 、 CIFAR-10 、 SVHN 、 Tiny-ImageNet 和DBpedia。这些数据集用于闭集分类，我们以两种方式扩展它们：1）类分离和2）离群值添加。在类分离设置中，我们随机选择一些类，以便将它们用作已知。我们把剩下的作为未知数。在这种已用于开集文献[40，27]的设置中，未知样品来自与已知样品相同的区域。离群值添加是为分布外检测引入的协议[14];网络来自另一个数据集的离群值作为非-knowns这样做的好处是，我们可以在比原始数据集更大的数据多样性上测试分类器的鲁棒性。在任何情况下都不使用未知数的类标签，它们都被视为单个未知类。MNISTMNIST是最流行的手写数字基准。它有60，000张图像用于训练，10，000张用于测试，来自10个类。虽然在闭集分类中已经达到了接近100%的准确度[4]，但由于各种可能的离群值，MNIST的开集扩展仍然是一个挑战。作为离群值，我们使用了小灰度图像的数据集，即Omniglot，Noise和MNIST-Noise。Omniglot是来自各种语言字母表的手写字符的数据集。我们只使用测试集，因为只有在测试阶段才需要异常值。“Noise”是一组图像，我们通过从[0，1]上的均匀分布独立地对每个像素值进行采样来合成。MNIST-Noise也是一个合成集，通过将MNIST的测试图像叠加在Noise上制成图4显示了它们的示例。每个数据集有10，000张测试图像，与MNIST相同，这使得已知与未知的比例为1：1。我们为MNIST使用了七层普通CNN。它由5个卷积层组成，具有3×3内核和100个输出通道，其次是ReLU非线性。每两个圆锥体后插入步幅为2的最大池化层，旋转层在卷积层的最后，我们放置了两个完全连接的层，分别为500和10个单元，最后一个直接暴露给Softmax分类器。在DHRNet中，横向连接放在每次池化之后z2z1z0yzyy22��˜22��˜2211��˜11��˜1100��˜00��˜00MNISTC-10SVHN普通CNN仅受监督0.9910.9340.943LadderNet0.9930.928–DHRNet（我们的）0.9920.9300.945DenseNet仅受监督–0.944–DHRNet（我们的）–0.940–4022MNISTOmniglotMNIST-噪声噪声图4.来自MNIST和离群值集的样本图像。表2.在MNIST中，开集分类会将各种离群值作为未知值添加到测试集中。我们报告宏观平均F1分数在11个类（0 -9和未知）。分数越大越好。骨干网训练方法UNK检测器OmniglotMNIST噪声噪声普通CNN仅受监督Softmax0.5920.6410.826OpenMAX0.6800.7200.890LadderNetSoftmax0.5880.7720.828OpenMAX0.7640.8210.826DHRNet（我们的）Softmax0.5950.8010.829OpenMAX0.7800.8160.826CROSR（我们的）0.7930.8270.826表3.开集分类导致CIFAR-10。分数越大越好。骨干网训练方法UNK检测器ImageNet-cropImageNet-resizeLSUN-cropLSUN-resize普通CNN反事实[27]0.6360.6350.6500.648普通CNN仅受监督Softmax0.6390.6530.6420.647OpenMAX0.6600.6840.6570.668LadderNetSoftmax0.6400.6460.6440.647OpenMAX0.6530.6700.6520.659CROSR0.6210.6310.6290.630DHRNet（我们的）Softmax0.6450.6490.6500.649OpenMAX0.6550.6750.6560.664CROSR（我们的）0.7210.7350.7200.749DenseNet仅受监督Softmax0.6930.6850.6970.722OpenMAX0.6960.6880.7000.726DHRNet（我们的）Softmax0.6910.7260.6880.700OpenMAX0.7290.7600.7120.728CROSR（我们的）0.7330.7630.7140.731图5.拒绝阈值与F1评分的关系。这些图来自CIFAR-10和ImageNet-crop使用VGGNets的测试结果。表4. DBpedia的开放式文本分类结果。F1分数显示为各种训练/测试类比率。方法4/144/124/84/4DOC0.5070.5680.7330.985Softmax0.4600.5030.6620.988OpenMAX0.5320.5740.7290.986CROSR（我们的）0.5820.6270.7650.987层.潜在表示的维数zl都被固定在32。CIFAR-10CIFAR-10有50，000张自然图像用于训练，10，000张用于测试。它由10个类组成，每个类包含5，000个训练图像。在CIFAR-10中4023每个类具有通过颜色、风格或姿态差异的大的类内差异，并且最先进的深度网络在已知类内产生相当数量的分类错误。我们研究了两种类型的网络，普通的 CNN 和DenseNet [17]，一种用于闭集图像分类的最先进的网络。普通的CNN是为CIFAR重新设计的VGGNet [42]风格的网络，它有13层。这些层被分组为三个卷积块和一个全连接块。每个卷积块的输出通道编号为64、128和256，并且它们由两个，两个和四个卷积层具有相同的配置。所有卷积核都是3×3。我们将DenseNet的深度设置为92，增长率设置为24。潜在表征zl的维数都固定为32，与MNIST中相同。我们使用[20]从其他数据集收集的离群值，即，ImageNet和LSUN，我们调整或裁剪它们，使它们具有相同的大小2在[ 14 ]中使用的离群值集合中，我们没有使用高斯和均匀的合成大小集合，因为它们可以通过基线离群值去除技术很容易地检测到。每个数据集都有10,000张测试图像，这与MNIST中的相同，这使得已知与未知的比例为1：1。SVHN和TinyImageNetSVHN是10类数字照片的数据集，TinyImageNet是ImageNet的200类在这些数据集中，我们将CROSR与最近的基于GAN的方法[10，27]进行了比较，这些方法利用了未知的2URL：https://github.com/facebookresearch/odin网站。4024“3”监管+ Softmax监管+Openmax DHRNet+Openmax DHRNet+CROSR（我们的）“5”监管+ Softmax监管+Openmax DHRNet+Openmax DHRNet+CROSR（我们的）“亲爱的”Supervised +OpenmaxDHRNet +CROSR（我们的）“船”受监督+ Openmax DHRNet+ CROSR（我们的）较高置信度较高置信度图6. 可视化样本。采样数据点按每种方法的置信度得分排序红色框显示未知样本，青色框显示已知类别中的错误分类。左边的未知数越少，则表示鲁棒性越高。GAN合成的训练数据。比较中的一个问题是训练的不稳定性以及由此产生的训练数据质量的差异，基于GAN的机制，这可能会使比较变得困难[22]。因此，我们完全遵循[27]中使用的评估方案（每个数据集内的类别分离，五次试验的平均值，曲线下面积标准），并直接将我们的结果与报告的数字进行比较。我们的骨干网络与[27]中使用的骨干网络相同，由九个卷积层和一个完全连接的层组成，除了我们的解码部分如公式所示。7 .第一次会议。DBpediaDBpedia本体分类数据集包含14类维基百科文章，40，000个用于训练的实例和5，000个用于测试的实例。我们选择这个数据集是因为它在基于convnet的大规模文本分类文献中经常使用的数据集中具有最大数量的类[49]，并且便于进行各种类拆分。我们使用4个随机类作为已知类，4、8和10作为未知类，进行了具有类分离的开集评估。在DBpedia中，我们在以下基础上实现了DHRNet：一个浅而宽的convnet [19]，它有三个卷积层，其内核大小为3，4和5，其输出维度为100。文本分类convnet可以通过设置 W= （最大文本长度）和 H= 1 扩展到DHRNet。瓶颈的维度是25。我们还使用与我们相同的架构实现了DOC [40]，以便进行公平的比较。训练DHRNet我们确认可以通过使用联合分类重建损失来训练DHRNet。我们使用了SGD求解器，并在每个数据集中调整了学习率调度。我们将反射损失和分类损失的权重设置为相同的值1.0。原则上，重建误差的权重应该尽可能大，同时保持闭集验证精度，这将给出最正则化和拟合最好的模型。但是，我们使用默认值获得了令人满意的结果，并且没有进一步调整它们。表1列出了每个数据集的网络闭集检验误差。所有的网络都经过了训练，与原始网络相比，闭集精度没有任何大的下降。这个实验和后续的实验都是使用Chainer [44]进行的。Weibull分布拟合我们使用libmr库[38]来计算Weibull分布中的参数。它具有来自等式n的超参数α。3和尾部大小，用于定义分布尾部的极值的数量。我们使用[ 3 ]中建议的值，即α=10，尾长=20。对于MNIST和CIFAR-10，我们没有使用等式中α的秩校正。 3、既然由于类的数量较少，所以不能提高性能。对于CIFAR-10中的DenseNet，我们注意到Openmax在默认参数下的性能较差，因此我们将尾部大小更改为50。由于针对特定类型的离群值大量调整这些超参数是背道而驰的，出于处理未知数的开集识别的动机，我们没有针对每个测试集调整它们。我们在表2中显示了MNIST的结果，4025表5. CROSR与最近基于GAN的方法的比较[10]。方法/数据集MNISTSVHNTinyImageNetOpenMAX0.981 ±0.0050.894 ±0.0130.576G-Openmax0.984 ±0.0050.896 ±0.0170.580反事实0.988 ±0.0040.910 ±0.0100.586CROSR（我们的）0.991 ±0.0040.899 ±0.0180.589表3中的CIFAR-10和表4中的DBpedia。报告的值是已知类别和未知类别的F1分数[35]，阈值为0.5。除两种情况外，CROSR始终优于所有其他方法。具体而言，在MNIST中，当使用Omniglot或MNIST噪声作为离群值时，CROSR在F1评分方面优于Supervised + Openmax超过10%，而表6.具有不同未知检测器的MNIST的开集分类结果值越大越好。UNK检测器Omniglot噪声MNIST噪声监督+–ℓ-OCSVM0.6800.6470.8900.8990.7200.919DHRNet +–ℓ-OCSVM-IsoForest0.7930.7020.6490.8260.9790.9080.8270.9760.839表7.模型的运行时间（毫秒/图像）。在批量= 1的CIFAR-10中测量时间。方法/架构普通CNNDenseNetSoftmax9.363.2OpenMAX11.769.4CROSR（我们的）16.572.4它稍微低于噪音，最简单的离群值。CROSR的表现也优于或与更强的基线LadderNet + Openmax和DHRNet +Openmax一样好。在CIFAR-10中，不同阈值的结果也如图所示。5，其中很明显，CROSR优于其他方法，无论阈值。有趣的是，带有Openmax的LadderNet的性能优于仅受监督的网络。例如，LadderNet-Openmax在MNIST-vs-Omniglot 设置中获得了 8.4% 的 F1 分数增益，在MNIST-vs-MNIST-Noise设置中获得了10.1%的增益。这意味着使用重建损失的正则化对于未知检测是有益的;换句话说，在已知类别中使用监督损失并不是训练开集深度网络的最佳方法。然而，在自然图像数据集中，通过仅将重建误差项添加到训练目标中没有任何增益。这意味着我们需要通过采用DHRNet以更明确的形式使用网络中的重建因素。对于DBpedia，CROSR优于其他方法，除了当训练/测试类的数量为4/4时，这相当于闭集设置。虽然DOC和Openmax的表现几乎不相上下，但在该数据集中，CROSR相对于Openmax的改进也很明显。与基于GAN的方法的比较表5总结了我们和基于GAN的方法的结果。我们的方法在MNIST和Tiny-ImageNet中优于所有其他方法，在SVHN中除了Counterfactual之外。虽然相对的改进在误差线的范围内，但这些结果仍然意味着我们的方法，它不使用任何合成的训练数据，可以与最先进的基于GAN的方法相提并论或略好。与异常探测器相结合，研究如何更有效地利用潜在表示，我们取代了等式中的l26、一个学习者。我们使用了最流行的一类SVM（OCSVM）和隔离森林（IsoForest）.为了简单起见，我们使用scikit-learn中的默认超参数[28]。结果示于表6中。结果表明，OCSVM在合成离群值中的F1评分增加了15%以上，而在Omniglot中则降低了9%。虽然我们没有找到一个异常检测器，可以始终如一地提高所有数据集的性能，但结果仍然令人鼓舞。结果表明，DHRNet编码更多有用的信息，而这些信息没有被基于每个类质心的离群点建模充分利用。可视化图6显示了来自已知和未知类的测试数据，按公式计算的模型最终置信度排序。3 .第三章。在这个图中，高阶的未知数据意味着模型被这些数据欺骗了。很明显，我们的方法对未知样本的置信度较低，并且它们只被与内点具有高度相似性的样本欺骗。运行时间尽管我们对网络进行了扩展，CROSR图7显示了在单个GTX Titan X图形处理器上计算的运行时间。计算潜在表示的开销小到3-6. 结论我们描述了CROSR，这是一种通过潜在表示学习进行重建的深度开集分类器。为了增强潜在表示对未知检测的可用性，我们还开发了一种新的深度层次重建网络架构。在多个标准数据集上进行的综合实验表明，CROSR在大多数情况优于以前最先进的开集分类器。确认这项工作部分得到了 JSPS KAKENHI 资助项目 JP18K11348和资助JSPS研究员JP 16J04552的支持作者在此感谢Dr.阿里·豪塔萨里（Ari Hautasaari）为改进手稿提供了4026引用[1] Caglar Aytekin，Xingyang Ni，Francesco Cricri和EmreAksu。使用L2归一化深度自动编码器表示进行聚类和无监督异常检测InIJCNN，2018.二、三[2] Abhijit Bendale和Terrance Boult。走向开放世界的认可。在CVPR，第1893-1902页，2015年。3[3] Abhijit Bendale和Terrance E Boult。开放深度网络。在CVPR，第1563一、二、三、七[4] DanClaudiu Cires Rupan ， Ueli Meier ， Luca MariaGambardella，andJ ür genSchmidhube r.用于手写数字识别的深度、大型、简单的神经网络。 Neuralcomputation，22（12）：3207-3220，2010. 5[5] 科琳娜·科尔特斯和弗拉基米尔·瓦普尼克支持向量网络。Machine learning，20（3）：273-297，1995. 2[6] Alexey Dosovitskiy和Thomas Brox用卷积网络反转视觉在CVPR中，第4829-4837页，2016年。2[7] 葛丽飞和刘冰打破文本分类中的封闭世界在NAACL-HLT，2016年。2[8] 罗纳德·A·费舍尔税收经济问题中多重测度的应用Annals of eugenics，7（2）：1792[9] Yoav Freund和Robert E Schapire。在线学习的决策理论推广及其在boosting中的应用。Journal of Computer andSystem Sciences，55（1）：119-139，1997. 2[10] ZongYuan Ge ， Sergey Demyanov ， Zetao Chen ， andRahil Garnavi. 多类开集分类的生成 OpenMax 。BMVC，2017年。一、二、六、八[11] Muhammad Ghifary ， W Bastiaan Kleijn ， MengjieZhang，David Balduzzi，and Wen Li.深度重建-用于无监督域自适应的分类网络参见ECCV，第597施普林格，2016年。2[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，第2672-2680页3[13] 伊恩 ·JGoodfellow ， Jonathe Shlens ， and ChristianSzegedy.解释和利用对抗性的例子。2015年，国际会议。3[14] 丹·亨德里克斯和凯文·金佩尔。用于检测神经网络中错误分类和分布外示例在ICLR，2017。三五六[15] 日南亮太桃美佐藤真通过学习深度通用知识联合检测和叙述异常事件在ICCV，第3639-3647页，2017年。2[16] Geoffrey E Hinton和Ruslan R Salakhutdinov.用神经网络降低数据的维数。Science，313（5786）：504-507，2006. 1[17] Gao Huang ，Zhuang Liu，Laurens Van Der Maaten ，and Kilian Q Weinberger. 密集连接的卷积网络。CVPR，第1卷，第3页，2017。四、六[18] PedroRMendesJu'nior，RobertoMdeSouza，RafaeldeOWerneck ， BernardoVStein ， DanielVPazinato ， Waldir RdeAlmeida ， Ota' vioABPenatti ，RicardodaSTorres，and安德森 · 罗查最近邻距离比开集分类器。 MachineLearning，106（3）：359-386，2017. 2[19] 金允。用于句子分类的卷积神经网络在EMNLP，2014年。7[20] Shiyu Liang，Yixuan Li，and R Srikant.提高神经网络中分布外图像检测的在ICLR，2018年。三、六[21] 刘飞、丁启明、周志华。与世隔绝的森林国际数据挖掘会议（ICDM），第413-422页。IEEE，2008年。2[22] Mario Lucic 、 Karol Kurach 、 Marcin M

下载后可阅读完整内容，剩余1页未读，立即下载