改进卷积神经网络用于场景识别的专家层次结构和全局有序无序表示方法

176 浏览量更新于2023-10-13 收藏 1.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于场景识别Hyo Jin Kim和Jan-Michael Frahm北卡罗来纳大学教堂山分校计算机科学系{hyojin，jmf}@ cs.unc.edu抽象。我们介绍了一种改进卷积神经网络（CNN）用于场景分类的方法。我们提出了一个层次的spece-cialist网络，解开类内的变化和类间的相似性，在一个粗略的精细的方式。我们的关键见解是，一个类内的每个子集往往与不同类型的类间相似性。这表明，现有的专家网络的方法，将类组织成粗糙的类别是次优的。相比之下，我们根据高级外观特征而不是其类别成员资格对图像进行分组，并为每组提供专业模型此外，我们提出了一个交替的架构，一个全球有序和全球无序的表示，占两个粗糙的场景和瞬态对象的布局。我们证明，它会导致更好的性能比使用单一类型的表示，以及融合的功能。我们还介绍了一个小批量软k-手段，允许端到端的微调，以及一个新的路由功能分配图像的专家。实验结果表明，所提出的方法实现了显着的改善基线，包括现有的树结构的CNN与基于类的分组。关键词：深度学习·专家层次结构·场景识别1介绍准确地识别图像中的背景（例如，海滩、山脉、糖果店）是计算机视觉中的重要任务，因为它为我们提供了关于场景中正在发生的事情的强上下文信息。需要解决的主要挑战是严重的类内变异和类间相似性。不仅在一个场景中存在许多视觉上不同的实例，而且在另一个场景中存在许多视觉上不同的实例。G. Notre-DameddeParisvs. 将B设置为D处的C），但是该区域也是不同场景类别（例如，场景B）之间的显著视觉重叠。机场与现代化的火车站）。已经提出了几种方法来通过设计或学习更好的视觉特征来解决这个问题[8，9，18，45，50，59]。较新的端到端深度神经网络能够实现最先进的分类精度[1，63]。然而，随着类的数量增加，当类在视觉上变得几乎不可区分时，越来越难以找到独特的表示[40]。降低表示的2H. Kim和J.Frahm……厨房浴室卧室托儿所……厨房酒吧餐厅烘培同一类不同类厨房混淆簇厨房厨房浴室厨房厨房酒吧Fig. 1. 类内变化和类间相似性的示例。虽然地柜和酒吧的特点厨房类，他们造成重叠与其他类类似的家具。图二. 每个类别中的图像子集经常与其他类别的图像子集混淆。我们发现在特征空间中的混乱的集群，以解开类内的变化和类间的相似性。可以帮助减少类间相似性。然而，这些元素有时是区分一个类与其他类的关键1.一、因此，处理这个问题的一个明智的方法是应用分治策略[48]将不同的CNN专用于可分离的子问题。现有的方法将类组织成粗略的类别，或者基于语义层次[12，15，22，58]，或者基于经训练的分类器的混淆矩阵[53，57]。然而，我们观察到存在类内外观变化的多个模式，并且这些模式中的每一个通常导致与类别的不同子集的重叠。如图所示2、一些带有橱柜的厨房图像可能会与带有类似家具的浴室或卧室混淆，而其他显示用餐区的厨房图像很容易被误认为是酒吧或餐厅。在这种情况下，将整个厨房类与整个浴室或餐厅类分组到粗略类别中是次优的。相反，将易混淆的图像分组在类别级别之下会更有效，例如具有类似家具的不同类别的图像，如图1B所示。二、因此，我们的目标是识别这种混乱的集群的图像在一个粗略的精细的方式的基础上，高层次的外观。其核心思想是通过限制类内变异，将类内变异和类间相似性分开每个集群。由于减少了类内变化，专家模型可以专注于发现集群中类别之间的细微差异。到为此，我们引入了一个专家交替层次模型，该模型在无监督发现易混淆聚类的基础上，自动建立一个专家层次网络。对于给定的专家CNN，我们通过在其父模型的特征空间中执行聚类来找到其对应的混淆聚类，该父模型处理更一般的任务。这将对视觉上相似且可能被父模型混淆的图像进行分组。为了将图像分配给层次结构中的模型，我们提出了一个简单的路由函数，该函数仅调用整个树中的一小部分模型用于输入图像。……用于场景识别3另一方面，我们注意到空间布局和场景中的对象是场景分类的互补特征（图1）。4）.这看起来很自然，因为场景类别通常由人类在特定空间环境中使用对象的方式确定。例如，房屋中的不同房间通常在结构上类似于墙壁、门和窗户。然而，诸如沙发、书籍和餐具之类的物体决定了它们作为起居室、办公室或餐厅的功能另一个值得注意的事实是，对象不一定保持相同的配置。为了解释这个事实，我们在模型中使用了两种不同类型的表示：一个是鲁棒的瞬态局部视觉元素，和其他保留空间布局。特别是，我们提出了一个交替的架构，其中一个专家的架构交替两个表示的基础上，其在层次结构中的水平。我们表明，它实现了更好的性能比融合的功能，以及与一个单一类型的表示层次模型。总的来说，我们的创新如下：（1）我们提出了一个层次化的一般专家模型，该模型以从粗到细的方式基于混淆聚类的非监督发现自动构建自身。混淆集群允许专家专注于在视觉上相似并且与其父母混淆的图像之间的细微差异。我们通过实验验证了我们的方法显着优于基线，包括基于粗类别的树结构CNN。(2)我们提出了一种新的交替architec- ture，有效地利用两个互补的表示，捕捉空间布局和瞬态对象。作为小的创新，我们引入了一种新的路由功能，以及小批量软k-手段端到端的微调。除了详细的创新之外，我们提出的算法可推广到其他分类任务，并且适用于任何CNN架构。2相关工作我们的方法采用专家分层混合方法[7，23]，其中树结构中的每个专家学习处理输入空间的分割。鉴于深度神经网络的最新进展，许多研究人员重新审视了各种识别任务的概念[4，21，46，53]。特别是，我们的方法采用了通才和专家模型的工作Hinton等人。[21]，这类似于专家的混合，在这个意义上，每个专家专注于类的易混淆子集，但它有一个通才，负责不被专家处理的类。它也不需要训练门控函数，允许模型并行训练。定义专业领域可以使用预定义的语义层次结构来完成[11，15]，但在这项工作中，我们专注于无监督方法[2，37，53，57]。Yan等 [57] Murthy et al.[37]使用训练分类器的混淆矩阵将类别分组为粗略类别。Ahmed等[2]随机初始化类的分组在迁移学习的背景下，Srivastava和Salakhutdinov [46]采用贝叶斯方法将类组织成树层次结构。4H. Kim和J.Frahm然而，所有这些方法分区的输入空间分组categories，而我们的方法分区的特征空间，捕捉高层次的外观信息，无论类成员资格，基于观察，有视觉上截然不同的子类内的每个类。这也使我们的方法免于由于严重的类间相似性和类内外观变化而导致的专业错误分类的风险，其中使用基于类的分组的方法无法恢复[2，37，53，57]。此外，我们的方法在测试过程中只调用有限数量的模型，这导致了显着的计算效率比现有的方法。与组织多个CNN模型相比，已经努力在树结构中分离单个CNN的视觉特征[3，26，31，36，42]。这对于并行和分布式学习特别有用，如Kim等人所示。[26]，其中自动发现不相交的特征集以及不相交的类集。在相同的精神并行化，但在更大的规模，格罗斯等人。[16]处理不适合存储器的专家模型的混合与他们的工作类似，我们学习的子模型在特征空间中是局部的，图像到模型的分配由图像到相应子模型聚类中心的距离确定作为计算机视觉中的基本问题之一，在场景分类方面已经做了大量工作[17，25，30，38，41，51，55，56，62]。我们的工作与最近尝试利用场景内的对象信息有关[10，13，14，20，52，63]。然而，我们没有使用预先训练的网络显式地检测对象，也没有离线执行严格的聚类来找到这样的视觉元素[24，54]。相反，我们让网络在端到端训练过程中通过网络架构捕获这些信息，该网络架构考虑了可以在场景中自由移动卷积特征的全局无序池化通过这种方式，高级卷积滤波器的性能类似于对象检测器[6，60]。此外，我们还利用了全局有序池化表示，它保留了粗略的空间信息[35]。3方法我们首先描述了我们提出的层次结构的专家交替architec-tureinSec。第3.1条我们将如何使用数据转换器，具体而言，是在第二节中以无监督方式执行的扩展。3.2. 最后，我们描述了学习目标以及第二节的整体培训程序。三点三3.1交替专家我们提出了一个层次版本的通才-专家模型[21]，其中儿童专家专注于比其父母更具体的任务。为了实现这一点，我们从一个通才模型开始，然后在当前级别达到收敛后，在层次结构的下一级中逐步添加专家模型。我们初始化一个新的专家与其父，或最近用于场景识别5输入图像水平0Lev 1Lev 2地铁海滩洗衣店胰岛机场河店面山图三. 交替专家的层次结构。白色和蓝色框表示具有不同全局池化策略的网络架构分配的形象，年龄的模型是由我们的路由功能，描述为开关。图4.第一章（顶部）相似的布局使这些场景混淆，但其中的不同对象可以帮助确定正确的场景类。（底部）当场景在内容方面相似时，它们的布局可以帮助区分它们。由于它们编码了类的重要共性，因此它们保留了两个类的知识。请注意，专家模型输出与通才模型相同的类别集的预测。专家将继承的模型细化到更精细的细节，以区分属于其专业的图像的类别。总体架构如图1B所示。3.第三章。算法停止扩展层次结构时，有没有进一步的改进，或者如果网络达到预先指定的最大深度。在本文中，我们使用一个二叉树结构，每个父模型有两个子模型。该树中的每个模型共享低级别层以提高计算效率。我们设计这个层次结构的专家有一个交替的架构，使专家在每个级别有一个不同的模型架构比他们的父母或孩子。特别是，我们使用的全球有序池架构捕捉场景的粗糙的几何形状，和全球有序池架构捕捉瞬态视觉元素，如对象。其核心思想是场景布局和场景中的对象是互补的场景分类。对象通常可以消除属于具有相似布局的不同类别的两个图像的歧义，而场景布局可以帮助区分共享相同对象的两个图像（图12）。4）.这两种架构彼此不同之处在于它们如何在用于类预测的完全连接层之前将最后一个卷积层中的特征池化。首先是全局有序池化架构，其中无序池化操作（即，最大或平均池化）仅在局部空间窗口内执行，如AlexNet [29]和VGG [44]。因此，该表示保留了粗略的空间信息。第二种是全局无序池化架构，其中卷积特征通过全局平均池化，全局最大池化或VLAD [5]进行池化，如NIN [32]和ResNet [19]架构。通才专家0Specialist 1专家00 01 10 11……………6H. Kim和J.Frahm1，τ这对于编码诸如对象的局部视觉元素具有高度的不变性，类似于广泛采用的词袋表示。我们的模型使用原来的池策略的基础架构的通才在根节点，并交替在两个架构之间的所有其他元素，我们的树结构。为了将一个架构与另一个架构进行转换，我们可以用全连接层替换全局平均池（全局无序→全局有序），或者用全局平均池替换全连接层（全局无序←全局有序）。路由：为了决定层次结构中的哪个模型应该处理输入图像，我们使用了一个简单的路由函数，灵感来自SIFT比率测试[34]。这个想法是让父处理图像，除非图像具有良好的存储器。我们将查找到的函数用于生成k-维的所有向量γ，其中k是最小值的子节点，且iγi≤1。γi= 1表示路由第i个孩子是有效的。在当前节点fp的特征空间中，给定其childs' c或r e s pon d i n g c o n f u s i n g cluster（S e c. 3.第三章。2）cerntroidsµk，我们计算输入图像I与其最近质心µ i之间的距离，其中i =argmin ||f p（I）− µk||. 我们还计算第二个最近的质心μ j。然后我们K求两个距离的比值。如果比率小于阈值τ，则图像被分配给子节点i。否则，将图像分配给当前节点（等式10）。①①）。然后，在子节点i处执行相同的路由过程。路由函数的决策边界由两个A点组成，其中f个点是最小和最小的[ 4]。.γitrain（I）=||fp(I)−µi||||fp（I）−µj||0，否则（一）在测试过程中，我们根据父节点和其子节点之间预测的相对置信度设置了一个额外的直观地说，对于那些在孩子的专业范围内的图像（γitrain（x）= 1），当孩子模型的置信度大于给定图像的父模型的置信度时，我们相信孩子的预测作为我们的答案。否则，我们接受父模型的版本，并将该子模型的版本视为不可靠。.γi试验（I）=1、γ itrain（I）∧（conf i（I）>conf p（I））0，否则、（二）其中conf t（I）= max P（c|I，θ t）。由于计算到聚类的距离C在每一级的父模型的特征空间中，需要调用的模型的总数是N1+1，其中N1是所选模型的层次级别（对于通才，N1该过程也可以并行计算，但需要调用的模型数量较少（Sec. 4.第一章（七）.3.2发现困惑我们希望根据输入数据的高级外观特征而不是分类来划分输入数据，从而允许属于用于场景识别7同一个类落入不同的集群。我们的关键见解是每个子集在一个类内的相似性通常与不同类型的类间相似性相关联。我们在父模型的特征空间中执行聚类以发现混淆聚类，即视觉上相似并且可能被父模型混淆的图像组。这可以被解释为解开类内变化和类间相似性，因为所得到的集群具有有限的类内变化，并且子模型可以专注于找到集群内每个类别之间的细微差异。此外，由于我们的交替架构，我们获得了令人困惑的集群，这些集群在场景布局方面都令人困惑，瞬态场景对象，因为我们在层次结构中走得更深集群功能：来自父模型的倒数第二层的特征编码父模型所感知的高级外观。另一方面，来自最后一个全连接层的特征直接通过父模型对类得分进行编码。这两个嵌入空间中的图像的距离指示它们被父对象区分的可能性。在我们测试的数据集中，这些嵌入的组合产生了比单独使用它们中的每一个更好的结果。在实验中，除非另有说明，否则我们使用组合特征报告结果。增量硬群集：如第3.1中，我们以增量方式构建我们的分层模型，其中下一分层级别中的模型在其父模型收敛时被添加因此，我们通过对收敛父模型的特征执行硬k一旦用这些集群初始化，我们可以使用下面描述的软k均值层进一步端到端地微调它们。用于微调的软k均值层：我们建议使用基于小批量的软k-均值，允许端到端的微调。对于每个模型θ，我们通过反向传播更新质心µk，以优化以下目标函数：ΣKΣNL簇（θ，μ;Ii）=wikfθ（Ii）−µk2，（3）哪里k=1i=12e−mfθ（Ii）−µkwik=Kk=1第二条、第四条e−mfθ（Ii）−µk并且fθ（Ii）表示小批量中的图像表示。参数m决定属于集群k的xi的成员关系wik的软度。我们将m设置为1/（8σ2），其中σ是到聚类中心的标准差的平均值，这是在硬k均值聚类期间计算的。3.3培训分类损失：由于我们允许属于同一类的样本处于不同的聚类中，这可能会在专家的训练集中引入类不平衡。因此，我们用类似于[33]的反转文档频率来权衡交叉熵损失。这更好地说明了代表性不足的阶层8H. Kim和J.Frahm在集群内。我们将倒排的文档频率计算为运行平均值，以允许聚类引起的变化。L类（θ;x）=− Σ。NΣ日志中国log（P [c|x，θ]）（5）培训目标：我们的最终训练目标包括聚类损失和分类损失，如下所示：L总（θ;x）=Σd∈DL类（θd;x）+ Σd∈D，d∈/LL簇（θ d; x）。（六）D和L分别表示层级中的所有节点和叶节点的集合实施详情：共享低级层和父层的参数保持冻结，直到整个网络的微调阶段。由于专家模型的架构在层次结构中的级别之间交替我们使用ImageNet上预训练的模型初始化我们的基础模型，然后在目标数据集上对其进行微调，但在CIFAR-100上的实验中有一个例外，其中基础模型从头开始训练，直到其准确性达到[3，57]中报告的相同模型的性能。混淆簇的数量K被设置为2。路由函数的阈值τ根据经验选择为0。96.我们使用随机梯度下降的优化。部署学习率为0。001，并且当损耗平稳时减小10倍为了对抗过拟合，应用了随机裁剪，缩放，纵横比设置[47]和颜色抖动[49]等数据增强技术。我们使用的图像分辨率为224 ×224。我们的模型是使用PyTorch实现的[39]。4实验我们进行定量比较，以评估我们的方法及其组件（第二节）。4.第一章2- 4 （3）第三章。为了与其他树结构网络进行直接比较4. 4）. 然后，我们展示了感兴趣的区域是如何改变的专家相比，通才（第二节）。4.第一章（五）。我们还可视化了学习的层次结构，这定性地验证了我们基于特征的分组的前提（Sec.4.第一章（六）。4.1数据集和评价方法数据集：我们在广泛使用的SUN数据库上进行了实验[55]。此数据集中场景类别的原始数量为397。然而，大多数类别仅包含大约100个示例图像。为了缓解潜在的过拟合问题，我们创建了SUN-397[55]的一个子集，即（1）SUN- 190数据集，它由包含至少200个示例的类组成总共产生48 K图像继Agrawal等人[1]，我们随机划分数据用于场景识别9用于培训、测试和验证，比例分别为60%、30%和10%。我们使用这个数据集进行全面的研究，因为它的大小允许我们评估各种设计选择。我们还在另一个公开可用的数据集上进行了实验，（2）Places-205数据集[63]，其中包含250万张图像。对于Places-205数据集，我们将验证集视为测试集。最后，为了与现有的树结构网络进行比较，我们还报告了我们在（3）CIFAR-100数据集[28]上的结果，这是一个标准的图像分类基准，总共包含60 K图像。评价指标：根据标准协议[1，63]，我们报告一个-与-所有分类准确度在所有类别上平均。我们报告了SUN-190和Places-205 [63]的top-1准确度和top-5准确度，以及CIFAR-100数据集的top-1准确度[28]。在我们所有的实验中，用于评估的测试图像被调整大小为224× 224的分辨率，并且我们执行单视图测试，即，没有进行多次作物的平均[1，29，63]。基础模型：在SUN-190和Places-205 [63]数据集上，我们使用AlexNet*[27]作为我们的基础模型，这是原始AlexNet [29]的精简版本。我们让专家与通才的低层共享参数，直到conv4。对于全局有序表示，我们按原样使用AlexNet*对于全局无序表示，我们将AlexNet* 的层保持到conv5，并添加一个带有768个3× 3过滤器的conv6层，全局平均池化层在conv6和fc7之间。在CIFAR-100 [28]数据集上，NIN-C100 [32]被用作我们的基础模型。它被用作全局无序表示。对于全局有序表示，全局平均池化层被替换为两个全连接层，每个全连接层具有1024和100维输出。4.2场景分类结果为了评估我们的前提，即在混乱的集群上训练的专家比在粗糙的类别上训练的专家更好，我们与一个网络进行了比较专家们基于粗略的分类。特别是，我们比较了类似于HD-CNN [57]的两级分层模型，但以AlexNet* [27]（HD-CNN*）作为与我们的方法进行公平比较的基线。对于这种基线方法，对类别预测的协方差矩阵进行谱聚类在[21]中发现易混淆类别组的通才模型。最终的预测是使用预测的加权平均值进行的，如[57]所示。对于这个模型，我们用不同数量的2、4和8个集群进行了实验。此外，我们比较了我们的方法与一个简单的集成模型，其中模型是用不同的初始化和预测来训练的平均。我们还报告了经过微调的单个AlexNet* 的性能[27]模型，这也是我们在层次结构的根处的通才模型在表1中，我们将我们的性能与SUN-190数据集上的上述基线进行了比较。我们所有的模型都优于基线，其中我们的最佳模型具有3级层次结构，对于 Top-1 预测的分类准确率为我们所提出的模型consistently的性能提高，因为我们增加了层次结构中的级别的数量与此相反，10H. Kim和J.Frahm表1. Sun-190数据集上的场景分类精度。所有比较模型均基于AlexNet* [27]。统计数据基于单视图测试。(Lev：层次级别，K：聚类的数量，N：集合的数量方法Top-1 Top-5方法Top-1 Top-5提出Lev 166.1389.66AlexNet*[27]（已订购）水平063.4689.18Lev 266.3789.85AlexNet*-无订单水平061.7988.14利未记366.41 89.96融合水平064.4589.36K= 263.1188.81型号1：Lev 1 64.0289.27美国有线电视新闻网[57]K= 463.6287.64全局有序Lev 2 64.3389.44K= 863.6584.08仅合并利未记364.4389.48N= 264.1989.47模型二：Lev 1 62.7188.54简单合奏N= 464.6689.72全局无序Lev 2 63.1488.76N= 864.9989.96仅合并利未记363.0888.69HD-CNN* 在Top-1准确度方面仅具有边际改进，而Top-5准确度随着集群数量的增加而下降。这证明了我们的模型在发现图像数据的正确分层组织方面的有效性，同时克服了传统树结构模型中固有的类内变化问题。我们还观察到，虽然我们的模型实现了很好的平衡集群，谱聚类导致每个粗类别的类的简单的合奏也不如我们的方法，输出一个单一的专家模型的预测。我们还在表2中显示了Places-205 [ 63]数据集上的场景分类性能。我们的方法在Top-1准确度上比基础模型提高了2.87%。类似于在SUN-190中，我们观察到所提出的模型的准确性随着我们增加层次结构中的级别的数量而增加4.3交替架构表1和表2分别显示了SUN-190和Places-205数据集的全局有序池化（AlexNet* [27]）和全局无序池化（AlexNet*-Orderless）架构的性能。这两种模型实现了类似的准确性，而全球有序池表现出略好的性能。同时，正确预测的IoU为78.1%（总体预测重叠率为73.2%）。这在数量上验证了我们的假设，即两种表示是互补的。我们还评估了融合特征的性能，一个是在最后一个完全连接的层之前连接两个表示的早期融合，另一个是对两个架构的预测进行平均的后期融合。早期融合没有产生有竞争力的分类精度。另一方面，后期融合（表1和表2中的融合）实现了比单独使用每个表示更好的性能，然而，没有达到我们提出的交替架构的分类精度用于场景识别11表2.使用单视图测试的Places-205 [ 63 ]数据集上的场景分类精度所有模型都基于AlexNet*[27]。表3. CIFAR-100上的图像分类精度与单视图测试。所有型号均基于NIN-C100 [32]。方法Top-1 Top-5AlexNet*[27]（已订购）水平048.6779.24提议：Lev 1 50.2179.82交替Lev 2 51.4280.67架构利未记351.54 80.76型号1：Lev 1 49.9980.09全局有序Lev 2 50.2180.30仅合并利未记350.2880.26AlexNet*-无订单水平048.1978.23模型二：Lev 1 48.9979.01方法Top-1NIN-C100[32]（无订单）水平064.73提议：Lev 1 67.32交替Lev 2 67.61架构利未记367.70型号A：Lev 1 66.92全局无序Lev 2 66.70仅合并利未记366.62NIN-C100-已订购水平064.67型号B：Lev 1 65.64表4.与CIFAR-100上其他树结构模型的比较[28]。所有型号均基于NIN-C100[32]。精度基于单视图测试。方法层次结构水平#型号选择#型号选择型号数量调用准确度（%）NIN-C100 [32]011164.73提出131第167.32271167.613151167.70美国有线电视新闻网（CNN）1991065.64NofE [2]1101265.91BranchConnect [3]11011066.1051066.45此外，在表1和表2中，我们比较了我们的方法的其他版本-没有交替架构的专家层次结构，也就是说，只使用一种类型的表示。特别是，我们报告的结果模型1，使用全球有序池架构，模型2与全球有序池-ING架构。这两个模型都使用与我们提出的模型相同的训练协议进行训练。虽然我们提出的模型与其交替的架构的性能我们怀疑，这是由于这样的事实，即我们的交替架构是更好地产生混乱的集群，在粗糙的空间布局和场景中的对象，通过使用两种不同类型的功能集。为了证明观察结果适用于其他网络，我们使用NIN-C100 [32]架构在CIFAR-100 [28]上重复了相同的实验。3. 与具有全局有序池化架构的AlexNet* [ 27]不同，NIN-12H. Kim和J.Frahm（b）第（1）款（d）其他事项（一）（c）第（1）款输入图像通才专家输入图像通才专家图五. （左）输入图像和地面实况类别。通才（中）和所选专家（右）的前5个预测和前5个预测类别的类别激活图（CAM）(See补充资料以获得更多结果。）默认情况下，C100 [32]具有全局无序池架构。我们观察到，我们的交替架构明显优于其他策略。A型车和B表示具有单一类型的表示的专家的层次结构，分别使用全局无序池和全局有序池4.4与CIFAR-100上现有的树结构CNN的比较为了与其他树结构网络进行直接比较，我们在表4中显示了我们的架构对CIFAR-100 [ 28]数据集的图像分类任务的结果。我们与HD-CNN [57]，NofE [2]和BranchConnect [3]进行比较。所有这些方法都训练他们的专家在粗糙的类别（基于类的组-ing），而我们的方法单独使用混乱的集群。此外，它们需要额外的网络或层用于门控。我们显示了原始论文中报告的召回，除了NofE [2]，其中我们使用了[3]中报告的召回，以匹配基础模型的性能进行公平比较。所有型号均基于NIN-C100 [32]架构。我们还说明了可供选择的模型的数量、选定模型的数量以及同一个表中调用的模型的总数。我们的方法胜过所有其他方法，尽管它输出单个专用网络的预测，而不是平均多个网络的预测。它还调用了最少数量的模型。特别是，我们的方法优于最佳基线BranchConnect [3]，调用的模型显著减少4.5感兴趣区域（ROI）我们所提供的数据归档的适应性在于，特定的数据库能够基于图像的细微细节在类别之间进行区分，这些图像用于场景识别13专业。由于专家在反映其专业的数据子集上进行训练，因此其发展为专注于这些细节以更好地适应手头的为了说明激活模式的这些变化，我们研究了专家模型的感兴趣区域（ROI）与通才模型的不同我们为专家和通才可视化相应的类激活图（CAM）[43，61]由于CAM显示了对所讨论的类的预测做出贡献的区域，因此我们能够分辨出图像中的哪些区域对正确（或不正确）的预测做出了贡献。图图5示出了通才和专家的最高预测类别的CAM我们只展示了具有所描绘的结果的专家被我们的路由功能调用的示例。我们注意到专家们与多面手相比，他们更善于关注细节。例如图5（a），通才根据图像右侧的建筑材料，合理预测场景类别为建筑工地。然而，专家能够更多地关注箱子，预测室内仓库的正确场景类别。在图5（b）中，多面手基于图像中心的草地预测场景类的场地。然而，专家更加关注两侧的植物和框架，以预测室内温室的正确类别。4.6专业学习层次的可视化我们在图中可视化学习的图像层次结构。六、对于专家接受培训的发现的混淆聚类的每个质心，我们描述了SUN-190特征空间中的前10个最近邻图像。我们观察到，每个集群由视觉上连贯的，容易混淆的图像从不同的场景类。同时，同一类的不同实例出现在视觉上不同的多个集群中。例如，在视觉上类似于具有地柜的浴室的厨房图像的子集出现在Specialist 001的集群中，而在Specialist 001的集群中找到看起来类似于餐馆和酒吧的相同类别的子集。10. 这种可视化强烈支持了我们关于混乱集群的基本想法。4.7计算时间我们的模型可以并行或顺序运行按顺序运行可以最大限度地减少被调用模型的数量，从而以时间为代价节省内存当并行运行时，情况正好相反。令tA=tl+tu是基础模型的执行时间，其中tu和tl表示在上层和共享下层上花费的时间。设tr是路由所花费的时间，L是分层级别。当按顺序运行时，当路由到通才时，最好的情况是tA+tr，而当路由到叶专家时，最坏的情况是tl+L·（tu+tr）在使用AlexNet* 的批次大小为512的NVIDIA GTX1080Ti上，L=1、 2、 3的模型分别需要105、121和138ms。AlexNet* 耗时87毫秒。当完全并行化时，每个模型并行运行，然后选择一个模型，这需要tA+tr。对于我们的所有模型（L=1，2， 3），它需要89ms14H. Kim和J.FrahmSpecialist110通才专家111见图6。SUN-190数据集上学习层次的可视化。示出了三级层次结构，其中10个顶部图像与每个专家相关联。5结论我们介绍了一种新的层次结构的交替专家处理类间的相似性和类内变化的场景类别。专家模型的全局特征池策略在每个级别交替，以考虑粗糙的场景布局和瞬态对象，这两者对于准确的场景分类都是必不可少的。为了定义每个子模型的专业领域，我们通过基于父模型的学习特征执行聚类来发现令人困惑的图像集群，从而获得视觉上连贯和令人困惑的图像集群。我们的方法只调用一小部分的模型在整个树的输入图像。我们的实验表明，我们的方法实现了显着的改善基线，包括现有的树结构模型，使用基于类的分组。我们的算法适用于各种CNN模型和视觉类别识别任务。鸣谢部分由NSF批准号支持CNS-1405847。专家0专家00专家000专家001专家01特殊列表010专家011Specialist 1专家10专业人员100专家101专家11用于场景识别15引用1. 阿格拉瓦尔，P.，格尔希克河Malik，J.：分析多层神经网络在目标识别中的性能In：ECCV（2014）2. Ahmed，K.，Baig，M.H.，Torresani，L.：大规模图像分类专家网络。In：ECCV（2016）3. Ahmed，K.，Torresani，L.：分支连接：大规模视觉识别与学习分支连接。在：WACV（2018）4. 阿尔容迪河Chakravarty，P.Tuytelaars，T.：专家门：通过专家网络终身学习在：CVPR（2017）5. A randjel ovi'c，R.， Gronat，P.， Torii，A.， Pajdla，T. Sivic，J. 一种用于弱监督位置识别的NN结构.见：CVPR（2016）6. 鲍德Zhou，B.，（1991年），中国地质大学，Khosla，A.Oliva，A.，Torralba，A.：网络解剖：深层视觉表征的量化解释性。在：CVPR（2017）7. Bishop，C.M.，Svenskn，M.：贝叶斯分层专家混合。人工智能的不确定性Uncertainty in Artificial Intelligence（2002）8. 陈伟，陈旭，张杰，Huang，K.：除了三重态损失：一个深度的四元组网络用于人的重新识别。在：CVPR（2017）9. Cheng，G.，Zhou，P.，Han，J.：RIFD-CNN：用于对象检测的旋转不变和Fisher判别见：CVPR（2016）10. Cheng，X.，卢，J，冯杰，袁，B.Zhou，J.：具有对象性的场景识别模式识别（2018）11. Deng，J.，Berg，A.C.，李菲菲：面向大规模图像检索的层次语义索引。在：CVPR（2011）12. Deng，J.，丁，N.，Jia，Y.，Frome，A.，墨菲K Bengio，S.，李，Y.，Neven，H.，Adam，H.：使用标签关系图的大规模对象分类。In：ECCV（2014）13. Dixit，M.，陈淑仪，Gao，D.，Rasiwasia，N.，Vasconcelos，N.：基于语义Fisher向量的场景分类。参见：CVPR（2015）14. Dixit医学博士Vasconcelos，N.：使用局部子空间投影的fisher分数的基于对象的场景表示在：NIPS（2016）15. Goo，W.，金，J.，Kim，G.，Hwang，S.J.：分类-正则化语义深度卷积神经网络。In：ECCV（2016）16. 格罗斯，S.，Ranzato，M.，Szlam，A.：用于大规模弱监督视觉的专家硬混合。在：CVPR（2017）17. Guo，S.，黄伟，Wang，L.，美国，Qiao，Y.：用于场景识别的局部监督深度混合模型。2017年《TIP18. Guo，Y.， Zhao，G.， Piettikaüinen，M.， Xu，Z. 基于纹理分离准则的纹理分类方法。In：ACCV（2010）19. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）20. 赫兰茨湖江，S.，李X：使用cnns的场景识别：对象、尺度和数据集偏差。见：CVPR（2016）21. Hinton，G. Vinyals，O.，Dean，J.：在神经网络中提取知识。Arxiv预印本arXiv：1503.02531（2015）22. Hwang，S.J.，Sigal，L.：统一的语义嵌入：分类法和属性的相关性。在：NIPS（2014）23. 乔丹MI Jacobs，R.A.：专家分层混合算法与em算法。03 The Dog（1994）16H. Kim和J.Frahm24. Juneja，M.，Vedaldi，A.，Jawahar角齐瑟曼，A.：块喊：用于场景分类的独特部分。在：CVPR（2013）25. Khan，S.H.，Hayat，M.，Porikli，F.：基于光谱特征的场景分类在：CVPR（2017）26. 金，J.，Park，Y. Kim，G.，Hwang，S.J.：Splitnet：学习从语义上拆分深度网络，以实现参数缩减和模型并行化。在：ICML（2017）27. Krizhevsky，A.：并行卷积神经网络的一个奇怪的技巧。ArXiv预印本arXiv：1404.5997（2014）28. Krizhevsky，A.，Hinton，G.：从微小图像中学习多层特征（2009）29. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类在：NIPS（2012）30. Lazebnik，S.，施密德角Ponce，J.：除了功能袋之外：用于识别自然场景类别的空间金字塔匹配。在：CVPR（2006年）31. Li，F.，Neverova，N.Wolf，C.Taylor，G.：Modout：通过随机正则化学习多模态在：FG（2017）32. Lin，M.，陈昆，Yan，S.：网络中的网络。ArXiv预印本arXiv：1312.4400（2013）33. 林，T. 是的，再见，P.， Gir shi ck，R.， He，K.，我会的，P。：用于检测阻塞的频率损失。In：ICCV（2017）34. Lowe，D.G.：基于局部尺度不变特征的目标识别In：ICCV（1999）35. Mousavian，A.，Kosecka，J.：用于基于图像的检索和场景分类的深度卷积特征arXiv预印本arXiv：1509.06033（2015）36. 默多克角Li，Z.，周，H.，Duerig，T.：Blockout：分层深度网络的动态模型选择。见：CVPR（2016）37. Murthy，V.N.，辛格，V.陈，T.，Manmatha河Comaniciu，D.：用于多类图像分类的深度决策网络。见：CVPR（2016）38. Oliva，A.，Torralba，A.：建模场景的形状：空间包络的整体表示IJCV（2001）39. Paszke，A.，格罗斯，S.，Chintala，S.，Chanan，G.

下载后可阅读完整内容，剩余1页未读，立即下载