基于中轴的轮廓显著性分类与CNN性能有关

58 浏览量更新于2023-10-18 收藏 18.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

141160从轮廓中的场景分类：基于中轴的显著性度量0Morteza Rezanejad 1，Gabriel Downs 1，John Wilder 2，Dirk B. Walther 2，Allan Jepson2，3，Sven Dickinson 2，3和Kaleem Siddiqi 101 麦吉尔大学，加拿大蒙特利尔02 多伦多大学，加拿大安大略省03 三星多伦多人工智能研究中心，加拿大安大略省0摘要0计算机视觉社区在图像场景分类方面取得了最新进展，现在的最先进系统在具有挑战性的基准测试中实现了令人印象深刻的识别率。这些系统是在包含颜色、纹理和阴影线索的照片上进行训练的。对于这个任务，形状和表面的几何形状，如场景轮廓所传达的那样，并没有明确考虑。值得注意的是，人类可以准确地从线条图中识别自然场景，线条图仅包含基于轮廓的形状线索。在这里，我们报告了第一个基于线条图的场景分类的计算机视觉研究，该研究使用了包括艺术家场景数据库、MIT67和Places365在内的流行数据库中的线条图。具体而言，我们使用现成的预训练卷积神经网络（CNN）来执行仅使用轮廓信息作为输入的场景分类，并且发现性能远高于随机选择。我们还展示了基于中轴的轮廓显著性方法可以用于选择更具信息量的轮廓像素子集，并且在这些子集的各种选择上，CNN分类性能的变化与人类性能观察到的变化在质量上是相似的。此外，当使用显著性度量来加权轮廓时，我们发现这些权重提高了我们CNN的性能，超过了未加权轮廓输入的性能。也就是说，基于中轴的显著性权重似乎提供了有用的信息，而这些信息在训练CNN仅使用轮廓时是不可用的。01. 引言0生物和人工视觉系统都面临着一种可能非常复杂的各种视觉特征的组合。0�Jepson博士和Dickinson博士以他们在多伦多大学的教授身份为本文做出了贡献。所表达的观点[或得出的结论]是他们自己的观点，不一定代表三星美国研究公司的观点。0在现实场景中，视觉特征需要被适当地排序和分组，以支持高级视觉推理，包括对象或整个场景的识别或分类。事实上，场景分类与对象的识别往往难以分开，因为场景类别通常由上下文中的一组对象定义。例如，海滩场景通常包含遮阳伞、沙滩椅和穿着泳衣的人，他们都位于水体旁边。街景可能有有汽车、自行车和行人的道路，以及沿边的建筑物。计算机视觉系统如何解决组织视觉特征以支持场景分类的问题？0在人类视觉中，知觉组织被认为是由Gestalt心理学提出的一组启发式分组规则所影响的[13]。这些规则认为，如果视觉元素在外观上相似、接近，或者对称或平行于彼此，它们应该被分组在一起。这些规则最初是基于临时的、启发式的基础上发展起来的，尽管它们的精确神经机制仍然难以捉摸。基于对称性等的分组线索被认为有助于高级视觉任务，如对象检测，因为对称轮廓更有可能是由对称对象的投影引起的，而不是偶然发生的。在人类观察者对复杂的现实世界场景进行分类时，局部轮廓对称性确实提供了感知优势[23]，但与识别单个对象的联系并不像表面上看起来那么直接。0在计算机视觉中，对称性、邻近性、良好的延续性、轮廓闭合和其他线索已被用于图像分割、曲线推断、物体识别、物体操作等任务[14, 2, 7,17]。这些组织原则的实例已经被许多计算机视觉算法采用，并成为人工视觉系统感知组织的定期研讨会的主题。然而，迄今为止，为了促进场景分类而引入的感知驱动的显著性度量却受到了很少的关注。这可能是因为基于CNN的系统能够在具有足够训练数据的情况下直接从照片的像素强度和颜色中完成具有挑战性的数据库的场景分类[18, 21, 11,24]。CNN首先提取简单的特征，包括定向边缘，然后通过一系列卷积、非线性激活和池化操作逐步组合成越来越复杂的特征。CNN的最后几层通常是全连接的，这使得学习对象或场景类别成为可能[20, 1, 8,16]。然而，目前的CNN架构并不明确允许显式地表示对象形状的属性。相比之下，人类观察者将对象的形状视为其属性的不可分割的一部分，以及其类别或身份[12]。41170照片线条图 AOF中轴0重建对称性显著性0分离显著性0图1：（通过放大PDF查看效果最佳）我们方法在自然场景照片艺术家的线条图数据库中的一个示例上的插图。左下角面板显示了由AOF中轴重建的艺术家生成的线条图。在其右侧，我们展示了基于中轴的两个轮廓显著性度量的热色图可视化。0迄今为止，为了促进场景分类而引入的感知驱动的显著性度量却受到了很少的关注。这可能是因为基于CNN的系统能够在具有足够训练数据的情况下直接从照片的像素强度和颜色中完成具有挑战性的数据库的场景分类[18, 21, 11,24]。CNN首先提取简单的特征，包括定向边缘，然后通过一系列卷积、非线性激活和池化操作逐步组合成越来越复杂的特征。CNN的最后几层通常是全连接的，这使得学习对象或场景类别成为可能[20, 1, 8,16]。然而，目前的CNN架构并不明确允许显式地表示对象形状的属性。相比之下，人类观察者将对象的形状视为其属性的不可分割的一部分，以及其类别或身份[12]。0卷积神经网络（CNN）与人类和猴子的神经生理学之间的比较似乎表明CNN复制了整个视觉层次结构[9,4]。这是否意味着感知组织问题对于计算机视觉现在已经无关紧要了？在本文中，我们认为情况并非如此。相反，我们展示了基于CNN的场景分类系统，就像人类观察者一样，可以从中受益0从根据格式塔尔特组织线索计算的轮廓度量。我们在这里演示了这些度量的计算以及它们在复杂真实世界场景分类中的辅助作用。0为了实现我们的研究，我们选择使用中轴变换（MAT）作为表示，重点关注场景轮廓的几何形状。我们应用了一种稳健的算法来计算中轴，以分析越来越复杂的场景线条图。该算法使用欧几里得距离函数的梯度通过收缩圆盘计算平均外流量[5]。由于中轴明确表示场景轮廓之间的区域，因此中轴使我们能够直接捕捉与局部轮廓分离和局部轮廓对称性相关的显著性度量。我们引入了两种基于中轴半径沿骨架段导出的长度函数比率的局部对称性度量。作为可比较数量的比率，这些度量是无单位的，因此对图像重新调整大小不变。我们还引入了一种局部轮廓分离度量。我们描述了从复杂真实世界场景的照片的线条图中计算我们感知驱动的显著性度量的方法，涵盖了越来越复杂的数据库。图1展示了一个照片的示例41180从艺术家场景数据库中选择的照片，以及我们基于中轴的两个轮廓显著性图。观察基于带状对称性的度量如何突出显示高速公路的边界。我们的实验表明，根据这些度量加权的场景轮廓可以提高基于CNN的场景分类准确性，尽管没有颜色、纹理和阴影线索。我们的工作表明，仅仅是轮廓本身的轮廓分组度量对于计算机的场景分类是有益的，但这些度量并不是由最先进的基于CNN的场景识别系统自动提取的。关键的问题是这种遗漏是因为CNN架构无法建模这些权重，还是与（相对标准的）训练方案有关。这需要进一步研究。02.基于平均外流量的骨架0在Blum的草火类比中，骨架与在一片草地边界点上点燃的火焰的熄灭点相关联。在本文中，该边界是场景轮廓的集合，而草地是它们之间的空间。骨架的等效概念是在场景轮廓之间的区域中所有最大内切圆的中心轨迹，以及这些圆的半径。我们将相同的算法应用于场景轮廓之间的每个不同的连通区域。这些区域是通过形态学运算对原始线条图进行分解获得的。0定义2.1假设n维开放连通区域Ω，其边界由∂Ω∈Rn给出，使得¯Ω=Ω∪∂Ω。如果D�¯Ω但对于任何D′�D′�D′�¯Ω的开放圆盘D′，关系D′�¯Ω不成立，则开放圆盘D∈Rn是¯Ω中的最大内切圆。0定义2.2Blum骨架或中轴线，表示为Sk(Ω)，是∂Ω中所有最大内切圆的中心轨迹。0从拓扑上讲，Sk(Ω)由一组分支组成，这些分支在场景轮廓局部上是镜像对称的，并在分支点处连接以形成完整的骨架。骨架分支是骨架上的一组连续的常规点，位于一对交叉点之间、一对端点之间或一个端点和一个交叉点之间。在常规点上，最大内切圆在边界上接触两个不同的点。正如Dimitrov等人所示，可以通过考虑梯度的欧氏距离函数的平均外流量（AOF）的行为来分析骨架点。设R为具有边界∂R的区域，N为每个点上的外法线0边界∂R。AOF由极限值�∂R�˙q,N�ds�∂Rds给出，当区域收缩时。这里˙q=�D，D是到连通区域边界的欧氏距离函数，而极限行为对于三种情况：常规点、分支点和端点是不同的。当考虑的区域是一个收缩的圆盘时，在骨架的常规点上，AOF的结果是-2。0π sin θ ，其中 θ是物体角度，即从骨架点到内切圆与边界相交处的切线所成的锐角。这个数量是负数，因为它是正向流量。此外，所有不位于骨架上的点的极限AOF值为零。这为计算场景轮廓的骨架和将计算得到的骨架映射回场景轮廓提供了基础。首先，给定从场景轮廓计算得到的欧氏距离函数，通过一个半径逐渐缩小的圆盘计算AOF的极限值，并将该值非零的位置与骨架点关联起来（图1，右上角）。然后，给定一个常规骨架点上的AOF值以及对其的切线的估计，将切线旋转 ± θ，然后通过半径函数在两侧延伸出一个向量，以重构边界（图1，左下角）。在我们的实现中，我们在一个细网格上离散化这些计算，同时对缩小圆盘的边界进行密集采样，以获得高质量的场景轮廓表示。欧氏距离函数和平均外流量计算在轮廓像素数上是线性的，因此可以高效实现。03. 基于中轴线的轮廓显著性0由于中轴线与场景轮廓之间的连续映射，中轴线为基于局部轮廓分离和局部对称性的Gestalt轮廓显著性度量提供了便利的表示。可以使用沿着中轴线的半径函数来设计反映局部轮廓分离的度量，因为这给出了两侧最近场景轮廓的距离。场景轮廓之间的局部平行性，或者带状对称性，也可以通过检查它们之间的中轴线上的半径函数在局部上保持恒定程度来直接捕捉。最后，如果允许轮廓之间的锥度，例如在透视投影下延伸到地平线的一组铁轨，可以检查半径函数的一阶导数沿着骨架段是否恒定。我们引入了基于这些思想的新型度量来捕捉局部分离、带状对称性和锥度。L =� βα ||∂C∂ p ||dp =� βα (x2p +y2p)12 dp.(1)1R(p)dp�/(β −α).(2)LΨ =� βα ||∂Ψ∂ p ||dp =� βα (x2p +y2p +R2p)12 dp.(3)=� βα (x2p +y2p)12 dp� βα (x2p +y2p +R2p)12 dp.(4)41190接下来，我们将让 p 成为沿着中轴线段运行的参数， C (p ) = ( x ( p ) , y ( p )) 成为沿着该段的点的坐标， R ( p )成为每个点的中轴线半径。我们将考虑特定中轴线段的区间p ∈ [ α , β ] 。该段的弧长由以下公式给出：03.1. 分离显著性0现在，我们引入了一种基于场景轮廓之间的局部分离的显著性度量，该度量与同一中轴线段相关。考虑区间 p ∈ [ α ,β ] 。由于像素单位中的 R ( p ) >1（因为两个场景轮廓不能接触），我们引入了以下基于轮廓分离的显著性度量：0S 分离 = 1 − � � β0这个量在区间 [ 0 , 1 ]内。该度量随着两个轮廓之间的空间分离增加而增加。换句话说，通过这个度量，展现更多（局部）分离的场景轮廓更加显著。03.2. 带状对称显著性0现在考虑曲线 Ψ = ( x ( p ) , y ( p ) , R ( p )) 。类似于公式 1 ，Ψ 的弧长计算如下：0当两个场景轮廓在局部近似平行时，R ( p )会沿着中轴线段缓慢变化。这激发了以下带状对称显著性度量的提出：0S 带状 = L0这个量也在区间 [ 0 , 1 ]内，并且对图像缩放是不变的，因为积分涉及无单位量的比率。该度量旨在随着两侧场景轮廓变得更平行而增加，例如带状物体的两侧。03.3. 锥体对称显著性0与带状对称性概念密切相关的是锥体对称性；当它们之间的中轴线具有半径函数以恒定速率变化时，两个场景轮廓是锥体对称的，例如在透视视图中查看的3D平行轮廓的边缘。为了捕捉这种对称性概念，我们引入了一种略有变化的度量，其中考虑了曲线的一种类型的弧长0dp ) 。具体而言，我们引入了以下锥体对称显著性度量：0S锥 = L0LΨ' =0∫βα(x^2p+y^0∫βα(x^2p+y^2p+(RRpp)^2)^{1/2}dp. (5)0底部的积分不完全是弧长，因为乘以了因子Rpp。这种修改是为了使整体比率无单位。这个量也在区间[0,1]内，并且对图像缩放是不变的。该度量的设计是为了在场景轮廓两侧变得更加锥形对称时增加，例如漏斗形状或铁轨的两侧。0形状0带状显著性0锥形显著性0分离显著性0图2：三种不同轮廓配置的带状对称性显著性、锥形对称性显著性和轮廓分离显著性的示例。有关讨论，请参见正文。这些度量对输入轮廓的2D相似变换都是不变的。0为了对这些感知驱动的轮廓显著性度量有所直观认识，我们在图2中提供了三个说明性的例子。这些度量不是逐点计算的，而是针对每个介于介于每个中轴点的一个小区间[α,β]（详见第4.3节）。当轮廓是平行的时候，所有三个度量在中轴线上都是常数（左列）。中间的图形具有高锥形对称性但较低的带状对称性，轮廓分离显著性从左到右逐渐增加。最后，对于哑铃形状，所有三个度量都会变化（第三列）。412004. 实验与结果04.1. 艺术家生成的线条图0艺术家场景数据库：从互联网上下载了六个自然场景类别（海滩、城市街道、森林、高速公路、山脉和办公室）的彩色照片，并选择了亚马逊机械土耳其工人对其各自类别的最佳范例进行评级。这些照片的线条图是由莲花山研究所的训练有素的艺术家使用自定义图形用户界面在图形平板上追踪照片中最重要和显著的线条生成的。轮廓被保存为一系列锚点。在本文的实验中，线条图以连接锚点的直线形式在白色背景上以1024×768像素的分辨率进行渲染。最终的数据库总共有475个线条图，每个类别有79-80个范例，包括海滩、山脉、森林、高速公路场景、城市场景和办公场景。04.2. 机器生成的线条图0MIT67/Places365：鉴于艺术家场景数据库中场景类别有限，特别是对于计算机视觉研究来说，我们努力将我们的结果扩展到两个流行但规模更大的照片场景数据库 - MIT67[15]（6700张图像，67个类别）和Places365[24]（180万张图像，365个类别）。在这样大规模的数据库上生成艺术家生成的线条图是不可行的，因此我们使用公开可用的结构化边缘检测工具箱，通过微调Dollar边缘检测器的输出来获得结果。从边缘图及其相关的边缘强度中，我们使用每个图像自适应阈值化来生成二值化版本。然后，对二值化边缘图进行处理，以获得宽度为1像素的轮廓片段。然后，通过对其上的点的坐标进行卷积，使用σ =1的高斯函数来对每个轮廓片段进行空间平滑，以减轻离散化伪影。在生成所有MIT67和Places365的线条图时使用相同的参数。图3展示了来自艺术家场景数据库的一个办公场景的机器生成线条图和艺术家生成线条图的比较结果。我们已经确认，在艺术家的线条图数据库中，机器生成的轮廓像素有90%与艺术家的线条图相同。图4展示了MIT67和Places365数据库中几个典型的机器生成线条图，但加权使用了我们的感知显著性度量。04.3. 计算轮廓显著性0计算每个线条绘图的轮廓显著性需要几个步骤。首先，提取场景轮廓之间的每个连通区域。其次，我们计算0摄影艺术家机器0图3：（通过放大PDF来查看最佳效果。）机器生成的线条绘图与艺术家绘制的线条绘图进行比较，来自艺术家场景数据库的办公室场景。0对于这些连接组件，我们根据第2节的说明为每个组件计算了AOF图，使用半径为1像素的圆盘，在上面有60个离散的采样点，估计AOF积分。我们在AOF图上使用阈值τ =0.25，对应于物体角度θ≈23度，提取骨架点。图1（右上方）显示了一个典型的示例。然后，将得到的AOF骨架划分为分支点之间或分支点与端点之间的中央曲线。然后，我们在每个中轴点的长度为2K +1的区间[α，β]内计算了三个显著性度量的离散版本，其中K=5像素。然后，每个场景轮廓点被分配为其两侧中轴曲线上最接近的点的两个显著性值中的最大值，如图1（底部中间和底部右侧）所示。04.4. 对轮廓场景的50-50分割实验0我们的第一组实验受到最近的研究的启发，该研究表明人类观察者在从轮廓中识别场景时受益于轮廓对称性[23]。我们的目标是研究基于CNN的系统是否也从这种感知上的线索中受益。因此，我们使用三个显著性度量，丝带对称性、锥度对称性和局部轮廓分离，在艺术家场景和MIT67数据集的每个图像中创建了轮廓像素的前50%和后50%的分割。图5显示了原始完整线条绘图和三组分割的示例，以及图1中显示的艺术家场景数据集中的高速公路场景。在艺术家场景数据集上，人类观察者的任务是确定示例属于六个场景类别中的哪一个。输入可以是艺术家生成的线条绘图，也可以是由一个显著性度量进行分割的上半部分或下半部分。图像仅呈现58毫秒，然后是一个感知掩蔽，使观察者的任务变得困难，否则观察者的表现将接近100%的正确率。这些短时间呈现的结果如图6（顶部）所示，表明人类表现始终比底部（不太显著）的分割好。41210Places3650MIT670艺术家场景0丝带对称分离锥度对称0图4：（通过放大PDF来查看最佳效果。）原始照片和相应的丝带对称性显著性加权、分离显著性加权和锥度对称性显著性加权场景轮廓的示例，使用热色图显示增加的值。艺术家场景的线条绘图由艺术家绘制，MIT67和Places365的线条绘图由机器生成。0每个显著性度量。在分离分割中，人类表现在所有条件下都略有提升，使用了不同的被试者群体。在艺术家场景和MIT67线条绘图数据集上进行基于CNN的识别具有挑战性，因为它们太小，无法训练大型模型，例如0VGG-16，从头开始。据我们所知，迄今为止，没有基于CNN的场景分类工作专注于自然图像的线条绘图。因此，我们在实验中使用了在RGB照片上预训练的CNN。对于我们在艺术家和MIT67数据集上的实验，050050100020t(4) = 26.12t(25) = 7.86p = 1.3E−5p = 3.2E−8t(4) = 12.39t(25) = 6.46p = 2.4E−4p = 9.2E−7t(4) = 100.64t(5) = 5.2p = 5.85E−8p = 3.0E−341220带状锥形分离0图5：我们考虑与图1中相同的高速公路场景（左上角），并基于带状对称性（左列），锥形对称性（中列）和局部轮廓分离（第三列）的显著性度量创建艺术家生成的线条图的分割。在每种情况下，更显著的一半像素位于顶行。0100 艺术家场景 - 人类0百分比正确0艺术家场景 - VGG160带状锥形分离显著性度量040 MIT67 - VGG160轮廓前50%后50%0图6：人类场景分类性能（顶行）与CNN性能（中行和底行）的比较。与人类观察者数据一样，根据每个显著性度量，CNN在每个分割的前50%上表现更好，而在后50%上表现较差。在每个图中，虚线表示机会水平的表现（艺术家场景为1/6，MIT67为1/67）。0我们使用在ImageNet上预训练的VGG16卷积层网络架构[19]。用于微调的VGG16网络的最后三层被替换为一个全连接层、一个softmax层和一个分类层，其中输出标签是我们数据集中每个类别的一个。图像通过该网络处理，最终的分类层产生一个输出向量，其中选择得分最高的索引作为预测输出。0CNN 人类0带状对称 vs 非对称带状对称 vs 非对称0锥形对称 vs 非对称锥形对称 vs 非对称0分离远 vs 近分离远 vs 近0表1：CNN和人类分类实验的t检验结果。0作为预测输出。对于包含180万张图像的Places365数据集，我们使用Resnet50[10]，其权重是通过在ImageNet上进行训练获得的，但我们没有对网络进行微调，而是将最终的全连接层输出作为SVM分类器的特征向量输入。对于所有关于艺术家场景的实验，我们使用5折交叉验证。图6（中行）给出了Top-1分类准确率，作为5折交叉验证的平均值。基于CNN的系统模仿了我们在人类观察者中观察到的趋势，即在每个分割的前50%上性能始终更好。我们将此解释为证据，即所有三个基于格式塔原理的显著性度量对计算机和人类视觉中的场景分类都是有益的。对于MIT67，我们使用提供的训练/测试分割，并在5次试验中呈现平均结果。基于CNN的分类结果显示在图6（底行）中。令人惊讶的是，即使对于这个更具挑战性的数据库，基于CNN的系统仍然模仿了我们在人类观察者中观察到的趋势，即在每个分割的前50%上性能更好，远高于机会水平。对于CNN和人类分类实验，我们进行了t检验（见表1），结果显示两者的群体差异在统计上是显著的。04.5. 用显著性加权轮廓进行实验0虽然我们预期网络性能在失去一半输入像素时会下降，但这些分割还揭示了对我们的显著性度量的显著偏好，以支持场景分类。我们能否利用这种偏好来改善在给定完整轮廓时的网络性能？为了回答这个问题，我们进行了第二个实验，通过将不同的特征馈入预训练网络的R、G和B颜色通道，显式地对CNN进行显著性度量编码。我们通过使用除了轮廓图像通道之外，还使用根据我们提出的显著性度量加权的相同轮廓的其他通道，每个通道的值都在[0, 1]的区间内。41230通道艺术家 MIT670VGG16 VGG160照片 98.95 64.870轮廓 90.53 42.800轮廓、带状 93.49 45.240轮廓、锥形 94.71 43.660轮廓、分离 93.91 43.890轮廓、带状、锥形 95.02 45.360轮廓、带状、分离 95.89 48.610轮廓、锥形、分离 96.23 47.180轮廓、带状、分离 94.38 44.820表2：在3通道配置下的Top1级性能，对比了艺术家场景和MIT67的结果，进行了微调。顶行：传统的R、G、B输入配置的结果。其他行：完整场景轮廓和根据我们的显著性测量加权的场景轮廓的组合。0这些轮廓显著性图像取代了网络的标准三通道（R、G、B）输入。对于所有实验，训练都是在新的特征编码图像生成的特征图上进行的。艺术家场景数据集和MIT67的结果如表2所示。显然，添加了这些显著性加权的轮廓通道后，仅使用轮廓的结果得到了一致的提升。在所有情况下，最佳性能提升来自轮廓、带状或锥形对称性显著性以及分离显著性的组合。我们认为这是因为作为感知显著性测量的局部轮廓之间的锥度在概念上与我们的带状显著性测量非常接近。另一方面，局部分离显著性为分组提供了更明显和互补的感知线索。对于MIT67，照片的性能为64.87%，与[24]中报告的结果完全一致。值得注意的是，仅使用机器生成的线条图像就可以获得这一水平的性能的三分之二（42.8%），而使用带状和分离显著性加权的轮廓时，这一性能提升到四分之三（48.6%）。对于MIT67，我们还比较了（微调的）Hybrid1365VGG在照片上的性能（78.74%top-1）与在照片上叠加轮廓、带状和分离显著性加权轮廓时的性能（80.45%top-1）。在上述结果的鼓舞下，我们对更具挑战性的Places365数据集进行了相同的实验，但这次只使用了预训练的网络和线性SVM。对于该数据集，偶然的识别性能将达到1/365或0.27%。我们的结果如表3所示。再次可以看到，使用显著性加权轮廓作为额外的特征通道对轮廓本身有明显和一致的好处，而最佳性能提升来自带状对称性。0通道 Places365（Res50）0照片 33.040轮廓 8.020轮廓、带状 9.180轮廓、锥形 11.730轮廓、分离 10.530轮廓、带状、锥形 12.050轮廓、带状、分离 14.230轮廓、带状、分离 11.770带状、锥形、分离 12.640表3：在Places365上的3通道配置的Top1级性能，使用现成的预训练网络和线性SVM（详见正文）。顶行显示了传统的R、G、B输入配置的结果，其他行显示了完整场景轮廓和根据我们的显著性测量加权的场景轮廓的组合。0对称性显著性和分离显著性。05. 结论0我们首次报道了基于CNN的复杂自然场景识别的研究，该研究使用了从三个不断增加复杂度的数据库中得到的线条图像。为此，我们展示了使用格式塔尔激励的中轴基于显著性测量的明显优势，根据其局部带状和锥形对称性以及局部轮廓分离来加权场景轮廓。我们假设明确地制定这样的轮廓显著性权重有助于深度网络组织视觉信息以支持分类，这种方式不是通过这些网络仅从场景轮廓图像中学习的。在我们的实验中，我们使用不同的CNN模型来分离这些感知驱动的场景轮廓分组线索的效果，以及仅使用轮廓进行场景分类的潜力，而不考虑颜色、阴影和纹理。在艺术家的线条图、MIT67和Places365数据库中，照片中所有RGB像素中轮廓墨水像素的百分比平均只有7.44％、8.75％和8.32％。现在，我们有可能使用我们的180万个Places365线条图像从头开始训练一个CNN模型。通过对自由手绘草图的研究，已经证明了对绘图进行完全训练的网络的可行性[25]，尽管它与我们的工作在表面上相似，但目的却非常不同。我们计划公开提供我们的轮廓显著性测量代码和线条图数据库。0致谢我们感谢NSERC、三星和索尼的研究支持。41240参考文献0[1] ShuangBai。在深度卷积神经网络上生长随机森林用于场景分类。《专家系统与应用》，71：279-287，2017年。20[2] IrvingBiederman。成分识别：人类图像理解的理论。《心理评论》，94(2)：115，1987年。10[3] HarryBlum。生物形状和视觉科学（第一部分）。《理论生物学杂志》，38(2)：205-287，1973年2月。30[4] Charles F Cadieu，Ha Hong，Daniel LK Yamins，NicolasPinto，Diego Ardila，Ethan A Solomon，Najib JMajaj和James JDiCarlo。深度神经网络与灵长类IT皮层的核心视觉对象识别表示相媲美。《PLoS计算生物学》，10(12)：e1003963，2014年。20[5] Pavel Dimitrov，James N Damon和KaleemSiddiqi。形状的通量不变量。在《计算机视觉和模式识别，2003年。2003年IEEE计算机学会会议》，卷1，页码I-835。IEEE，2003年。2，30[6] Piotr Doll´ar和C. LawrenceZitnick。用于快速边缘检测的结构化森林。在ICCV中，2013年。50[7] James H Elder和Steven WZucker。计算轮廓闭合。在《欧洲计算机视觉会议》中，页码399-412。Springer，1996年。10[8] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。用于准确目标检测和语义分割的丰富特征层次结构。在《IEEE计算机视觉和模式识别会议》中，页码580-587，2014年。20[9] Umut G¨uc¸l¨u和Marcel A. J. vanGerven。深度神经网络揭示了腹侧通路神经表示复杂性的梯度。《神经科学杂志》，35(27)：10005-10014，2015年。20[10] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在《IEEE计算机视觉和模式识别会议》中，页码770-778，2016年。70[11] Shin Hoo-Chang，Holger R Roth，Mingchen Gao，LeLu，Ziyue Xu，Isabella Nogues，Jianhua Yao，DanielMollura和Ronald MSummers。用于计算机辅助检测的深度卷积神经网络：CNN架构、数据集特征和迁移学习。《IEEE医学成像交易》，35(5)：1285，2016年。20[12] Philip J Kellman和Thomas FShipley。关于物体知觉中视觉插值的理论。《认知心理学》，23(2)：141-221，1991年。20[13] KurtKoffka。感知：关于格式塔理论的介绍。《心理学公报》，19(10)：531，1922年。10[14] David Marr和Herbert KeithNishihara。三维形状的空间组织的表示和识别。《伦敦皇家学会学报》。生物科学系列B，200(1140)：269-294，1978年。10[15] Ariadna Quattoni和AntonioTorralba。室内场景识别。在《2009年IEEE计算机视觉和模式识别会议》中，页码413-420。IEEE，2009年。50[16] Shaoqing Ren，Kaiming He，Ross Girshick和JianSun。更快的R-CNN：实时目标检测的实现。0区域建议网络。在《神经信息处理系统进展》中，页码91-99，2015年。20[17] Sudeep Sarkar和Kim LBoyer。计算机视觉中的感知组织：现状、挑战和潜力。《计算机视觉与图像理解》，76(1)：1-5，1999年。10[18] Ali Sharif Razavian，Hossein Azizpour，JosephineSullivan和StefanCarlsson。CNN特征即插即用：一个惊人的基准用于识别。在《IEEE计算机视觉和模式识别会议工作坊》中，页码806-813，2014年。20[19] Karen Simonyan和AndrewZisserman。用于大规模图像识别的非常深的卷积网络。arXiv预印本arXiv:1409.1556，2014年。70[20] Shuran Song，Samuel P Lichtenberg和JianxiongXiao。Sun RGB-D:一个RGB-D场景理解基准套件。在IEEE计算机视觉和模式识别会议的论文集中，页码567-576，2015年。20[21] Christian Szegedy，Vincent Vanhoucke，SergeyIoffe，Jon Shlens和ZbigniewWojna。重新思考计算机视觉中的Inception架构。在计算机视觉和模式识别（CVPR）的IEEE会议中，2016年6月。20[22] Dirk B Walther，Barry Chai，Eamon Caddigan，Diane MBeck和LiFei-Fei。简单的线条图足以对自然场景类别进行功能性fMRI解码。国家科学院的论文集，108(23):9661-9666，2011年。50[23] John Wilder，Morteza Rezanejad，SvenDickinson，Kaleem Siddiqi，Allan Jepson和Dirk B.Walther。局部轮廓对称性有助于场景分类。认知，182:307-317，2019年。1，50[24] Bolei Zhou，Agata Lapedriza，Aditya Khosla，AudeOliva和Antonio Torralba。Places:一个1000万图像数据库用于场景识别。IEEE模式分析与机器智能交易，40(6):1452-1464，2018年。2，5，80[25]邹长青，于倩，杜若飞，莫浩然，宋扬，向涛，高成英，陈宝权，张浩等。Sketchyscene:富注释的场景素描。欧洲计算机视觉大会，2018年。8

下载后可阅读完整内容，剩余1页未读，立即下载