使用深度部分对象关系进行显著对象检测

42 浏览量更新于2023-10-13 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1232使用深度部分对象关系进行显著对象检测刘毅1张强1 * 张定文1韩军工2 *1西安电子科技大学机电工程学院2英国华威大学WMGyLiu89@stu.xidian.edu.cn，qzhang@xidian.edu.cnzhangdingwen2006yyy@gmail.com，jungonghan77@gmail.com摘要尽管基于卷积神经网络（CNN）的方法已经成功地检测了显著对象，但它们决定显著强度的潜在机制仍然存在图像GT护身符DLS ELE EQUETOUR每个图像部分的类型单独地不能避免同一显著对象内的部分这将最终导致检测到的显著对象的不完整形状。为了解决这个问题，我们深入研究部分对象关系，并采取前所未有的尝试，利用胶囊网络（CapsNet）赋予的这些关系进行显着对象检测。整个显着对象检测系统直接建立在由三个算法步骤组成的双流部分对象分配网络（TSPOANet）上。在第一步骤中，输入图像的学习的深度特征在第二步中，我们将主胶囊馈送到两个相同的流中，在每个流中，低级胶囊（部分）将通过本地连接的路由分配给它们熟悉在最后步骤中，两个流以全连接层的形式被集成，其中相关部分可以被聚类在实验结果表明，所提出的显着对象检测网络的优越性超过国家的最先进的方法。1. 介绍显著目标检测的目的是抓住最有吸引力的目标，并将其从图像的背景中分割出来作为预处理步骤，它已广泛应用于各种计算机视觉应用，包括图像分割[13，34]，图像融合[14]，对象识别[15]，图像融合[16]，图像融合[17]，图像融合[18]，图像融合[19]，点火[36，41]，图像和视频压缩[11，12，18]，图像检索[5，10]等。传统的显著对象检测方法[3，26，27，39*同等通信作者。图1.在现有的基于CNN的显着性ob-situation中出现了一些问题对象检测方法。显著性值不一致，甚至出现一些45] 大多基于手工制作的功能，这对于进一步改进来说微不足道。卷积神经网络（CNN）的发展通过学习深度特征成功地打破了手工特征的限制，因此在过去三年中取得了实质性的改进[25，29，33，47]。现有的基于CNN的显著对象检测方法试图在多个尺度上学习丰富的深度特征，例如图像部分的对比度信息，从而推断图像中每个部分的显著性。然而，该机制没有考虑对象部分与完整的显著对象之间的关系，因此产生了若干问题。例如，如图2所示。1，不一致的显著性值被分配给显著对象内的不同部分，从而导致显著对象的不均匀分割。在更坏的情况下，如图中的红框所突出显示的。1，显著对象内的一些不显著的部分被错误地标记为非显著的，使得在显著对象上出现一些“孔”。从图中可以看出。2、一个显着的对象通常由几个相关的部分组成。例如，图1B的第二行中的花。2由雄蕊和花瓣两部分组成。反过来，这两个部分（雄蕊和花瓣）可以组成一个物体（花），这是基于雄蕊和花瓣共享花的熟悉特性的事实。这表明零件和对象之间确实存在关系。在完整图像中，基于上述讨论，对象熟悉的那些部分将被聚集在一起以形成完整的对象。在-1233受此启发，本文引入了部分对象关系的性质用于显著对象检测，它可以解决显著对象的不完全分割问题。对象：人部件：头部上身（衬衫）腿（裤子）公文包对象：花零件：雄蕊花瓣对象：交通标志零件：面板人自行车图像GT显著对象图2.用于显著对象检测的部分对象关系的图示。最近，被称为胶囊网络（CapsNet）[15，16，37]的新架构在从图像识别数字方面显示出有希望的结果胶囊是一组神经元，其输出表示实体的不同属性，例如对象或对象部分。在矩阵CapsNet [16]中，每个胶囊包含姿态矩阵和激活，其分别表征胶囊的姿态属性和每个胶囊通过将其自己的姿态矩阵与可训练的视点变换矩阵相乘来投票给上一层中的一个胶囊的姿态矩阵，该可训练的视点变换矩阵考虑这些胶囊向量之间的一致性以形成有意义的部分对象关系。换句话说，可以通过寻找针对其姿态矩阵的那些投票之间的一致性来检测由于这种特殊的属性，CapsNet可以根据部分对象关系将部分分配给熟悉的对象，这使得它成为一个自然的平台，以实现部分对象关系的显着对象检测。然而，使用CapsNet进行显著对象检测似乎并不那么简单，这是由于：1）每个低级胶囊基本上属于高级胶囊的子集而不是全集。允许每个低级别的胶囊（部分）投票给所有高级别的（对象）有时会产生嘈杂的分配，从而导致性能下降。例如，如图2所示3，CapsNet中的那些胶囊2)我们都知道，最初的CapsNet有很多为了解决上述问题，我们提出，在这篇文章中，一个深双流部分对象分配网络（TSPOANet）来检测显着对象。具体而言，该模型将从图像特征构建的胶囊划分为两个流。在每个流内，考虑到部件-对象关系，低级别胶囊将基于部件-对象关系被分配给上面的层中它们熟悉的胶囊。以这种方式，相关部分将被聚类在一起以形成显著对象。因此，显著对象可以被预测并从背景中分割出来。由于所提出的TSPOANet将每个胶囊分配给一个高级别胶囊流，但不是所有的高级别胶囊流，因此它在一定程度上减轻了冗余并因此减轻了噪声分配。1如图所示。3，所提出的TSPOANet的那些胶囊，特别是用红色标记的胶囊，在从背景中识别显著对象时更具辨别力。此外，由于少得多的参数，训练TSPOANet比训练原始Cap-sNet更容易由于TSPOANet考虑了部分-对象的关系，对象部分可以自然地链接到其所属的显着对象。这使得能够克服检测到的显著对象的不完整或不均匀分割的问题，这在传统的基于CNN的方法中仍然是未解决的问题（参见图1）。2）的情况。我们的贡献总结如下：(1) 我们合并一个新的财产，即，在显著对象检测中的部分对象关系，其由CapsNet实现。据我们所知，这是首次尝试将CapsNet应用于显著对象检测。(2) 我们提出了一个深度TSPOANet显着对象检测，系统地采用了双流策略来实现CapsNet。这有效地减少了当低级胶囊投票给高级胶囊时的搜索空间这样做可以显著降低CapsNet的复杂性，同时减少具有噪声分配的可能性(3) 我们将我们的方法与5个数据集上的9种最先进的方法进行了比较。结果一致表明，我们的算法在各种数据集上的优越性。2. 相关工作2.1. 基于CNN的显著目标检测传统上，大多数显著对象检测方法[4，6，8，9，19，20，22，31，32，35，45，46，48]是基于手工制作的特征。读者可以从[3]中对这些方法有一个全面的了解。开发-CNN的发展已经取得了实质性的改善应用时的计算复杂度比CNN高对小型数字图像进行分类。如果我们直接将CapsNet应用于显著对象检测的大规模密集预测，这将变得不可理解，与图像分类相比，这是一项复杂得多的1在我们的实验中，我们发现，不收敛发生的拟议模型与4和8流，其中每个有太少的胶囊。然而，该模型适用于2个流。这表明，在2个流的情况下，每个流具有足够熟悉的对应于低水平胶囊的高水平胶囊，但在4或8个流的情况下不够1234输入GT图3.TSPOANet和CapsNet中的第二卷积胶囊层的胶囊（即，单流POANet（SSPOANet））。由于全连接投票造成的高冗余，CapsNet的这些胶囊对于识别显著对象是微不足道的。相比之下，TSPOANet能够在一定程度上通过局部连接投票来减少冗余，从而导致更具区分力的胶囊从背景中识别出显著对象。图像特征地图胶囊建设流1 POANet1 1 1² ²²38 849 9 ±10 10 6716168流2 POANetGT显著性图突出1²背景部件-对象分配FLNetTSPOANet图4.所提出的深度显著对象检测网络的架构由两个子网络组成，即，FLNet和TSPOANet。图像首先被输入到FLNet以学习深度特征（如以下图1中所描述的）。5），然后将其馈送到TSPOANet。在TSPOANet中，这些深度特征图首先被转换成几个胶囊。这些胶囊被分成两组，这两组被馈送到两个流，以探索部分对象的关系。在每个流中的部分对象分配的过程期间，每个低级胶囊以学习的概率被分配给每个高级胶囊。基于部件-对象关系，相关部件将被分配给熟悉的对象。以这种方式，显著对象将从背景中分割出来，从而产生显著图。显著性检测Zhao等人 [56]通过联合考虑全局上下文和局部上下文来建模统一的深度学习框架。Li等人。 [25]使用CNN学习多尺度深度特征以进行显着性检测。Liu等人。 [29]提出了一种端到端的深度分层显着性检测框架，该框架首先通过学习各种全局显着性线索进行粗略的全局预测，然后通过分层循环CNN弥补丢弃的详细信息来细化粗略预测Zhang等人。 [53]通过将多层次特征集成到多个分辨率中，提出了一种用于显著对象检测的多层次特征聚合网络，该网络很好地结合了低级精细细节和高级语义知识。Liu等人。 [30]学会了生成像素级的上下文注意力，它是通过结合全局上下文和局部上下文来制定的。 Zhang等人[51]设计了门控双向消息传递模块，以在浅到深和深到浅方向上集成多级特征，这对于检测显著对象是互补的和鲁棒的。2.2. CapsNetHinton等人 [15]引入了胶囊的概念。胶囊是一组神经元并且表示特定类型的实体的实例化参数，诸如姿态（位置、大小、取向）、变形、纹理等。这是一个很好的想法，但直到S- abour等人[37]实现了一个向量CapsNet，其中胶囊的输出是一个向量，它才得到了太多的关注。活动向量的长度表示实体的存在概率，方向表示实体的实例化参数。提出了一种迭代动态布线算法，通过变换矩阵将底层胶囊分配给其熟悉的高层胶囊，学习变换矩阵编码局部与整体之间的内在空间关系以及视点不变知识。因此，迭代布线过程解决了对熟悉对象的零件匹配问题.一年后，Hinton et al. [16]通过提出一个矩阵Cap-sNet来巩固他们的工作，其中每个胶囊包含一个姿势矩阵和一个激活概率。姿态矩阵和激活概率分别用于表示姿态特征和存在概率。的胶囊CapsNet（SSPOANet）流1流2TSPOANet1235Conv1 Conv2 Conv3352×352×64 176×176×128 88×88×256Conv444×44×512Conv522×22×512输入扩张352×352×3352×352×128176×176×12888×88×128扩张44×44×128扩张22×22×128博士博士博士CC CC CC352×352×128 176×176×128 88×88×128CC44×44×128DR：Deconv+ReLUCC：弯曲+Conv一个层通过将其自身的姿态矩阵与学习了部分-整体关系的可训练视点不变变换可以通过寻找针对其姿态矩阵的投票之间的一致性来检测熟悉的对象。提出了一种迭代的期望最大化（EM）算法，通过在一堆不相关的投票中找到一致的高维投票的紧密簇，将低级别的胶囊分配给高级别的胶囊或部分分配给整体。3. 提出的显著对象检测网络图4示出了所提出的深度显著对象检测网络。首先将输入图像输入到设计的特征学习网络（FLNet）中以实现更原始的特征，然后将其馈送到建议的双流部分对象分配网络（TSPOANet）。在TSPOANet中，这些深度特征图首先被变换为若干胶囊，随后是两个特征流。3.2. TSPOANetTSPOANet被设计成探索输入图像内的部分对象关系，其致力于将显著对象从背景中分割出来。它包括三个阶段，即，胶囊构造、双流POANet和胶囊分类。下面将说明TSPOANet的细节首先将FLNet学习的特征图转换为几个胶囊（本文中为16个胶囊），由PrimaryCaps层实现。每个胶囊由一个姿态矩阵（4×4）和一个激活值组成，分别表示实体的姿态特征（如物体部分和物体）和存在概率。考虑到计算内存，我们首先使用两个Conv+ReLU层将集成的特征映射转换为88×88×16。PrimaryCaps的详细信息如图所示。六、POANet.在每个流内，POANet被设计为基于部件-对象关系将低级胶囊分配给较高层中的熟悉胶囊，以这种方式，相关部件将被聚类在一起以构成显著对象。因此，可以从背景中分割出显著对象。3.1. FLNet881688881688转换1616256重塑168888S形整形FLNet用于学习输入图像的深度特征该网络的详细信息如图所示。 5. 如图所示。 5 ，输入图像（352×352×3）首先被馈送到五个堆叠的卷积层中。为了捕获更多的图像上下文信息，我们在每个阶段添加了四个膨胀卷积层[49]，它们具有相同的卷积核大小3×3，具有不同的膨胀率（1，3，5和7）。这样，我们可以在不增加核尺度的情况下，在每个阶段的各种感受野下捕获丰富的上下文此外，低级特征图有助于捕获诸如对象边界之类的细节，而高级特征图可以获取语义知识。为了结合它们的优点，这五个阶段的特征图- S集成在一起。具体地，将较深级别的特征图与较浅级别的特征图逐层集成，直到最浅阶段，从而产生集成的特征图（352×352×128）。级联图6.胶囊构建。16通道特征图（88×88×16）首先通过两个卷积层转换为256通道特征图（88×88×256然后将256通道特征图重新整形为88×88×16×16，这是16个胶囊的矢量化姿态矩阵2首先将16通道特征图（88×88×16）转换为16通道特征图（ 88×88×16 ）。将 16 通道特征图重塑为88×88×16×1，即16个胶囊的激活信息。将矢量化的姿态矩阵和激活连接在一起以构建16个胶囊（88×88×16×17）。双流POANet通过Pri.maryCaps分为两组，每一组都包含图5. FLNet的详细信息2这里，每个胶囊的姿态矩阵被延长为有效存储的向量。尺寸3是胶囊的数量。12368 粒（ 88×88×8×17 ）。每组 8 个胶囊重塑为88×88×136。这两组胶囊被馈送到两个流以探索部件-对象关系。这由两个卷积胶囊（ ConvCaps1 和ConvCaps2）层实现。ConvCaps1和ConvCaps2在每个流中分别由8个和4个胶囊组成。基于部件-对象关系，低级胶囊（部件）将被分配给熟悉的高级胶囊（对象）。两个流的架构是相同的。我们首先说明ConvCaps1的一个流，如下所示：第一步：丰富胶囊的功能。在PrimaryCaps的输出胶囊上执行步长为2且通道乘数为9的深度卷积，从而产生更丰富特征的胶囊44×44×9 ×136。1936×72×17。因此，核心--响应的矢量化姿态矩阵和激活值分别为1936×72×[1：16]和1936×72×[17]，其中[·]表示沿着对应维度的通道数量。步骤2：计算低级别胶囊对相邻高级别胶囊的投票。首先将矢量化的姿态矩阵变换为具有4×4维度的姿态矩阵M。令层L中的胶囊i的姿态矩阵为Mi。在层L中的每个胶囊i和每个胶囊iConvCaps2具有与ConvCaps1相似的架构，除了两点。一个区别是深度卷积的步长在ConvCaps2中为1，而不是在ConvCaps1中为2。另一个区别是ConvCaps2将迭代路由算法计算的平均值和激活值分别重塑为每个流中的1936×8×16和1936×8×1胶囊分类由双流POANet获得的那些更完整的胶囊最终被分类为显著的或背景的，这由类胶囊（ClassCaps）层实现。ClassCap的架构s类似于ConvCaps1中的步骤2和步骤3。通过ClassCaps层，两个流的胶囊将被分配为与显著对象和背景相对应的两种类型的胶囊ClassCaps的输出为44×44×2。然后，利用三个解卷积层将检测结果变换为与输入图像分辨率相同的352×352×2，生成最终的显著图。3.3. 损失函数我们采用[51]中使用的交叉熵损失函数来训练所提出的显著对象检测网络，即，层（L +1）中的胶囊j是4 × 4可训练变换矩阵W ij。这些W ij是有区别地学习的。的1∑NCE（v）=−N∑（y（vi）=c）（l〇 g（y（vi）=c）），将层L中的胶囊i的Vij投票给层L中的胶囊j（L+1）是通过将i=1c∈{0，1}（二）胶囊i和对应的变换矩阵Wij，即，V ij= M i W ij。（一）由等式（1），得到的票数为1936×72×8×16。步骤3：将部分（低级胶囊）分配给整体（高级胶囊）。将部分分配给整体可以通过从部分中找到投票的紧密簇来解决。为了实现这一点，使用迭代期望最大化（EM）算法[16]来更新概率，利用该概率，基于来自该部分的投票与来自其他部分的投票的接近度将该部分分配给整体。该路由算法基于熟悉形状的知识导出分割具体地，将投票和低级别胶囊的激活值输入到迭代路由算法中，该算法将计算平均值（1936×1×8×16）和激活（1936×8）。它们被重新塑造成矢量化的姿态矩阵（44×44×8×16）和激活值（44×44×8×1），然后将其连接为高级胶囊（44×44×8×17）。最后，通过将胶囊重新整形为44×44×44×136来实现输出，并将其馈送到同一流中的ConvCaps2中其中V1表示P1 ×E1的位置。 y（vi）和y（vi）分别表示地面实况和预测显著性图中的像素i的显著性值。3.4. 深入了解TSPOANet用于显著对象检测的部分-对象关系的属性是从以下想法导出的：如果两个低级胶囊共享熟悉的属性，则它们将被聚集在一起以组成一个整体换句话说，两个胶囊i和k将被聚集以在上面的层中形成胶囊j，如果M i W ij≈ M k W kj。（三）为了对显著对象检测中使用的部分对象关系的属性给出基本和清晰的见解，我们可视化了真实示例的中间层（如图所示）。 7 ）基于单流 POANet（ SSPOANet ），其是在 FLNet 之后直接采用传统CapsNet的基线网络。两个观察图1）Pri- maryCaps层中的胶囊4和胶囊7确实捕获两个部分，即，行人和面板，而较高ConvCaps 1层中的胶囊6清楚地描绘了整个对象; 2）胶囊4和胶囊7通过EM路由算法经由M4W461237WConvCaps1胶囊6(Road签署）W46W76M4W46M7W 76PrimaryCaps胶囊4（小组）胶囊7（行人）M4W46和M7W76 分别是较低胶囊4和胶囊7对较高胶囊6的投票。W46和W76是可学习的视点不变变换矩阵，它可以捕获较低胶囊和较高胶囊之间的关系。M4和 M7 分别是P r i m a r y C a p s 层中的 capsule4和capsule7的姿态矩阵。和M7W76，其中W是两个胶囊层之间的可学习变换矩阵。W显式地编码部件和对象之间的关系。通过投票，胶囊4和胶囊7捕获部分构成表示完整对象的较高胶囊6，即，路标。这种方式确保了在胶囊分类阶段可以检测到完整的显著对象，这带来了普遍高的前景显著性值。总之，POANet在建模部分对象关系方面的自然能力可以解决基于CNN的显著性检测器中存在的对象部分缺失问题。图7.部件-对象关系的图示。胶囊4（面板）和胶囊7（行人）基于它们与较高胶囊 6 的近似相等的投票而构成较高ConvCaps1层中的胶囊6（整个与CapsNet的比较我们提出的框架与原始CapsNet之间的差异在于两个方面。首先，将每个较低胶囊投票给所有较高胶囊的CapsNet具有很高的计算复杂度。不同的是，我们应用双流策略将每个较低的胶囊分配给较高胶囊的一个流，而不是在较高层的所有胶囊，这在一定程度上减少了所需的计算。所提出的双流策略的参数比相应的两个卷积胶囊（ConvCaps1）4.1. 基准数据集我们在五个基准数据集上评估我们的模型的性能，其细节描述如下。ECSSD[44]包含从互联网上收集的1000张图像。这些图像具有复杂的结构。DUT-OMRON[45]拥有5168张不同尺寸和复杂结构的图像。背景非常复杂，以突出突出的对象。HKU-IS[25]由4447张图像组成，其中包含多个不连接的对象。它分为3000个训练图像和1447个测试图像。我们在测试数据集上评估了我们的方法和其他最先进的方法。DUTS[40]包含10533个训练图像和5019个测试图像。该数据集中的图像具有不同的场景和各种大小。我们使用测试数据集来评估我们的模型和比较的方法。PASCAL-S[28]包括850幅描述各种场景的图像。4.2. 评价标准我们从视觉和定量的角度评估我们的模型以及其他最先进的方法。定量指标包括精确度召回（PR）曲线、平均F-测量和平均绝对误差（MAE）。给定连续显著图S，通过阈值化实现二进制掩模B 精度定义为 Precison=|B∩G|/|B| ，召回率定义为Recall=|B∩G|/|G|其中G是对应的地面真值。绘制了不同阈值下的PR曲线F度量是一个总体性能指标，其计算公式为（1+β2）精度×重复调用Fβ=β2精密度+再调用。（四）如[2]中所建议的，β2= 0。3 .第三章。MAE定义为和ConvCaps2）层。其次，不同的-- 从仅使用Conv+ReLU图层进行特征提取中进行测试MAE=1∑∑宽×高|、（五）|,(5)在最初的CapsNet中，我们利用FLNet来学习更好的fea，TSPOANet的结构这将大大提高性能，这在实验部分得到了验证。与组卷积的比较我们提出的TSPOANet和组卷积[23，43，55]之间的主要区别在于组卷积执行低和高组之间的卷积运算，以实现更多的区别特征图，而我们提出的TSPOANet执行低和高组胶囊之间的投票路由，以探索部分对象关系。4. 试验与分析在本节中，进行了大量的实验和分析，以验证我们提出的深度显著对象检测网络的有效性和优势i=1j=1其中W和H分别是图像的宽度和高度。4.3. 实现细节该模型在Tensorflow中实现[1]。为了避免从头开始训练导致的过度拟合，FLNet中的五个堆叠卷积层分别由预训练的VGG 16 [38]的Conv 1 2，Conv 2 2，Conv 33，Conv 4 3和Con-v5 3初始化。其他权重用截断法线（σ=0）随机初始化。01），并且偏置被初始化为0。Adam优化器[21]用于训练我们的模型，初始学习率为106，β1=0。9，且β2=0。999选择DUTS [7]的训练数据集作为训练数据集，水平翻转作为数据增强技术。H1238ϭϬ͘ϴϬ͘ϲϬ͘ϰϬ͘2ϭϬ͘ϴϬ͘ϲϬ͘ϰϬ͘2ϭϬ͘ϵϬ͘ϴϬ͘ϳϬ͘ϲϬ͘ϱϬ͘ϰϬ͘ϯϭϬ͘ϴϬ͘ϲϬ͘ϰϬ͘2Ϭ͘ϵϬ͘ϴϬ͘ϳϬ͘ϲϬ͘ϱϬ͘ϰϬ͘ϯϬ͘2ϬϬ Ϭ͘2Ϭ͘ϰ Ϭ͘ϲ Ϭ͘ϴϭ萨格勒布呼叫ϬϬ Ϭ͘2Ϭ͘ϰ Ϭ͘ϲ Ϭ͘ϴϭ萨格勒布呼叫Ϭ͘2Ϭ Ϭ͘2Ϭ͘ϰ Ϭ͘ϲ Ϭ͘ϴϭ萨格勒布呼叫ϬϬ Ϭ͘2Ϭ͘ϰ Ϭ͘ϲ Ϭ͘ϴϭ萨格勒布呼叫Ϭ͘ϭϬ Ϭ͘2Ϭ͘ϰ Ϭ͘ϲ Ϭ͘ϴ ϭ萨格勒布呼叫ECSSD [44]香港大学-IS[25]PASCAL-S[28]DUTs [40]DUT-OMRON [45]图8.不同方法的PR曲线。SC（一）SO MOTBSimoComS（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款（g）（h）（一）图9.一些好方法的直观比较（a）图像;（b）GT;（c）TSPOANet;（d）BMP [51];（e）LFR [52];（f）Amulet [53];（g）UCF [54];DLS [17];（i）ELE [42]。4.4. 性能比较在本节中，我们将我们的方法与9种最先进的方法进行了比较，包括BMP [51]，LFR [52]，AMC [50]，[2019 - 05 - 15][2019 - 05 - 15][2019 - 05][2019 - 05 -05][2019 - 05][2019 - 05 - 05][2019 - 05][2019 - 05 -05][2019 - 05][2019 - 05 - 05]MDF [25]。视觉和定量比较都被考虑在内，以进行公平的比较。图8显示PR曲线不同的方法。表1列出了不同方法的平均F-测量值和MAE值。从图中可以明显看出。8，所提出的方法实现更好的PR曲线比大多数的比较状态的最先进的方法。此外，从表1中可以很容易地看出，我们的方法在F-测度度量方面表现最好。在MAE度量方面，所提出的模型α-增益在PASCAL-S [28]、DUTs[40]和DUT-OMRON [45]上表现最好，并且在ECSSD[44]和HKU-IS [25]上表现第二好这些定量比较明显地验证了我们提出的模型的优越性。图9示出了在各种情况下不同方法的一些视觉比较，包括简单情况（SC）、小对象（SO）、多个对象。（MO）、触摸边界（TB）、对象和背景之间的相似（SimO）和复杂场景（ComS）。对于SC的情况下，大多数提到的方法得到了良好的检测结果一般。对于SO的情况下，大多数的比较方法无法检测到的针状的显着对象，并错误地标记为显着的背景，而我们的方法是能够准确地定位针状的目标，并很好地抑制了背景。对于MO的情况，我们的方法可以检测到所有的显著对象，而其他方法大多错过一个对象或引入一些背景噪声。对于TB的情况，最先进的方法引入了大量的背景噪声，而所提出的网络可以准确地突出整个显著对象。对于SimO的情况下，比较的方法大多标记为显着的一些背景，而我们的方法是能够准确地区分显着的对象从混乱的背景。对于ComS的情况下，大多数国家的最先进的方法是无法识别的显着对象，相反，我们的方法仍然可以脱颖而出的显着对象从复杂的背景。综上所述，与现有技术相比，所提出的TSPOANet能够准确地定位显著对象。d^WKAEBDW> ZADCADD&d^WKAEBDW> ZADCAhCD^>E>EDD&d^WKAEBDW> ZADCAhCE>Ed^WKAEBDW> ZADCADD&d^WKAEBDW> ZADCADD&韦奇日韦奇日韦奇日韦奇日韦奇日1239表1.不同方法的平均F-测量值和MAE值。前三种方法分别用红色、蓝色和洋红色标记。“-” means that the corresponding authors donot provide the detection results of theECSSD [44]香港大学-IS[25]PASCAL-S [28]DUTs [40]DUT-OMRON [45]FβMaeFβMaeFβMaeFβMaeFβMae我们0.88730.05150.87950.03910.82530.07490.79930.04820.70300.0628BMP [51]0.86820.04470.87070.03890.78450.07530.75050.04900.69170.0635LFR [52]0.87990.05250.87520.03960.80590.10660.70640.08340.66560.1030AMC [50]0.65160.20900.76030.21600.70650.19460.63740.24890.57750.2693护身符[53]0.86830.05890.84280.05010.79560.09970.68160.08460.64720.0976UCF [54]0.84390.06910.82350.06120.76750.11550.63510.11190.62060.1203DLS [17]0.82190.08600.80800.06960.73440.1301--0.64530.0895ELE [42]0.75450.12010.70530.11180.67050.16140.57860.12720.57520.1215ELD [24]0.81690.0790--0.74130.1211--0.61410.0910中密度纤维板[25]0.80680.10500.78440.12920.71130.1420--0.64430.0916各种情况下，分割出具有良好整体性和一致性的显著目标。4.5. 消融分析TSPOANet为了探索TSPOANet的有效性，我们将整个框架与通过从整个框架中删除TSPOANet而实现的基线进行比较。表2和图10分别显示了定量和目视比较。从表2中可以容易地看出，TSPOANet将性能提高到明显的从图的左边两列。10，很明显，TSPOANet有助于为显著对象获得更好的均匀性和整体性。改进在于TSPOANet提供的部件-对象关系。（一）（b）第（1）款（c）第（1）款（d）其他事项图10.消融分析的目视比较（a）形象;(b)GT表2.EC-SSD消融分析的性能评价[44]。FβMae+TSPOANet-TSPOANet0.88160.82500.05210.0694TSPOANetSSPOANet0.88160.87060.05210.0644+FLNet-FLNet0.87060.65450.06440.1504双流战略我们探讨了通过比较所提出的 TSPOANet 和基线，即，单流POANet（SSPOANet），其通过在FLNet之后直接采用原始Cap-sNet来实现如表2所示，所提出的TSPOANet实现了比SSPOANet更好的性能。此外，如图2的中间两列所示10中，所提出的TSPOANet可以检测整个显著对象，而SSPOANet错过一些显著部分。TSPOANet的优越性可以归因于双流策略，其减轻了一些有噪声的部分对象分配。FLNet为了探索FLNet的有效性，我们将通过FLNet学习特征的SSPOANet与其改进版本进行了比较，后者通过原始CapsNet使用的Conv+ReLU层学习输入图像的特征。从表中可以很容易地观察2 FLNet显著提高了性能。从图的右边两列。10，很明显FLNet使框架具备了整体识别显著对象的能力，这要归功于FLNet学习到的丰富特征。5. 结论在本文中，我们提出了一个新的显着属性的部分对象的关系提供的CapsNet显着对象检测。为了实现这一点，我们提出了一个深双流部分对象分配网络（T-SPOANet）。该模型需要较少的计算预算，同时获得更好的整体性和均匀性的分割显着对象。鸣谢本论文得到国家自然科学基金项目（61773301）和国家留学基金委基金项目（2005）的资助。201806960044。引用[1] Mart´ın Abadi ， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：(c)：+TSPOANet(d)：−TSPOANet(c) ：TSPOANet(d) ：SSPOANet(c)：+FLNet(d)：−FLNet1240一个大规模机器学习系统在Operating System Design andImplementation中，第265-283页[2] Radhakrishna Achanta ， Sheila Hemami ， FranciscoEstrada，and Sabine Susstrunk.频率调谐显著区域检测。IEEE计算机视觉和模式识别会议论文集，第1597-1604页，2009年[3] Ali Borji、Ming-Ming Cheng、Huaizu Jiang和Jia Li。显著对象检测：基准。 IEEE Transactions on ImageProcessing，24（12）：5706[4] 曹晓春、陶志强、张宝、傅华珠和冯伟。基于秩约束的自适应加权共显著性检测。IEEE Transactions on ImageProcessing，23（9）：4175[5] Ming-Ming Cheng，Qi-Bin Hou，Song-Hai Zhang，andPaul L Rosin.智能视觉媒体处理：当图形与视觉相遇。Journal of Computer Science and Technology，32（1）：110[6] Ming-Ming Cheng ， Niloy J Mitra ， Xiaolei Huang ，Philip HS Torr，and Shi-Min Hu.基于全局对比度的显著区域检测。IEEE Transactions on Pattern Analysis andMachine Intelligence，37（3）：569[7] 郑明明，张国新，Niloy J. Mitra，Xiaolei Huang，andShi Min Hu. 基于全局对比度的显著区域检测。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，pages 409-416，2011中。[8] Runmin Cong ， Jianjun Lei ， Huazhu Fu ， QingmingHuang，Xiaoxun Cao，and Chunping Hou.基于多约束特征匹配和交叉标签传播的rgbd图像共显著性检测。IEEETransactions on Image Processing，27（2）：568[9] 傅华珠，曹晓春，涂卓文。基于聚类的共显性检测。IEEE Transactions on Image Processing ， 22 （ 10 ）：3766[10] 高岳、王梦、陶大成、季荣荣、戴琼海。基于超图分析的三维物体检索与识别。IEEE Transactions on ImageProcessing，21（9）：4290[11] Chenlei Guo和Liming Zhang。一种新的多分辨率时空显著性检测模型及其在图像和视频压缩中的应用。IEEETrans. ImageProcessing，19（1）：185[12] 郭静帆，任同伟，黄磊，刘星宇，程明明，吴刚山.视频显著对象检测，通过跨帧细胞自动机。IEEEInternational Conference on Multimedia and Expo，第325-330页[13] Junwei Han，King Ngi Ngan，Mingjing Li，and Hong-Jiang Zhang.彩色图像中视觉注意对象的无监督提取IEEE Transactions on Circuits and Systems for VideoTechnology，16（1）：141[14] Jungong Han，Eric J Pauwels，and Paul De Zeeuw.快速显著性感知多模态图像融合。Neurocomputing，111：70[15] Geoffrey E Hinton，Alex Krizhevsky，and Sida D Wang.转换自动编码器。国际人工神经网络会议，第44-51页[16] Geoffrey E Hinton，Sara Sabour，and Nicholas Frosst.带有电磁路由的矩阵胶囊。在国际学习代表会议上，第3856-3866页[17] 胡平，帅兵，刘军，王刚。用于显著对象检测的深度水平集。在IEEE计算机视觉和模式识别会议集，第2300-2309页[18] 劳伦特·伊蒂使用视觉注意的神经生物学模型IEEETransactions on Image Processing，13（10）：1304[19] Laurent Itti，Christof Koch，and Ernst Niebur. 基于显著性的快速场景分析视觉注意模型。IEEE Transactions onPattern Analysis

下载后可阅读完整内容，剩余1页未读，立即下载