显著对象排序及其在实例分割中的应用

109 浏览量更新于2023-10-15 收藏 1.53MB PDF 举报

实例分割

文件标签

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16331位置保留注意的显著对象排序张道新2，张毅1，陈明浩1，李继伟2，胡耀2，邓才1，2，3*，何晓飞1，3浙江大学2阿里巴巴集团3FabuInc.摘要实例分割可以检测出物体在图像中的位置，但很难理解它们之间的关系。我们关注一个典型的关系，相对显著性。一个密切相关的任务，显着的对象检测，预测一个二进制地图突出的视觉显着的区域，而难以区分多个对象。通过后处理直接组合两个任务也导致较差的性能。目前对相对显著性的研究还比较缺乏，限制了其在内容感知的图像裁剪、视频摘要、图像标注等实际应用中的应用。在本文中，我们研究了显着对象排名（SOR）的任务，管理分配的排名顺序，每个检测到的对象，根据其视觉显着性。我们提出了SOR任务的第一个端到端框架，并以多任务学习的方式解决它。该框架同时处理实例分割和显著对象排序。在该框架中，SOR分支是独立的，可以灵活地与不同的检测方法配合使用，便于作为插件使用。我们还介绍了引入一个位置保持注意力（PPA）模块量身定制的SOR分支。该算法由位置嵌入阶段和特征交互阶段组成。考虑到位置信息在显著性比较中的重要性，本文在ROI池化操作中保留了对象的绝对坐标，然后在第一阶段将位置信息与语义在特征交互阶段，我们应用注意力机制来获得提案的上下文化表示，以预测它们的相对排名。在ASR数据集上进行了广泛的实验。没有花里胡哨，我们提出的方法优于前国家的最先进的方法显着。该代码将在https://github.com/EricFH/SOR上公开发布。1. 介绍实例分割近年来取得了巨大的进步[14，28]。为了更深入地了解图像，探索对象之间的关系*通讯作者。图1.显着对象排名（SOR）任务分配一个排名顺序，每个检测到的对象，根据他们的视觉显着性。实例分割可以检测出目标，但不能得到目标之间的关系同时，显著目标检测可以突出最吸引人的区域，但不能区分它们。(Best以颜色查看）。检测它们的位置对于研究人员来说是有意义的。一个典型的关系是相对显着性，比较哪个比另一个更有吸引力。显著对象检测（SOD）是一项密切相关的任务，旨在定位吸引人类视觉注意的区域。大多数作品将此任务制定为逐像素二元预测任务[54，55，16，19，43，45，20，29，26，32，36，53]。由于SOD在像素级而不是实例级预测所有显著区域，因此它在区分真实场景中的多个对象时具有局限性。（如图所示。第一章显著对象排名（SOR）是最近提出的由[22]处理多个对象的场景引入它分配一个独特的排名顺序，每个检测到的对象，根据其视觉显着性。图像中物体的显着排名或- ders反映了人类的注意力转移过程[39]，这有助于研究人员探索人类如何16332图2.所提出的端到端显着对象排名（SOR）架构是基于多任务学习框架。来自共享特征提取器的语义然后检测分支（如蓝色框所示）预测实例分割结果。SOR分支（显示在绿色框中）将语义特征与位置嵌入相结合，并在建议之间交互特征它采用了一种新的位置保留注意力（PPA）模块来获得上下文表示，并通过FC层进行最终排名预测。解释图像。与此同时，大量的下游应用对SOR有着巨大的需求. 代表性的，如内容感知图像裁剪[56，7]，图像解析[25，40]和图像字幕[50，51]，不能很好地解决通过采用当前的对象检测和SOD方法。SOR任务的工作是有限的。我们可以将它们分类为基于FCN的[22，47]和基于检测的[39]。基于FCN的方法像SOD那样逐像素地预测显著性排名顺序。相同实例中的像素可以被预测为不同的排序顺序。它不符合SOR的要求，其目的是为同一对象分配相同的排序顺序。虽然复杂的后处理配合其他检测模型可以缓解这个问题，性能是不稳定的。 Siris etal. [39]提出了一种基于检测的方法。它首先训练一个检测器，提取每个建议的特征。然后将自上而下和自下而上的信息与提案的特征相结合来预测其排序。然而，这个网络不能端到端地训练。检测损失和SOR损失难以联合优化上面提到的方法没有充分利用位置信息，位置信息是对对象的显著性进行排名的重要因素也就是说，中心的物体往往比角落的物体更有吸引力此外，具有较大比例的对象另一个基本因素是对象之间的相关性。更有吸引力的对象将降低其他人的视觉显著性。（如图所示。第三章在本文中，我们提出了一个端到端的框架，第一次的SOR任务，并解决了它在一个多任务学习方式。在这个框架中，检测和显著对象分级分支是并行的而不是顺序的。我们可以联合优化SOR损失和检测损失以获得更好的性能。SOR分支完成独立的排名预测任务。因此，它可以被认为是一个灵活的插件，具有多种检测方法。我们进一步介绍了位置保持注意力（PPA）模块量身定制的SOR分支。PPA由位置嵌入阶段和特征交互阶段组成。在位置嵌入阶段，除了从ROI池化[38，14]提取的语义特征之外，还考虑每个对象的位置信息。图像中的绝对位置和彼此之间的相对位置都有助于对对象的显著性进行排名。然而，常见的ROI池化操作将从整个特征图和丢失的对象的位置信息中裁剪对象级特征为了解决这个问题，我们连接位置坐标地图与整个特征图之前，投资回报率池- ING。然后，我们将它们传递到ROI池中。该位置保持池化过程最终获得每个对象的对应位置信息经过语义特征融合和位置嵌入，得到了每个对象更丰富的特征。由于SOR的目的是获得彼此之间的相对显着性排名，而不是一个特定的显着标签，特征交互阶段是至关重要的。在这个阶段中，注意机制被用来使对象接收其他对象我们采用Transformer [41]的编码器来实现注意机制。每个对象级特征被认为是一个视觉标记，它是Transformer编码器的输入16333已经在ASR数据集[39]上进行了广泛的实验，ASR数据集在没有花里胡哨的情况下，我们的方法明显优于前一种最先进的方法。总之，这项工作的主要贡献包括：• 我们提出了SOR任务的第一个端到端框架我们可以联合优化SOR损失和检测损失以获得更好的性能。SOR分支是灵活的，以配合其他检测方法。• 我们引入了一个位置保持注意力（PPA）模块量身定制的SOR分支，保留绝对坐标的ROI池操作的对象，然后融合位置信息与语义特征。在特征交互阶段，在每个对象之间应用注意机制以获得上下文化表示。• 我们的方法优于前国家的最先进的方法显着ASR数据集。它可以作为一个强有力的基线，以促进未来的研究SOR。2. 相关工作2.1. 显着物体检测显著目标检测（SOD）作为计算机视觉领域的一个重要问题，近年来引起了众多研究者的关注。大多数SOD方法[3，46]被设计用于检测视觉上显著的区域，并且任务被制定为逐像素的二进制预测问题。早期的作品试图在像素级[23，35]，块级[33，1]和区域级[9]中构建启发式特征。随着卷积神经网络（CNN）的发展，利用CNN学习的特征来提高SOD的性能。SOD方法可以大致分为三种方式，即：、基于超像素的[20，26]、从粗到细[55，32]以及方法利用自下而上和自上而下的途径[34，19，54]。2.2. 显著对象排序显著对象排名是由[22]在2018年引入的新提出的问题。Islam等[22]首先用公式表示SOR问题，并提出了一个基于FCN的模型，该模型应用相对显着性的分层表示和逐阶段细化。Li等[30]认为有注视预测（FP）和显著对象检测（SOD）之间的强相关性。Wang等人[47]还提出了利用FP和SOD分支的视频数据集上的SOR模型。这些方法最终预测显着性排名图，这可以被看作是SOD的后处理。[39]提出了一种基于检测的方法，该方法首先预训练检测器以提取对象级特征。然后应用SAM和SMM模块将全局特征和掩模特征与目标特征进行融合。最后，遵循一个简单的分类器来预测排名顺序。该方法是对象感知的，但它需要两个阶段的训练，而不是端到端的，这导致了一个问题的检测损失和SOR损失联合优化。同时，不考虑位置信息，并且在没有交互的情况下独立地预测每个排序顺序。2.3. 视觉TransformerTransformer是一种主要基于自注意机制的神经网络，它首先应用于自然语言处理（NLP）任务，并取得了显著的改进[41，10，5]。有越来越多的作品将Transformer应用于计算机视觉任务。Chen等人[8]训练生成模型以自动回归地预测像素。ViT [11]将纯变换器直接应用于分类时的图像块序列Transformer还被用于解决各种计算机视觉问题，例如对象检测[6]、语义分割[42]、视频处理[52]和姿态估计[21]。这些作品采用图像级或补丁级的Transformer，而我们的方法采用它的ROI级（感兴趣区域）。3. 方法本节介绍了我们提出的模型的细节，包括设计动机（第3.1节），整体网络架构（第3.2节），位置保持注意力模块（第3.3节），以及对不同位置嵌入方案的讨论（第3.4节）。我们提出了SOR任务的第一个端到端框架，并以多任务学习的方式解决它在这个框架中，CNN首先从输入图像中提取共享特征图。然后，在ROI池化之前，X轴和Y轴的坐标图与特征图在获得具有对象级特征和位置信息的提议之后，我们将这些提议同时传递到SOR分支和检测分支以获得最终结果。3.1. 动机与常见的目标检测和分割任务相比换句话说，图像中对象的位置和尺度不影响字符的性质（类别）和外观特征（检测和分割）。这些信息通常被认为是任务的先验知识，是绝对信息。然而，SOR任务不同。如图在图3（a）中，图像的中心或角落中的相同对象可以直接从前景主题改变为背景。同样，规模也16334LLLL×个L L LL× ××LL图3.说明了影响对象显著性排名的关键因素，而不是语义信息，其中直方图表示相应图像内的SOR在图中(a)以及（b）分别示出位置和尺度影响显著性排序。（c）和（d）表明对象A的存在将影响对象B的排序。具有重要的影响，这个显着性排名任务，这是在图中展示。3（b）款。另一个不同之处在于，一个对象的排序顺序受其他对象的存在的影响一个更有吸引力的对象的存在例如，当比较图。3（c）与图3（d），我们发现，对象A的删除影响了对象B的显着排名。因此，对象之间的特征交互也是该任务的一个重要步骤，即对象的特征在SOR任务中是相对的。如何有效地利用位置信息和互信息是解决这一问题的关键，而直接应用检测框架很难解决这一问题。3.2. 多任务学习体系结构整体网络架构如图2所示。该框架由三部分组成：1. 主干：应用常用的CNN网络作为特征提取器。输入是原始图像，而输出是特征图。ROI池化操作将被应用于每个提议的裁剪对象级特征。为了将位置信息添加到我们的位置保持注意力模块，我们在ROI池化之前将X轴和Y轴的坐标与特征图连接起来：[FeaMap;PosMap]1.我们将在3.3节中讨论更多细节。2. 检测分支：在该分支中可以使用现成的检测方法，例如[14，28]。的目标其中[·;·]表示沿着信道维度的该分支用于检测对象并预测它们的位置、类别和掩码。在此分支中不使用每个建议的位置信息。3. SOR分支：SOR分支被设计为根据每个提议的视觉显著性来分配它们的排名顺序。SOR分支的目标是对提议进行排名，而不是检测它们的存在。PPA模型在该分支中起着重要作用，它包括位置嵌入阶段和特征交互阶段。在第一阶段，语义信息和位置信息融合，以获得视觉令牌。然后，它们被传递到特征交互阶段，并为每个建议获得上下文化的表示。最后，一个完全连接的层是遵循预测每个建议的排名顺序。损失函数我们将训练损失函数定义如下：其中，det是检测损耗，例如，det=box+公司简介面具包围盒丢失类框和掩模损失掩模相同在MaskRCNN中定义的那些[14]。当该框架应用不同的检测方法时，在检测的细节上可能存在一些差异[14，28]。Sor是SOR损失，其是预测的排序顺序的分布与地面实况排序顺序之间的交叉熵损失。在所有实验中，我们将λ设置为1。0的情况。3.3. 位置保持注意模块为了解决3.1节中的上述问题，我们提出了位置保持注意（PPA）模块。它是SOR分支的主要部分，由位置嵌入阶段和特征交互阶段组成。位置嵌入阶段用位置信息丰富语义特征，而特征交互阶段利用提议之间的互信息。PPA 模块的输入是具有位置（例如N1414(256 +2），N表示提议的数量，14是ROI池化大小，特征图和位置索引的通道的数量分别是256和2）。对于具有BBox坐标bbox i的第i个提议，其在RoI池化之后的特征是 [feai; posi]= RoIPooling（[FeaMap; PosMap]，bbox i）。PPA模块的输出是每个提议（例如N1024）的上下文化详细结构示于图1中。第4（a）段。位置嵌入阶段该阶段如图所示。4（b），其旨在融合每个提议的语义特征和位置信息。首先，将特征图分为语义部分和位置部分。然后，将具有ReLU激活函数的卷积层应用于16335WH·QQ⌊ ⌋ ⌊⌋图4. PPA模块是SOR分支的中心。具体包括位置嵌入阶段（红块）和特征交互阶段（蓝块）。位置嵌入阶段用位置信息丰富语义特征，并输出矢量化视觉标记。特征交互阶段通过Transformer编码器[41]利用建议之间的互信息PPA模块最后输出用于排名预测的每个提议的情境化用于提取低级特征的定位部分：pos fea i=Conv（posi）。将原始位置和低级特征连接在一起，并且获得提议的位置嵌入：pos嵌入i=[pos i;pos fea i]。然后语义特征和位置嵌入两者被连接并一起传递以下四个卷积层：fea i=Convs（[fea i;pos embeding i]）。融合后的特征图经过两层完全连接后被展平，最后转化为一个1024每个建议被分别转换为一个1-D向量，这被认为是一个视觉令牌。视觉标记的概念是从NLP中借用的，因为我们在下面的阶段使用了Transformer的编码器。特征交互阶段为了利用提议之间的相互信息，我们应用了Trans- former [41]的编码器，这得益于自我注意机制。我们遵循标准的Transformer编码器结构，如图1右侧所示。第4（a）段。它由多头自注意和前馈神经网络（FFNN）块的交替层组成。在每个块和残差连接[44]之后应用层归一化（LN）[2]。GELU [18]用作FFNN中的激活函数。3.4. 职位嵌入讨论我们已经探索了不同的位置嵌入方案，因为位置和规模的敏感性是SOR任务的关键因素。我们从图1中所示的简单连接方法开始。第五条（a）款。在ROI池化操作之后，从特征图中裁剪提议的特征。然后我们应用四个卷积层，然后将它们展平为一维向量。经过两个完全连接的层，最后，对象fea-获得了结果。在该方案中，我们简单地将对象特征、中心坐标（Cx，cy）和响应边界框的尺度（w，h）（由图像宽度和图像高度归一化）连接起来以获得视觉令牌。在视觉变换器[ 11，17 ]中使用的位置嵌入方法之后，我们尝试了图11中所示的1-D可学习位置嵌入向量。5（b）。该方案将预定义固定数量的单元，每个单元对应于一个可学习的嵌入向量。但是，提案的立场和规模是计算出来的，而不是预先确定的，是实数，不能枚举。为了解决这个问题，我们使用了定量的方法和网格的价值空间。给定一个W宽H高的图像，我们首先将空间网格化为形状为W×H的q×q个单元。为在具有（Cx，C y）中心位置的提案的边界框bbox中，我们计算提案的索引（Id x，Id y）：Id x=Cx·q，Id y=Cy·q，它属于哪个小区。我们使用Idx和Idy来获得Id=Idx q+Idy中的预定义嵌入的索引。目标特征的获取与第一种方案相同。对象特征和位置嵌入两者被加在一起以获得最终的视觉效果。缩放信息也可以以这种方式嵌入。然而，在此方法中，处于接近位置的两个建议将引入定量误差并且将不可避免地丢失位置信息。使用更大的数量q可以减轻这种误差，但会导致更多的可学习参数。较大的q也会给模型带来风险。如果数据集不够大，嵌入的一些指标没有很好地训练，相应的位置bbox将在推理阶段具有不良的表示。定量数q将是难以调整的超参数。在实验中，q=4和q=8的性能相当。与上述两种方案相比，示于图图5（c）在ROI池化之前将绝对位置信息附加到特征图。该位置保持过程直接利用绝对位置信息。在ROI池化之后保留每个提议的对应坐标图。然后，建议实验结果表明，该模型在PPA的位置嵌入方式获得更多的好处4. 实验4.1. 数据集我们在ASR数据集[39]上进行实验，这是我们所知的唯一公开发布的SOR数据集。ASR数据集是通过将MS-COCO数据集[31]与SALI-CON数据集[24]组合的大规模显著对象排名数据集。它由78个对象类别组成，数据集中每个图像的平均对象数为16336↓ ↑↑×个↑ ↓图5.三个位置嵌入方案。（a）将归一化的[Cx，Cy，w，h]直接关联到ROI的特征。（b）向特征添加可学习的查找位置嵌入。(c)PPA位置嵌入阶段。11点左右。实例的注释与MS-COCO数据集相同，额外的信息是排序顺序。在不要引入任何数据增强技巧。我们应用SGD [4]作为优化器，动量为0.9，gamma为0.1，基本学习率设置为1e-4。我们在前1000次迭代中使用预热[13]策略，并应用多步策略，其权重衰减因子为0.1。除非另有说明，否则我们主要使用VoV-39 [27]作为主干，CenterMask[28我们将mini-batch大小设置为16，并训练网络进行54000次迭代。所有模型都在2个TITAN RTX GPU上使用PyTorch实现。推理阶段是一个连续的过程。我们首先将排名1类中得分最高的对象作为前1个然后，我们从候选对象中删除该对象，并选择秩2类中得分最高的对象，依此类推。以这种方式，我们可以获得前5个显著对象，避免了多个对象被分配到相同的排名顺序的情况。4.4.主要结果每个图像，前5个最视觉显著的实例拥有范围从1到5的唯一的排序顺序，以及其它的情况被认为是背景。数据集运行-方法MAE SOR #使用的图像RSDNet [22]0.139 0.72824184.2. 评估指标我们采用[39，22]的评估方法进行公平的比较，即、显著对象排序（ SOR ）和平均绝对误差（MAE）。SOR度量计算预测的排名顺序与显著对象的地面实况排名顺序之间的Spear-man排名SOR表示两个排序顺序列表之间的相关性，并且较高的SOR意味着较高的正相关性。为了使其更易于解释，SOR得分通常被归一化为[0，1]。然而，如果在地面实况和预测之间没有共同的显著对象，则SOR不适合在这种情况下测量性能。为了解决这个问题，我们不考虑地面实况对象与预测实例没有重叠的图像。我们用来计算的图像数量称为使用的图像。使用的图像越多，SOR越可靠。同时，使用更多的图像表示更好的检测性能。MAE度量比较预测显著性图与地面实况图之间与SOR度量相比，它侧重于排名顺序，MAE同时考虑检测结果和排名结果。4.3. 实现细节我们采取端到端的培训策略。输入图像的形状为640- 480，其与原始图像相同。为了探索模型[49] 0.116 0.7562418ASRNet [39] 0.101 0.792 2365我们的表1.与ASR数据集上的最新方法进行比较。前五种方法仅提供单个二进制显著图而没有对象分割。ASRNet和我们的方法预测实例分割图。（）表示越高（越低）越好。粗体数字为最高分，下划线数字为第二名。定量评估我们将我们的方法与六种最先进的方法进行了比较，包括 RSDNet [22] ， S4 Net [12] ， BASNet[37]，CPD-R [48]，[49][ 49 ][49][49]RSDNet首先引入了显着性对象排名问题。注意，前五种方法仅提供单个二进制显著图而不是对象分割。ASRNet预测实例分割图，但它需要两个阶段的训练。我们首次提出了由于上述前五种方法与ASRNet和我们的方法具有为了进行公平的比较，我们应用与ASRNet相同的后处理对于S4Net，修改了原始输出，以便为每个对象预测多达6个类，而不是二进制预测。对于其余的比较模型（RSDNet、BAS-Net、CPD-R、SCRN），通过对像素进行平均来计算地面实况对象domly分为7646个培训、1436个验证和2418个S4Net [12]0.1500.8911507测试图像。BASNet [37]0.1150.7072402CPD-R [48]0.1000.766241716337↓ ↑↑图6. ASR数据集上的结果与地面实况，ASRNet和我们的模型。与最先进的方法ASRNet [39]相比，我们提出的方法提高了实例显着值。实验结果如表1所示，其说明我们的方法优于之前提到的其他方法，我们的模型获得了最佳的整体性能，在所有指标（MAE，SOR和图像使用）中得分更高。尽管RSD-Net和SCRN模型具有较高的图像使用率，但它们的单个二值显著性图包含许多虚假显著性实例，这确保了这些方法可以覆盖最显著的对象。因此，他们的SOR分数相对低于我们的方法。S4Net获得了最高的SOR分数，但只有三分之二的测试图像用于计算SOR分数。其余图像被忽略，因为它们的预测显著图不能匹配地面实况。它导致S4Net遭受最高的MAE和最低的图像使用。由于只有一个先前的工作直接解决了SOR问题（即ASRNet），我们应该更加注意将ASRNet与我们的模型进行比较。表1的最后两行中的结果表明，我们的模型在所有评估指标上都显著优于ASRNet，这表明我们的模型具有更强的区分显著对象的能力总之，我们提出的方法优于其他人在整体上。作为仅有的两个直接解决SOR问题的模型，我们的网络超过了在第5列中，我们可以看到长凳是一个吸引人的对象。但受人类存在的影响，板凳的显着性ASRNet不考虑特征交互，因此获得错误的排名顺序。这些可视化结果表明，我们的模型具有更大的能力，以捕捉相对显着性信息的位置嵌入和功能的互动。4.5.消融研究端到端训练策略ASRNet [39]采用两阶段训练，而我们的方法采用端到端训练。为了进行全面的比较，我们还在我们的网络上采取了两阶段的训练策略。在第一阶段，我们只训练主干和检测分支，并冻结SOR分支的权重。这个阶段的目标是训练一个可靠的检测器。在第二阶段，我们冻结主干和检测分支的所有权重，只训练SOR分支。在这一阶段，我们只关注排名顺序。结果示于表2中。由于联合优化，我们的端到端模型比我们的两阶段模型更好。值得注意的是，即使使用两阶段训练策略，我们的网络仍然取得了比ASRNet更好的性能，这表明位置嵌入和特征交互阶段确实起作用并有助于对显着对象进行排名。指标，并带来重大改进。定性评价我们在图中显示了可视化结果。6进行定性比较。在第一列中，由于端到端的训练和优化检测分支和SOR分支，我们的网络在秩1类中获得了更好的检测结果。注意从2到4的列，中心的对象更突出，并且在这些图像中值得更高的排名顺序。ASRNet没有考虑位置信息，得到错误的排序顺序，而我们的方法得到正确的排序顺序。在方法MAE SOR #使用的图像ASRNet 0.101 0.7922365我们的（两阶段）0.082 0.835 2369我们的（端到端）0.081 0.841 2371表2.ASRNet和我们的模型之间的比较，通过使用两阶段训练和端到端训练。与其他检测器的合作我们提出的多任务学习框架可以与多个检测器合作16338↓ ↑↑↓ ↑↑↓ ↑↑获得可比性能的方法。换句话说，PPA模块可以被认为是与诸如实例分割的基于区域的预测任务兼容的插件模块为了说明有效性，我们对另一种流行的实例分割方法Mask-RCNN [14]进行了实验，并在表3中给出了结果。在MaskRCNN实验中，我们分别使用ResNet-50/101 [15] 作为主干，它们被表示为 MaskRCNN-50/101。在CenterMask实验中，我们使用VoV-39/57[27]作为主干，它们被表示为CenterMask-39/57。正如我们所看到的，即使我们使用不同的检测方法，所有这些模型仍然实现了更好的性能比以前的工作。这表明我们的PPA模块可以作为一个插件模块，并作出了显着的改进SOR任务。主干MAE SOR #使用的图像MaskRCNN-50 [14]0.097 0.817 2354MaskRCNN-101 [14]0.094 0.8262366[第28话]0.0810.8412371中心掩模-57 [28] 0.0850.848 2376表3.实验不同的实例分割方法与建议PPA模块作为插件。为了说明位置嵌入阶段和特征交互阶段都有助于改进SOR任务，我们分别研究了它们结果示于表4中。我们设计了一个简单的SOR分支作为基线。提案的特征首先通过四个卷积层。然后将这些特征展平为1-D向量以获得视觉标记（没有位置嵌入）。最后，这些视觉标记被发送到完全连接的层以预测排名顺序。为了进行比较，我们利用位置嵌入阶段，但不使用特征交互阶段。此设置的结果显示在第2行中表4.第三排的实验采用相反的设置。第4行中的实验使用位置嵌入阶段和特征交互阶段两者。从实验结果可以看出，PPA中的两个阶段可以在三个指标上提高性能这些结果表明，位置嵌入和特征交互在SOR任务中起着重要的作用。位置嵌入如第3.4节所述，我们尝试不同的位置嵌入方案来进行全面的比较。结果示于表5中。前两种方法仅利用遵循图1中描述的方案的边界框信息。第五条（a）款。这两种方法的主要区别在于前者只使用中心坐标信息，而后者同时使用中心坐标和尺度信息。第三和第四方法遵循图5（b）中描述的方案这两种方法的主要区别在于方法MAE SOR使用的图像编号基线0.104 0.830 2176基线+阳性0.0950.8362344基线+关注0.0880.8392365基线+关注+阳性0.0810.8412371表4.具有相同主干和检测分支的所提出的组件的实验。前一种方法仅使用中心位置作为可学习嵌入，而另一种方法使用中心位置和尺度两者作为可学习嵌入。位置的定量数q被设置为8，并且标度的定量数q被设置为4。最后一种方法遵循图1中所描述的方案。5（c）并实现最佳性能。指出了充分利用直接的绝对位置信息和融合其它目标特征的重要性。同样值得注意的是，根据方案（a）和方案（b）的结果，我们可以发现尺度信息有助于实现更好的性能，这也证实了我们之前的观点。方法MAESOR使用的图像数量Cx，Cy0.092 0.835 2366Cx，Cy，w，h0.088 0.836 2370可学习位置0.082 0.821 2368可学习位置和刻度0.083 0.834 2370我们的（购股权计划）表5.使用相同主干和检测分支的不同位置嵌入方案的比较。5. 结论在本文中，我们提出了显着对象排名任务的第一个端到端该框架同时执行实例分割和显著对象排名。我们还提出了一个位置保持注意力（PPA）模块量身定制的SOR分支。该模块有效地利用了我们的方法优于国家的最先进的方法显着ASR数据集。6. 致谢这项工作得到了中国国家重点研究和发展计划（批准号：2018 AAA 0101400），部分由中国国家自然科学基金（批准号： 62036009 、 U1909203 、61936006）、阿里巴巴-浙江大学前沿技术联合研究院、陕西省创新能力支撑项目（项目编号：62036009、U1909203、61936006）等项目。2021TD-05）。16339引用[1] RadhakrishnaAchanta ，Francisco Estrada， Patricia Wils和SabineSüsstrunk。显著区域检测和分割。计算机视觉系统国际会议，第66-75页。Springer，2008. 三个[2] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。五个[3] 阿里·博尔吉深度学习时代的显着性预测：成功与局限。IEEE Transactions on Pattern Analysis and MachineIntelligence，2019。三个[4] 我在博图。随机梯度下降的大规模机器学习在COMPSTAT’2010的Proceedings施普林格，2010年。六个[5] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan tan ，Pranav Shyam ，Girish Sastry ，AmandaAskell，et al.语言模型是很少机会的学习者。arXiv预印本arXiv：2005.14165，2020。三个[6] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中，第213-229页Springer，2020年。3[7] Jiansheng Chen，Gaocheng Bai，Shaoheng Liang，andZhengqin Li.自动图像裁剪：计算复杂性研究。在IEEE计算机视觉和模式识别会议论文集，第507-515页二个[8] 陈马克、亚历克·雷德福、雷旺·蔡尔德、吴杰弗瑞、全熙宇、栾大卫和伊利亚·苏茨科沃。从像素生成预训练。《国际机器学习会议》，第 1691-1703 页。PMLR，2020年。三个[9] Ming-Ming Cheng ， Niloy J Mitra ， Xiaolei Huang ，Philip HS Torr，and Shi-Min Hu.基于全局对比度的显著区域检测。IEEE Transactions on Pattern Analysis andMachine Intelligence，37（3）：569-582，2014. 三个[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。三个[11] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。三、五[12] 范若尘、程明明、侯启斌、穆泰江、王京东、胡世敏。S4net：单阶段显著实例分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第6103-6112页，2019年。六个[13] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确、大的小批量sgd：1小时内训练imagenet。arXiv预印本arXiv：1706.02677，2017。六个[14] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页一、二、四、八[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。八个[16] Shengfeng He，Jianbo Jiao，Xiaodan Zhang，GuoqiangHan，and Rynson WH Lau.深入研究显着对象subitizing和检测。在IEEE计算机视觉国际会议论文集，第1059-1067页，2017年。一个[17] Shuting He，Hao Luo，Pichao Wang，Fan Wang，HaoLi，and Wei Jiang. Transreid：基于转换器的对象重新识别。arXiv预印本arXiv：2102.04378，2021。五个[18] 丹·亨德里克斯和凯文·金佩尔。高斯误差线性单位（gelus）。arXiv预印本arXiv：1606.08415，2016。五个[19] Qibin Hou ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip HS Torr.具有短连接的深度监督在IEEE计算机视觉和模式识别会议论文集，第3203-3212页，2017年。第1、3条[20] 胡平，帅兵，刘军，王刚。用于显著对象检测的深度水平集。在IEEE计算机视觉和模式识别会议论文集，第2300-2309页，2017年。第1、3条[21] 林煌、谭建超、季柳、袁俊松。手动Transformer：非自回归结构化建模于三维手部位姿估计。欧洲计算机视觉会议，第17-33页Springer，2020年。三个[22] Md Amirul Islam，Mahmoud Kalash，and Neil DB Bruce.重温显著对象检测：多个显著对象的同时检测、排序和subitizing。在IEEE计算机视觉和模式识别会议的论文集，第7142-7150页，2018年。一、二、三、六[23] Laurent Itti，Christof Koch，and Ernst Niebur. 基于显著性的快速场景分析视觉注意模型。IEEE Transactions onpattern analysis and machine intelligence，20（11）：1254-1259，1998. 三个[24] Ming Jiang，Shengsheng Huang，Juanyong Duan，andQi Zhao. Salicon：语境中的显著性。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，pages 1072-1080，2015中。五个[25] B. Lai和X.龚用于弱监督图像解析的显著性引导字典学习在 2016 年 IEEE 计算机视觉和模式识别会议（CVPR），第3630-3639页二个[26] Gayoung Lee，Yu-Wing Tai，和Junmo Kim.具有编码的低级距离图和高级特征的深度在IEEE计算机视觉和模式识别会议论文集，第660-668页第1、3条[27] Youngwan Lee ， Joong-won Hwang ， Sangrok Lee ，Yuseok Bae，and Jongyoul Park.用于实时目标检测的能量和gpu计算高效骨干网络在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第0-0页，2019年。六、八16340[28] 李永完和朴钟佑Centermask：实时无锚实例分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第13906-13915页，2020年。一、四、六、八[29] 李冠斌、余益州。用于显著对象检测的深度对比度学习在IEEE计算机视觉和模式识别，第478一个[30] Yin L

下载后可阅读完整内容，剩余1页未读，立即下载