图像中物体遮挡关系学习的新架构及方法

51 浏览量更新于2023-10-15 收藏 3.69MB PDF 举报

图像检索

网络架构

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9364MT-ORL：多任务闭塞关系学习冯攀河1、2佘琦2朱磊1李嘉欣2张林2冯子健2王长虎2李春鹏1康学静*1明安龙11北京邮电大学.2字节跳动{fengpanhe，sheqi1991} @ gmail.com，zhulei@stu.pku.edu.cn，{lijx1992，1999forrestz，vincent.fung13}@ gmail.com，wangchanghu@bytedance.com，{chunpeng.li，kangxuejing，mal} @ bupt.edu.cn摘要由于图像边界的稀疏性，在单幅图像中检索物体之间的遮挡关系具有挑战性。我们观察到现有工程中的两个关键问题：第一，缺乏一种体系结构，该体系结构可以利用解码器级中两个子任务（即遮挡边界提取和遮挡方向预测）之间的有限耦合量，第二，遮挡方向的不适当表示。在本文中，我们提出了一种新的架构，称为 Occlusion-shared 和 Path-separated 网络（OPNet），它解决了第一个问题，利用丰富的遮挡线索，在共享的高层次的功能和结构化的空间信息，在特定于任务的低层次的功能。然后，我们设计了一个简单但有效的正交遮挡表示（OOR），以解决第二个问题。我们的方法超过了国家的最先进的方法6。1%/8。3%边界-AP和6. 5%/10%定向-标准PIOD/BSDS所有权数据集上的AP。代码可在https://github.com/fengpanhe/MT-ORL上获得。1. 介绍而人类视觉系统能够直观地执行鲁棒的场景理解和感知。遮挡关系的推理对机器来说具有很高的挑战性。根据对象的数量、类别、方向和位置，对象的边界是模糊的;不能应用简单的先验来恢复场景中的前景和背景。来自单目图像的对象的遮挡关系推理揭示了场景中的对象之间的相对深度差异，这在计算机视觉应用中是基本的，例如移动机器人[18，28，2]、对象检测[8，4，32，21，5]、机器人[18，28，2]、机器人[18，28，2]、机器人[18，28，2]、机器人[18，28，2]和机器人[18，28，2]分割[8，38，6，31，14，39，22]，单眼深度*通讯作者。[23，25，24，26，17，37]和3D重建。结构[30，20，9]。传统方法[12，33，26，29，13]通过利用具有手工特征的低级视觉线索来提取遮挡边界并推断遮挡关系，由于难以定义边界和遮挡线索，因此这是无效的。现代卷积神经网络（CNN）[35，34，15]通过通常将任务分解为两个子任务，显着提高了遮挡关系推理的性能：遮挡边界提取和遮挡方向预测。前者的目标是从图像中提取对象边界，而后者的目标是发现方向关系。然后通过逐步累积关于所提取的边界的取向信息来恢复遮挡关系。尽管在遮挡关系推理的飞跃，我们观察到，两个关键问题很少被讨论，这极大地阻碍了以前的工作的性能。第一个问题是缺乏对两个子任务之间的有限耦合一方面，共享的全局属性的图像和抽象的高级语义特征作为一个有效的初始化网络学习低层次的视觉线索。共享的高级特征有助于不同分支在相同的语义指导下生成一致的输出，而不同的特征可能在融合阶段产生语义不一致的结果。另一方面，这两个子任务需要在空间尺寸较大的较低阶段学习多样化和具体的属性。具体来说，遮挡边界提取更强调定位边界，而遮挡方向更重视利用区域之间的关系总之，这两个子任务在抽象的全局特征中是内在耦合的，而在任务特定的低级特征中是解耦的。然而，以前的架构采用完全共享的解码器[34，15]，导致来自较低网络9365----(a) DOOBNet（b）OFNet（c）我们的OPNet图1：不同网络架构的比较。黄色表示编码器结构。绿色表示边界提取路径。粉色表示遮挡方向路径。蓝色表示解码器中的共享结构。两个颜色立方体分别表示网络输出的边界图和方向图。与DOOBNet和OFNet在更大的特征图中过度共享局部空间信息不同，我们的OPNet只在深层阶段共享特征图，而在浅层阶段保持路径分离。阶段第二个问题是缺乏良好的代表性遮挡方向。DOC[35]首先提出使用逐像素连续取向变量作为表示，然而，由于角度周期性，这使得损失函数的设计复杂DOOBNet [34]然后提出将变量截断为range（π，π]，这导致了严重的端点错误：接近π和π的角度产生大的损耗值，同时保持相对接近的取向。这给培训过程带来了问题。因此，在遮挡关系推理中，设计适当的遮挡取向表示仍然具有挑战性。为了解决第一个问题，我们提出了一个遮挡共享和路径分离网络（OPNet），它使用具有较小空间大小的抽象特征图进行权重共享，然后分成两个单独的任务特定路径，即遮挡边界提取路径和遮挡方向预测路径。此外，在边界提取路径中采用多尺度监督[36]来增强多尺度特征。为了解决第二个表示困境，我们提出了一个简单而强大的正交遮挡表示（OOR），它表示的方向与两个正交矢量在水平和垂直方向，分别。实验结果表明，该方法有效地提高了目标边界提取和遮挡方向预测的性能简而言之，我们的贡献有三方面：我们重新思考遮挡关系推理的固有属性，与两个子任务相关：遮挡边界提取和遮挡方向回归。这促使我们提倡一种新的遮挡共享和路径分离网络（OP-Net），其体现了视觉遮挡推理的辨别能力和表达能力。• 我们进一步提出了鲁棒的正交遮挡该方法使用用于预测遮挡方位的OOR表示，其解决了端点误差和角度周期性困境。该方法在PIOD [35]和BSDS所有权数据集[27]上都运行良好，提供了比同行更好的性能。2. 相关工作基于深度学习的遮挡关系推理近年来取得了巨大成功[35，34，15]。DOC[35]通过使用二进制边界指示符来表示遮挡关系。它利用局部和非局部图像线索来学习这种表示，从而恢复遮挡关系。DOOBNet [34]提出通过使用新的注意力损失函数对假阴性和假阳性示例的损失贡献OFNet [15]建立在编码器-解码器结构和侧输出利用率之上。融合模块的目的是精确地定位从遮挡线索的对象区域。然而，这些方法要么使用两个单独的架构用于边界提取和取向预测，要么在浅阶段过度共享局部空间信息。相反，我们的OPNet只共享解码器的深层功能，并采用多尺度结构，如图1所示。我们还提出了一个正交的方向表示，以解决端点误差和角度周期性的困境。3. OPNet在本节中，我们详细介绍了我们的网络架构，遮挡共享和路径分离网络（OPNet），它是由一个共享的编码器和我们提出的新颖的遮挡共享和路径分离解码器（OPDecoder）。按照以前的方法，我们选择在ImageNet上预训练的ResNet50 [10，11]作为我们的编码器。··9366ⓍNMSConv1S 5Res 1编码器Res 2Res 3第4号决议共享ReOPMOSMOPDecoderConv1OPMConv1孔夫斯+边界路径孔夫斯+孔夫斯孔夫斯孔夫斯+转换+孔夫斯+转换+孔夫斯孔夫斯导向路径(a) 整体架构(b) （c）OSM：遮挡共享模块图2：拟议OPNet的示意图。(a)整体架构。输入图像首先由编码器编码，然后输入到建议的解码器中，该解码器首先通过OSM聚合抽象高层中的共享特征，然后在两个分离的路径中生成边界图和方向图NMS用于融合两个输出以产生最终遮挡关系图。(b)正交感知模块（OPM）。(c)遮挡共享模块（OSM）。+表示加法运算。详情见第3节。OPDecoder具有遮挡共享模块（OSM）、正交感知模块（OPM）和两条分离的路径，即边界路径和方向路径。在评估阶段，从边界路径提取的边界图和从方向路径预测的方向图然后通过非最大值抑制（NMS）合并以产生最终的遮挡关系图3.1. 遮挡共享和路径分离的解码器我们将编码器/解码器架构中的深层阶段定义为特征图更深但空间更小的阶段这样的深阶段包含较少的参数和spa-因此，完整的细节富含抽象和全局信息，可以很好地适应下游任务。相比之下，浅级产生具有缩减通道的空间大的特征图因此，它们有利于学习特定于任务的低层次细节。我们的OPDecoder充分利用，lizes在多个阶段这样的独特功能。共享的深阶段和分离的浅阶段边界提取和遮挡方向预测都是密集预测任务，旨在通过理解高级遮挡信息来恢复像素级前者侧重于定位，后者则表示遮挡发生区域之间的关系因此，我们建议我们的OPDecoder与深-+孔夫斯+1×1 ConvBNReLU1×1 ConvBNReLU1×1 ConvBNReLU1×3 ConvBNReLU3×1 ConvBNReLU3×3 ConvBN3×1 ConvBN1×3 ConvBNReLU1×1 ConvBNReLU3×3ConvBNReLU3×3ConvBNReLU3×3ConvBNReLU3×3ConvBNReLU上采样9367×× ××个×个×个×× ×Bg点2点4FG12= 13$= 2点1FG点3BGBGBGBӨβ值一FGFGFG浅部结构具体地，为了更好地考虑两个任务之间的连接和区别，我们将解码器分成两个部分，具有联合遮挡信息的共享的深阶段和具有具体空间细节的单独的浅阶段。深层阶段中的共享高级语义特征通过接受来自边界路径和方向路径两者的监督信号来学习更抽象的遮挡线索。边界提取路径更注重空间细节，而方向回归路径则侧重于恢复区域关系。过度共享可能导致两个任务之间的相互干扰。因此，我们在浅阶段也采用分离结构。如图2（a）所示，我们的解码器包含深遮挡共享阶段和浅空间信息分支阶段。在遮挡共享阶段，我们使用OSM解码和聚合两个最深阶段的特征，然后将它们传递到后续的边界路径和方向路径。在浅分支阶段，考虑到两个任务之间可能的干扰，我们使用OPM来增强来自编码器的浅层的特征，其将被馈送到以下两个路径。在边界提取路径中，来自OSM的共享特征图与从深到浅阶段的变换的编码器特征逐渐聚合更好地利用分支由两个3 × 3卷积块组成，而另外两个分别由两个1× 3和3 × 1条带卷积块组成。图3显示了模块输出功能的感受域。两条条纹卷积路径同时增加正交方向上中心像素的感受野和特征权重，并且因此积累更多信息正交信号以用于OOR的进一步预测。遮挡共享模块（OSM）如图2（c）所示，OSM通过融合上采样的res5特征图和res4特征图来聚合共享的高级特征。它被设计为仅合并来自深阶段的特征，保留抽象的高级共享遮挡特征。OSM接受来自边界路径和方向路径的监督信号，以更大的感受野作用于高级语义特征3.2. 正交遮挡表示不同尺度空间信息，多尺度边界（一）（b）第（1）款(c)(d)生成地图，然后将这些地图融合在一起以提取合并的边界地图。对每个生成的边界图应用多尺度监督与边界路径不同，定向路径被故意设计为仅接受来自res2层的跳跃连接特征，以利用浅层中较少的共享空间由于缩放方向图的模糊性，它仅在原始尺度1×3转换3×3 Conv3×1转换图3：OPM的接受域。大小为13的两个连续卷积在垂直方向上产生大小为15的感受野。而两个大小为3 1的卷积在水平方向上产生大小为5 1的感受野。因此，所产生的卷积层更多地关注正交方向，坚持我们的正交遮挡表示设计。正交感知模块（OPM）如图2（b）所示，OPM包含三个分支。中心图4：左规则和三种基于边界表示遮挡关系的方法(a)这就是“左”的规则。(b)是背景标签表示。(c)是遮挡方向表示。(d)是正交遮挡表示。在本节中，我们首先指出现有遮挡表示的缺点，即角度周期性和端点误差。不同的表示方法，然后可视化直观的说明。最后，我们提出了新的正交遮挡表示，它避免了上述两个缺点，通过使用两个正交向量。图4示出了遮挡方向的四个基于边界的表示的示意图，左下角和右上角分别是前地和背景，而对角线是两个区域之间的遮挡边界。图4（a）示出了指示图像中的前景和背景的左规则。遮挡边界用箭头表示，其左手侧是前景。图4（b）是传统方法[19，1，12，7，3]通常采用的基于完整边界的标签分类方法，将获得的遮挡边界分为两种类型。标签1表示边界的方向是从起点到终点，而标签2表示相反的方向。这种方法被认为是无效的，因为事实上，9368----∈ −----||∈--||∈ −被覆盖的边界是稀疏的并且有时是不连续的。图4（c）示出了DOC [35]中提出的像素级取向变量表示，其通过预测图像中每个像素的连续取向变量θ（π，π]来该方法能很好地适应预测属性密集的卷积块，避免了对边界质量的依赖。它对遮挡关系推理带来了显着的性能改进，并被基于CNN的方法广泛采用[34，16，15，35]。然而，像素级方向变量表示仍然有两个关键问题。首先，它要求网络为每个边界像素回归准确的角度，而预测准确的角度变量带来了不必要的负担。只要预测角度具有小于π/2的误差，就可以正确地恢复前景-背景关系。第二个问题是角度周期性对损失函数的负面影响。角度变量的周期是2π，这意味着差是2π倍数的两个角度是相等的。然而，这种等价性在损失函数中很难保持。为了解决这个问题，DOC [35]定义了一个周期性分割函数来表示两个角度之间的差异。但实验表明，这种不连续的损失函数阻碍了网络的学习。DOOB-Net采用截断预测值为（π，π]的策略，但这会带来严重的端点误差，即接近π和π的角度可能导致更高的损耗，而实际上保持接近，从而在端点附近引入不自然的监督信号。我们在此提出我们的正交遮挡表示（OOR）：使用一对正交矢量，沿着水平轴的一a和沿着垂直轴的一b来表示遮挡方向。如图4（d）所示，一a和一b都指向遮挡边界附近的背景OOR通过水平和垂直地指出背景来简化遮挡方向的预测，大大增强了预测的鲁棒性。与以前的方向变量表示相比，我们的OOR更简单，效果更好，绕过了角度周期性和端点误差的困境。图5可视化了从用不同方向表示训练的Res2层提取的特征图。与利用DOOBNet的方向表示和方向损失得到的特征图相比，我们的结果在前景和背景之间的对比更加明显。实验表中。1表明，我们的方法将所有三个遮挡相关度量（ O-ODS ， O-ODS ， O-AP ）在DOOBNet的方向表示上提高了至少2%，这表明我们的OOR具有更强的遮挡感知潜力。图6显示了COM-不同方法对不同边界方向的遮挡方向召回率的影响我们除以（−π，π]图5：来自使用不同方向表示训练的网络的特征图的可视化，其通过PCA将特征维度减少到3而产生。第一行是使用DOOBNet[34]定向表示的结果，第二行是我们的。实验结果显示了更清晰的边界和遮挡关系，验证了OOR算法的有效性。0.800.780.760.740.720.70角度图6：调用与PIOD数据集上的角度曲线。角度被分类为八个箱，并且在每个箱中计算召回率。我们提出的方向表示在两个端点π和π（黄色框）附近显示出明显的改进。分成八个仓，并计算每个仓中的方向预测的召回率。结果表明，DOC3.3. 网络训练对于输入图像I，地面实况标签被表示为一对对象边界图和遮挡定向图Y ， O，其中 Y=（ y ， j ，j=1，. . . ，I），yj0，1。 O=（θj，j=1，. . . ，I），θj（π，π]，并且当yj = 0时，θj是有效的。基于CNN的遮挡方法关系推理、遮挡边界提取和同时训练遮挡方向预测因此，总损耗L被公式化为：L=LB+wO·LO，（1）0.230.18我们的方向感丧失DOOBNet方向损失DOC方向损失我们召回DOOBNet9369LΣL联系我们×个L||||||B+B+B†其中w〇是遮挡定向损失的权重。B和O分别表示边界路径和定向路径的损失。在边界路径中，我们可以得到五个边边界映射的集合和一个融合边界映射Ys-1，Ys-2，，Ys-K，Yf. 我们用公式表达了边界的丧失元提取为，其中在该工作中K=5：KLB=wf·Γ（Y（f，Y）+ws-i·Γ（Y（s-i，Y），⑵i=1其中，Ws-1和Wf是侧边界图损失和融合边界图损失的权重。Y=（yj，j=1，. . . 、|我|），yj∈（0，1）表示预测边界图。函数Γ（Y（，Y）计算为所有像素。由于边界/非边界像素严重偏置，我们采用类平衡交叉项损失。我们将Y-和Y+定义为小批量图像中的非边界和然后将Γ（Y（，Y）定义为：Γ （ Y， Y ） =−λαΣlog （ 1−yj ） − （ 1−α ）Σlog（yj）。BSDS所有权数据集包括100张自然场景的训练图像每个图像都用groundtruth对象实例边界图和相应的方向图进行注释。实施细节：我们的网络在PyTorch中实现。我们使用在ImageNet上预训练的ResNet50 [10，11]架构作为骨干编码器。采用AdamW学习率为3e-6。训练图像被随机裁剪成大小320，并形成尺寸为8的小批量。我们在PIOD数据集上训练我们的网络进行40 k次迭代，并将超参数ws-[2-5]，ws-1，w0，wf和λ分别设置为0.5，1.1，1.1，2.1，1.7。我们在BSDS所有权数据集，并将λ设置为1.1。其他超参数保持与PIOD中相同。评价指标：我们计算的精度和召回率（PR）的边界提取（BPR）和遮挡方向（OPR）。然后根据PR计算三个标准评估指标：固定轮廓阈值（ODS）、图像最佳阈值（OIS）和平均精度（AP）。在下面的部分中，我们使用B-Metric来表示满足j∈Y−j∈Y+（三）从BPR和O-Metric计算的rics表示从OPR计算的度量。注意，仅在正确检测的边界像素处计算OPR。在这里，阿尔法为Y+/（Y++Y-）可以平衡边界/非边界像素，并且λ控制正样本相对于负样本的权重。函数O仅计算地面实况边界像素处的定向损失。基于我们的表示，我们提出了一种称为正交方向回归损失（OOR）的新损失，其定义为：LO=OOR（a，b;θ）=sm othL1.其中我们将新公式设计为：4.2.与最新方法的我们将我们的方法与最近的方法进行比较，包括SRF-OCC [33]，DOC-HED [35]，DOC-DMLFOV[35]，DOOBNet [34]、OFNet [15]。PIOD数据集上的性能：PIOD数据集上的边界提取和遮挡定向任务两者的精确度-召回曲线在图7（a）和（b）中示出。在这两个任务上都可以观察到OFNet的明显改进。表1显示，即使在每个子任务上单独训练，我们的方法仍然比其他方法好很多ˆaˆˆ二个margin（3. 5%的B-ODS和4. 3%O-ODS）。2BSDS所有权数据集上的性能：BSDS（1）A=（a2（2−cosθj）+（a2（2−sinθj）.所有权数据集很难训练，因为数量很小。（五）a和b表示网络的预测值。我们定义了→a=（a，0）和→b=（0，b）。θ是遮挡方向的基trut h4. 实验4.1. 数据集和实施详细信息我们在两个公共数据集上评估所提出的方法：PIOD[35]和BSDS所有权数据集[27]。PIOD数据集包含9，175张用于训练的图像和925张用于测试的图像。每个图像用地面实况对象实例边界图和对应的取向图来注释。训练样本的BER。尽管如此，如图7（c）（d）所示，我们的方法仍然可以在BPR和OPR两者中实现优于其他方法的性能。如表1所示，受益于我们提出的OOR，与现有技术相比，我们的方法实现了巨大的10% O-AP增益和8. 3% B-AP增益，在取向预测和边界提取两者中显示出强大的潜力通过用dor/dbr代替OOR（表1中的OPNet+dor/dbr），具有联合训练策略的OPNet优于以前的工作，但甚至不如OPNet（Ours）的单绑定分支训练，这分别验证了我们的网络结构和OOR最后，我们可视化边界图和遮挡关系图，如图8所示。可以观察到，我们的方法提取更完整，更清晰√√9370‡†PIOD数据集BSDS所有权数据集表1：我们的方法与其他人在PIOD数据集和BSDS所有权数据集上的比较。表示仅训练边界提取分支。表示仅训练定向预测分支。dor表示使用DOC [35]提出的方向损失函数。dbr表示DOOBNet [34]提出的方向损失函数。红色/绿色上标（↑/↓）表示在最新技术水平方法（OFNet[15]）下增加/减少所有数字均以百分比表示。不同评价指标的详细信息见第4.1节。方法B-ODSB-OISB-APO-ODS O-OISO-APB-ODSB-OISB-APO-ODS O-OISO-APSRF-OCC三十四5三十六920块7二十六岁828岁6十五岁251岁1五十四444. 241岁944. 8三十三岁。7DOC-HED50块9五十三2四十六岁。8四十六岁。0四十七9四十5六十五868岁5六十岁。252岁2五十四5四十二8DOC-DMLFOV 66岁。968岁467岁7六十岁。161岁1五十八5五十七9六十岁。951岁9四十六岁。3四十九1三十六9DOOBNet七十三。674岁6七十二3七十2七十一268岁3六十四766岁。8五十三955. 5五十七044. 0OFNet†OFNet‡OFNet七十三。9-75.175.0-七十六。268岁5-七十七。0-七十5七十一8-七十一6七十二8-67岁4七十二9--66岁。2--68岁9--五十八5--五十八3--六十岁。7--50块1OPNet + dor七十六。6↑ 1. 5778↑ 1. 6761↓ 0。9737↑ 1. 9746↑ 1.8722↓ 0。766岁。2↑068岁7↓ 0。2632↑ 4. 7555↓ 2. 8575↓ 3. 2470↓3。1OPNet + dbr七十七。8↑ 2. 七七九。0↑ 2。8806↑ 3. 6747↑ 1.9758↑ 3. 0759↑ 3。066岁。8↑ 0. 668岁9↑062. 4↑ 3. 9 五十八1↓ 0。2 六十岁。0↓ 0。七块五5↑ 0. 4我们的†我们的‡78岁6↑ 3. 5 79岁。6↑ 3.4795↑ 2. 5- -- -七十六。1↑ 4. 3 七十七。0↑ 4。2761↑ 3. 2------------我们79岁。5 ↑ 4。4804 ↑ 4。2831 ↑ 6。1771 ↑ 5。377. 8↑ 5。0794 ↑ 6。567岁2↑1. 0703↑1. 466. 8↑8。3619↑3。6648 ↑3.4601↑10(a) PIOD上的PRC边界（b）PIOD上的闭塞的PRC。（c）BSDS本身的边界的PRC ─（d）BSDS本身的遮挡的PRC ─职位。职位。图7：我们的方法和其他方法在PIOD和BSDS所有权数据集上的精确度-召回率曲线（PRC）多个图像上的边界比DOOBNet[34]和OFNet[15]。在复杂和难以区分的场景中，例如右侧的图像，我们仍然领先于其他人，表现出更强的泛化潜力。如左侧最后一组图像所示，我们的模型甚至可以识别出地面实况图上没有标记的腿总之，我们的方法在边界提取和遮挡方向预测方面都比其他方法有很大的优势，这验证了我们的方法的有效性。4.3.消融研究在本节中，我们将在PIOD数据集上进行实验，以研究不同架构设计的影响，并验证网络中的每个组件。共享层数对比：我们比较了在高水平时共享前1、前93712、前3和前4阶段阶段如表2中所示，当共享前2个阶段时出现最佳结果，在B-AP中超过第二佳（前1）2.3%。当共享扩展到较低阶段时，结果开始恶化，这从经验上证明了我们的论点，即两个分支应该共享存在于较高阶段中的遮挡信息，并在较低阶段保持分离，以恢复特定于任务的空间信息。方向损失的比较：我们改变了我们的遮挡方向路径的输出，以便它可以回归连续的方向值，如在以前的工作。然后，我们比较了预测连续方向值（DOOBNet）和预测正交向量（OOR）与我们的网络结构的性能如表1所示，所提出的OOR和OOR损失在PIOD上超过DOOBNet9372BPROPRODS OIS AP我们的DOOBNet OFNet我们的DOOBNet OFNet图8：在PIOD（前四行）和BSDS所有权数据集（后两行）上预测的遮挡推理（OR）图和边界（BD我们比较我们的方法与DOOBNet和OFNet。GT指的是地面实况图。带箭头的红色像素：正确标记遮挡边界;青色：正确标记的边界，但错误标记的遮挡;绿色：假阴性边界;橙色：假阳性边界。与DOOBNet和OFNet相比，我们的预测结果在视觉上更加准确（最佳彩色视图）。表2：PIOD上的共享层数量和多尺度监督的比较top-178岁779岁。8八十8七十六。2七十七。1七十七。1层前2位79岁。5八十483岁1七十七。1七十七。879岁。4共享前3七十七。678岁6八十675. 4 七十六。3七十七。5前四名七十七。078岁479岁。774岁8七十六。0七十六。4175. 4七十六。5七十七。4七十三。174岁074岁1Number278岁679岁。582岁6七十六。3七十六。478岁9的378岁179岁。882岁0七十六。4七十七。378岁6鳞片478岁679岁。581. 1七十六。1七十六。9七十七。6579岁。5八十483岁1七十七。1七十七。879岁。4和BSDS所有权数据集，这验证了我们的正交方向表示和损失的有效性。多尺度监管效应：我们的边界路径输出具有多尺度监督信号的五个侧边界图。为了验证这种多尺度监督的有效性，我们比较了监督最低的一个到最低的五个侧边界图的结果，其中较低的边界图具有较大的空间尺寸。如Ta所示BD或或BDBD或9373在表2中，仅监控最低侧的性能明显比其它设置差。通过使用五尺度监督，性能也大大提高，通过2. 0%B-AP超过第二好的（使用4个侧图），这表明了多尺度监督和多结果融合的重要性。5. 结论在本文中，我们提出了一种新的OPNet，它在深层共享遮挡特征，并分成两个独立的解码器路径，具有更大的空间尺寸。此外，我们采用多尺度监督的边界提取。我们还提出了一种鲁棒的正交遮挡表示，它避免了端点预测误差和角度周期性的负面影响。我们的网络在PIOD和BSDS所有权数据集上实现了最先进的性能确认本工作得到了国家重点研发计划政府间国际科技创新合作项目（2021YFE0101600）的支持9374引用[1] Radhakrishna Achanta和Sabine Susstrunk。超像素和多边形使用简单的非迭代聚类。在IEEE计算机视觉和模式识别会议的论文集，第4651-4660页[2] Mary B Alatise和Gerhard P Hancke。自主移动机器人的挑战与传感器融合方法综述。IEEE Access，8：39830[3] 巴勃罗·阿贝莱斯，迈克尔·梅尔，查利斯·福克斯，还有吉坦德拉·马利克.轮廓检测和分层图像分割。IEEETransactionsonPatternAnalysisandMachineIntelligence，33（5）：898[4] 阿尔珀·艾瓦奇和斯特凡诺·索亚托可拆卸物体检测：短基线视频的分割和深度排序。IEEE Transactions onPattern Analysis and Machine Intelligence，34（10）：1942[5] Deng-Ping Fan ， Zheng Lin ， Ge-Peng Ji ， DingwenZhang，Huazhu Fu，and Ming-Ming Cheng.深入了解共同显着对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第2919-2929页[6] 多伦·费尔德曼和达芙娜·温肖尔使用遮挡检测器的运动分割和深度排序。IEEE Transactions on Pattern Analysisand Machine Intelligence，30（7）：1171[7] Charless C Fowlkes，David R Martin，and Jitendra Malik.局部Journal of Vision，7（8）：2[8] 高天石，本杰明·帕克和达芙妮·科勒。具有遮挡处理的分割感知对象检测模型。CVPR 2011，第1361-1368页。IEEE，2011年。[9] SantiagoGonza'lezIzard 、 RamiroSa'nchezTorres 、OscarAlonso Plaza、Juan Antonio Juanes Mendez和Fran-ciscoJos e'Gar c'ıa-P en`al v o。新扩展：使用增强现实和虚拟现实的自动成像传感器，20（10）：2962，2020.[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[11] 何通，张志，张航，张中岳，谢军元，李慕.使用卷积神经网络进行图像分类的技巧包。在IEEE/CVF计算机视觉和模式识别会议论文集，第558-567页[12] Derek Hoiem、Alexei A Efros和Martial Hebert。从图像中恢复遮挡边界国际计算机视觉杂志，91（3）：328[13] Jia Zhaoyin Jia ， Andrew Gallagher ， Yao-Jen Chang，and Tsuhan Chen.基于学习的深度排序框架。2012年IEEE计算机视觉和模式识别会议，第294-301页。IEEE，2012。[14] Lei Ke，Yu-Wing Tai和Chi-Keung Tang。具有重叠双层的深度在CVPR，2021年。[15] 陆睿，薛峰，周梦涵，明安龙，周玉。用于遮挡关系推理的遮挡共享和特征分离网络。在IEEE/CVF计算机视觉国际会议论文集，第10343-10352页[16] Rui Lu，Menghan Zhou，Anlong Ming，and Yu Zhou.用于遮挡边缘检测的上下文约束精确轮廓提取。2019年IEEE多媒体和博览会国际会议，第1522-1527页[17] Michael Maire、Takuya Narihira和Stella X Yu。Affin- itycnn：学习以像素为中心的成对关系，用于图形/背景嵌入。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，第174-182页[18] Jonathan A Marshall ， Christina A Burbeck ， DanAriely，Jan-nick P Rolland，and Kevin E Martin.遮挡边缘模糊：相对视觉深度的提示。JOSA A，13（4）：681[19] 安龙明，吴天府，马建祥，孙芳，周宇。基于遮挡边缘检测和层间耦合推理的单目深度排序推理。IEEE智能系统，31（2）：54[20] ShayanNikoohemat，AbdoulayeADiakite´，SisiZlatanova，and George Vosselman.从点云进行室内三维重建，用于复杂建筑物中的最佳路由，以支持灾难管理。建筑自动化，113：103109，2020。[21] Youwei Pang，Xiaoqi Zhao，Lihe Zhang，and HuchuanLu. 用于显著对象检测的多尺度交互式网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第9413-9422页[22] 陆琦、李江、舒柳、沈小勇、贾雅佳。利用kins数据集进行非模态实例分割。在IEEE/CVF计算机视觉和模式识别会议的论文集，第3014-3023页[23] 邱旭冲，杨晓，王朝辉，和Renaud Mar- let.像素对遮挡关系图（P2ORM）：公式化，推理应用。欧洲计算机视觉会议（ECCV），2020年。[24] Michael Ramamonjisoa ， Yuming Du ，和 Vincent Lep-etit. 预测清晰准确的遮挡边界在使用位移场的单目深度估计中。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。[25] Michael Ramamonjisoa和Vincent Lepetit Sharpnet：在单目深度估计中快速准确地恢复遮挡轮廓。IEEE国际计算机视觉会议（ICCV）研讨会，2019年。[26] Xiaofeng Ren，Charless C Fowlkes，and Jitendra Malik.自然图像中的地物/背景分配。在European Conferenceon Computer Vision，第614Springer，2006年。[27] Xiaofeng Ren，Charless C Fowlkes，and Jitendra Malik.自然图像中的地物/背景分配。在European Conferenceon Computer Vision，第614Springer，2006年。[28] Mehmet Emre Sargin，Luca Bertelli，Bangalore S Manju-nath，and Kenneth Rose.基于时空格点的概率遮挡边界检测。在2009年IEEE第12届计算机视觉国际会议上，第560IEEE，2009年。9375[29] Ashutosh Saxena、Sung H Chung和Andrew Y Ng。从单个单目图像学习深度。神经信息处理系统的进展，第1161-1168页，2006年。[30] Qi Shan ， Brian Curless ， Yasutaka Furukawa ， CarlosHernan-dez，and Steven M Seitz.遮挡多视图立体的轮廓。IEEE计算机视觉和模式识别会议论文集，第4002-4009页，2014年[31] Carsen Stringer，Tim Wang，Michaelis Michaelos，andMarius Pachitariu. Cellpose ：细胞分割的通用算法。Nature Methods，18（1）：100[32] Mingxing Tan，Ruoming Pang，and Quoc V Le.有效日期：可扩展且高效的对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第10781-10790页[33] Ching Teo，Cornelia Fermuller，and Yiannis Aloimonos.快速2D边界所有权分配。在IEEE计算机视觉和模式识别会议论文集，第5117-5125页[34] Guoxia Wang，Xiaochuan Wang，Frederick WB Li，andXiao-aohui Liang. Doobnet：从图像中检测深度对象遮挡边界。亚洲计算机视觉会议，第686-702页。Springer，2018.[35] Peng Wang和Alan Yuille。文档：从单个图像进行深度遮挡欧洲计算机视觉会议，第545-561页。施普林格，2016年。[36] 谢赛宁、涂卓文。整体嵌套边缘检测。在IEEE计算机视觉国际会议论文集，第1395-1403页[37] Xiaohang Zhan ， Xingang Pan ， Bo Dai ， Ziwei Liu ，Dahua Lin，and Chen Change Loy.自监督场景去遮挡。在IEEE/CVF计算机视觉和模式识别会议论文集，第3784- 3792页[38] Ziyu Zhang，Alexander G Schwing，Sanja Fidler，andRaquel Urtasun.基于cnn的单目目标实例分割与深度排序IEEE International Conference on Computer Vision ，第2614-2622页，2015年[39] Yan Zhu，Yuandong Tian，Dimitris Metaxas，and PiotrDoll a'r. 语义是模态切分。在IEEE计算机视觉和模式识别会议的论文集，第1464-1472页

下载后可阅读完整内容，剩余1页未读，立即下载