自监督场景去遮挡的新框架

174 浏览量更新于2023-10-25 收藏 2.25MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3784自监督场景去遮挡詹晓航1，潘新港1，戴波1，刘紫薇1，林大华1，陈昌来21香港中文大学-商汤科技联合实验室2南洋理工大学1{zx017，px117，bdai，zwliu，dhlin}@ ie.cuhk.edu.hk2ccloy@ntu.edu.sg（a）原始图像（b）场景去遮挡（c）对顺序和位置（d）重组图像图1：场景去遮挡分解图像，将其中杂乱的对象提取为单个完整对象的实体。提取的对象的顺序和位置可以被操纵以重新组合新的场景。摘要自然场景理解是一项具有挑战性的任务，特别是当遇到部分遮挡的多个对象的图像这个障碍是由不同的对象排序和定位引起的。现有的场景理解范式只能解析场景的可见部分，导致场景理解的不完整和非结构化。本文研究了场景去遮挡问题，旨在恢复潜在的遮挡顺序，完成被遮挡物体的不可见部分。我们第一次尝试通过一个新的和统一的框架，recover- ers隐藏的场景结构，而无需排序和amodal注释作为监督来解决这个问题。这是通过部分完成网络（PCNet）-掩码（M）和-内容（C）来实现的，它们分别以自监督的方式学习恢复对象掩码和内容的部分。在PCNet-M和PCNet-C的基础上，提出了一种新的推理方案，通过programming，顺序恢复、非模式完成和内容完成。在真实场景上的大量实验证明了我们方法的优越性能其他替代品。值得注意的是，我们的方法是在自我监督的方式训练，实现了与完全监督的方法相当的结果。所提出的场景去遮挡框架有益于许多应用，包括高质量和可控的图像操作和场景重组（参见图11）。1），以及现有模态掩码注释到非模态掩码注释的转换。项目页面：https：//xiaohangzhan.github.io/projects/deocclusion/.1. 介绍场景理解是机器感知的基础之一.真实世界场景，不管其上下文如何，通常包括不同顺序和定位的多个对象，其中一个或多个对象被其他对象所包含。因此，场景理解系统应该能够处理模态感知，即，部分3785使直接可见的区域，以及非模态投影[1，2，3]，即，感知包括不可见部分的实体的完整结构。先进的深度网络以及大规模注释数据集的出现简化了许多场景理解任务，对象检测[4，5，6，7]、场景解析[8，9，10]和实例分割。心理学[11，12，13，14]。尽管如此，这些任务主要集中在模态感知，而非模态感知仍然很少探索。非模态感知中的一个关键问题是场景去遮挡，它涉及到恢复底层遮挡顺序和完成被遮挡物体不可见部分的虽然人类视觉系统能够直观地执行场景去遮挡，但是遮挡的解释对于机器来说是非常具有挑战性的首先，遮挡其他对象的对象（称为“遮挡物”）与被其他对象遮挡的对象（称为“被遮挡物”）之间的关系非常复杂。当存在多个模态遮罩（被遮挡对象）(2) 序基非模完备化(3) 非模态引导的内容补全在它们之间，即遮挡多个“遮挡物”的“遮挡物”和被多个“遮挡物”遮挡的“遮挡物第二，根据对象的类别、方向和位置，“被遮挡者”的边界场景去遮挡的一种可能的解决方案是用遮挡排序和非模态掩模（即，完整实例掩码）。这样的基础事实可以从合成数据[15，16]或从真实世界数据的人工注释[17，18，19]中获得，其中每一个都有特定的前者在用于训练的虚构数据和测试中的真实世界场景后者依赖于个体注释者的主观解释来划分遮挡边界，因此受到偏差，并且需要来自不同注释者的重复注释来减少噪声，因此是费力且昂贵的。一种更实用和可扩展的方法是从数据本身而不是注释中学习场景去遮挡。在这项工作中，我们提出了一种新的自我监督的框架，处理场景去遮挡的真实世界的数据，而无需手动注释的遮挡排序或amodal掩模。在缺乏基础事实的情况下，端到端的监督学习框架不再适用。因此，我们引入了一个独特的概念，部分完成的闭塞对象。在部分完成概念中存在两个核心前提，其使得能够以自监督方式实现场景去遮挡。首先，完成由多个“封堵器”封堵的“封堵器”的过程第二，使部分完成的图2：给定输入图像和相关的模态掩码，我们的框架逐步解决场景去遮挡- 1）预测不同对象之间的遮挡排序作为有向图，2）基于排序图执行amodal完成，以及3）在amodal预测的指导下使用内容覆盖被遮挡区域。去遮挡是通过两个新的网络，PCNet-M和PCNet-C，这是训练没有注释的排序或amodal掩模。可以通过进一步有意地修剪“被遮挡物”并训练网络以恢复先前未修剪的被遮挡物来实现。我们表明，部分完成是足够的，以逐步完成一个被遮挡的对象，以及方便的推理的遮挡排序。通过两个网络执行部分完成，即，部分完成网络掩码和内容。我们将它们分别简称为PCNet-M和PCNet-CPCNet-M被训练为部分地恢复与遮挡物相对应的“被遮挡者”的不可见掩模PCNet-M和PCNet-C形成了我们的框架的两个核心组件，以解决场景去遮挡。如示于图2，所提出的框架需要一个真实世界的场景和其相应的模态掩模的对象，从现有的模态分割技术的注释或预测，作为输入。然后，我们的框架简化了三个子任务逐步：（1）恢复秩序。给定一对相邻的物体，其中一个物体可能遮挡另一个物体，遵循PCNet-M部分地完成“被遮挡者”的掩码而保持“被遮挡者”的cluder”，这两个对象的角色被确定。我们恢复所有相邻对的排序7订购246895恢复153（一）32417869输入模态掩码输入图像3786并获得捕获所有对象之间的遮挡顺序的有向图2）非模态完成。对于特定的“被遮挡者”，排序图指示其所有的“被遮挡者”。基于此信息并重用PCNet-M，设计了一种非模态完成方法，以将模态掩码完全完成为“被遮挡者”的非模态掩码3）内容完成。预测的非模态掩模指示“被遮挡者”的被遮挡区域。使用PCNet-C，我们提供RGB内容到不可见区域。有了这样一个渐进的框架，我们分解一个复杂的-将场景分割成孤立的和完整的对象，以及一个高度精确的遮挡排序图，允许对对象的排序和定位进行后续操作，以重新组成一个新的场景，如图所示。1.一、我们将我们的贡献总结如下：1）我们将场景去遮挡简化为三个子任务，即顺序恢复、非模态完成和内容完成。2）我们提出了PCNets和一种新的推理方案来执行场景去遮挡，而不需要相应的手动注释。然而，我们在真实场景的数据集上观察到与完全监督方法相当的结果。3）我们的方法的自监督性质显示了其赋予大规模实例分割数据集的潜力，例如，KITTI [20]、COCO [21]等，具有高精度排序和非模态注释。4）我们的场景去遮挡框架代表了一种用于真实世界场景操作和重构的新的使能技术，为图像编辑提供了一个新的维度。2. 相关工作命令恢复。在无监督流中，Wuet al. [22]建议通过用对象模板重新组合场景来恢复排序。然而，他们只是在玩具数据上演示系统。Tighe等人[23]在训练集上建立类间的先验遮挡矩阵，最小化二次规划以恢复测试中的排序。类间遮挡先验忽略了真实场景的复杂性。其他作品[24，25]依赖于额外的深度线索。然而，深度在遮挡推理中是不可靠的，例如，如果一张纸放在桌子上，则没有深度差。这些作品所作的假设，即较远的物体被近的物体遮挡，也并不总是成立。例如，如图2所示。2.板（#1）被咖啡杯（#5）遮挡，而杯在深度上更远。在监督流中，一些作品手动注释遮挡顺序[17，18]或依赖于合成数据[16]以完全监督的方式学习顺序另一个关于全景分割的工作流[26，27]设计端到端训练程序来解决重叠的片段。然而，它们不显式地恢复完整场景排序。非模态实例分割。模态分割，如语义分割[9，10]和实例分割-tation [11，12，13]，旨在将类别或对象标签分配给可见像素。现有的模态分割方法不能解决去遮挡问题。与模态分割不同，非模态实例分割的目标是检测目标并恢复目标的非模态（集成）掩模。Li等[28]通过粘贴人工遮挡物产生虚拟监督，但当存在复杂遮挡关系时，由于没有显式排序，增加了其他作品通过使用手动注释[17，18，19]或合成数据[16]采取完全监督的学习方法。如上所述，手动注释不可见掩模是昂贵且不准确的依赖于合成数据的方法也面临着域差距问题。相反，我们的方法可以将模态掩码转换为amodal掩码在一个自我监督的方式。这种独特的能力有助于训练非模态实例分割网络，而无需手动非模态注释。Amode完成。非模态完成与非模态实例分割略有不同。在非模态完成中，模态掩码在测试时给出，任务是将模态掩码完成为非模态掩码。以往的非模态完备化工作通常依赖于对不可见边界的启发式假设来执行具有给定排序关系的非模态完备化。 Kimia等人[29]建议在非模态完井中采用欧拉螺线Lin等[30]使用三次贝塞尔曲线。 Silberman等人[31]应用包括直线和抛物线的曲线基元。由于这些研究仍然需要排序作为输入，它们不能直接用于解决去遮挡问题。此外，这些无监督方法主要集中在具有简单形状的玩具示例Kar等人[32]使用关键点注释将3D对象模板与2D图像对象对齐，以便生成非模态边界框的地面实况Ehsani等人[15]利用3D合成数据来训练端到端非模态完井网络。与无监督方法类似，我们的框架不需要amodal mask或任何类型的3D/合成数据的注释相比之下，我们的方法是能够解决amodal完成在高度杂乱的自然场景，而其他无监督的方法不足。3. 我们的场景去遮挡方法该框架的目标是：1）恢复遮挡顺序;2）完成被遮挡物体的非模态掩模和内容。为了应对没有手动注释的遮挡排序和amodal掩模，我们设计了一种方法来训练建议的PCNet-M和PCNet-C完成实例部分在自我监督的方式。利用训练好的网络，我们进一步提出了一个渐进推理方案来执行排序恢复，排序接地amodal完成，amodal-constrained内容完成，以完成对象。3787θ类别外壳1输入实例AAB随机实例B壳体2一PCNet-M的输入PCNet-M目标(a) 部分完成网络的训练（掩码）（b）部分完成网络的训练（内容）图3：PCNet-M和PCNet-C的训练过程。给定一个实例A作为输入，我们从整个数据集中随机抽取另一个实例B，并将其随机放置。注意，我们只有A和B的模态掩码（a）PCNet-M通过切换两种情况进行情况1（A被B擦除）遵循部分完成机制，其中鼓励PCNet-M部分完成A。情况2防止PCNet-M过度完成A。(b)PCNet-C使用A∩B擦除A并学习填充擦除区域的RGB内容。它还将A\B作为额外的输入。A的模态掩码乘以其类别id（如果可用）。3.1.部分完备网络（PCNets）给定图像，通过现成的实例分割框架很容易获得对象的模态掩码。然而，他们的amodal面具是不可用的。更糟糕的是，我们不知道这些模态掩码是否完好无损，这使得学习完全完成被遮挡的实例极具挑战性。这个问题促使我们探索自我监督的部分完成。动机假设实例G. 有监督的方法解决了完全完成问题fθ1) 第一种情况对应于上述部分完成策略。我们定义MB为橡皮擦，用B擦去A的一部分，得到MA\B。在这种情况下，PCNet-M被训练以从MA\B恢复原始模态掩码MA，以MB为条件。2) 第二种情况作为正则化来讨论-如果实例未被遮挡，则老化网络以免过度完成该实例具体地说，不侵犯A的MB\A在这种情况下，我们鼓励PCNet-M保留原始模态掩码MA，以MB\A为条件。在没有情况2的情况下，PCNet-M总是鼓励像素的增加，这可能导致如果实例未被其他实例遮挡，则该实例的过度完成M−→G的lem，其中fθ表示完全完备模型这个完整的完成过程可以分解为相邻的实例。部分完备化序列Mpθpθ−→M1 −→在这两种情况下，擦除的图像块用作辅助。pθM2−→···pθ−→G，如果实例被mul遮挡iary输入。我们将损失函数公式化如下：三个1 Σ。（m）.ΣΣ表示部分完成模型。由于我们仍然没有任何基础事实来训练L1=N1A，B∈DΣL Pθ.MA\B;MB，I\MB.，MA，ΣΣ（一）部分完成步骤pθ，我们后退一步，随机地修剪d ownM以获得M-1s.t.M−1M。L2=LNA，B∈D（m）θMA;MB\A，I\MB\A，MA，然后我们训练pθ 通过M−1pθ−→M. 自我监督其中P（m）（θ）是我们的PCNet-M网络，θ表示部分完成近似于监督的一个，铺设-为我们的PCNets奠定基础。基于这种自监督的思想，我们引入了部分完成网络（PCNets）.它们包含两个网络，分别用于掩码（PCNet-M）和内容完成（PCNet-C）。PCNet-M用于掩码完成。 PCNet的培训M如图所示。第3（a）段。我们首先准备训练数据。给定一个实例A及其来自具有实例级注释的数据集D的模态掩码MA，我们从D随机采样另一个实例B并随机定位它以获取掩码MB。这里我们把MA和MB看作是像素组。有两种输入情况，其中不同的输入被馈送到网络：参数进行优化，I是图像块，L是二进制交叉熵损失。我们将最终的损失函数表示为L（m）=xL1+（1−x）L2，x<$Bernoulli（γ），其中γ是选择情况1的概率这两种情况之间的随机切换迫使网络理解或-根据实例的形状和边界来判断两个相邻实例之间的关系，从而确定是否完成实例。PCNet-C用于内容完成。PCNet-C遵循PCNet-M的相似直觉，而要完成的目标是RGB内容。如图如图3（b）所示，输入实例A和B与PCNet-M的相同擦除区域MAB中的图像像素类别一输入实例AA∩BA\BBPCNet-C输入PCNet-C目标随机实例BA\BB\一BP3788245137869245137869θ我θ12θ1 2 2 1恢复排序得到所有祖先类别所有祖先{2，4}图4：订单恢复的双重完成。为了恢复一对相邻实例A1和A2之间的顺序，我们切换目标对象（白色）和橡皮擦（灰色）的角色。A2的增量大于A1的增量，因此A2被识别为“被遮挡者”。缺失的内容。此外，PCNet-C还接收A的剩余掩码，即，MA\B表示它是A，（一）(b)342PCNet-M的输入类别PCNet-C输入路口PCNet-M（推论）PCNet-C（推论）输出无模分解对象比其他的物体，这是画。因此，它不可能是简单的--层由标准图像修复方法代替。PCNet-C的损失最小化公式如下：图5：（a）基于排序的非模态完成需要目标对象（#3）及其所有祖先（#2，#4）的模态掩码，以及作为输入的擦除图像经过训练的PCNet-L（c）=1NΣ。LA，B∈D(c)θ.I\MAB;MA\BΣΣ，MAB，I、（二）它预测了物体#3的非模态掩模。 (b)路口amodal掩码和祖先的值表示对象#3的不可见区域Amodal约束内容补全（红色箭头）采用PCNet-C填充不可见区域中的内容其中P（c）是我们的PCNet-C网络，I是图像补丁，L表示损失函数，包括图像修复中的常见损失，包括l1，感知损失和对抗损失。与PCNet-M类似，通过学习部分完成来训练PCNet-C能够在测试时完全完成3.2.有序恢复目标排序图由所有相邻实例对之间的成对遮挡关系组成。相邻实例对被定义为两个模态掩码相连的实例，因此其中一个可能遮挡另一如图4，给定一对相邻实例A1和A2，我们首先考虑A1模态掩码MA1作为目标来完成。 MA2 服务于作为擦除器以获得A1的增量，即，A1|一台2.对称地，我们还得到了A2在A1上的增量，即，A2|的1.在部分完成中获得较大增量的实例应该是“oc-”cludee”。因此，我们通过比较它们的增量面积来推断A1和A2之间的顺序，如下所示：∆A|A=P（m）（MA;MA，I\MA）\MA，（m）....在实践中，概率。A1|一台2. =. A2|的1. >0是零，因此这里不需要特别考虑。对所有相邻对执行双重完成为我们提供了场景遮挡排序，其可以表示为如图所示的有向图。2.图中的节点表示对象，而边表示相邻对象之间的遮挡方向。注意，它不一定是非循环的，如图1所示。7.第一次会议。3.3.非模态和内容完成订购-接地的非模态完成。通过对序图的估计，我们可以实现基于序的非模完备化。假设我们需要完成一个实例A，我们首先在图中找到A的所有祖先通过广度优先搜索（BFS）作为该实例的“遮挡物”。由于图不一定是无环的，我们相应地适应BFS算法。有趣的是，我们发现，训练的PCNet-M是可推广的使用工会的所有祖先作为橡皮擦。因此，我们不需要复制祖先并应用PCNet-M逐步地部分完成A。相反，我们在一个步骤中执行amodal完成，条件是所有an-A2|的1 = Pθ（MA2;MA1，I\MA1）\MA2，1000，如果|A1|一个2|为|A2|的1|=0O（A1，A2）= 0，如果|A1|一个2 |<|A2|的1|、（三）cestors的模式面具。表示A的祖先为{ancA，i= 1，2，···，k}，我们执行非模态完成如下：-1，否则其中O（A1，A2）= 1表示A1遮挡A2。如果AmA=P（m）（MA[k;MancA ，我\MancA），(4)一和不相邻，O（A，A）= 0。注意MancA =我是A，1 2 1 2我i=1一个2 的1A1一个2的2的1PCNet-M（推论）的1一个2的1一个2768953241P3789我PCNet-M一阶祖先错误完成圆形闭塞病例恢复排序非模态补全内容补全完成对象#1（一个圆圈）所有祖先正确完成图7：我们的框架能够解决圆形遮挡的情况。由于这种情况很少见，我们剪了四张纸来组成它。表1：COCOA验证和KINS上的排序估计图6：这个图显示了为什么我们需要找到所有的祖先，而不仅仅是一阶祖先，尽管高阶祖先并不直接遮挡这个实例。更高阶的参量（例如，实例 #3）可能间接遮挡目标实例（#1），因此需要考虑。测试集，在闭塞实例对上以成对准确度报告方法gt命令（列车）可可金穗监督其中AmA是非模态掩码的结果，MancA是无监督第i个祖先的模态掩码一个例子如图所示5（一）. 图6显示了我们使用所有祖先而不仅仅是一阶祖先的原因Amodal约束的内容完成。在前面的步骤中，我们获得了每个实例的遮挡排序图和预测的非模态掩模。接下来，我们完成被遮挡的内容。如图5（b）、预测的非模态掩码与祖先AmA_M 和 A的交集表示A的缺失部分，其被视为PCNet-C的擦除器。然后，我们应用一个经过训练的PCNet-C来填充内容，如下所示：CA=P（c）（I\ME;MA，ME）区域✘62.477.4y轴✘58.781.9凸✘76.076.3我们✘87.192.5使用模态注释并对验证分割进行测试（1，323张图像，12，753个实例）。实例的类别不适用于此数据集。因此，我们在训练该数据集的PCNets时将categoryid始终设置为1。4.1. 比较结果θME=Am AMancA，(5)命令恢复。我们在表1中报告了COCOA和KINS我们复制了其中CA是来自场景的A的分解内容对于背景内容，我们使用所有前景实例的并集作为擦除器。与不知道遮挡的图像修复不同，内容完成是在估计的遮挡区域上执行的。4. 实验我们现在评估我们的方法在各种应用程序，包括有序恢复，amodal完成，amodal实例分割，和场景操作。实施细节和更多的定性结果可以在补充材料中找到。数据集。1)KINS [18]源于KITTI [20]，是一个大规模的流量数据集，具有实例的注释模态和非模态掩码。PCNet在训练分割（7，474张图像，95，311个实例）上进行训练，并带有模态注释。选项。我们在测试拆分上测试我们的去遮挡框架（7，517张图像，92，492个实例）。 2）COCOA[17]是COCO2014 [21]的子集，同时使用成对排序，模态和非模态掩码进行注释。我们在训练分割（2，500张图像，22，163个实例）上训练PCNet，[17]中提出的OrderNet用于获得监督结果。基线包括按区域1、Y轴（实例更靠近前面的图像底部）和凸先验对边界实例对进行排序。对于基线凸，我们在模态模板上计算凸壳来逼近非模态完备，增量越大的对象被认为是被遮挡对象。所有基线均已调整，以实现其各自的最佳性能。在这两个基准测试中，我们的方法比基线实现了更高的精度一个有趣的案例如图所示。7，其中四个对象圆形重叠。由于我们的排序恢复算法恢复成对排序，而不是顺序排序，它能够解决这种情况，并恢复循环有向图。Amode完成。我们首先介绍基线。为有监督的方法，非模态标注是可用的。一UNet被训练为从端到端的模态掩码预测非模态掩码原始表示未执行完成。凸表示计算模态掩码的凸包1我们根据每个数据集来优化这个启发式算法--对于KINS，一个12432U41234PCNet-M2U3U4124321342314[17]第十七话✔81.787.5[17]第十七话✔88.394.13790表2：使用地面真实模态掩码在COCOA验证和KINS测试集上完成的Amodal。方法阿莫达尔（火车）可可%mIoU金穗%mIoU监督原始凸R✔✘✘82.5365.4774.4394.8187.0390.75我们的（NOG）我们的（OG）✘✘76.9181.3593.4294.76表3：KINS测试集上的Amodal完成，使用预测的模态掩码（mAP 52.7%）。表4：KINS测试集上的非模态实例分割。凸R意味着使用预测的顺序来细化凸包。在这个实验设置中，所有的方法检测和分割的情况下，从原始图像。因此，在测试中不使用模态掩码。Ann. 源模态（列车）阿摩达尔（火车）%mAP[第十八话✘✔29.3原✔✘22.7凸✔✘22.2凸R✔✘25.9我们✔✘29.3方法阿摩达尔（火车）KINS %mIoU监督✔87.29原✘82.05凸R✘84.12我们的（NOG）✘85.39火车PCNet-M适用序基推理阿莫德完成as the amodal非模态mask面具. 由于凸包通常导致数据集与模态实例数据集与伪非模态实例过度完成，即，通过扩展可见光掩模，我们通过使用预测阶数来改进该基线以细化凸包，从而构成更强的基线：凸河它对于自然凸的物体表现得很好。我们的算法（NOG）是一种基于PCNet-M的非定序基非模态完成算法，它把所有邻近对象看作擦除器，而不是用遮挡或去搜索祖先。Ours（OG）是我们的基于序的非模态完备化方法.我们评估地面真值模态掩码上的模态完成，如表2所示我们的方法超越了基线方法，并与监督的方法相媲美通过对OG和NOG的比较，说明了有序化在模完备化中的重要性。如图9，我们的一些结果可能比手动注释更自然除了在测试中使用地面真实模态掩码作为输入外，我们还使用预测模态掩码作为输入验证了我们方法的有效性。具体来说，我们训练一个UNet来预测图像中的模态掩码为了在评估中正确匹配模态和相应的地面真实非模态掩码，我们使用边界框作为该网络的额外输入我们预测测试集上的模态掩码，产生52.7%的mAP到地面真实模态掩码。我们使用预测的模态掩码作为输入来执行非模态完成。如表3所示，我们的方法仍然实现了高性能，可与有监督的方法相比。用于非模态实例分割的标签对话。非模态实例分割的目的是从图像中同时检测实例和预测非模态掩模。图8：通过在模型上训练自监督PCNet-M数据集（例如，KITTI显示在这里），并应用我们的amodal完成算法在同一数据集上，我们能够自由地转换模态注释到伪amodal注释。请注意，这种自监督转换本质上不同于在小的标记非模态数据集上训练监督模型并将其应用于更大的模态数据集，其中不同数据集之间的可推广性可能是一个问题。使用我们的方法，可以将具有模态注释的现有数据集转换为具有伪模态注释的数据集，从而允许在没有手动模态注释的情况下进行模态实例分割网络训练。这是通过在模态掩码训练分割上训练PCNet-M来实现的，并且在相同的训练分割上应用我们的非模态完成算法以获得对应的非模态掩码，如图所示。为了评估伪非模态注释的质量，我们按照[18]中的设置训练标准Mask R-CNN [12]用于非模态实例分割。除了训练的amodal注释不同之外，所有基线都遵循相同的训练协议。如表4所示，使用我们推断的amodal边界框和掩码，我们实现了与使用手动amodal注释相同的性能（mAP 29.3%）此外，我们在训练集中推断的amodal掩码与手动注释高度一致（mIoU 95.22%）。结果表明，我们的方法具有很高的适用性，以获得可靠的伪非模态掩码注释，减轻负担的手动注释大规模的实例级数据集。3791推断顺序231合成（圆形）模态凸R我们GT图9：Amodal完成结果。在某些情况下，我们的结果可能比手动注释（GT）更自然，特别是对于黄色的实例。变更单图10：通过改变排序图进行场景合成。红色箭头显示了反向排序。循环排序的不常见情况也可以合成。4.2. 场景操作我们的场景去遮挡框架允许我们将场景分解成背景和隔离完成的对象，以及遮挡排序图。因此，可以通过控制顺序和位置来操纵场景。图10示出了仅通过控制顺序的场景合成。图11示出了更多的操纵情况，表明我们的去遮挡框架虽然与基线相比在没有任何额外信息的情况下进行了训练，但能够实现高质量的遮挡感知操纵。5. 结论总而言之，我们提出了一个统一的场景去遮挡框架，配备了自监督PC网络，无需排序或非模态注释。该框架以渐进的方式应用于恢复阻塞排序，然后执行非模态和内容完成。它实现了与完全相同的性能-原始图像删除交换移位重新定位图11：该图显示了我们的方法实现的丰富和高质量的操作，包括删除、交换、移动和重新定位实例。基线方法基于模态的操作是基于图像修复，其中提供模态掩模，阶和非模态掩模是未知的。更好的放大视图。更多的例子可以在柔软的材料中找到。在真实世界的数据集上进行监督。它适用于将现有的模态标注转换为非模态标注。定量结果表明，它们的效果与人工标注相当.此外，我们的框架能够实现高质量的遮挡感知场景操作，为图像编辑提供了一个新的维度。鸣谢：本研究得到商汤科技-南大合作项目的支持，商汤科技集团的合作研究资助（中大协议编号：TS1610626编号TS 1712093 ）、新加坡 MoE AcRF Tier 1 （ 2018-T1-002-056）、NTU SUG和NTU NAP。213模态操纵模态操纵我213213213213我3792引用[1] 加埃塔诺·卡尼萨愿景中的组织：关于Gestalt Perception的文章Praeger出版社，1979年。[2] 史蒂芬·E·帕尔默视觉科学：从光子到现象学。MITPress，1999.[3] 史蒂文·莱哈尔。完形同构与空间知觉的量化完形理论，21：122[4] Pedro F Felzenszwalb ， Ross B Girshick ， and DavidMcAllester.基于可变形零件模型的级联目标检测。在CVPR中，第2241-2248页。IEEE，2010。[5] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。2015年，在NIPS[6] Jiaqi Wang ， Kai Chen ， Shuo Yang ， Chen ChangeLoy，and Dahua Lin.通过引导锚定的区域建议。在CVPR，2019年。[7] Kai Chen，Jiaqi Wang，Shuo Yang，Xingcheng Zhang，Yuan-jun Xiong，Chen Change Loy，and Dahua Lin.通过尺度时间网格优化视频对象检测在CVPR，2018年6月。[8] Ziwei Liu，Xiaoxiao Li，Ping Luo，Chen-Change Loy，and Xiaoou Tang.基于深度解析网络的语义图像分割在ICCV，2015年。[9] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义PAMI，40（4）：834[10] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。在CVPR中，第2881-2890页[11] Jifeng Dai ，Kaiming He ，Yi Li ，Shaoqing Ren ，andJian Sun.实例敏感的全卷积网络。见ECCV，第534-549页。施普林格，2016年。[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017.[13] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu XiaoLi，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，et al.实例分段的混合任务级联。在CVPR中，第4974-4983页[14] Jiaqi Wang ， Kai Chen ， Rui Xu ， Ziwei Liu ， ChenChange Loy，and Dahua Lin.Carafe：特征的内容感知重组。在ICCV，2019年10月。[15] Kiana Ehsani、Roozbeh Mottaghi和Ali Farhadi。Segan：分割和生成不可见的东西。在CVPR中，第6144-6153页[16] Yu-Ting Hu，Hong-Shuo Chen，Kexin Huang，Jia-BinHuang，and Alexander G Schwing.Sail-vos：语义非模态实例级视频对象分割-合成数据集和基线。在CVPR中，第3105-3115页[17] Yan Zhu，Yuandong Tian，Dimitris Metaxas，and PiotrDoll a'r. 语义非模态切分。在CVPR中，第1464[18] 陆琦、李江、舒柳、沈小勇、贾雅佳。利用kins数据集进行非模态实例分割。在CVPR中，第3014-3023页[19] Patr i ckFollmann，RebeccaKo¨Nig，PhilippH a¨Rtinge r，MichaelKlostermann，andTobiasB o¨Ttge r.学习看不见的东西：端到端可训练的非模态实例分段。在WACV，第1328-1336页。IEEE，2019。[20] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231-1237，2013.[21] 林宗义，迈克尔梅尔，塞尔日贝隆吉，詹姆斯海斯，彼得罗佩洛纳，德韦拉马南，和彼得多尔阿 'r 。Microsoftcoco ：上下文中的公共对象。 2014 年，在ECCV[22] Jiajun Wu，Joshua B Tenenbaum，and Pushmeet Kohli.神经场景去渲染。在CVPR，2017年。[23] Joseph Tighe，Marc Niethammer，Svetlana Lazebnik.使用对象实例和遮挡排序进行场景解析。在CVPR，第3748-3755页[24] Derek Hoiem ，Andrew N Stein，Alexei A Efros ，andMartial Hebert.从单个图像恢复遮挡边界。载于ICCV，2007年。[25] Pulak Purkait，Christopher Zach，and Ian Reid.看到后面的东西：将语义分割扩展到遮挡区域。arXiv预印本arXiv：1906.02885，2019。[26] Huanyu Liu ， Chao Peng ， Changqian Yu ， JingboWang，Xu Liu，Gang Yu，and Wei Jiang.用于全景分割的端到端网络在CVPR中，第6172-6181页[27] Justin Lazarow，Kwonjoon Lee，Zhuowen Tu.学习全景分割的实例遮挡 arXiv 预印本 arXiv ： 1906.05896 ，2019。[28] Ke Li和Jitendra Malik。非模态实例分割。在ECCV，第677-693页。施普林格，2016年。[29] Benjamin B Kimia ， Ilana Frankel ， and Ana-MariaPopescu. 用于形状完成的Euler螺线。IJCV ，54 （1-3）：159-182，2003.[30] Hongwei Lin ， Zihao Wang ， Panpan Feng ， XingjiangLu，and Jinhui Yu.一种用于可视化曲线补全的拓扑和几何恢复计算模型 . Computational Visual Media ， 2（4）：329[31] Nathan Silberman 、 Lior Shapira 、 Ran Gal 和 PushmeetKohli。一种用于增强曲面重建的轮廓线补全模型。2014年，在ECCV[32] Abhishek Kar ，Shubham Tulsiani，Joao Carreira ，andJiten- dra Malik.自然场景中的非模态完成和大小恒定性在ICCV，第127-135页

下载后可阅读完整内容，剩余1页未读，立即下载