没有合适的资源?快使用搜索试试~ 我知道了~
全景分割预测方法的研究
12517全景分割预测Colin Graber1、Grace Tsai2、Michael Firman2 、Gabriel Brostow2、 AlexanderSchwing 1、伊利诺伊大学香槟分校2、Niantic3、伦敦大学学院摘要我们的目标是根据一组最近的观测结果来预测不久的将来.我们认为这种预测能力,即,预测,是自主代理的成功不可或缺的,自主代理不仅需要被动地分析观察结果,而且必须实时地重要的是,准确的预测取决于所选择的场景分解。我们认为,通过将动态场景分解为单个“事物”和背景“素材”,可以实现卓越的预测。背景“东西”主要是移动的原因是相机的运动,而前景“东西”移动,因为相机和个别对象的运动。在这种分解之后,我们引入了全景分割预测。全景分割预测开辟了现有极端之间的中间地带,要么预测实例轨迹,要么预测未来图像帧的外观。为了解决这个任务,我们开发了一个两组件模型:一个组件通过预测里程来学习背景材料的动态,另一个组件预测检测到的事物的动态。我们为这项新任务建立了一个排行榜,并验证了一个最先进的模型,该模型优于现有的基线。1. 介绍智能体必须预测其运动的结果,以便安全地导航[14,41]。不同的是,成功的自主代理需要了解其观察的动态并预测可能的未来场景,以便在不断发展的环境中成功运行然而,计算机视觉中的当代工作主要分析观察,即,例如,经典的语义分割[8,42]旨在描绘所观察到的对象的轮廓虽然理解一个观察是开创性的第一步,但这只是我们工作的一部分。分析当前观察到的帧意味着信息在我们知道结果时已经过时,无论处理时间如何。当一个自治代理可以执行一个动作时,它甚至更加陈旧。因此,成功的智能体需要预测所观察场景的未来“状态”。一个重要的问题,在Niantic实习期间完成的工作图1.我们研究了“全景分割预测”的新任务然而,仍然是开放的:什么是一个合适的全景分割最近出现作为一个场景的丰富表示。全景分割将每个像素分类为属于前景实例,其联合被称为“事物”,或者作为背景类,被这种分解对于预测是有用的,因为我们期望每个组件都有不同的动态:“东西”因为观察者的运动而移动,而“东西”因为观察者和物体的运动而移动。全景分割的使用进一步被这样一个事实所理解,即它分离了对象的不同实例,我们期望每个对象单独移动。因此,我们建议研究“全景分割预测”的新任务我们还提出了第一种方法来预测未来的全景分割。与典型的语义预测相反[44,52],输入帧我们的全景分割预测12518我们分别对各个对象实例和背景的运动建模。这使得实例信息在预测过程中保持不变,并允许我们理解每个移动对象的运动。据我们所知,我们是第一个预测全景分割的未来,看 不 见 的 帧 在 图 像 序 列 。 我 们 在 具 有 挑 战 性 的Cityscapes数据集[12]上为这项任务建立了一个排行榜,并包括一组基线算法。 我们的未来全景分割方法依赖于许多创新(第2节)。3.1),我们消融以证明其价值。我们的方法还导致国家的最先进的对以前建立的未来语义和实例分割的任务。实现模型和实验的代码可以在https://github.com/nianticlabs/panoptic-forecasting上找到。2. 相关工作我们简要回顾分析一个单一的,给定的框架的工作。然后,我们讨论的工作,预计有关未来的信息,看不见的帧。为了减少歧义,我们避免使用“预测”这个词2.1. 分析方法语义分割:几十年来,语义分割受到了相当多的关注。该任务需要方法来描绘给定图像中对象的轮廓,无论是每个实例还是每个对象类[56,54,57]。最近,基于深度网络的方法报告指出-最先进的结果[42,1,40]。许多架构改进,如扩张卷积[72],跳跃连接[51]等,在它们被用于其他任务之前,已经被开发用于语义分割我们的工作不同,因为我们关心全景分割,我们的目标是预测未来的分割,看不见的帧。全景分割:最近,全景分割[32,29]已经成为语义和实例分割的推广。它需要方法来给出输入图像的每像素语义分割,同时还将对应于每个对象实例的像素这些‘stuff’ view of the world [联合执行这两个任务的好处是减少计算[32,68],并使两个任务能够相互帮助[35,37]。这在精神上与多任务学习相似[33,55]。其他工作已经放松了全景分割[36]或改进架构[49,9]的高标记要求。全景分割已经扩展到视频[30],但是,再次与我们的工作相反,我们只分析测试时可用的帧,而不预测未来的结果。2.2. 预测的方法预期,或同义词下面,在讨论语义和实例预测之前,我们简要讨论预测非语义信息(如对象位置)非语义目标的预测:最常见的预测技术是对轨迹进行预测。它们跟踪并预测单个对象的未来位置,无论是在2D还是3D [15,46,16,71]。例如,Hsiehetal. [26]解开多个移动对象的位置和姿态-但仅限于合成数据。像我们一样,Kosiorek等人。[34]跟踪实例以预测其未来,但仅限于有限的实验场景。几种方法预测未来的RGB帧[38,17,70]。由于预测的高维空间和模糊性,结果可能是模糊的,尽管最近取得了重大进展。可以对未来帧的不确定性进行建模,例如,使用潜变量[63,70]。关于我们的方法,Wuet al. [66] RGB预测分别处理前景和背景,但它们不对自运动建模。所有这些方法在输出和架构上都与我们的方法不同。预测语义:最近,已经提出了各种方法来估计未来未观察到的帧的语义Luc等人[44]使用conv网来估计作为当前RGB和语义的输入给出而Nabavi等人[48]使用带有语义映射的递归模型Chiu等人[10]进一步使用教师网络在训练过程中提供监督信号,而Saric′et al.[52]使用可学习的变形来帮助预测来自输入RGB帧的未来语义然而,这些方法没有明确地考虑场景的动态。虽然Jinet al. [28]联合预测流和未来语义,一些作品明确地扭曲了未来语义分割的深层特征[53]。类似地,Terwilligeret al. [59]使用LSTM来估计流场,以从输入帧扭曲语义输出然而,通过在输出空间(而不是特征空间)中变形虽然流改进了动态世界的建模,但这些方法仅考虑像素级的动态相反,我们在对象级别上建模动态。最近的方法[50,62,69,25]通过分别推理形状,自运动和前景运动来估计未来帧。然而,这些方法都没有理由explanation对个别情况,而我们的方法产生一个完整的未来全景分割预测。预测未来实例:最近的预测实例分割方法使用卷积网络来回归对应于未来实例分割的深层特征。[43]或LSTM [58]。Couprie等人[13]使用conv net预测未来实例轮廓,12519T+FT+FM^^i^iT+F^“事物”预测(3.2.1)合计(3.2.3)里程预测(3.2.4)“物料”预测(3.2.2)图2. 方法概述。给定输入帧I1,...,T时,我们的方法预测了不可见帧I T + F的全景分割ST+ F。我们的方法将场景分解为3.1.1)。接下来,通过使用3D刚体变换将输入帧语义扭曲到帧T + F,然后将结果通过细化模型来对“Stuff”进行建模(第二节)。3.1.2)。最 后,我们将来自“事物”和“东西”的预测汇 总 到 最 终 的 全 景 分 割 S T+F ( 第 二 节 ) 中 。3.1.3)。各种组件需要未来的里程测量,T+F,我们预计使用输入里程计01,...,T(秒)3.1. 4).实例式语义分割,以估计未来的实例分割。他们的方法只估计前地而不估计背景语义.有几项工作专注于预测特定对象类型(通常是人)的未来姿势和位置[45,20]。叶等[70]通过对每个前景对象单独建模来预测未来的RGB帧与这些作品不同的是,我们预期的前景对象和背景se-mantics为未来的时间步长的实例分割掩模3. 全景分割预测我们介绍了全景分割预测,一个新的任务,需要预测未来的全景分割,一个未观察到的场景。与分析观察的经典全景分割不同,全景分割预测要求预测全景分割在稍后的时间看起来像什么。一个是除了RGB图像,我们假设访问摄像机的姿势为1,。. . .,0 T和深度图d1,. . .,d T用于输入帧。相机姿态可以来自测距传感器或现成的视觉SLAM方法的估计[6]。我们从输入立体声对[21]中获得了深度图(这些也可以从单帧[64]中估计)。我们的全景分割预测的概述如图2所示。该方法包括四个阶段:1) “物”的预测(二)3.1.1):对于每个实例i,我们从观察到的输入图像I1,. . .,I T.我们在模型为了预测分段掩码M以及在时间T+F处的未观察到的未来帧的深度d。2) “用于播放的素材”(第二节)3.1.2):我们预测背景场景中的变化作为预期相机运动的函数,产生背景语义输出形式上,给定一系列T个RGB图像I1,. . .,I T,BT+F 对于未观测的未来帧I T+ F。高度H和宽度W,任务是预测全景3) 聚合(秒) 3.1.3):我们聚集前景分段S对应于一个未被观察到的福-‘things’B和背景场景T+F的时间步长为F,在时间T记录最后一次观察。 S T+ F中的每个像素被分配类别c ∈ {1,. . . ,C}和实例ID。3.1. 方法预测未来未观察到的场景的状态需要了解其组件的动态。‘Things’经常“独自”穿越世界同时,静止的“物体”由于观察者摄像机的移动而改变图像中的位置.由于这种区别,我们预计“事物”和“东西”的动态因此,我们开发了一个模型,预测mT+F,产生最终的全景分割输出ST+ F用于未来帧I T+ F。4) 里程预测(第二节)3.1.4):为了更好地处理我们不知道未来里程的情况,我们训练了一个模型来根据输入的运动历史预测里程4.1.1‘Things’ forecasting: 3,首先在输入序列内定位实例位置li然后,这些轨道各自由编码器独立地处理,该编码器捕获它们的运动和外观历史。编码器输出然后用于初始化解码器,解码器预测未来帧的实例的外观和位置,包括深度由两个部分组成,一个是动力学,我T+F . 这些是使用掩模预测模型^dT+F12520T+F不不T+FT+FT+FT+Fxiib、Tm,T我^t−1t−1T+Ft−1b,t^ ^您的位置:不不t−1b,tT+FT+F^x+fbboxi检测与跟踪编码器解码器图3. "Things“for r ecasting模型。这将产生实例掩码m^i对于目标帧T+F处的每个实例i,这些口罩从输入图像I1,. . .,IT通过以下过程:使用MaskR-CNN和DeepSort(左),使用图像来产生边界框特征xi和掩码特征ri。然后将这些特征输入到编码器中以捕获实例运动历史(中)编码器输出用于初始化解码r,其预测特征x^i,ri对于目标帧T+F(右)。这些特征通过掩模预测头以产生最终输出m^i.这里,T= 3,T+F= 6。以产生最终实例掩码Mi。前景预测模型的输出是一组F步,直到达到目标时间步T+F。更正式地说,估计的二进制分割掩码m^i∈{0,1}H×W我我我表示每个检测到的输入的每像素位置在帧T+F处的站姿i。在形式上,我们通过hb,t=GR Udec([x^t−1,ot,fmfeat(^rt−1)],hb,t−1),(3)^=^(h),(4)我我我我mi=MaskOut.(1)第一章hm,t=Con vLSTMdec([^rt−1,fbfeat(hb,t)],hm,t−1),(5)我我I..ii^rt=fmask(hm,t),(6)m^T+F=圆形调整大小mT+F,^xT+F.(二)对于t ∈ {T +1,. . . ,T+F},其中,〇 t表示圆顶。这里,在第一步中,MaskOut使用小卷积网络(具有与[22]的掩码解码器相同的架构)来获得固定大小的分割掩码概率。在时间t尝试,fbbox和fbfeat是多层感知器,并且fmask和fmfeat是1×1卷积层。编码器。解码器使用边界框隐藏状态h i,伊蒂斯Ri我T+F∈[0,1]28×28来自掩码特征张量256× 14× 14外观特征隐藏状态hi我,以及我^T + F∈R.在第二步中,调整缩放大小边界框特征^xT和遮罩外观特征^rT该掩码与预测的边界框rep的大小相使用双线性插值由边界框表示向量xT+F表示,同时用0填充所有剩余的位置。包围盒信息向量对于最近观察到的帧IT。 我们得到这些来自编码器的量,该编码器处理实例i的运动和外观历史。提供了边界框特征xi、掩模特征ri和测距法ot,用于在it txT+F:=[cx,cy,w,h,d,cx,cy,w,h,d]con-获取对象的中心坐标、宽度和高度(用于调整大小),以及对象距离的估计值将时间步长t∈ {1,. . .,T},编码器通过以下公式计算上述量:这些量的变化ib,t=GR Uenc([xi,ot−1,fmfeat(riib,t−1 ),(7)前一帧,这将是有用的。 输出深度d^i也从该矢量r获得。im,t =Con vLSTMenc([ri,fbfeat(hiim,t−1)的。(八)译码器 为了预测边界框信息vec,直觉上,边界框编码器是一个GRU,它支持我我我对于xT+F及其外观rT+F,我们使用解码器,如图1右侧所3 .第三章。它是由pri-执行输入边界框特征xt、里程测量ot和掩码特征ri的变换以产生框状态两个经常性网络的混合:一个GRU [11],它是一个模型,表示hi.此外,面具的外观-T+Fm^H)],hH)],h12521b、Tb,tm,t^m,T我^x= f(h ), 且r=f(h ),(9)我我我我els未来的边界框和一个ConvLSTM [67],它对未来的掩码特征进行建模。直觉,GRU和编码器是一个ConvLSTM,它处理输入掩码特征ri和输入边界框要素不ConvLSTM更新隐藏状态hi而hi,代表─ib,t由边界框编码器产生以获得掩码设置实例i的当前位置和外观,作为边界框特征xt-1和来自前一时间步的掩模特征rt-1的这些状态用于预测当前时间步的位置和外观特征,然后将其自回归地馈送到模型中以预测未来;该过程持续国家代表hi.最终输入时间步长T的估计掩码和边界框特征估计通过以下方式处理最终编码器隐藏状态来计算:^Tenc,b b,T^Tenc,m m,TH12522不不不不不T+F不不T+FT+FT+FT+F^^ ^您的位置:^B^^其中fenc,b是多层感知器,fenc,m是1×1卷积。这些估计是必要的,因为遮挡可能会阻止时间访问位置和外观步骤T用于一些对象实例。在这种情况下,使用Eq。(9)能够填补空白。跟踪.编码器对估计实例进行输入帧t和目标帧T+F之间的像素对应关系。在帧It上运行预训练的语义分割模型以获得语义分割mt之后,我们使用这些对应关系将来自mt的语义标签(对应于轨道/位置li:={ci,(xi,ri)|不 },其由ob帧组成。 We表示投影语义图为meB,不t t=1t输入视频序列I1中的所有实例的对象类c i、边界框特征xi和掩码特征ri,. . .,I T.获得这些涉及两个步骤:1)我们在每个输入帧上运行MaskR-CNN [22]以查找实例;2)我们使用DeepSort [65]将实例跨时间链接。对于给定的跟踪实例i,我们使用MaskR提供的输出投影深度为dB。然而,由于1)点云的稀疏性,以及2)在先前被前景对象遮挡或未在帧内预遮挡的区域中缺乏信息,仅为m_2B中的像素像素的子集分配标签。因此,我们应用细化模型,该细化模型从所有输入帧中获取(mB,dB),以完成se-to-se-to-se-to-se-outt tCNN,包括预测类ci、边界框xi和在ROIAlign阶段之后提取的掩码特征rixi内的距离d是指输入深度图dt在对应于由MaskR-CNN针对输入帧t中的实例i找到的估计实例分割掩模的位置处的中值。给定的对象实例可能不会在所有输入帧中找到,这是由于存在遮挡或者因为它已经进入或离开场景。在这些情况下,我们将输入设置为全零张量。请注意,在检测阶段可能会遗漏实例。我们在很大程度上观察到这种情况发生在静态对象上,例如停在人行道上的一组自行车(例如,图4第四行中我们预测的右侧)。一种解决方案是将这些情况视为背景预测的一部分。然而,在我们的实验中,我们发现将所有错过的实例作为背景降低了我们的性能,因为某些实例实际上是动态的。因此,在本文中,我们选择不恢复这些实例。损失为了训练前景模型,我们提供输入的位置和外观特征,预测它们的未来状态,并根据它们的伪地面真实未来状态进行回归。更具体地说,损失是使用估计的边界框xi和实例特征ri计算的,mantic segmentation map.损失为了训练背景细化模型,我们使用在目标帧中不对应于前景对象的像素处应用的交叉熵损失。这鼓励细化网络的输出匹配每个像素处的地面实况语义分割。我们在附录中对此进行了说明。E.2.3.1.3聚合:该步骤将前景物体分割m i、类别c i、深度d i和背景语义预测m组合到最终的未来全景分割ST+F中。为了简单起见,我们假设所有的前景物体都位于所有背景组件的前面.我们发现这在大多数情况下是有效的。因此,为了组合前景和背景,我们将前景实例按照预测实例深度递减的顺序“粘贴”在背景之上。该方法在图2右侧中直观地呈现,并且由Alg更详细地描述。1在附录中3.1.4自我运动估计:对所观察到的场景运动的一个很大贡献者是记录相机的移动。正确地建模这种运动对于准确的结果至关重要。在这里,我们考虑两种情况:1)t t对未来帧运行实例检测和跟踪请注意,损失也是在中间预测上计算的,这允许正确地对所有未来时间步长中的实例的运动和出现进行建模。我们的前期模型损失是均方误差和L1损失的加权和见附录第E.1详细信息。3.1.2'stuf' forr ecasting:背景'stu f ' forecasting的任务是预测语义输出m B∈{1,. . .,C填充}H× W,用于目标帧T +F. 我们假设它们对应于场景,即,图像中的背景变化仅由相机运动引起。我们通过从帧t中的背景像素反向投影3D点来预测背景变化,给定深度dt和相机本征,用自我运动ot进行变换,并投影到帧T+F。这一过程确立了自主代理人的运动; 2)“被动”场景,其中相机由外部代理控制,因此模型不提供未来运动。在活动场景中,我们使用来自数据集的相机的速度和偏航率,我们将其处理成前景和背景模型所需的形式。见附录第B更多详情在被动的情况下,我们使用GRU来预测未来的相机运动作为其过去的运动的函数。更正式地,如图所示。2(左),ho,t+1=GRUcam(ot,ho,t)和ot+1=fcam(ho,t+1),(10)其中fcam是多层感知器。对于输入时间步长,即,t∈{1,. . .,T},我们使用已知的相机运动作为模型输入。对于未来的时间步长,即, t ∈ {T +1,. . . ,T+F},我们使用预测的相机运动作为输入。12523所有PQ SQ短期:事情RQ PQ SQ RQ东西PQ SQ所有RQ PQ SQ中期:2000年=9事情RQ PQ SQ RQ东西PQ SQ RQPanoptic Deeplab(Oracle)†六十381岁。572. 951. 1八十。563岁567岁。082. 379. 7六十381岁。572. 951. 1八十。563岁567岁。082. 379. 7Panoptic Deepplab(最后一次看到的帧)32岁771岁。342岁722岁168岁。430. 8四十4七十三。351. 422岁468岁。530. 410个。765岁1十六岁031岁071岁。0四十9流41岁4七十三。4五十三430. 6七十。642岁0第四十九章。3七十五。461岁。8二十五969岁5三十四613岁467岁。1十九岁3三十五071岁。3四十五7混合动力[59](bg)和[43](fg)43号。274岁155个。1三十五972. 4四十八。3四十八。5七十五。3六十1第二十九章。769岁139岁。4十九岁766岁828岁037岁0七十。8四十七7我们49.074.963.340.172.554.655.576.769.536.371.347.825.969.036.243.972.956.2表1. 在Cityscapes验证集上评估的全景分割预测。 †可以访问位于xdt的RGB帧。 对于所有指标来说,越高Oracle Flow Hybrid Our图4.Cityscapes的中期全景分割预测。 与Hybrid相比,我们的方法产生了更明确的对于实例类(见第1行中的汽车或第4行中的行人)的轮廓,并处理具有大运动的实例要好得多混合由于Flow不对实例级轨迹进行建模,因此预测中的4. 评价我们通过比较我们开发的方法与几个基线,建立了全景分割预测任务的第一个结果。我们还提供消融来证明我们的建模决策的重要性。我们还评估了语义分割预测和实例分割预测的任务,以将我们的方法与现有任务的工作相结合。数据:为了评估全景分割预测,我们需要一个包含语义和实例信息以及导致注释帧的整个视频序列的数据集。Cityscapes [12]满足了这些要求,并已在先前的工作中用于语义和实例预测。该数据集由5000个序列组成,每个序列30帧,跨度约为1.8秒。数据记录从汽车驾驶在城市场景中,语义和实例注释提供了每个序列中的第20帧。根据预测分割[44,43,59,53]中先前工作的标准实践,此处提供的所有实验均在验证数据上运行;附录第12节中提供了对测试数据的有限评估集。G.为了与之前的工作相匹配[44,43,53],我们使用每三个框架作为输入,并评估两种不同的情况:短期预测看起来3帧(2000年)。18秒)和中期预测看起来9帧(100。#35753;未来。所有度量在序列的第20帧上计算我们使用T= 3的输入长度。因此,我们使用帧11、14和17作为短期实验的输入,使用帧5、8和11作为中期实验的输入。4.1. 全景分割预测指标. 我们使用先前工作[32]中介绍的关于全景分割的度量来比较所有方法。这些度量要求首先计算预测片段和地面实况片段之间的匹配。如果预测片段和同一类的地面实况片段的交集大于0,则它们之间的匹配是真阳性。五、使用这些匹配,考虑三个指标:分割质量(SQ),这是真阳性匹配片段的平均IoU,识别质量(RQ),这是在匹配上计算的F1分数,以及全景质量(PQ),这是SQ和RQ的乘积。所有这些指标都是按类计算的,然后平均计算最终得分。基线。为了在全景分割预测的新任务上将我们的方法与基线进行比较,我们用途:12524短期:200t= 3中期:200t= 9表2.使用Cityscapes验证我们的设计选择。 对于所有指标来说,越高越好除非另有说明,否则所有方法都使用预测的未来Panoptic Deeplab ( Oracle ) : 我 们 应 用 PanopticDeeplab模型[9]来分析目标帧。这代表了性能的上限,因为它可以直接访问未来信息。Panoptic Deeplab(最后一次看到的帧):我们将相同的Panoptic Deeplab模型应用于最近观察到的帧。这表示假定没有摄影机或实例运动的模型。流:使用从最后两个观察帧计算的光流[27混合语义/实例预测:我们融合了语义分割预测模型[59]和实例分割预测模型[43]的预测,以创建目标帧的全景分割。结果所有模型在全景分割预测任务中的结果见表1。1.一、我们在短期和中期设置的PQ,SQ和RQ指标上优于所有非Oracle方法。对PQ和RQ的改进表明,我们的模型更好地捕捉了所有场景组件的运动,包括静态背景“东西”区域和动态“东西”。此外,SQ的改进意味着真正匹配的每像素质量不会降低。Flow模型的性能比Hybrid或我们的方法更差,这表明对每个像素的输入运动进行简单的线性外推不足以捕获场景和对象运动。事实上,我们和混合动力之间的差距在短期和中期设置之间的“事情”PQ增长显示了我们的前景模型的力量(第3.1.1)在较长的时间跨度上预测对象运动。图4将结果与基线进行了比较。我们的ap-proach产生更好的定义对象轮廓和handles大运动比基线。消融术。选项卡. 图2示出了消融实验的结果,其分析了我们的建模选择的影响1) w/Hybrid bg使用我们的前景模型,但用[59]中的模型替换我们的背景模型; 2)w/Hybrid fg使用我们的背景模型,但用[43]中的模型替换我们的前景模型;3)w/线性实例mo-表3. Cityscapes验证数据集上的语义预测结果。除了oracle和copy last之外,基线数字来自[53]。对于所有指标来说,越高越好。我们的模型利用了立体声和里程计,这是由典型的自动驾驶汽车设置提供的,并包含在Cityscapes中。假设线性实例运动并且没有掩模应用改变,用简单模型 替 换 前 景 预 测 模 型 ;4 ) fg w/o odometry 不 使 用odometry 作 为 前 景 模 型 的 输 入 ;5 ) w/ORB-SLAModometry使用从[6]获得的输入 odometry; 6)w/SGMdepth使用从[12]提供的SGM [24]获得的深度作为模型的输入;以及7)w/monocular depth使用在Cityscapes上微调的monocular depth预测模型[19消融1)和2)表明,我们改进的模型性能是由于我们的前景和背景组件的强度。消融3)表明实例运动和出现掩模的联合建模是成功的关键。4)结果表明,里程输入有助于模型更好地预测前景位置,5)证明我们的方法可以很好地与里程计算直接从输入图像。6)和7)表明我们的方法受益于更准确的深度预测,但它也可以很好地与使用单帧方法获得的深度输入一起工作。4.2. 语义分割预测为了进行全面的比较,我们还评估了语义分割预测任务的方法。这个任务要求为目标帧预测每个像素的正确语义类。与全景分割评估不同,该任务不关心实例,即,良好的性能仅取决于预测每个像素的正确语义类我们从我们的模型中获得语义分割输出,丢弃实例信息,只保留语义。指标. 未来的语义分割是使用预测的交集(IoU)与地面实况进行比较来评估的,这些预测是按类计算的,并对类进行平均。此外,我们还提供了一个IoU得分,该得分是通过仅对“事物”类(MO)进行平均来计算的基线。我们比较了一些最近的作品预测语义分割。这些方法中的许多PQt= 3平方RQPQt= 9平方RQ我们49.0 74岁9 63.336.3 71岁。347.81)[59]第五十九章:你是谁?四十五074岁1 第五十七章。932岁4七十。142岁92)[43]第四十三话四十七374岁8 六十7三十三4七十。443号。93)w/线性实例运动四十2七十三。752. 127岁。9七十。1三十六。6准确度(mIoU)所有莫所有莫Oracle八十。681岁。7八十。681岁。7复制最后一个59. 155个。042岁4三十三43Dconv-F2F [10]第五十七章。0/四十8/Dil10-S2S59. 455个。3四十七8四十812525短期:200t= 3中期:200t= 9表4. Cityscapes验证数据集上的实例分割预测。 对于所有指标来说,越高越好。预测未来场景的特征[44,48,4,52,10,53]。LSTM M2M [59]通过一个转换输入语义的扭曲函数来预测最近帧和目标之间的光流。与此不同的是,我们将预测分解为每个实例的特征预测以及组合之前的背景语义转换此外,这些方法不使用深度输入,并且除了贝叶斯S2S [4]之外的所有方法都不使用自运动作为输入。结果此任务的结果在Tab中给出。3 .第三章。我们在标准IoU和MO IoU上的表现优于大多数模型。与所有其他基线不同,我们的模型能够为移动对象类生成实例级预测,是一个更具挑战性的目标。4.3. 实例分割预测我们还评估了实例分割预测,它只关注Cityscapes中的“事物”类。未来的实例分割可以从我们的模型中获得,忽略所有像素对应的指标. 实例分割使用两种方法进行评估[12]:1)平均精度(AP)首先在匹配所需的多个重叠阈值上求平均值以计数为真阳性,然后在类别之间求平均值;2) AP 50是使用重叠阈值0计算的平均精度。5,然后将其平均化。基线。有很少的实例分段预测的工作。我们与Lucet al. [43],他们训练一个模型来使用卷积模型预测整个未来场景的特征,并通过MaskR-CNN的预测头运行这些预测的特征来获得最终相反,我们的方法预测一个individual一套功能,为每个实例中发现的场景。结果选项卡. 四是提出结果。我们在中期环境中的表现优于先前的工作。这表明,对单个实例的轨迹建模在预测任务中具有更高的潜力。由于我们使用Luc等人创建的相同模型。[43]作为混合基线的4.1),Fig.4显示了这些方法之间的视觉同样,我们的方法给出了更详细的实例轮廓,并更准确地对具有较大运动的对象进行建模。此外,在某些情况下,F2F会图5. 失败案例。左图:实例检测未检测到以白色突出显示的骑自行车者。右:错误预测的里程计导致预测和目标图像之间的不对齐(目标图像中对象的轮廓以白色显示)。4.4. 反省为什么我们的方法比以前的方法预期更高的保真度?这些作品中的许多试图通过预测整个图像的固定大小特征张量看起来是什么样子来预测未来场景-这对于语义分割预测[ 44,10,53 ]和实例分割预测[ 43 ]都注意,这合并了相机运动,场景中存在哪些对象,这些对象如何移动,以及对象和背景组件的外观如何根据场景运动而改变。这增加了预测的复杂性。相反,我们的方法将这些组件分解为单独的部分:前景模型预测每个对象如何移动以及其外观如何作为该运动的函数而变化;背景模型捕获当相机移动时静态场景组件如何出现;并且里程模型基于过去的输入预测可能的未来运动。分别对每一个进行建模简化了单独的预测。此外,我们为每个实例预测单独的特征,因此其大小随场景中存在的实例数量而变化,而过去的方法[43]使用固定大小的表示,而不管场景的复杂性如何。在某些情况下,我们的方法的性能受到实例检测和跟踪失败的阻碍(图5中的示例)。目前,我们的模型无法从输入有噪声的情况下正确恢复。也就是说,我们的方法立即受益于实例检测和跟踪领域的改进,这是非常活跃的研究领域[2,3]。5. 结论我们介绍了新的任务“全景分割预测”。它需要为未观察到的未来帧预测每像素实例级的“东西”和“事物”分割,并将为了解决这个任务,我们开发了一个模型,该模型预测“事物”的轨迹和外观,我们证明了该方法在全景、语义和实例分割预测上表现出令人信服的基线。鸣 谢 : 这 项 工 作 部 分 由 NSF 在 Grant #1718221 ,2008387,2045586,MRI下#1725729和NIFA奖2020-67021-32799。APAP50APAP50Oracle三十四6第五十七章。4三十四6第五十七章。4最后看到的帧8 .第八条。921岁31 .一、7六、612526引用[1] V. Badrinarayanan,A. Kendall和R.西波拉Segnet:用于图像分割的深度卷积编码器-解码器架构。PAMI,2017年。[2] P. Bergmann,T.Meinhardt和L.Leal-Taixe 不用花里胡哨的追踪在ICCV,2019年。[3] G. Bertasius和L.托雷萨尼分类,分割和跟踪视频中的对象实例与掩模传播。在CVPR,2020年。[4] A.巴塔查里亚Fritz和B.席勒贝叶斯预测未来的街道场景使用合成似然。ICLR,2019年。[5] H.凯撒,J. Uijlings,和V. Ferrari。Coco-stuff:上下文中的东西类。在CVPR,2018年。[6] C. 坎波斯河,巴西-地Elvira,J. J. 戈麦斯,J. M. M.Montiel和J. D. 太棒了。ORB-SLAM 3:一个精确的开源库,用于视觉,视觉惯性和多地图SLAM。arXiv预印本arXiv:2007.11898,2020。[7] P. Chao,C.-Y. Kao,Y.S. 鲁安,C.-H. Huang和Y.-L. 是林书Hardnet:低内存流量网络。在ICCV,2019年。[8] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤耶使用深度卷积网络和全连接CRF进行语义图像分割。arXiv:1412.7062,2014年。[9] B. Cheng,M.中国植物志 D. 柯林斯湾,澳-地 Zhu,T.Liu,T. S. 黄先生,H.亚当和L C.尘Panoptic-DeepLab:一种简单、强大、快速的自下而上全景分割基线在CVPR,2020年。[10]H.- K. Chiu,E. Adeli和J.C.尼布尔斯分割未来。IEEERobotics and Automation Letters,2020。[11] K. 乔湾,巴西-地 VanMerr ieenboer,C. Gulcehre,D. 巴赫达瑙,F.布加雷斯湾Schwenk和Y.本吉奥使用RNN编码器-解码器 学 习 短 语 表 示 , 用 于 统 计 机 器 翻 译 。 arXiv :1406.1078,2014年。[12] M. Cordts,M. Omran,S. Ramos,T. M. 恩茨韦勒,R.贝嫩森大学Franke,S. Roth,and B.席勒用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。[13]C. Couprie,P.Luc和J.维贝克联合未来语义和实例分割预测。在ECCV研讨会上,2018年。[14]K. J. W.克雷克解释的性质。剑桥大学出版社,1943年。[15] Q. Dai,V. Patil,S. Hecker,D. 戴湖,澳-地 范古尔,K.辛德勒自监督对象运动和深度估计从视频。在CVPR研讨会,2020年。[16]S. Ehrhardt , O. Groth , A. 蒙 斯 帕 尔 湾 恩 格 尔 克 岛Posner,N.Mitra和A.维达尔迪模拟:使用结构化潜在空间的物理上在NeurIPS,2020年。[17]H. Gao,H. Xu,Q.- Z.蔡河,巴西-地Wang,F. Yu和T.达雷尔解纠缠传播和生成视频预测。在ICCV,2019年。[18]A. Geiger,P. Lenz,和R.盖革,等.乌塔松我们准备好了吗?KITTI Vision Benchmark Suite。在CVPR,2012年。[19]C.戈达尔岛Mac Aodha,M. Firman和G. J·布罗斯托深入研究自我监督的单目深度估计。在ICCV,2019年。[20]C. Graber和A.施温动态神经关系推理。在CVPR,2020年。[21]X.古,Z.范,S。Zhu,Z. Dai,F. Tan和P. Tan。高分辨率多视图立体和立体匹配的级联成本卷。在CVPR,2020年。[22]K. 他 , G. Gkioxari , P.Doll a'r 和 R.女 孩 MaskR-CNN。在ICCV,2017年。[23]G. Heitz和D.科勒学习空间背景:用东西找东西。在ECCV,2008年。[24]H.赫什穆勒通过半全局匹配和互信息进行精确高效的立体处理。在CVPR,2005年。[25]L. Hoyer,P. Kesper,A. Khoreva和V. Fischer。语义网格上的短时预测与多摄像机融合。在ICCV研讨会,2019年。[26]J. - T.谢湾,巴西-地刘,D.- A.黄湖,澳-地飞飞和J.C.尼布尔斯学习分解和解开视频预测的表示。在NeurIPS,2018年。[27] E. Ilg,N. Mayer,T. Saikia,M. Keuper,A. dosovitskiy和T.布洛克斯Flownet 2.0:深度网络光流估计的演变。在CVPR,2017年。[28] X. Jin,H.Xiao,X.Shen,J.杨,Z.Lin,Y.Chen,Z.阿杰,J.Feng和S.燕.预测未来的场景解析和运动动力学。在
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JSP+SSM科研管理系统响应式网站设计案例
- 推荐一款超级好用的嵌入式串口调试工具
- PHP域名多维查询平台:高效精准的域名搜索工具
- Citypersons目标检测数据集:Yolo格式下载指南
- 掌握MySQL面试必备:程序员面试题解析集锦
- C++软件开发培训:核心技术资料深度解读
- SmartSoftHelp二维码工具:生成与解析条形码
- Android Spinner控件自定义字体大小的方法
- Ubuntu Server on Orangepi3 LTS 官方镜像发布
- CP2102 USB驱动程序的安装与更新指南
- ST-link固件升级指南:轻松更新程序步骤
- Java实现的质量管理系统Demo功能分析与操作
- Everything高效文件搜索工具:快速精确定位文件
- 基于B/S架构的酒店预订系统开发实践
- RF_Setting(E22-E90(SL)) V1.0中性版功能解析
- 高效转换M3U8到MP4:免费下载工具发布
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功