语义一致性的空间和时间连贯分割与重建的复杂动态场景

67 浏览量更新于2023-10-16 收藏 2.1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4321动态场景Armin Mustafa Adrian Hilton CVSSP，联合王国{a.mustafa，a.hilton}@ surrey.ac.uk摘要在本文中，我们提出了一个框架的空间和时间连贯的语义共同分割和重建的复杂动态场景从多个静态或移动摄像机。语义共分割利用语义类标签在空间上（在单个时刻的视图之间）和时间上（在具有相似形状和外观的动态对象的宽间隔时刻之间）的一致性。我们证明了语义一致性的结果，在改进的分割和recrusic-tion复杂的场景。提出了一个联合制定语义连贯的基于对象的共同分割和重建的场景，通过执行一致的语义标签之间的意见，并随着时间的推移。引入语义轨迹子以增强动态对象的大间距实例之间的语义标记和重构的时间一致性动态对象的Tracklets可以实现对联合分割和重建中利用的外观和形状参数的无监督学习对具有挑战性的室内和室外序列与手持移动摄像机的评估表明，在分割，时间一致的语义标记和动态场景的3D重建的准确性提高。1. 介绍使用深度学习、卷积神经网络架构和大型注释图像集合[56，10，40]的视觉场景理解的进步，在图像中复杂现实世界场景中的语义类别的每像素标记方面取得了优异的性能由于来自单个相机视图的视觉分割和分类中的固有模糊性，输出可能包括像素标记和对象边界分割中的错误，从而导致语义标记中缺乏时间一致性。同样地，针对相同场景的不同视图的独立分类可能导致针对相同对象的不一致的每像素语义标记。本文介绍了一种基于语义相关的图像逐像素分割和重建的框架。图1. 来自Magician数据集的输入图像示例[3]以及顶部的全卷积网络（FCN）[10]的标准图像分类。底部：提出的框架，导致准确标记的分割和3D重建。动态场景该方法在空间上跨场景的不同视图和在时间上跨同一对象的不同观察来引入语义轨迹来关联随着时间的推移具有相似形状和外观的动态对象的不同观察之间的语义标签。这使得能够改进单目视频的语义标记和共分割中的时间相干性。联合语义共同分割和重建的动态对象的多个视图强制执行语义标记的空间一致性，从而提高性能比以前的方法，没有利用语义信息。先前的研究已经证明了跨多个视图的联合分割和重建的优势[21，24，23，34，14，32]，多个视图的联合分割图像[11，31，13，12]和重建中的时间相干性结构[20，18，36，42]。我们的贡献是介绍了一个框架，用于联合语义共同分割和重建复杂的动态场景，以获得se-mantically连贯的每视图2D对象分割和3D场景重建从宽基线相机视图。语义连贯性是指语义标签在序列中的时空连贯性。据我们所知，这是第一个方法解决的问题，时间连贯的语义共同分割和重建的动态场景。422423图1示出了针对用5个手持非同步移动相机捕获的公开可用的Magician数据集[3]的语义相干共分割和重建的示例在每个帧处使用全卷积网络（FCN）为每个视图独立地获得初始语义类标记[10]。联合语义共分割和重构（底行）导致2D分割和重构两者的显著改进。捐款包括：• 复杂场景• 用于跨宽时间帧• 改进的多摄像机动态场景分割与重建算法2. 相关工作2.1. 语义分割在文献中已经提出了用于图像的语义分割的各种方法在第一类别中，图像最初被分割，然后是每段对象类别分类[41，22]。然而，分割中的错误传播到语义标记。几篇论文通过提出深度每像素CNN特征，然后对图像中的每个像素进行分类来解决这些问题[17，25]。逐像素预测导致具有模糊边界和空间不相交区域的分割。另一组由[38]开创的方法预测来自原始像素的分割。引入了使用条件随机场（CRF）提高语义分割的空间一致性的方法[33，57，9]。共分割：联合分割首先由[49]引入，用于图像对中对象部分的同时二进制分割。这被扩展到多个图像的共同分割[5]。多视图合作空间和时间的分割在[13]中引入。一个共同的前景是从多个视图使用的信息，从外观和运动线索。来自单个视频的语义共同分割方法使用时空对象提议[28，40]、片段[31]、运动[49]和前景传播[20]。最近，引入了共同分割方法来分割单个对象[19]或多个对象[11，54]的视频集合中的共同对象。2.2. 关节分割与重建一般的多视点图像分割方法使用的是外观和对比度信息，这在复杂的现实世界场景的情况下可能是不够的。为了改善结果，已经提出了通过包括多视图照片一致性来联合优化分割与3D重建[21，42]。这个概念是前-倾向于语义分割和重建，以从场景中获得额外的信息[24，56]。引入方法以在用于来自单目相机的街道场景的联合框架中利用基于外观的像素类别和立体提示[34，55，18]。这些方法使用CRF来执行从移动相机捕获的街道场景的同时密集重建和分割。提出了一种估计街道场景中刚性物体的姿态和3D形状的方法[14]。在一个对象类内的紧凑形状流形用于联合对象分割，姿态和形状估计。然而，这些方法不能直接应用于多视点宽基线场景。针对静态场景提出了一种使用多幅图像联合估计3D场景几何和语义分割的方法[23]。[4]提出了刚性对象的稠密语义表示。然而，这些方法仅限于静态场景和刚性物体。本文介绍了联合语义共同分割和重建的空间和时间域的连贯性，刚性和非刚性的动态对象，捕获多个宽基线运动相机的场景。我们的工作的一个关键贡献是，我们结合语义，形状和外观信息在空间和时间在一个单一的优化。实验结果表明，该方法提高了复杂动态场景分割和重建的准确性和完整性.3. 语义分割重建图2所示的语义连贯性的拟议框架包括以下阶段：初始语义分割：使用全卷积网络（FCN）[10]为每个视图中的图像中的每个像素估计初始语义标签。初始语义重建：语义将每个视图的信息与视图之间的稀疏3D特征对应性相结合，以获得初始语义3D重建。该初始重建组合了视图间的语义信息，但由于初始逐视图分割中的不准确性而导致不一致Semantic Tracklets：为了增强语义连贯性，我们提出了语义轨迹，为每个动态对象识别一组相似的帧。任何一对帧之间的相似性是从每视图语义估计的标签、外观和形状。语义轨迹为时空语义联合分割和重构提供先验，以增强时间一致性。语义共分割和重构：初始语义分割和重构是通过联合优化为每个动态对象细化每个视图的分割和形状跨多个视图和随着时间的推移使用语义tracklets。使用泊松表面重构将每视图信息合并到单个3D模型中[29]。424BS图2.语义一致的共分割和重构框架。对整个序列重复该过程，以获得完整场景的语义连贯的密集共分割和重构。以下部分包括对所提出的方法的详细解释，并强调了这项工作的新贡献。每个物体的构造。在每个视图中，将初始粗略recruitment反投影到初始语义分割上。如果反投影掩模小于其在2个或更多个视图中的相应语义区域，则初始粗略重建在体积（3D）上被扩张p要封装对象，请执行以下操作：p=1NhBc−Bc，其中N3.1. 初始分割重建S RNhc=1ih是具有较小背投影掩模的视图的数量Bi是语义分割的面积，Bi是初始语义分割：se-sr的最新进展智能分割目前由全卷积网络（FCN）表示。为了预测语义一元电位，我们采用DeepLab模型，这是VGG网络的完全卷积适应[10]。对于序列中的每一帧，我们执行深度语义分割，估计图像中每个像素处各种类别的概率。该网络在具有81个类的MS-COCO[37]数据集上进行训练，并在PASCAL VOC 12[16]数据集上进行优化FCN使用大的感受野和许多池化层，这两者都导致深层中的模糊环和低空间分辨率。结果，如图3（b）所示，FCN产生具有不良局部对象边界的分割。初始语义重建：使用SFD特征执行场景的基于稀疏特征的重建[44]和SIFT脚本[39]，其中每个3D特征应在3个或更多相机视图中可见以实现鲁棒性[26]。由此产生的点云在3D中聚类[50]。在具有跨多个视图的相同类标签的点之间形成聚类，使得每个聚类表示语义上一致的对象。由于缺少3D特征，纹理或视觉模糊性。为了避免不完全重建，稀疏的3D对象簇与初始语义分割相结合，以获得初始语义重建。通过三角剖分获得稀疏3D点簇的网格，以获得初始粗网格。初始粗略重建的反投影掩模的面积，结构这会自动对场景中的每个对象进行重建，而无需任何强的初始先验。3.2. 语义Tracklet在具有非刚性物体的一般动态场景的情况下，独立的每帧分割和重建导致不一致的结果，例如，不能重建诸如肢体的薄结构和不好地定位的对象边界。用于帧到帧时间相干性的顺序方法易于由于漂移和快速运动而产生误差[6，46]。以前的工作[54]已经表明，语义tracklet改善了单视图视频的分割为了实现鲁棒的时间相干重建语义tracklets介绍连接实例的动态ob-bandry跨越宽的时间帧。这提供了约束前的共分割和重建。动态对象的语义轨迹被定义为具有类似语义标签、外观和2D形状的一组帧，如图4所示。 Tracklet用于语义标签、外观和形状信息的长期学习，用于每个对象的逐视图联合语义共分割和重建。这改善了重建和分割结果中的语义一致性，如图5和图12所示。使用来自稀疏时间SIFT特征对应的运动信息来识别场景语义，2D形状和425i、ji、ji、ji、jyci、ji、ji、ji、j一个r=1图3.使用所提出的框架对Odzemok数据集进行语义分割的改进针对每个帧相对于所有先前帧来评估动态对象的外观相似性，以识别形成轨迹片段的相似帧的集合。相似性评价如下：语义相似度：使用稀疏宽时间帧SIFT特征匹配来识别在每个帧处与对象相关联的语义区域。[15]第十五话基于特征对应和区域边界的语义区域分割方法，图4.基于外观的当前帧53处的动态对象的动态轨迹片段生成（类似帧）的示例当前帧。语义相似性度量Lc是-形状和语义信息。空间和时间的Neigh-精细化为具有相同类别的像素的数目的比率边界分别以绿色和黄色显示在顶部，标签zc到分割的重新中的像素的总数，zC的优化。每个对象的模糊分割区域S（第3.1节），吉奥伊奇在视图c的帧i和j处：=i，ji、j哪里|L|是网络中类的总数。外观相似度：用于视图c中的语义区域分割的帧i和j之间的外观度量Mc是基于在三个帧之间一致的时间特征对应的数量的比率。这是通过优化成本函数来实现的：Esingle（l）=λsemEsem（l）+λaEa（l）+λcEc（l）（2）或更多视图到特征校正的总数其中单个成本条款强制执行空间和时间分段区域Rc[43]第四十三话QC=i，j语义标签中动态对象的一致性SEM，i、ji，j Rc外观E和区域边界对比度E。光学i，ja c形状相似性：形状度量给出了形状相似性的度量。每个帧的帧对之间的2D区域形状相似性动态对象语义区域分割使用仿射扭曲对齐[15]。2D形状相似性度量如图4所示，通过迭代L [8]中的标签集，使用跨空间和时间邻域的α扩展来执行混合。空间邻域：空间邻域是指ci，j定义为对齐的C被细化为图像域中的空间上接近的像素对。分割hc到面积Acci，j=hi，ji、j一个标准的8-连通空间邻域被用来解相似性度量：上面定义的度量用于计算帧之间的相似性，如下所示：由pixelS表示;像素对（p，q）的集合，使得p和q属于同一帧并且在空间上连接。Si，j=13NSTc=1ci，jci，jci，j）（1）时间邻域：时间邻域是基于针对任何帧i生成的轨迹线Ti的集合来定义的。对于单视图优化，tracklet是es-相似度> 0的所有帧。75人被选为NSsimi-使用度量标准估计：sc=1（Mc+Ic+Lc ）de-i、j3i，ji、ji、j更大帧以形成用于从等式（1）导出的每个动态的语义轨迹Ti。1 .一、在颜色相似性度量Mc，Qc中，i，j i，j第i帧的对象，Ti={tr} NS，其中tr∈ [0，i − 1]。3.3. 单视图语义分割时间相干的语义分割可以使用se-mantic tracklet针对单视图视频独立地进行优化，而不需要多个视图。这在第3.4节中被扩展到从多视图视频的空间和时间相干联合共分割和重建。单视图语义分割的目标是从一组语义中分配一个语义标签tic类o。从FCN（第3.1节）中获得的初始化，L=l1，...，L|L|对于初始的se，每个像素p都是相同的。我：我（M+I+L426用[45]使用单视图宽时间帧匹配方法获得的对应关系替换。光流被用来计算一个密集的流场的轨迹，初始化从稀疏的时间SIFT特征对应。EpicFlow[47]用于保留大位移，因为tracklet在时间上广泛分布，并且强制执行前向-后向流一致性。最佳流矢量定义了时间邻域 ={（p，q）|q = p + di，j};其中j j是帧的编号在trackletTi={j=tr}中，并且di，j是从图像i到j的位移矢量。语义成本：此成本是基于概率计算的427α pqβ初始FCN语义分割的每个像素处的类标签的能力[10]。与以前实现语义一致性的方法不同，我们在整个邻域中使用多个轨迹t来执行空间和时间一致性：边界和单视图分割中的视觉模糊。在下面的部分中，我们将介绍多视图联合语义共同分割和重建，它将多个视图中的信息组合起来，以细化分割。Esem（l）=p∈Tp∈S−logP（Ip|lp）如图3（d）所示。其中Psem（Ip|lp=li）表示层的概率li在从FCN获得的分类图像中的像素p处对比成本：对比度成本[10]被修改以引入空间和时间语义一致性并确保对于动态对象，区域边界具有高对比度。语义区域边界使用tracklet在优化之前3.4. 多视点联合语义共分割与重构将单视图语义分割扩展到多视图，得到语义一致的联合分割和重构。共分割是通过跨视图和随时间推移传播语义标签来Ec（l）=ec（p，q，lp，lq，σt，σt，σt）+在框架中添加tracklet。最初的语义重新-p，q∈TΣα pq βec（p，q，lp，lq，，σs，σs）在3.1节中获得的构造针对每个动态对象被细化。从一组深度值D=1，为每个像素p联合分配精确的深度值p，q∈S.Σd1，…，D |D|−1，U以及来自ec（p，q，lp，lq，σα，pq，σβ）=µ（lp，lq）×.为每个对象的区域R设置L，其中d i是.λca−expΣ<$B（p）−B（q）<$22（σα）2（σpq）2+λcl.−expΣΣ<$L（p）−L（q）<$22（σγ）2通过对来自照相机的光线进行采样，并且U是用于处理遮挡的未知深度值。语义相关深度估计的代价函数其中，如果（lp=/），则μ（lp，lq）=1lq）else 0和lpq是像素p和q之间的欧氏距离。第一高斯核是取决于RGB颜色（B（）是双边滤波图像）和像素位置的双边核，并且第二核仅取决于像素位置L（）。参数σα、σβ和σγ控制高斯分布的尺度。内核第一个内核强制具有相似颜色和位置的像素具有相似的标签，而第二个内核仅考虑语义空间P。强制执行时的适当性联合细分基于以下原则：• 局部时空相干性：如果空间和时间上相邻的像素具有相似的外观，则它们可能具有相同的语义标签。• 多视图一致性：表面在多个视图之间是• 深度变化：物体内空间相邻像素处的深度对于表面的大部分（除了内部深度不连续性）平滑地变化。平滑度σα的值=B（p）−B（p）2PQ，与成本函数强制执行空间和时间约束在语义、外观和形状上。时间语义-运算符，表示在相邻区域计算的平均值，使用基于动态的空间和时间相干的BourhoodsBAUS和BAUT对比一下。目标相似度Si、j等式1. 联合优化多个出场费：该成本使用从前方物体和背景学习的颜色模型的负对数似然[7]来计算。在这项工作中，前景模型是从当前帧中的动态对象的稀疏特征和前景区域的轨迹来提高结果的一致性。静态背景模型是从当前帧中动态对象的初始语义分割之外的稀疏特征和语义分割之外的区域中视图共分割和重建最小化：E（l，d）=E单（l）+E多（l，d）（3）Emultiple（l，d）=λdEd（d）+λsmEsm（l，d）+λsEs（l，d）其中，d是每个像素处的深度，并且l是语义标签。这是在语义标签l上的测地线星凸约束下解决的[42]：min（l，d）E（l，d）惠min E（l，d）+E（l|x，C）（4）tracklet中的mentation。外观成本定义为：S.T.lǫS⋆(C)（l，d）ΣE（l）=Σ− logP（I|l）其中S（C）是所有测地线形状的集合ap∈<$T p∈ <$Sp pϑ428其中P（Ip|Lp= Li）是参考图像中的像素p属于层Li的概率。颜色模型使用Gestro，前景/背景各有10个组件图3（c）中示出了单视图语义分割的示例。针对单个单目视频使用语义轨迹片段强制时间相干性减少了每像素标签中的噪声。对象分割中的错误仍然主要是由于FCN语义在C={c1，...，cn}内的初始语义分割R。 E（l|x，C）是对语义标签l实施的测地线星凸性约束。α-展开用于遍历L × D中的标签集[8]，并使用图割[7]获得解。语义成本：该术语在每个像素p的语义标签上强制多视图一致性。视图之间不一致的标签将被惩罚，以确保语义一致性。429SMaxMaxMaxEsm（l，d）=Σp∈Sesm（p，dp，lp）e（p，d，l） =<$NKz（p，r，l），如果d/=Uelse细小部位pc=1p p固定成本被分配。一个三维点P（p，dp）假设沿着穿过位于距参考摄像机距离dP处的像素P的光线假设点P（p，dp）在视图c中的投影定义为r=φc（P）。NK是vie的总数。其中P（p，dp）是可见的。−logP（I |l）如果l=L图5. 分别针对Odzemok数据集比较所提出的单视图和多视图优化与无语义和无轨迹信息的优化z（p，r，lp）=p p p r−log（1−P（Ip|lp））如果lp=/lr其中Lr是视图c中像素r处的语义标签。匹配成本：跨视图的照片一致性匹配成本定义为：Ed（d）=p∈Sed（p，dp）其中ed（p，dp）=i∈Ok m（p，r），如果dp其他人MU。m（p，r）的灵感来自[27]。 MU是la的固定成本，使像素未知，并且r如上所定义Ok是与参考相机的k个最照片一致的对的集合平滑度成本：[42]中引入的表面平滑度成本扩展到空间和时间邻域：ΣEs（l，d）=λtes（lp，dp，lq，dq，dt）+p，q∈T图6. 2D视频分割数据集的语义分割与MVC [11]和ObMiC [19]的比较。ΣSSp，q∈Ses（lp，dp，lq，dq，ds）es（lp，dp，lq，dq，dmax）=黄明（|dp−dq|，dmax），如果lp=lq并且dp，dqi=U如果lp=lq且dp，dq=U，dmax，否则d是为了避免过度惩罚大的不一致，图7. 动态数据集上的分割比较MaxS[30]和[13]针对MVVS [13]。nuities。dmax确保空间平滑度，dmax确保轨迹片段的时间邻域之间随时间的平滑度，并且被设置为Ds的两倍，以允许对象在轨迹片段帧之间的大的移动。图5中示出了所提出的利用来自用于单个和多个视图的语义标签和tracklet的信息的语义一致优化的重要性。比较提出对优化与/无语义标签和时间轨迹信息的单视图和多视图。所提出的方法始终表现更好，给出更准确的分割。最后提出的多视图共同分割和重建使用语义标签和tracklets给出了显着改善的分割。4. 结果和评价在先前用于 2D 视频共分割（ MOVICS[11] 和ObMiC[19]）的数据集上评估所提出的单视图方法（第3.3节），以与最先进的方法进行比较。联合语义共分割和重构（3.4节）是评估，基于各种可获得的多视图室内和室外动态场景数据集：[1]，[2]，[3]，[4]，[5]，[6]，[7]，[8]，[9]，[10]， [11]， [12]， [13]， [14]， [15]，[16]， [17]，[18]，[19]。4.1. 单视图分割评价单视图分割针对最先进的语义（MVC）[11]和非语义（ObMiC）[19]视频共分割方法。在四个单视图视频共分割数据集（Giraffe、Tiger、Person、Dog）上与ObMiC [19]和MVC [11]进行的定性比较如图6所示，与地面实况进行的定量评价如表1所示。结果表明，该方法实现了国家的最先进的perfor-mance单视图分割由于语义tracklet的引入，以加强时间的一致性。4.2. 多视角评价分割评价：多视图针对各种最先进的方法来评估共分割：（a）非语义方法：多视图段-λ430图8. 公共数据集上的分割与最先进方法的比较：TcMVS [42]（红色区域表示地面实况中缺失的区域，绿色区域表示地面实况中不存在的区域），CRF-RNN [57]和SCV [54]。数据集多视点分割二维视频分割方法布丹斯Heva盎司Mag杂耍者跳HShake长颈鹿老虎人狗MVC[11]36.542.138.234.839.741.644.859.647.059.848.7[19]第十九话39.449.645.541.444.045.948.166.271.054.374.0CRF-RNN[57]61.071.441.053.370.852.364.669.768.163.077.1SCV[54]48.951.053.361.056.660.249.559.070.961.276.6TcMVS[42]89.194.091.891.293.389.486.565.264.559.773.2多视图联合分割重建单视分割提出93.295.694.593.094.792.691.572.568.966.475.8表1.使用Intersection-over-Union度量将所有数据集的分割结果与最先进的方法进行比较数据集的代表：BDance（霹雳舞）、HEva（HumanEva）、Oz（Odzemok）、Mag（魔术师）、HShake（握手）和Jump（狗跳）。分割和重建（TcMVS）[42]，以及（b）语义方法：视频中的语义共分割（SCV）[54]和条件随机场作为递归神经网络（CRF-RNN）[57]。单视图方法MVC[11]和ObMiC[19] 也独立应用于每个视图进行比较。与MVVS[13]的比较如图7所示，与TcMVS[42]、 SCV[54]和CRF-RNN[57]的评估如图8所示，用于动态数据集。针对最先进方法的定量评价通过具有地面实况的Intersection-over-Union进行测量，如表1所示。地面实况可在网上为大多数的数据集，并通过手动标记其他数据集获得所提出的语义一致的联合多视图共同分割和重建实现了最好的分割性能对地面真理的所有数据集测试。图8所示的结果表明，所提出的方法可以准确地分割精细的细节，如手和脚，而其他方法是不可靠的。重建评价：将从所提出的方法获得的重建结果与联合分割和重建（TcMVS [42]）和多视图立体（Colmap）中的最新方法进行比较[51]，MVE [52]，SMVS [35]）。MVE、SMVS和Colmap431图9.动态对象重建与Colmap[51]、 MVE[52]、 SMVS[35]和TcMVS[42]的比较）（相同语义标签被分配给所有方法以进行公平比较）。图10. 从Falling down[30]数据集的4个视图中比较重建与MBR[48]。是现有技术的多视图立体技术，其不细化分割。所有方法都使用相同的初始语义重构（第3.1节）进行初始化，以进行公平比较。重建的比较图9表明，所提出的方法始终提供图10呈现与基于统计模型的方法MBR的比较[48]其从整个序列连同每帧处的姿势一起重建单个人体形状。这提供了对潜在体型的良好估计，但没有考虑到服装，导致不准确的轮廓重叠。全场景重建与MVE和SMVS的比较如图11所示，显示了改进的完整性和准确性。为了说明使用所提出的方法实现的语义宽时间帧相干性，将唯一颜色分配给一个帧中的人体部位，并且使用估计的时间相干性来传播颜色如图12所示，物体不同部分的颜色随时间保持一致。局限性：所提出的方法依赖于图11.全景重建与SMVS的比较[51]和MVE[52]（为公平比较，所有方法都分配了相同的语义标签）。图12.使用所提出的方法在两个数据集上的语义一致性结果颜色编码：头是红色，左臂是蓝色，右臂是绿色，左腿是粉红色，右腿是紫色使用FCN获得的每个视图的场景的初始语义标记严重错误或错误标记可能会导致不正确的语义重建，例如Odzemok数据集左侧的软玩具标记为人图2。虽然强制执行语义一致性被证明可以改善各种场景的分割和重建，但外观和遮挡中的视觉模糊性可能会降低性能。5. 结论提出了一种新的复杂动态场景语义一致的多视点联合分割与重建方法。时间语义一致性通过使用语义标签、外观和形状识别相似帧的语义轨迹来实现。Tracklet用于长期学习，以约束复杂动态场景上的共分割优化。联合优化通过在空间上跨视图和时间上跨宽间隔的相似帧执行语义一致性来同时改进场景的语义分割和重建。比较评估表明，强制执行语义相干性实现了显着的改善，在分割和重建的一般动态室内和室外场景捕获的多个手持摄像机。鸣谢：本研究得到了In-novateUK资助的Live ActionLightfields for Immer-sive Virtual Reality Experiences（ALIVE）项目（资助号102686）的支持。我们要感谢 Helge Rhodin 和 Ab-delaziz Djelouah 提供他们的数据。432引用[1] 4d repository，http://4drepository.inrialpes.fr/. 在国家信息和自动化研究所（IN-RIA）罗纳阿尔卑斯。[2] 多视图视频库，http://cvssp.org/data/cvssp3d/。英国萨里大学视觉、语音和信号处理中心.[3] L. Ballan，G. J. Brostow，J. Puwein和M.波勒菲斯基于非结构化视频的渲染：随意拍摄的视频的交互式探索。ACM Transactions on Graphics，29（4）：1[4] Y. 鲍，M。chandraker，Y.Lin和S.Savarese 使用语义先验的稠密在2013年的IEEE计算机视觉和模式识别国际会议（CVPR）[5] D. Batra，A.Kowdle，D.帕里克，J.Luo和T.尘icoseg：具有智能涂鸦引导的交互式联合分割。在IEEE计算机视觉和模式识别会议，2010年。[6] T. Beeler，F. Hahn，D. 布拉德利湾比克尔，P.比尔兹利，C. 戈茨曼河W. Sumner和M.恶心高品质的被动面部性能捕捉使用锚帧。ACM图形交易，30（4）：75：1[7] Y. Boykov和V.哥洛夫最小割/最大流算法在视觉中能量最小化的实验IEEE Transactions on Pattern Analysis andMachine Intelligence（TPAMI），26（11）：1124[8] Y.博伊科夫岛Veksler和R.扎比通过图切割的快速近似能量最小化。 IEEE Transactions模式分析和机器智能（TPAMI），23（11）：1222 -1239，2001。[9] L. C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L. 尤尔。基于深度卷积网和全连接crfs的语义图像分割CoRR，abs/1412.7062，2014年。[10] L. C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的 crfs 进行语义图像分割。 CoRR ，abs/1606.00915，2016。[11] W.- C. Chiu和M.弗里茨基于生成式多视频模型的多类视频在IEEE计算机视觉和模式识别会议（CVPR），2013年。[12] A. 杰卢阿 J. - S. 弗朗哥 E. 博耶 F. Le Clerc，P. Perez 目标分割的稀疏多视图一致性。 IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），37（9）：1890[13] A. J.- S. Franco、E. Bo ye r，P. Pe'rez和G. 恐怖的。同时多视点视频分割。在3D视觉国际会议（3DV），2016年。[14] F. Engelmann ，J. S tu？kle r和B. Leibe 基于三维形状先验的城市街道场景联合目标姿态在德国模式识别会议（GCPR）上，2016年。[15] G. D. Evangelidis和E. Z. Psarakis。使用增强的相关系数最大化的第 IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），30（10）：1858[16] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊[17] C.法拉贝特角库普里湖Najman和Y.乐存。学习- ing场景标记的层次特征。IEEE Transactions on Pattern Analysisand Machine Intelligence（TPAMI），35（8）：1915[18] G. Floros和B. Leibe街道场景的联合2d-3d时间一致语义分割在 The IEEE Conference on Computer Vision andPattern Recognition（CVPR），第2823-2830页[19] H. Fu，D.徐湾，澳-地Zhang和S.是林书基于对象的多前景视频共同分割。在IEEE计算机视觉和模式识别会议（CVPR），2014。[20] B. Goldluecke和M.玛格诺时间相干三维重建的时空等值面演化。在IEEE计算机视觉和模式识别会议（CVPR）中，第350-355页[21] J. Y. Guillemaut和A. Hilton.联合多层分割和重建自由视点视频应用。International Journal of Computer Vision（IJCV），93（1）：73[22] S. 古普塔河，巴西-地Girshick，P. Arbe la'ez和J. 马利克从RGB-D图像学习丰富的特征，用于对象检测和分割，第345-360页。2014年[23] C.汉角Zach，A. Cohen和M.波勒菲斯联合三维场景重建与类别分割。 IEEE 计算机视觉与模式识别会议（CVPR），2013年。[24] C.汉角Zach，A. Cohen和M.波勒菲斯高密度三维重建.IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），第1页，2016年。[25] B.哈里哈兰山口A.阿尔贝莱斯河B. Girshick和J.马利克用于对象分割和细粒度本地化的超列。在IEEE计算机视觉和模式识别会议中，第447-456页[26] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，2003年第2版。[27] X. Hu和P. Mordohai.立体视觉置信度的定量评价。IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），34（8）：2121[28] A. Joulin、F.Bach和J.庞塞多类共分割。IEEE计算机视觉与模式识别会议（CVPR），2012年。[29] M. Kazhdan ， M. Bolitho 和 H. 霍普泊松曲面重建在Eurographics Symposium on Geometry Processing，第61-70页[30] H.作者：Kim，J.高井，M。Sarim和A. Hilton.室外动态三维场景重建. IEEE transactions on Circuits and Systemsfor Video Technology（T-CSVT），22（11）：1611433[31] K. Kolev，T. Brox和D.克莱姆斯从多幅图像快速联合估计轮廓和稠密三维几何。IEEE Transactions on PatternAnalysis and Machine Intelligence （ TPAMI ）， 34（3）：493[32] A. Kundu，Y.Li，F.Dellaert，F.Li和J.M. 瑞格单目视频的联合在欧洲计算机视觉会议（ECCV），第8694卷，第703-718页[33] A. 昆杜河谷Vineet和V.科尔顿。语义视频分割的特征空间在IEEE计算机视觉和模式识别会议（CVPR），第3168[34] L. Ladic ky' ，P. Stu r gess，C. Russell ，S. 森古普塔湾，巴西-地Bastan-lar，W.Clocksin和P.H. S. 乇目标类分割和稠密立体重建的联合优化国际计算机视觉杂志（IJCV），100（2）：122[35] F. Langguth，K. Sunkavalli，S. Hadap和M. Goesele阴影感知多视图立体。欧洲计算机视觉会议（ECCV），2016。[36] E. 拉森山口Mordohai，M.Pollefeys和H.福克斯使用增强的置信传播从多个视频流进行时间一致的重建。在IEEEInternationalConferenceonComputerVision（ICCV）中，第1-8页[37] T.- Y.林，M。迈尔，S。贝隆吉湖D.布尔代夫河B. 格希克，J。海斯角Perona，D. 拉马南山口Dolla'r，C. L. 齐特尼克Microsoft COCO：上下文中的通用对象CoRR，abs/1405.0312，2014。[38] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2015年。[39] D. G.洛从尺度不变的关键点中提取独特的图像特征。International Journal of Computer Vision（IJCV），60（2）：91[40] B. Luo，H. Li，T. Song和C.煌长视频序列中的对象分割第23届ACM国际多媒体会议论文集，第1187-1190页，2015年[41] M. Mostajabi山口Yadollahpour和G.沙赫纳洛维奇具有缩小功能的前馈语义分割。在IEEE计算机视觉和模式识别会议（CVPR），第3376-3385页[42] A. Mustafa，H.金，J. - Y. Guillemaut和A. Hilton.复杂动态场景的时间相干4d重建。在IEEE计算机视觉和模式识别会议（CVPR），2016。[43] A. Mustafa，H. Kim和A. Hilton.非刚性表面对齐的4D匹配树。欧洲计算机视觉会议（ECCV），2016年。[44] A. Mustafa，H. Kim，E. Imre，和A. Hilton.基于分割的宽基线多视图重建特征。2015年国际 3D视觉会议（3DV）[45] G. Neuraly和R.弗鲁菲尔德静态聚类--用于可变形目标跟踪的自适应对应。在IEEE计算机视觉和模式识别会议（CVPR），2015年。[46] F. Prada，M.Kazhdan，M.Chuang，A.Collet和H.

下载后可阅读完整内容，剩余1页未读，立即下载