无监督的4D视觉场景理解及语义实例分割方法的研究

160 浏览量更新于2023-10-16 收藏 17.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1104230U4D：无监督的4D动态场景理解0Armin Mustafa Chris Russell Adrian Hilton CVSSP，英国萨里大学0{a.mustafa, c.russell, a.hilton}@surrey.ac.uk0摘要0我们引入了第一个解决复杂动态场景中多个相互作用人物的无监督4D视觉场景理解问题的方法。我们的方法同时估计了一个包括每个像素的语义和时间上连贯的重建的详细模型，以及利用照片一致性、语义和运动信息进行实例级分割。我们进一步利用最近的3D姿势估计进展来约束联合语义实例分割和4D时间上连贯的重建。这使得我们能够在复杂动态场景中对多个相互作用人物进行语义实例分割。在具有挑战性的室内和室外序列上，对联合视觉场景理解框架与最先进的方法进行广泛评估，结果显示在语义分割、重建和场景流准确性方面有显著（≈40%）的改进。01. 引言0随着自动驾驶车辆的出现和对增强和虚拟现实中沉浸式内容的需求的增加，理解动态场景变得越来越重要。在本文中，我们提出了一个无监督的4D动态场景理解框架来应对这一需求。通过“4D场景理解”，我们指的是一个统一的框架，描述了整个序列上的每帧的三维建模、运动/流估计和语义实例分割。最近在深度学习中，姿势估计[8, 46]和识别[20,56,9]取得了复杂图像的出色性能。我们利用这些进展，从多视图视频中获取3D人体姿势和初始语义实例分割，以引导复杂动态场景的详细4D理解和建模，这些场景是由多个静态或移动摄像机捕捉的（见图1）。联合4D重建使我们能够理解人们如何移动和互动，为一般场景提供上下文信息。现有的场景理解多任务方法执行每帧联合重建和语义实例分割0图1.在动态场景中利用3D人体姿势进行联合4D语义实例分割和重建。分割中的粉色阴影表示人的实例。通过提出的时间连贯性，将第80帧的重建颜色可靠地传播到第120帧。从单个图像中获取语义实例分割的其他方法[25]表明，联合估计可以改善每个任务。其他方法已经将语义分割与重建[34]或流估计[41]融合，证明了在语义分割和重建/场景流方面的显著改进。我们利用联合估计来从多视图视频中同时进行重建、流和分割估计来理解动态场景。0动态场景联合估计的第一类方法是从多视图[35]和单目视频[16,30]生成分割和重建，而不需要任何输出场景流估计。第二类方法在2D中进行分割和运动估计[41]，或者从多个视图中提供时空对齐的分割[11, 32,12]，而不检索对象的形状。第三类方法在4D时间连贯重建中，要么使用连续帧之间的对应信息对网格进行对齐[58]，要么通过估计连续帧上重建之间的成对表面对应关系来提取场景流[53,5]。然而，这三类方法都没有利用场景的语义信息。联合估计方法的第四类利用语义信息[25, 49, 13]✓✓✓✓××[41]✓✓✓×✓×[34, 21, 27]✓✓×✓××[55]✓✓✓××✓[22]×××✓✓✓[16]✓✓×✓✓×[30, 40]××✓✓✓×[35]×✓×✓✓×[48, 32, 11]✓✓××✓×104240通过引入联合语义分割和重建来处理一般动态场景[ 21 , 56, 27 , 49 , 34 ]和街景[ 13 , 50]。然而，这些方法提供了每帧的语义分割和重建，但没有运动估计，导致动态序列中的几何不对齐和像素级不一致性。其他用于语义视频分割的方法利用时空语义信息对对象进行分类[ 48 , 32 , 11]，但不进行重建。我们通过提出一种新的无监督框架，用于联合多视图4D时间相干重建、语义实例分割和流估计，来填补文献中的这一空白。文献中的方法利用人体姿势信息来改善语义分割[ 55 ]和重建[ 22]的结果。然而，现有的用于动态场景（多人）的联合方法没有利用人体姿势信息，通常将相互作用的人检测为单个对象[34]。表1显示了现有方法执行的任务之间的比较。我们利用3D人体姿势估计的进展，提出了第一种基于4D（时间上的3D）人体姿势的一般动态场景的场景理解方法，其中包含多个相互作用的动态对象（人），具有复杂的非刚性运动。3D人体姿势估计充分利用多视图信息，并被用作先验来约束联合场景理解估计中的形状、分割和时空运动，以改善结果。我们的贡献包括：• 一般动态场景的高级4D场景理解。•联合实例级分割、时间相干重建和场景流与人体姿势先验。• 动态场景的稳健4D时间相干性和像素级语义相干性。•对15种现有方法进行了广泛的性能评估，证明了语义分割、重建和运动估计的改进。02. 联合4D动态场景理解0本节描述了我们的联合4D场景理解方法，不同阶段如图2所示。联合优化的输入是多视图视频、每个视图的初始语义实例分割[ 20 ]和3D人体姿势估计[ 47]。为了实现稳定的长期4D理解，利用多视图信息检测到一组唯一的关键帧。在关键帧之间的每个视图之间获得稀疏的时间特征跟踪，以初始化联合估计。这样可以在帧之间存在大的非刚性运动的情况下实现稳健的4D理解。对于场景中的每个对象，将初始语义实例分割与稀疏重建相结合，获得初始重建[ 34 ]。0语义分割实例3D运动姿势0提出的 � � � � � � 表1.对比任务的现有方法与提出的方法所解决的问题。通过新的联合优化，对每个对象实例进行了分割、形状和运动的约束，通过3D人体姿势进行了改进（第2.1节）。关键帧用于在具有大非刚性变形的长序列中引入强大的时间相干性的联合估计。深度、运动和语义实例分割在帧之间的视图之间进行组合，用于4D时间相干重建和密集的像素级语义相干性，以实现最终对场景的4D理解（第3节）。02.1.视图间联合优化0现有的语义分割方法不能对场景进行实例级别的分割。以前的方法要么在分割图像后进行每个分割对象的类别分类[33,18]，要么在图像中给出每个像素的深度CNN特征，然后进行每个像素的分类[15,19]，或者从原始像素[42]预测语义分割，然后使用条件随机场[28,60]。最近的一种最先进的方法可以从复杂序列的图像中很好地估计初始语义实例分割掩码[20]。我们采用这种方法来预测每个视图上的初始语义实例分割，使用在MS-COCO[31]和PASCALVOC12[14]上预训练的参数。通过稀疏重建将每个视图的语义实例分割组合起来，以获得每个帧的初始重建[34]，然后通过联合场景理解优化对其进行改进。联合估计的目标是通过从初始语义实例分割中获得的一组类别标签L ={l1,...,l|L|}（|L|是类别总数）、从一组深度值D ={d1,...,d|D|-1,U}（每个深度值在从相机到U的光线上采样，U是未知深度值，用于处理遮挡）和一个运动光流场M ={m1,...,m|M|}同时为每个视图中的每个对象区域R分配标签。|M|是预定义的离散光流场，对于图像I中的像素p = (x,y)，由m =(δx,δy)表示。通过对一元项Eunary和成对项Epair的成本函数进行全局优化来实现联合语义实例分割、重建和运动估计。Constraints are applied on the spatial and temporal neigh-borhood to enforce consistency in the appearance, semanticlabel, 3D human pose and motion across views and time.Spatial coherence: Multi-view spatial coherence is en-forced in the optimisation such that the motion, shape, ap-pearance, 3D pose and class labels are consistent acrossviews using an 8-connected spatial neighbourhood ψS foreach camera view such that the set of pixel pairs (p; q) be-long to the same frame.Temporal coherence: Temporal coherence is enforced inthe joint optimisation by enforcing coherence across key-frames to handle large non-rigid motion and to reduce er-rors in sequential alignment for long sequences in the 4Dscene understanding. Sparse temporal feature correspon-dences are used for key-frame detection and robust initiali-104250图2.无监督的多视图视频动态场景理解框架。0定义为：0E(l,d,m) = Eunary(l,d,m) + Epair(l,d,m) (1)0Eunary = λdEd(d)+λaEa(l)+λsemEsem(l)+λfEf(m)0Epair = λsEs(l,d)+λcEc(l)+λrEr(l,m)+λpEp(l,d,m)0其中，d是深度，l是类别标签，m是像素p处的运动。引入了新的术语来表示光流Ef、运动正则化Er和人体姿势Ep的代价，分别在第2.1.3节和第2.1.2节中进行了解释。图3展示了带有姿势（Ep）和运动（Ef，Er）信息的联合优化的结果，以及不带姿势和运动信息的结果改进。第4节对各个代价进行了剖析分析，展示了引入运动和姿势约束在联合优化中提高性能的结果。深度（Ed）、语义（Esem）和外观（Ea）代价使用了标准的一元项[34]，在第2.1.5节中进行了解释。标准的成对项颜色对比（Ec）用于辅助分割，平滑度（Es）代价确保邻域内的深度变化平滑，详见补充材料附录A。0通过使用α-扩展算法迭代遍历L×D×M中的标签集合[7]，对方程1进行全局优化。每次迭代通过最小割/最大流算法[6]进行图割求解。收敛在7-8次迭代内完成。02.1.1 优化中的时空一致性2.1.2Human-pose constraints Ep(l, d, m)̸iwhere, Π is thojection of 3D poses to 2D, Nposeis the number of nearest neighbours, σSL =∥Π(bi)−q∥2ϑΠ(b ),q104260关节优化的约束项 Ep(l, d, m)0我们使用三维人体姿势来约束关节优化，并改善动态场景中多个互动人物的光流、重建和实例分割，无论是在2D还是3D中（见图1）。使用三维人体姿势是因为它在多个视图中是一致的，而不像2D人体姿势。本文使用了一种用于从多个摄像机估计三维人体姿势的最先进方法[47]。以前的三维姿势估计工作[46]通过迭代地构建与2D关节位置估计和自然人体姿势先验知识一致的三维人体姿势模型。在[47]中，当估计3D模型时使用了多个摄像机；然后，这些估计结果反馈到每个图像中的新的2D关节位置估计中。这种方法充分利用了一致的3D姿势估计，可以在找到图像之间细粒度的2D对应关系时跨所有摄像机进行，从而得到更逼真、生动的人体重建。如果人的3D姿势位于区域 R之外，通过扩大边界以包括缺失的关节来更新初始语义重建。这样可以实现更强大、更完整的重建和分割。我们使用了一组标准的17个关节[47]，定义为B。在2D中，关节位置周围放置一个圆 Ci，在3D中，关节位置周围放置一个球 Si，基于置信度图来识别每个关节 b i 的最近邻顶点。0Ep(l, d, m) = 0b i ∈ B λ 2 d e 2 d ( l, m ) + λ 3 de 3 d ( d ) (2)0e 2 d (l, m) = e L 2 d (l) + e S 2 d (l) + e M 2 d (m)0e 3 d ( d ) = e M 3 d ( d ) + e S 3 d ( d )，如果 d p � = U else 00三维形状项：这一项在三维重建中约束邻近关节周围的点不会远离相应的关节，定义如下：0e S 3 d ( d ) = exp( − 10| σ S D |0Φ(p) ∈ S i ∥O ∥ 2 F)0其中 Φ( p ) 是像素 p的三维投影。在所有方向上对三维点应用Frobenius范数 ∥O ∥ F = �� Φ( p ) b i �� F，以获得每个关节的“净”运动0�。三维运动项：在空间和时间上对每个关节 b i邻域中的三维点施加尽可能刚性的约束[43]。通过最小化以下能量来估计每个 b i 的最优旋转矩阵 R i：0e M 3 d ( d ) =�0�� b t +1 i − Φ(p) t +1 � − R i � b t i − Φ(p) t �� 2 20+ λ p 3 d �� p − e M 3 d ��2 202D项：将三维姿势在每个视图中反投影，以约束每个视图中的外观（e L 2 d）、语义分割（e S 2 d）和运动估计（e M2 d）。如果 p ∈ C i，0e L 2 d ( l ) = exp0�0�0| σ S L |0| σ0�0三维形状项：这一项在三维重建中约束邻近关节周围的点不会远离相应的关节，定义如下：0�0∥ Π( b i ) − p ∥ 2表示某种计算公式0e M 2 d ( m ) = exp表示某种计算公式0� � −表示某种计算公式0表示某种计算公式0�� ϑ p, Π( b k i ) − ϑ p + m p , Π( b k +�� 2 表示某种计算公式0and, σ S S and σ S M is de�ned similarly. e L 2 d ( l ) and e S 2d ( l ) ensures that the pixels around projected 3D pose Π( b i )have the same semantic label and appearance across views ( ψ S )and time ( ψ T ) thereby ensuring spatio-temporal appearanceand semantic consistency respectively. 表示某种计算公式02.1.3 Motion constraints- E f ( m ) and E r ( l, m ) 表示某种计算公式0Flow term: This term is obtained by integrating the sum of three penalisers over thereference image domain inspired from [ 45 ], de�ned as: E f ( p, m p ) = e T F ( p, m p) + e V F ( p, m p ) + e S F ( p, m p ) where, e T F ( p, m p ) = 表示某种计算公式0penalises deviation from the brightness constancyassump- tion in same view; e V F0t ∈ ψ T 表示某种计算公式0penalises deviation in appearance from the bright- nessconstancy assumption between the reference view and otherviews at other time instants; and e S F ( p, m p ) = 0 if p ∈ N otherwise ∞ which forces the �ow to be close to nearbysparse temporal correspon- dences. I i ( p, t ) is the intensityat point p at time t in camera i . The �ow vector m islocated within a window from a sparse constraint at p and itforces the �ow to approximate the sparse 2D temporalcorrespondences. Motion regularisation term: This penalisesthe absolute difference of the �ow �eld to enforce motionsmoothness 表示某种计算公式̸104270Figure 3. Comparison of reconstruction without poseand motion in the optimisation framework, proposed0p,q ∈ N p ∥ ∆ m ∥ 2 λ L r e L r ( p, q, m p , m q , l p , lq ) + λ A r e A r ( p, q, m p , m q , l p , l q ) where ∆ m= m p − m q and; e X r = � l p = l q mean q ∈ N p EX ( q, m q ) − min q ∈ N p E X ( q, m q ) else 0 . We0compute e L R (semantic regularisation) and e A R (appearanceregularisation) as the minimum subtracted from the mean energywithin the search window N p for each pixel p . 表示某种计算公式02.1.4 Long-term temporal coherence 表示长期时间一致性0Sparse temporal correspondences: The sparse 3D pointsprojected in all views are matched between frames N i f andkey-frames across the sequence using nearest neighbourmatching [ 37 ] followed by a symmetry test which employsforward and backward match consistency by performingtwo-way matching to remove the inconsistent correspon-dences. This gives sparse temporal feature correspondencetracks per frame for each object: F c i = { f c 1 , f c 2 , ..., f cR c i } , where c = 1 to N v . R c i are the 3D points visibleat each frame i . Exhaustive matching is done, such that eachframe is matched to every other frame to handle appearance,reap- pearance and disappearance of points between frames.Key-frame detection: Previous work [ 39 , 38 ] showed thatsparse key-frames allow robust long-term correspondencefor 4D reconstruction. In this work we introduce the addi-tional use of pose in the detection and sparse temporal fea-ture correspondence across key-frames to prevent the accu-mulation of errors in long sequences. 4D scene alignmentbetween key-frames is explained in Section 3 . Key-framesimilarity metric is de�ned as: 表示某种计算公式0KS i,j = 1 − 1表示某种计算公0N v0c =1 ( M c i,j + L c i,j + D c i,j + P c0关键帧检测利用视图N v中每个对象在帧i和j之间的稀疏对应关系(M c i,j)、姿态(P ci,j)、形状(I c i,j)、语义(I c i,j)和距离(D ci,j)信息，通过使用序列中相似的帧来提高所提出方法的长期时间一致性，如图4所示。序列中相似度>0.75的所有帧被选择为关键帧，定义为K = {k 1 , k 2 , ..., k N k }，其中N k是关键帧数量，N i f 是K i 和K i +1之间的帧数。在附录B的补充材料中详细介绍了3中使用的所有度量标准和关键帧检测的消融研究。0图4.关键帧检测和匹配在短序列中实现稳定的长期时间一致性。将视图c帧i的特征F c i与视图c的帧j = {i + 1, ..., N if}匹配，为所有帧N i f与关键帧K i给出对应关系。从3D姿态中反投影到每个视图中的相应联合位置，并添加到关键帧之间的稀疏时间轨迹中。任何新的点轨迹都添加到关键帧K i 的点轨迹列表中。02.1.5 一元项 - E unary ( l, d, m )深度项：这个项衡量了视图之间的照片一致性 E d ( d ) = �0p ∈ ψ S e d ( p, d p )，定义为：0i ∈ O k m ( p, q )，如果 d p ≠ U M U，如果 d p =U，其中MU是标记像素未知的固定成本，q表示假设点P（沿通过像素p的光线的光学射线上的3D点，距离为d p）在辅助相机中的投影。O k是具有参考相机的最多k对最具照片一致性的对，m ( p, q)受[35]启发。外观项：该项使用从临时邻域ψT中初始语义掩码学习的颜色模型（具有10个成分的GMM）的负对数似然[6]计算，并使用动态对象的稀疏3D特征得到的前景标记器。定义为：E a ( l ) = �0p ∈ ψ S − log P ( I p | l p )，其中P ( I p | l p = l i)表示像素p属于层l i的概率。语义项：该项基于每个像素的类别标签的概率[9]，定义为：E sem ( l ) = �0p ∈ ψ S − log P sem ( I p | l p )，其中P sem ( I p | l p =l i)表示像素p在初始语义实例分割[20]得到的参考图像中属于层l i 的概率。03. 4D场景理解最终的4D场景模型融合了语义实例分割、深度信息和视图间以及帧（N i f）和关键帧（K i）之间的稠密光流。将每个对象的初始实例分割、人体姿态和运动信息结合起来，得到场景的最终实例分割。深度信息DatasetsResolutionBaseline L KF Tracksλd λa λsem λf λts/λss λca/λcl λLr /λCrλ2d/λ3d104280图5. 两个数据集的4D场景重建示例0握手[26] 1920 × 1080 8（全部S） 15°-30° 125 15 1945Meetup[17] 1920 × 1080 16（全部S） 25°-35° 100 9 1341Juggler2[4] 960 × 544 6（全部M） 15°-45° 300 16 1278Handstand[51] 1600 × 1200 8（全部S） 25°-45° 174 12 1056Rachel[2] 3840 × 2160 16（全部S） 20°-30° 270 15 1978Juggler1[2] 1920 × 1080 8（2M） 15°-30° 253 17 2083Dance[1] 780 × 582 8（全部S） 35°-45° 60 7 732 Magician[4]960 × 544 6（全部M） 15°-45° 300 10 1312 Human3.6[23]1000 × 1000 4（全部S） 25°-30° 250 14 994 MagicianLF[38]2048 × 2048 25（全部S） 5°-8° 350 5 1312 WalkLF[38] 2048 ×2048 20（全部S） 5°-8° 221 7 1934 表2.所有数据集的属性：Nv是视图数量，L是序列长度，KF是关键帧数量，Tracks是每个对象在整个序列上稀疏时间对应轨迹的平均数量（S代表静态相机，M代表移动相机）。0通过使用泊松表面重建方法[24]将不同视图的重建结果合并，得到场景中每个物体的网格。通过从所有视图中获取最一致的运动信息，为每个3D点组合得到4D时间连贯的网格。这与空间语义实例信息相结合，可以提供每个像素的语义和时间连贯性。通过使用稀疏的时间轨迹及其相应的运动估计来处理出现、消失和重新出现的区域。密集的流场和语义实例分割以及场景中每个物体的3D模型共同提供了对场景的最终4D理解。在两个数据集上展示了示例，其中在一个关键帧中对物体进行了着色，并在整个序列中可靠地传播颜色，实现了稳健的4D场景建模。04. 结果和评估0联合语义实例分割、重建和流场估计（第2节）在各种公开多视图室内外动态场景数据集上进行了定量和定性评估，详见表2。附录C提供了更多结果。所有室外数据集的算法参数列在表3中，室内数据集的参数取决于摄像机数量（Nv）。对于所有数据集，成对成本都是恒定的，即λp = 0.9，λc =λs = λr = 0.5。0室外 1.2 0.5 0.5 0.4 1.0 5.0 0.6 7.5 I，Nv < 6 1.0 0.7 0.5 0.60.4 5.0 0.4 7.5 I，6 ≤ Nv < 20 1.0 0.7 0.2 0.4 0.4 5.0 0.4 5.0I，Nv ≥ 20 1.0 1.0 0.5 0.5 0.2 5.0 0.4 5.0 表3.所有数据集的参数。I表示室内数据集。0图6.与现有方法的重建评估。展示了所提出方法的两个不同视图的3D模型。04.1. 重建评估0所提出的方法与语义共分割和重建（SCSR）[34]、分段场景流（PRSM）[52]、多视图立体（SMVS）[29]和基于深度学习的立体方法（LocalStereo）[44]进行了比较。在图6中展示了所提出方法与2个视图的定性比较。LocalStereo使用了预训练参数，并使用泊松重建方法融合了每个视图的深度图。与现有方法相比，所提出方法获得了更好的表面质量。由于利用了人体姿势和时间信息（运动）进行联合优化，因此能够可靠地重建人的肢体。0为了与现有方法进行定量比较，我们将重建结果投影到不同的视图上，并计算投影误差，如表4所示。所提出的方法在投影表面完整性方面取得了显著的改进。104290方法握手倒立雷切尔杂耍者1 杂耍者2 魔术师舞蹈相遇人类3.6 魔术师LF 行走LF0PRSM [52] 1.56 1.79 1.51 1.57 1.68 1.72 1.79 1.98 2.01 1.59 1.41 LS [44] 1.24 1.38 1.15 1.21 1.18 1.33 1.46 1.47 1.64 1.20 1.23 SMVS [29]0.84 0.97 0.73 0.75 0.85 0.92 0.85 0.96 1.19 0.94 0.88 SCSR [34] 0.70 0.84 0.67 0.69 0.73 0.78 0.77 0.87 0.92 0.77 0.71 P P S 0.73 0.87 0.650.70 0.71 0.75 0.74 0.88 0.90 0.78 0.70 P P M 0.71 0.85 0.64 0.68 0.69 0.73 0.72 0.85 0.87 0.75 0.68 P P 0.57 0.71 0.56 0.59 0.61 0.64 0.620.75 0.77 0.67 0.63 P S 0.59 0.69 0.59 0.57 0.63 0.66 0.60 0.73 0.76 0.65 0.60 P M 0.55 0.68 0.55 0.54 0.59 0.61 0.59 0.74 0.73 0.62 0.59Proposed 0.46 0.55 0.47 0.49 0.51 0.53 0.55 0.57 0.60 0.49 0.44 表4. 重建评估：与现有方法的视图投影误差比较，LS是LocalStereo。PP = E -Ep，PM = E - Ef - Er，PPM = E - Ef - Er - Ep，PS = E - Esem，PPS = E - Esem - Ep，其中E定义如方程1所示。方法握手倒立雷切尔杂耍者1杂耍者2 魔术师舞蹈相遇人类3.6 魔术师LF 行走LF0CRFRNN [60] 62.7 55.8 61.6 40.5 68.7 52.4 49.3 41.1 42.9 60.8 63.6 Segnet [3] 47.9 51.1 55.2 45.1 61.9 55.3 53.9 43.9 49.4 59.365.9 JSR [17] 67.8 58.7 58.4 56.2 66.0 61.3 57.9 50.2 53.4 62.3 68.9 SCV [48] 56.4 52.6 48.8 49.5 59.1 59.2 56.7 42.0 49.1 58.265.7 Dv3+ [10] 63.8 58.9 64.0 48.8 69.7 58.9 57.6 48.4 54.8 69.6 69.1 MRCNN [20] 65.2 59.6 67.4 50.3 70.5 60.5 58.7 47.2 53.469.5 70.2 PSP [59] 74.7 64.5 75.5 67.9 81.2 73.4 71.5 62.6 65.3 74.6 82.5 SCSR [34] 81.8 75.2 78.4 81.4 89.3 88.2 85.1 78.9 70.482.2 86.7 PPM 85.7 75.9 78.6 81.8 89.6 88.5 85.5 79.2 70.6 82.9 87.5 PP 86.3 77.4 80.7 82.6 90.1 89.1 87.6 80.8 76.3 86.1 89.3PM 87.6 79.1 81.7 83.5 90.5 89.6 86.4 81.9 75.4 85.2 88.1 提出的方法 89.6 83.3 85.8 88.2 91.1 90.9 88.5 84.7 81.1 89.4 91.8 表5.使用交并比度量与现有方法进行分割比较。04.2. 分割评估我们的方法与各种现有多视图（SCV[48]、SCSR [34]和JSR [17]）和单视图（Dv3+[10]、MRCNN [20]、PSP [59]、CRF RNN [60]和Segnet[3]）分割方法进行评估，如图7所示。为了公平评估与单视图语义分割方法的比较，对从每个视图估计的分割应用多视图一致性，使用稠密多视图对应关系获得多视图一致的语义分割。结果中的颜色保持原始论文中的颜色。只有MRCNN和提出的方法给出了实例分割。使用与地面真值的交并比度量对与现有方法的定量评估如表5所示。大多数数据集的地面真值可在线获得，其他数据集通过手动标注获得。语义实例分割结果与联合优化相比，明显更好（≈20-40%）。04.3. 运动评估从联合估计得到的光流与现有方法进行评估：(a)稠密光流算法DCFlow [57]和Deepflow [54]；(b)场景光流方法PRSM[52]；和(c)非连续对齐的部分表面4DMatch[36]（需要先前的3D物体网格作为4D重建的输入）。序列的关键帧被着色，并使用从联合优化中的稠密光流传播颜色到整个序列。02D稠密光流图中的红色区域表示未找到可靠对应的区域。这证明了使用所提出的方法的改进性能。图9中4D对齐中的颜色在肢体部分由于DCFlow的可靠传播而不稳定。我们还比较了帧间、关键帧和视图之间的轮廓重叠误差（Se），在表6中评估了长期时间一致性，适用于所有数据集。这被定义为Se = 10NvNkNif = Niki=1Nifj=1Nvc=1交集区域0语义分割区域0使用时间上的稠密光流来获得每个图像的传播掩码。将传播掩码与每个时间点的语义分割重叠，以评估传播掩码的准确性。Se值越低越好。我们的方法给出了最低的误差，证明了与现有方法相比的更高准确性。04.4. 对方程1的消融研究0我们对方程1进行消融研究，从方程中删除了运动Ef、Er、姿态Ep和语义Esem约束，定义PM = E - Ef - Er，PP = E -Ep，PPM = E - Ef - Er - Ep，PS = E - Esem和PPS = E -Esem -Ep。使用删除约束后的重建、光流和语义分割，并在表4、6和5中分别显示结果。提出的方法在联合姿态、运动和语义约束下表现最佳。04.5. 限制初始语义实例分割和3D姿态估计中的严重错误导致质量下降。104300图7. 与最先进方法的语义分割比较。在所提出的方法中，粉色的阴影表示人类实例，黄色的阴影表示汽车实例。方法Handshake Handstand RachelJuggler1 Juggler2 Magician Dance Meetup Human3.6 MagicianLF WalkLF0PRSM [ 57 ] 1.80 2.15 1.54 1.65 1.79 1.96 1.87 2.11 2.34 1.87 1.52 Deep�ow [ 54 ] 1.15 1.48 1.01 1.08 1.16 1.27 1.21 1.37 1.521.05 0.81 DCFlow [ 52 ] 0.90 1.17 0.97 0.87 0.93 1.03 0.96 1.12 1.21 0.83 0.79 4DMatch [ 36 ] 0.79 0.98 0.75 0.69 0.87 0.81 0.770.87 0.94 0.80 0.77 P P S 0.75 1.01 0.85 0.78 0.91 0.93 0.86 0.99 1.07 0.81 0.78 P P 0.71 0.93 0.80 0.73 0.84 0.87 0.78 0.92 0.990.76 0.73 P S 0.64 0.77 0.63 0.61 0.65 0.72 0.65 0.76 0.81 0.64 0.61 提出的 0.51 0.61 0.48 0.49 0.52 0.58 0.55 0.63 0.68 0.53 0.44表6. 多视角数据集的轮廓重叠误差，用于评估长期时间连贯性，其中 .0图8.与现有方法的时间连贯性评估结果（例如Juggler2中的汽车-图7）。尽管3D人体姿态有助于动态场景中相互作用人物的稳健4D重建，但当前的3

下载后可阅读完整内容，剩余1页未读，立即下载