没有合适的资源?快使用搜索试试~ 我知道了~
17326Occlusion-Net:使用图网络的2D/3D被遮挡关键点定位N. Dinesh Reddy Minh Vo Srinivasa G.卡内基梅隆大学{dnarapur,mpvo,srinivas}@ cs.cmu.edu摘要我们提出了Occlusion-Net1,这是一个框架,可以以很大程度上自我监督的方式预测对象被遮挡关键点的2D和3D位置。我们使用现成的检测器作为输入(例如,MaskRCNN [16]),其仅在可见的关键点注释上训练。这是这项工作中使用的唯一然后,图形编码器网络显式地对不可见的边缘进行分类,图形解码器网络从初始检测器校正被遮挡的关键点位置这项工作的核心是三焦点张量损失,它为在对象的其他视图中可见的被遮挡的关键点位置提供间接的自我监督。然后将2D关键点传递到3D图形网络中,该3D图形网络使用自监督重投影损失来估计3D形状和相机姿态。在测试时,Occlusion-Net在一组不同的遮挡设置下成功地将关键点定位在单个视图我们验证了我们的方法合成CAD数据,以及一个大的图像集捕捉车辆在许多繁忙的城市交叉口。有趣的是,我们将人类标记的不可见关键点的准确性与三焦点张量预测的准确性进行了比较。1. 介绍实际上任何场景都有遮挡。即使只有一个物体的场景也会表现出自遮挡-相机只能看到物体的一侧(左或右,前或后),或者物体的一部分在视野之外当一个或多个对象阻挡另一个对象的一部分时,会发生更理解和处理遮挡是困难的,因为场景中可能的遮挡的类型、数量和程度变化很大。因此,遮挡是许多用于物体检测的计算机视觉方法失败的重要原因[9,14,34,16],跟踪[49,5,44,41],重建[20,19]和识别,即使是今天计算机视觉社区已经共同尝试了许多方法来处理遮挡[12,1代码和数据集可以在http://www.cs.cmu.edu/上找到CARILIM/projects/IM/CarFusion/图1:在我们的CarFusion数据集中,在严重遮挡下准确的2D关键点定位。不同的颜色描绘场景中的不同对象。13,26,35]几十年来。坏的预测,由于occlu-sions处理的噪声/离群值在鲁棒估计。许多方法为下游方法提供置信度或不确定性估计,这些方法需要整理出不确定性是否但是很难预测性能,因为他们通常不考虑阻塞。另一方面,在模型拟合方法中,遮挡被明确视为缺失部分[50,40]。这些方法已经取得了更好的成功,因为它们利用了特定类型的对象(例如,汽车、人等)。但仍有许多工作要做。例如,严重的遮挡,例如当物体的大部分被阻挡时,可能导致拟合不良此外,这些方法通常不明确地知道对象的哪些部分缺失,并且试图同时估计模型拟合以及缺失部分。在这项工作中,我们提出了一种方法来明确预测的2D和3D关键点位置的遮挡部分的对象使用图形网络,在很大程度上自我监督的方式。我们的方法接收任何检测器的输出作为输入(例如,使用MaskRCNN体系结构[16]),该体系结构已经在特定类别的对象上进行了训练,并且仅对可见关键点及其类型进行了人工监督(例如,前、后、左、右)。因此,未标记的关键这是17327图2:遮挡网:我们举例说明了训练网络以提高遮挡关键点定位的总体方法。输入是来自任何检测器的ROI区域,该区域通过多个卷积层以预测具有置信度得分的热图。这些置信度通过图形编码-解码器网络传递,并使用多视图三焦点张量损失进行训练,以定位被遮挡的2D关键点。来自解码器的输出通过3D编码器来预测形状基础和相机方向。该网络是一个自监督图网络,并使用相对于2D解码器输出的重投影损失进行训练。在这项工作中只使用人工监督。检测器通常提供所有关键点位置的不确定性。我们首先表明,可见点和遮挡点的不确定性分布重叠显着,使得很难预测哪些关键点在测试时被遮挡。为了解决这个问题,我们设计了一个编码器-解码器图网络,该网络首先预测哪些边具有被遮挡节点,然后在解码器中将被遮挡节点定位在2D中。可见或不可见的边缘分类是使用隐式的非标记监督的遮挡点来训练的。然后,我们训练解码器图网络,以使用对象的多个宽基线视图来定位不可见的关键点我们的观察是,虽然某些部分可能在一个视图中丢失,但它们在另一个视图中是可见的并被标记但是,我们如何为视图中的隐藏点位置提供监督呢?我们使用两个视图,其中关键点被看到(并且被人类标记),并且使用相机矩阵来计算三焦点tensor以预测其在视图中关键点被遮挡的位置我们称之为三焦点张量损失,其被最小化以校正来自初始检测器的2D关键点位置。与使用多个视图的其他方法[38,32,37]相比,我们的方法明确预测了被遮挡的关键点。预测的2D关键点(被遮挡和可见)然后在图形网络中使用,以估计3D对象形状和相机投影矩阵。类似于先前的工作[52,39],我们将估计感兴趣对象的先验计算的形状基础的参数。训练以自我监督的方式通过最小化重投影损失来执行,即,重新投影和预测的2D关键点位置之间的误差。我们训练整个管道,称为阻塞网络,端到端与上述损失。我们评估我们的方法对图像的车辆捕获在繁忙的城市十字路口,有许多类型和严重程度的闭塞。该数据集扩展了以前的CarFusion数据集[32],以包括更多的城市交叉路口,其中同时记录了交叉路口的18个视图。MaskRCNN汽车检测器使用100000辆汽车进行训练,人类标记的可见关键点为我们的方法提供了一个强大的基线来进行比较和构建。我们的Occlusion-net在许多指标上都明显优于(约10%)这个基线,即使在存在显著遮挡的情况下也表现良好作为一个有趣的练习,我们还显示了与人类标记的2D遮挡点位置的三焦点损失的比较,并观察到人类标记约90%的点位于可接受的误差范围内。我们还在一个大型的合成CAD数据集上评估了我们的方法,显示出类似的性能优势,并且对于被遮挡的关键点提高我们的网络训练效率很高,可以在测试时实时(超过30 fps)虽然我们已经证明了我们的方法车辆,框架是通用的,适用于任何对象类别。2. 相关工作阻塞检测:虽然通过使用从CNN [33,42,26,2,27,46]学习的部分检测器来预测可见关键点已经取得了重大进展,但这些方法中的大多数都无法精确定位被遮挡的关键点。使用合成数据,Moreno等人。[31]表明这种遮挡建模至关重要。为了解决这个问题,许多方法采用主动形状模型[6]用于遮挡下的车辆检测[51,52,43]。然而,这些方法仅对自遮挡进行建模,而忽略了经常看到的被其他对象遮挡的情况。最近,[37,32]提出了一种多视图自举方法来生成AC。17328JIJIJ.ej(i,j)e ij当无法进行精确的人类标记时,管理CNN训练数据。然而,他们的方法是分阶段训练的,没有明确地对可见点和被遮挡点之间的交互进行建模。与我们的工作最相关的是,[25]在训练期间只包含来自CAD模型的中间关键点监督有趣的是,他们表明,在合成图像上训练这样的模型可以推广到真实图像。我们在真实图像上训练我们的模型,并结合多视图约束来从多个视图传播地面真实可见的关键点来监督被遮挡的点。图形神经网络:将关键点建模为图形问题可以追溯到场景理解的第一次尝试[11,30]。多个作品都建立在这个图形表示和解决姿态使用信念传播,[10,36]。最近,[8,21,1,17,7]将经典图形建模扩展到深度学习范式,并显示出更好的非结构化数据建模能力2D-KGNN编码器:2D关键点图网络(2D-KGNN)需要从关键点热图推断被遮挡关键点(或边缘Eij)的位置。我们将热图转换成图表通过将每个关键点的位置和置信度编码到节点特征中。关键点i的特征可以更正式地表示为Vi={xi,yi,ci,ti},其中(xi,yi)是位置,ci是置信度,ti被定义为关键点的类型因为我们不知道图,我们使用GNN来预测潜在图结构。编码器被建模为q(E i,j|其中fenc(V)是作用于从热图产生的全连接图的GNN。 给定输入图我们的编码器计算以下消息传递操作以产生遮挡统计:h1=fenc(Vj)(1)基于这些方法在图类上的成功v→e:h1=f1([h1,h1])(2)(i,j)e i j由于这些任务,最近的多项工作已经扩展了方法来解决多个3D问题,如形状分割[48],3D对应[28]和表面上的CNN。Σe→v:h2=fv(h1i/=j)(3)[29]第二十九话我们将关键点预测建模为使用多视图监督学习的可变形图。2(i,j)=f2([h2,h2])(4)3. 闭塞网Occlusion-Net由三个主要阶段组成-可见关键点检测,被遮挡的2D关键点定位和3D关键点定位网络-如图2所示。2D-Keypoint图形神经网络使图形节点变形3D-Keypoint图神经网络定位在上面的等式中,ht表示第t个隐藏层其中v和e表示网络的顶点和边。这里,v→e表示从顶点到边的卷积运算,而e→v表示从边到顶点的运算。函数f()被实现作为完全连接的层。该编码器的边缘损失是预测边缘和地面实况边缘之间的交叉熵损失,给出为:Σ使用自我监督训练的图形的3D关键点-ing程序。我们结合这些网络来准确预测3D和2D关键点位置。这一切成功都LEdge=−i,j∈kEijlog(El)(5)以下各节将介绍各个阶段。El是计算的每条边的可见性统计信息3.1. 二维关键点图神经网络二维关键点图神经网络(2D-KGNN)由三个组件组成:初始关键点热图预测、对图形的遮挡统计进行建模的图形编码器、以及推断被遮挡关键点的2D位置的图形解码器。我们使用基于热图的方法[16][33]来计算图像中所有关键点的位置。图形网络的输入由k个关键点组成,其被进一步分类为v个可见关键点和o个不可见/被遮挡关键点。 我们表示图的顶点为V=(V1,...,对于k个关键点,所有节点之间的关系都编码在边中从标记的关键点。2D-KGNN解码器:被遮挡点预测器解码器从错误的初始图和从编码器预测的边缘预测被遮挡关键点的一致的2D关键点位置。这可以在数学上表示为估计Pθ(Vg|V,E),其中Vg表示-发送来自解码器的输出图,E是输入而V是来自初始热图的图形以下消息传递步骤是在图形网络:ΣEij={Vi,Vj},其中1,如果i∈v且j∈vv→e:h(i,j)=Eij,pfp([Vi,Vj])(6)pΣEij=0,否则e→v:µg=Vj +fv(h(i,j))(7)v→e:h17329JJI j我们还将Vl表示为标记的关键点注释,并且分别作为从2D-KGNN预测的关键点。Pθ(Vg| V,E)=N(µg,ρ2I)(8)17330JJ这里Eij,p表示向量Eij的第p个元素。需要注意的一件重要的事情是,当前状态被添加到等式中。7,因此模型本质上是在学习使关键点变形,即预测差值Δ V= Vg− V。进一步由方程式 7,μ是平均位置预测值,N产生位置的概率。 我们只是尽量减少使用三焦点张量损失在该网络中预测的和地面真实遮挡点之间的距离。三焦点张量损失。我们利用多个视图的对象捕获的“在野外”,以估计被遮挡的关键点。假设被遮挡的关键点相机坐标系中的对象[15]。我们假设相机的主点在原点。为了将图像从原始维度归一化为方阵,我们通过s=w/h重新缩放投影的2D点,其中w和h表示输入图像的宽度和高度(更多细节请参见[22])。关键点重投影损失:我们使用重新投影损失以自监督方式训练3D-Keypoint Graph网络,即投影的3D关键点与从2D-KGNN计算的关键点之间的差Σ一个视图在两个或多个不同视图中可见。因此,三焦点张量[15]可以将两个位置L再现=j∈k||2(10)||2(10)将可见视图转换为遮挡视图。然后,每个被遮挡关键点的损失计算为:Σ ΣL=[Vg]((V′)iT)[V′′],(9)3D基础形状的使用允许3D对称性的明确实施,这经由重投影损失为2D关键点估计提供了进一步的约束。三焦点j×j∈oijij×3.3. 全损其中,i表示针对三焦张量T考虑的三个视图,Vg是来自解码器的针对当前视图中的被遮挡关键点j的预测,并且V“j和V"j是两个不同视图中的注释关键点j。我们用物体中的摄像机姿态计算T参考系在我们的设置中,由于对象(车辆)是刚性的,因此两个可见视图可以来自任何相机在任何其他时刻查看同一对象。3.2. 3D关键点图神经网络给定来自2D-KGNN解码器的图,3D关键点图神经网络编码器预测3D对象形状W和相机投影矩阵π。该编码器将图形作为输入,并使用自监督投影损失预测所有关键点在数学上,这被公式化为q(β,π|其中,β是对象的PCA形状基的变形系数,并且π是相机投影矩阵。形状基础:我们将形状建模为与预测的2D关键点相对应的一组3D我们使用具有来自[26]的3D关键点注释的对象[3]的3D存储库来计算平均形状b0和n个主形状分量bj以及相应的标准差σj,其中1≤j≤n给定形状基础,可变形3D关键点的任何集合可表示为可变形3D关键点的集合。n个主成分β的线性组合为我们的Occlusion-Net经过训练,可以最小化上述损失的总和:L=L个关键点+L个边缘+L个三焦点+L个再现,(11)其中,LKeypoints是预测的关键点和地面实况标签之间的t个2路softmax输出上的交叉熵损失[16]。这里,t是关键点的数量4. 实验结果我们证明了我们的方法能够从新的和具有挑战性的CarFusion数据集上的单个视图中推断出包含的关键点和3D形状。我们首先在4.1节中描述这个数据集。然后,我们在第4.2节中对算法进行了消融分析。最后,我们在第4.3节中显示了与最先进的Mask-RCNN [16]检测器的定性比较为了进行公平的比较,我们在我们的数据集上重新训练了在评估度量中,2D-KGNN是指解码器层之后的输出,3D-KGNN是指预测的3D关键点到图像上的投影。4.1. 数据集汽车渲染自遮挡数据集:我们使用从shapenet [4]和3D注释[26]中采样的472辆汽车。我们从标注的36个关键点中选择12个关键点,并从不同的视点渲染它们。视点是在5级二十面体上随机选择的,W=b0+nk=1 βk<$σk<$bk.焦距和与物体的距离。我们使用300个合成CAD模型进行训练,72个用于验证,摄像机投影矩阵:设π(W)为将一组3D关键点W投影到图像坐标上的函数。我们使用透视相机模型并将π描述为相机焦距f的函数,旋转q,表示为四元数,平移t,100个测试 我们将CAD模型的3D关键点注释投影到可见性。我们跟踪从像素朝向对象的射线,并检查第一交点是否接近地面实况位置以确定可见性。1733130000250002000015000100005000关键点置信度得分1.00.80.60.40.2闭塞的ROC曲线Tennan注释与三焦点张量100806040200−10 0 1020置信度分数0.00.00.20.40.60.81.0假阳性率00.0 0.1 0.2 0.3α(α)图3:我们分析了2D-KGNN编码器的需求。左图显示了来自基线方法的热图的置信度得分(分布基于地面实况可见性进行着色)。右图显示了从图形编码器和基线预测的ROC曲线在0.1假阳性率时,基线返回0.5真阳性率,而2D-KGNN返回0.8真阳性率。CarFusion数据集:为了对广泛的真实遮挡进行建模,我们收集了在5个拥挤的交通路口以60 fps的速度由多个移动摄像机同时捕获的广泛数据集(扩展了先前的工作[32])。该扩展数据集由250万张图像组成,其中53000张图像以均匀的间隔从每个视频序列中采样。在这些图像中检测到的大约100000辆汽车被注释了12个关键点。每个注释都包含汽车上可见和被遮挡的关键点位置。我们不使用被遮挡的关键点来训练遮挡网络。我们选择了四个带注释的交叉点来训练网络,同时使用一个交叉点来测试它,将注释数据分为36000张图像用于训练,17000张用于测试。我们进一步在训练数据上计算90-10的训练验证分割,以验证我们的训练算法。该数据集是完全捕获的预处理:计算三焦损失需要在对象帧中的虚拟相机姿势。对于每个图像,通过求解可见关键点和从[32]计算的3D点4.2. 定量评价我们将我们的方法与其他最先进的关键点检测网络进行比较。我们使用PCK度量[47]来分析2D和3D被遮挡的关键点位置。根据PCK度量,如果关键点位于地面实况的半径αL内,则认为该关键点是正确的。这里L被定义为边界框的长度和宽度的最大值,0<α1。为了评估3D重建,我们将重建的关键点投影到它们各自的视图中并计算2D PCK误差。闭塞预测:我们证明了使用MaskRCNN计算的置信度分数不足以预测遮挡。图3中的左图显示了遮挡和可见的置信度分数图4:在左侧,我们显示了人类注释相对于几何获得的关键点的准确性。我们观察到大多数关键点都在α= 0内标记。% 1PCK错误。在右侧,使用不同方法预测的关键点的多视图对应性的计数。当可用视图较少时,由遮挡网络预测的遮挡点提供更多的对应关系,以改善多视图重建。点这些分布明显重叠,使得难以区分遮挡点和可见点。相比之下,通过对图网络进行建模以利用关键点的相对位置,我们观察到遮挡预测的准确性显著提高,如图3中的右图所示。我们观察到MaskRCNN的AUC为0.83,而2D-KGNN的AUC为0.95。可见点的评价:我们展示了我们的网络相对于现有的可 见 关 键 点 估 计 方 法 的 评 估 。 3D-KITTI[24] 和PASCAL 3D + [45]数据集都只对可见关键点进行注释,不包含遮挡点注释或多个视图来直接评估我们的方法。[24]中的2D关键点预测仅在可见关键点上进行评估,3D模型通过仅拟合未被其他对象截断或遮挡的对象上的可见关键点(其表中的“Full”)来评估。我们的模型尚未在这些数据集或来自[24]的CAD数据集表1将我们的方法与注释的 3D-KITTI中的2D可见点。表1还显示了针对“完整”(无遮挡)情况([24]中提到的唯一情况)的地面实况3D模型我们观察到,我们的方法优于其他方法的两个类别。截断和其他闭塞。这可以归因于我们的数据集对一系列阻塞类型和严重程度进行了建模。重要性的3D-KGNN:的 3D 构成Computed对于交通分析(速度、流量)和理解/可视化繁忙城市交叉口的活动非常有用。3D-KGNN还可以用于找到多视图重建的视图之间的对应关系,特别是当可用视图非常少并且关键点可能被遮挡时。图4表明,与2D-KGNN或MaskRCNN相比,3D-KGNN为多视图对应找到了更多的内点。阻塞可见MaskRCNN2D-KGNN数量的点真阳性率PCK(%)17332100806040不可见点数= 3/12100806040不可见点数= 5/12表1:PCK评价[α=0.1]和在KITTI- 3D中注释的2D可见关键点Full表示未被遮挡的汽车,Truncation表示图像中未完全包含的汽车,Car-Occ表示被汽车遮挡的汽车,Oth-Occ表示被其他对象遮挡的汽车“全部”表示组合所有遮挡类别的统计信息。我们的方法在大多数遮挡类别中表现出色。[25]中的3D关键点定位(最后两列)仅在Full上进行评估。人工注释与几何预测:的2001008060402000.000.050.100.150.200.25 0.30α(α)不可见点数量= 7/12MaskRCNN二维KGNN3D-KGNN0.000.050.100.150.200.25 0.30α(α)2001008060402000.000.050.100.150.200.25 0.30α(α)不可见点数= 9/12MaskRCNN二维KGNN3D-KGNN0.000.050.100.150.200.25 0.30α(α)CarFusion数据集已注释了遮挡点以及多个视图中的可见点。因此,作为一个有趣的旁白,我们评估了手动标记的遮挡点相对于使用三焦点张量获得的遮挡我们观察到α= 0时。1,近90%的手动标记的关键点位于几何一致的关键点区域图5:Car-render数据集的PCK的不同alpha值的准确性。基于图形的方法(2D/3D)在所有遮挡类型中的表现都优于MaskRCNN训练的关键点。特别是在α =0.1时,我们观察到3个不可见点的情况下增加了22%,9个不可见点(12个关键点中)的情况下增加了10%点准确度分析:图5描述了相对于Alpha on Car-render数据集的准确度变化。我们展示了具有不同遮挡配置的四个不同的图,范围从3个(非常少遮挡)到9个(高度遮挡)不可见点,总共12个关键点。我们观察到,我们的方法优于基线方法在所有条件下,Alphaα = 0.1908070603 4 5 6 7 8 9不可见点10098969492Alphaα = 0.2MaskRCNN2D-KGNN3D-KGNN3 4 5 6 7 8 9不可见点被遮挡关键点的图形。在α=0.1时,我们观察到3个不可见点的22%和9个不可见点的10%的提升。图6显示了Car-render数据集的准确度随遮挡数量的变化。我们绘制了两个不同α值的图形,并观察到与3D-KGNN相比,随着遮挡的增加,2D图形方法更稳定。我们显示出类似的准确性,CarFusion数据集上的α图见图8。我们观察到,随着遮挡的增加,与基线MaskRCNN相比,我们的方法显示出更高的准确性提高。在α= 0时。1我们几乎在所有遮挡类别中获得至少6%的提升,并且对于5个遮挡点获得近12%的提升图9描绘了随着CarFusion数据集上遮挡点数量的增加而发生的准确度变化。对于4个不可见点配置的情况,我们的方法比基线高出近25%。综上所述,我们观察到KGNN在遮挡点上的准确性高于使用基线方法。耐用性分析:我们分析了在图的输入位置添加误差的效果,以分析学习模型的鲁棒性。图10显示了相对于添加到输入图的不同高斯误差我们观察到3D-KGNN随着增加图6:具有不同闭塞汽车渲染数据集上的关键点。在α = 0的情况下,基于图形的方法(2D/3D)优于基线(红色)。1.一、对于更保守的α,性能相当。与3D KGNN图(15%)和基线MaskRCNN图(25%)相比,两个alpha空间中的2DKGNN图而2D-KGNN对于高度遮挡的点表现良好,但随着输入误差的增加而急剧下降。4.3. 定性评价在本节中,我们分析了我们的方法在不同类别的遮挡中的视觉改进。图11描绘了在不同遮挡情况下算法的视觉结果我们展示了四种遮挡类型的结果第一列描述了MaskRCNN关键点的输出。颜色被编码为蓝色,因为来自热图的输出不提供关于关键点的遮挡类别的另一列显示了我们方法的消融结果结果表明MaskRCNN二维KGNN3D-KGNNMaskRCNN二维KGNN3D-KGNNMaskRCNN2D-KGNN3D-KGNNPCK(%)PCK(%)PCK(%)PCK(%)PCK(%)PCK(%)方法2D3D偏航(错误)充分截断汽车发生率Oth-Occ所有充分充分[18个国家]88.076.081.082.782.0NA[五十二]73.6NA73.57.317333图7:CarFusion数据集样本图像上的遮挡网络结果示例。我们准确地定位在各种严重闭塞的关键点。其他结果见补充资料。不同的颜色描绘场景中的不同车辆。10080604020不可见点数= 3/1210080604020不可见点数= 5/1210080604020不可见点数= 3/12 alpha=0.110080604020不可见点数= 5/12 alpha=0.100.000.050.100.150.200.25 0.30α(α)00.000.050.100.150.200.25 0.30α(α)00.00.20.40.60.81.0误差方差(σ)00.00.20.40.60.81.0误差方差(σ)10080604020不可见点数量= 7/12不可见点数= 9/128060402010080604020不可见点数= 7/12 alpha=0.110080604020不可见点数= 9/12 alpha=0.100.000.050.100.150.200.25 0.30α(α)00.000.050.100.150.200.25零点半α(α)00.00.20.40.60.81.0误差方差(σ)00.00.20.40.60.81.0误差方差(σ)图8:CarFusion数据集上的准确度与Alpha。对于图中Alpha=0.1的情况,基于图形的方法显示对于仅3个点(12个中的3个)被遮挡的情况改善了6%,对于更严重的遮挡改善了近10%或更多,证明了使用图形网络进行遮挡建模的合理性。图10:图中描绘了当高斯噪声被添加到输入关键点时,方法的准确度变化。正如预期的那样,3D-KGNN(绿色)在存在强噪声的情况下表现得更好。在图7中同时显示了我们的方法在多辆汽车上的结果。我们的方法执行准确的遮挡Alphaα = 0.18070605040303 4 5 6 7 8 9不可见点10090807060Alphaα = 0.2MaskRCNN二维KGNN3D-KGNN3 4 5 6 7 8 9不可见点关键点定位非常具有挑战性的闭塞汽车。5. 结论我们提出了一种新的基于图的架构来预测被遮挡关键点的2D和3D位置。由于2D遮挡关键点的监督是具有挑战性的,我们使用来自不同视图的标记的可见关键点来计算误差我们提出了一个自我监督的网络,图9:不同闭塞配置urations。注意,对于具有4个(12个中的)可见点的遮挡,与遮挡点的基线相比,我们的方法高出近25%。将被遮挡的关键点预测为热图在定位中产生大的误差,而学习基于图的潜在空间改进了被遮挡的关键点相对于可见点的位置。具体而言,在高遮挡场景中,与MaskRCNN相比,基于图形的方法在视觉上我们进一步关键点的3D结构。我们展示了我们的方法合成CAD数据,以及一个大型的图像集捕捉车辆在许多繁忙的城市路口,提高定位精度(约10%)的基线检测算法。确认这项工作由亨氏基金会、美国DOT RITA(大学运输中心和Mobility 21中心)、NSF #CNS-1446601和DARPA RE-VEAL第2阶段合同HR 0011 -16-C-0025部分资助。MaskRCNN二维KGNN3D-KGNNMaskRCNN二维KGNN3D-KGNNMaskRCNN二维KGNN3D-KGNNMaskRCNN二维KGNN3D-KGNNMaskRCNN2D-KGNN3D-KGNNMaskRCNN二维KGNN3D-KGNNMaskRCNN二维KGNN3D-KGNNMaskRCNN二维KGNN3D-KGNNMaskRCNN二维KGNN3D-KGNNPCK(%)PCK(%)PCK(%)PCK(%)PCK(%)PCK(%)PCK(%)PCK(%)PCK(%)PCK(%)17334MaskRCNN 2D-KGNN 3D-KGNN Ground-Truth Canonical-3D图11:CarFusion数据集中不同遮挡类别汽车的2D/3D关键点定位的定性评估。初始检测器使用MaskRCNN在可见的2D关键点上进行训练。我们使用我们的自监督2D-KGNN和3D-GNN来定位来自单个视图的关键点。3D关键点的2D重投影显示在第三列中。第二列和第三列显示了相对于基线MaskRCNN的被遮挡关键点的定位的明显改进使用3D-KGNN计算的规范3D视图显示在最后一列中。通过对人类标记的可见点应用三焦点张量来估计不可见点,从而获得地面真值。绿色表示可见边,红色表示遮挡边。截断自遮挡闭塞溶剂闭塞17335引用[1] Joan Bruna , Wojciech Zaremba , Arthur Szlam , andYann Le- Cun.图上的谱网络和局部连通网络。CoRR,abs/1312.6203,2013。[2] FlorianChabot、MohamedChaouch、JaonaryRabarisoa 、 Ce'lineTeulie`re 和 ThierryChateau 。Deepmanta:一个从粗到细的多任务网络,用于从单目图像进行联合2D和3D车辆分析。arXiv预印本arXiv:1703.07570,2017年。[3] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。[4] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。[5] 崔元 君基 于局 部流 描述 子的近 在线 多目 标跟 踪在ICCV,2015年。[6] Timothy F Cootes , Christopher J Taylor , David HCooper,and Jim Graham.主动形状模型的训练与应用。CVIU,1995年。[7] MichaeülDefferrard,XavierBresson,andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。CoRR,abs/1606.09375,2016。[8] DavidKDuvenaud 、 DougalMaclaurin 、 JorgeIparraguirre、Rafael Bombarell、Timothy Hirzel、AlanAspuru-Guzik和Ryan P Adams。用于学习分子指纹的图上卷积网络In C. Cortes,N. D. 劳伦斯D. D.李,M。Sugiyama和R. Garnett,编辑,Advancesin Neural Information Processing Systems 28 , 第 2224-2232页。Curran Associates,Inc. 2015年。[9] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。TPAMI,2010年。[10] Pedro F Felzenszwalb和Daniel P Huttenlocher。用于物体识别的图形结构。国际计算机视觉杂志,61(1):55[11] Martin A Fischler和Robert A Elschlager。图像结构的表现和匹配IEEE Transactions on Computers,100(1):67[12] 里克·弗兰森斯,克里斯托夫·斯特雷查,吕克·范古尔。地图估计问题中相干遮挡处理的平均场em算法。2006年IEEE,2006年。[13] 高天石,本杰明·帕克和达芙妮·科勒。具有遮挡处理的分割感知对象检测模型。CVPR 2011,第1361-1368页。IEEE,2011年。[14] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的功能层次结构,用于准确的对象检测和语 义 分 割 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)的会议记录中,2014年。[15] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社,2003年。[16] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。InICCV,2017.[17] Mikael Henaff,Joan Bruna,and Yann LeCun.图结构数据上的深度卷积网络。CoRR,abs/1506.05163,2015。[18] Angjoo Kanazawa、David W Jacobs和Manmohan Chan-draker。Warpnet:用于单视图重建的弱监督匹配。在IEEE计算机视觉和模式识别会议论文集,第3253- 3261页[19] 放大图片作者:Angjoo Kanazawa,Shubham Tulsiani,Alexei A.埃弗罗斯和吉坦德拉·马利克从图像集合学习特定类别的网格CoRR,abs/1803.07549,2018。[20] Abhishek Kar ,Shubham Tulsiani,Joao Carreira ,andJiten- dra Malik.从单个图像重建特定于类别的对象。CVPR,2015。[21] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv:1609.02907,2016。[22] Abhijit Kundu,Yin Li,and James M.瑞格3d-rcnn:通过渲染和比较进行实例级3d对象重建。在CVPR,2018年。[23] Vincent Lepetit , Francesc Moreno-Noguer , and PascalFua. Epnp:pnp问题的精确O(n)解。国际计算机视觉杂志,81(2):155,2009。[24] 李波,张天磊,田霞。使用全卷积网络的3d激光雷达车辆检测。机器人:科学与系统,2016年。[25] Chi Li,M.作者:Zia Zeeshan,Quoc-Huy Tran,XiangYu,Gregory D.海格和曼莫汉·钱德拉克具有中间概念的深度监督。CoRR,abs/1801.03399,2018。[26] Chi Li,M Zeeshan Zia,Quoc-Huy Tran,Xiang Yu,Gregory D Hager,and Manmohan Chandraker.用于遮挡感知3d对象解析的具有形状概念的深度监督arXiv预印本arXiv:1612.02699,2016。[27] Yen-Liang Lin , Vlad I Morariu , Winston Hsu , andLarry S Davis.联合优化三维模型拟合和细粒度分类。欧洲计算机视觉会议,第466-480页Springer,2014.[28] 或 者 Litany , Tal Remez , Emanuele Rodola , AlexBronstein和Michael Bronstein。深层功能图:密集形状对应的结构化预测。2017年IEEE国际计算机视觉会议(ICCV),第5660-5668页IEEE,2017年。[29] Haggai Maron,Meirav Galun,Noam Aigerman,MiriTrope,Nadav Dym,Ersin Yumer,Vladimir G Kim和Yaron Lip-man。通过无接缝复曲面覆盖的表面上的卷积神经网络。ACM Transactions on Graphics(TOG),36(4):71,2017。[30] 大卫·马尔和赫伯特·基思·西原。三维形状的空间组织的表示程序R长索克B,200(1140):269 -294,1978.[31] Pol Moreno,Christopher KI Williams,Charlie Nash,and Pushmeet Kohli.用逆图克服遮挡。欧洲计算机视觉会议,第170-185页。施普林格,2016年。[32] Minh Vo N Dinesh Reddy 和 Srinivasa G. 纳 拉 希 姆 汉Carfusion:结合点跟踪和部分检测17336车辆的动态三维重建。IEEE计算机视觉与模式识别会议(CVPR)2018 I
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功