没有合适的资源?快使用搜索试试~ 我知道了~
6861MonoLoco:单目3D行人定位和不确定性估计Lorenzo Bertoni,Sven Kreiss,AlexandreAlahi EPFL VITA实验室CH-1015洛桑Lorenzo. epfl.ch摘要我们从根本上解决了单目RGB图像的三维人体定位的病态问题。由于神经网络输出点估计的局限性,我们通过基于拉普拉斯分布的损失函数预测置信区间来解决任务中的模糊性。我们的架构是一个轻量级的前馈神经网络,预测3D位置和相应的置信区间给定的2D人体姿势。该设计特别适合于小的训练数据,跨数据集的泛化,和实时applica- tions。我们的实验表明,我们(i)在KITTI和nuScenes数据集上的表现优于最先进的结果,(ii)甚至优于针对远处行人的基于立体的方法,以及(iii)估计有意义的置信区间。我们进一步分享我们的不确定性模型在有限的观察和分布外的样本的情况下的见解。1. 介绍自动驾驶车辆通常依赖于Li-DAR感测解决方案,尽管在长距离上点云的成本高且稀疏[10,59,45]。已经通过采用立体/多相机来解决单目解决方案的基本然而,研究人员正在研究如何推动单目感知的极限,以进一步促进多传感器融合[33]。从单色图像估计车辆的3D位置已经取得了事实上,由于人的高度和形状的变化,从单个图像推断行人的3D位置在这项工作中,我们明确地研究了在场景中定位行人的内在模糊性,并调查我们是否可以从数据中学习这种模糊性。在这个感知任务的驱动下,我们的目标是为深度学习中的不确定性估计的一般问题提供更多的见解。图1.从单个RGB图像的行人的3D定位我们的方法利用2D姿势来找到3D位置以及置信区间。置信区间在左侧3D视图中显示为蓝线,在右侧鸟瞰图中显示为椭圆Kendall和Gal [25]在感知任务中为深度学习引入了实际的不确定性估计,区分了任意和认知不确定性[11,25]。前者对观测中固有的噪声进行建模,而后者是模型参数的属性,可以通过收集更多的数据来减少。虽然他们提出的不确定性测量方法很有启发性,但他们无法将其与已知的不确定性(称为任务错误)进行比较。在这项工作中,基于成年人群中人类身高的统计变化[52],我们量化了任务的模糊性,即,任务错误:用于单眼3D行人定位的性能的上界。令人惊讶的是,任务错误是合理的低。我们的实验6862在3D定位中显示出准确的结果,而不会克服由于这种固有的模糊性而导致的限制。我们提出了一个简单的概率方法为单眼- LAR三维定位量身定制的行人。我们通过预测置信区间来专门解决不适定任务的挑战,与点估计相反,点估计考虑了任意和认识上的不确定性。我们的方法由两个不同的步骤组成首先,我们利用姿态估计器的预期进展来获得2D关节,这是人类的低维有意义的表示。其次,我们将检测到的关节输入到轻量级前馈网络,并输出每个实例的3D位置以及置信区间。我们探索2D关节是否包含足够的信息,以使网络能够学习任务的内在模糊性以及准确的局部化。我们利用最近引入的基于拉普拉斯分布[25]的损失函数,在训练时无需直接监督的情况下,为每个预测位置引入任意不确定性推理时的MC丢弃用于捕获认知不确定性[16]。我们的网络工作,称为MonoLoco,独立学习的不确定性分布,并预测置信区间与相应的任务错误相媲美。代码可在网上公开获取1。2. 相关工作单眼3D物体检测。交通运输中的单目3D物体检测的最新方法主要集中在车辆上,因为它们是具有已知形状的刚性物体据我们所知,没有以前的工作明确评估行人从单眼RGB图像。Kundegorski和Breckk [29]实现了合理的性能结合红外成像和实时摄影测量。Alahi等人将单目图像与无线信号[3]或与附加视觉先验[1,2]组合。Mono3D的开创性工作[8]利用深度学习为汽车、行人和骑自行车者类别创建3D对象提案,但它没有评估行人的3D本地化。它假设一个固定的地平面或-thogonal的相机和建议,然后得分的基础上场景先验,如形状,语义和实例分割。以下方法继续利用卷积神经网络,并仅关注Car实例。为了从2D检测中回归3D姿态参数,Deep3DBox [38],MonoGRnet [46]和Hu等人。[23]使用几何推理进行3D定位,而Multi-fusion [57]和ROI-10 D [35]结合了深度估计模块。最近,Roddick等人[48]通过使用积分图像将基于图像的特征映射到鸟瞰图表示来扩展图像域。另一条工作线适合汽车的3D模板1https://github.com/vita-epfl/monoloco年龄[54,55,7,30]。虽然许多相关方法实现了车辆的合理性能,但当前文献缺乏解决自动驾驶背景下的其他类别(诸如行人和骑自行车的人)的单一方法。计算机视觉中的不确定性深度神经网络不仅需要有能力提供正确的输出,还需要有一定的不确定性,特别是在自动驾驶等安全关键场景中。传统上,贝叶斯神经网络[47,40]用于通过模型参数的概率分布对认知不确定性进行然而,这些分布是十分棘手的,研究人员提出了有趣的解决方案来执行近似贝叶斯推断以测量不确定性,包括变分推断[20,4,50]和深度集成[31]。 或 者 , Galet al. [16 , 17]表 明 在 推 理 时 应 用dropout [51]会产生一种变分推理形式,其中网络的参数这种称为蒙特卡洛(MC)dropout的技术也因为其对非概率深度学习框架的适应性而变得流行。在计算机视觉中,使用MC dropout的不确定性估计已应用于深度回归任务[25],场景分割[39,25]以及最近的汽车LiDAR 3D对象检测[14]。人体姿势估计。在图像中检测人并估计其骨架是一个广泛研究的问题。最先进的方法基于卷积神经网络,可以分为自上而下[43,13,21,56]和自下而上的方法[6,41,42,27]。与我们的工作相关的是简单基线[36],它显示了2D关节刺激中包含的潜在信息的有效性。他们通过一个轻的、完全连接的网络,从2D姿势简单地预测3D关节,从而获得了最先进的结果。然而,与[37,58,49]类似,他们估计了相对3D关节位置,没有提供有关场景中真实3D位置的任何信息。3. 本地化歧义从单目图像中推断行人的深度是一个根本不适定的问题。这种额外的挑战是由于人类身高的差异。如果每个人都有相同的身高,就不会有歧义。 在本节中,我们量化模糊度并分析单目3D足定位所期望的最大准确度。在我们的距离估计中,我们假设所有人具有相同的身高h 平 均 值,并且我们分析了这种假设的误差。受Kundegorski和Brecket [29]的启发,我们对由于高度变化引起的定位误差进行了6863..我 我我我图2.定位误差,由于人的高度变化在不同的距离,从相机。我们近似一个通用的成年人的身高分布为高斯混合分布,我们定义的任务误差:单目方法的性能的上限。作为与摄像机的地面实况距离的函数,我们称之为任务误差。根据人的高度和距离的三角形相似性关系,dh-均值/h均值=dgt/hgt,其中hgt和dgt是真实的人的高度和距离,h均值是假设的人的平均高度,并且dh-均值是在h均值假设下估计的距离。我们可以将数据集中任何人员实例的任务错误定义为:示出了在不同情况下由于高度变化而引起的预期定位误差ε,其作为距相机的地面实况距离dgt的函数。这种分析表明,不适定的问题,定位行人,同时施加一个内在的限制,并不妨碍鲁棒定位在一般情况下。4. 方法我们的方法的目标是检测行人在3D给定的一个单一的图像。我们认为,有效的单目定位不仅意味着准确的估计的距离,但也现实的预测的不确定性。因此,我们提出了一种方法,该方法在没有监督的情况下从数据中学习模糊性,并预测与点估计相反的置信区间。任务误差在Eq.2允许将预测的置信区间与任务的固有模糊性进行比较。图3说明了我们的总体方法,它包括两个主要步骤。首先,我们利用一个姿态检测器来逃避图像域和降低输入维数。2D关节是一种有意义的低级表示,它提供了许多因素的不变性,包括背景场景,照明,纹理和衣服。其次,我们使用的2D关节作为输入到一个前馈神经网络,预测的距离和相关的模糊的每个行人。在训练阶段,对于定位模糊没有监督网络从数据分布中隐式地学习它。..e ≡|dgt-d h均值|=dgt. 1−.我是说。.(一)4.1. 设置.hgt.先前对63,000名欧洲成年人的研究表明,平均身高为178厘米。输入. 我 们 使用姿态估计器来检测图像中的每个实例的关键点[ui,vi]T的集合。然后我们将每个关键点i反投影到归一化的图像坐标中[x*,y*,1]T使用相机固有矩阵K:男性为165cm,女性为165 cm,标准差为1.1在两种情况下都是7厘米左右[52]。然而,姿势检测器不区分性别。假设[x*,y*,1]T=K−1[u,v,1]T.(三)由于人类身高的分布对于男性和女性群体遵循高斯分布[15],我们将人类身高的组合分布(高斯混合分布P(H))定义为我们未知的真实高度分布。预期的任务错误变为这种转换对于防止该方法过拟合到特定相机是必不可少的。此外,即使我们不是预测相对3D位置而是到相机的距离,我们也将2D输入以中心坐标为中心归零这可确保模型使用相对e=dgtEhP(H)Σ。..1−. Σ我是说。(二)关节之间的距离来进行预测,在图像中的特定位置上过拟合.H.其表示由于任务的固有模糊性而导致的单眼3D足定位的下限。这种分析可以扩展到成年人以外。一个14岁的男性达到他的身高的90%左右,女性达到95%左右[15,29]。包括低至14岁的人导致7的高度变化的额外来源。9%和5. 男性和女性分别为6%[29]。图22D人体姿势。我们使用两个现成的姿态检测器获得了足的2D关节位置:自上而下的方法Mask R-CNN [21]和自下而上的Pif-[28],两者都是在COCO数据集上训练的[34]。检测器可以被看作是一个独立的模块,独立于我们的网络,它使用2D关节作为输入。由于没有2D姿势的注释可用,因此没有检测器在KITTI或nuScenes数据集上进行微调。6864图3.网络架构。输入是从原始图像中提取的一组2D关节,输出是行人的3D位置μ和表示相关随机不确定性的扩展b置信区间以μ±b表示。认知不确定性通过应用MC dropout的随机向前传递获得[16]。虚线椭圆表示两个组合的不确定性。每个全连接层输出256个特征,然后是批量归一化层[24]和ReLU激活函数。输出. 我们通过其中心位置D =[xc,yc,zc]T来参数化每个实例的3D物理位置。我们进一步假设中心到图像平面中的投影对应于检测到的边界框[uc,vc]T的中心。 在这些设置下,每个行人的位置具有三个自由度和两个约束。√我们选择回归向量的范数||D||2=x2+y2+z2,以进一步约束踏板的位置。用于量化模型对所收集数据的忽略,例如,在分布外样本的情况下。偶然的不确定性通过模型输出的概率分布来捕获Aleatoric的不确定性。我们基于拉普拉斯分布的负对数似然将相对拉普拉斯损失定义为:C c c|1− µ/x|特里安为了简洁起见,我们将使用符号d=||D||二、的一个主要的标准是任何物体的尺寸L拉普拉斯(x|µ,b)=+ log(2b)(4)B仅取决于向量D的范数,并且它们不受其分量的组合的影响。在相机前面或在相机视场的边缘处的相同行人将表现为在图像平面中具有相同高度,只要距相机的距离d相同即可。基础网络。我们模型的构建块如图3所示。该建筑的灵感来自Martinez等人。[36],是一个简单,深度,全连接的网络,有六个线性层,256个输出特征。 它包括辍学[51]在每一个全连接层之后,[24]和剩余连接[22]。该模型包含大约400k个训练参数。4.2. 不确定在这项工作中,我们提出了一个概率网络,它模拟了两种类型的不确定性:任意性和认识性[11,25]。随机不确定性是任务和输入的内在属性。当收集更多数据时,它不会减少。在3D单目定位的背景其中,x是基础事实,{µ,b}是模型预测的参数µ表示预测距离而b是扩展,使得该训练目标是经由扩展b的衰减L1型损失。在训练期间,模型具有预测大的扩展b的自由度,从而导致噪声数据的衰减梯度。在推断时,模型预测距离μ和表示其对预测距离的置信度的扩散b在[25]之后,为了避免b= 0的奇异性,我们应用变量的变化来预测排列的对数s= log(b)。与以前的方法[25,53]相比,我们设计了一个拉普拉斯损失,它与相对距离一起工作,以在我们的预测中考虑距离的作用。如果行人非常接近,则以绝对误差估计行人的距离可能导致致命事故,或者如果同一人远离相机,则可以忽略不计。认识的不确定性。 为了对认知不确定性建模,我们遵循[16,25]并将每个参数视为具有小方差和均值0和θ的两个多变量高斯的混合。N个数据点的额外最小化目标为:1 −p压降任务的本质模糊性表示任意不确定性的配额。此外,一些输入可能会更嘈杂Ldropout(θ,pdrop)=||二、||2.(五)2N而不是其他的,导致依赖于输入的任意不确定性。认知不确定性是模型参数的属性,并且可以通过收集更多数据来减少。它在实践中,我们通过在每个权重层之前用dropout训练模型来执行dropout变分推理,然后在每个权重层执行一系列随机向前传递。6865不t我方法类型<0的情况。5mALP [%]<1m<2m容易ALE [m]中度硬Mono3D [8]单13.223.238.92.13(2.32)2.85(3.09)3.68(4.46)[28]第二十八话:我的世界单20.535.350.61.48(1.69)2.32(2.99)3.03(3.67)我们的几何基线单16.632.662.21.40(1.48)1.35(1.69)1.61(1.91)我们的MonoLoco -在KITTI单29.049.671.20.94(0.98)1.09(1.49)1.27(1.90)我们的MonoLoco -在nuScenes单30.851.772.10.86(0.92)1.00(1.25)1.17(1.65)3DOP [9]立体声41.454.963.20.63(0.71)1.18(1.27)1.94(2.11)任务错误-49.067.380.00.62(0.55)0.68(0.99)0.64(0.75)表1.将我们提出的方法与KITTI数据集上的基线结果进行比较[18]。ALE指标是针对行人报告的。所有方法只检测到一个行人,以进行公平比较,括号中是每种方法独立检测到的所有行人我们优于所有单眼方法,并且我们实现了与3DOP相当的性能,该3DOP利用立体图像进行训练和测试。我们的方法使用单眼图像,并在nuScenes数据集上训练时显示了跨数据集泛化[5]。我们使用PifPaf [28]作为现成的网络来提取2D姿势。测试时间使用与训练时间相同的丢弃概率P丢弃。全连接层的使用使得网络特别适合于这种方法,其不需要对模型进行任何实质性修改。组合的认知和任意的不确定性被捕获的预测距离的样本变异。它们是从多个拉普拉斯分布中采样的,这些拉普拉斯分布用预测距离μ和扩散b进行参数化,这些分布来自具有MC丢弃的多个向前传递:已经包含未修改的高清晰度图像我们遵循Chen等人的KITTI列车/val分裂。[8]我们使用Adam优化器[26]运行200个epoch的训练过程,学习率为10- 3,小批量为512。该代码可在线获取1,使用PyTorch开发[44]。使用低维潜在表示非常有吸引力,因为它允许快速的实验。使用不同的架构和超参数。5.2. 评价Var(X~)=1ΣΣTI t=1i =1x~2(µt,bt)定位错误。我们使用平均定位精度(ALP)方法评估3D行人定位。Σ1ΣT ΣI-xTIt=1i =1Σ2t,i(µt,bt)(六)由Xianget al. [54]对于汽车类别。如果预测距离与地面实况之间的误差小于阈值,则ALP认为预测是正确的。我们还分析了平均定位误差其中对于T个计算上昂贵的正向通过,我计算便宜的样本是从拉普拉斯分布。5. 实验5.1. 实作详细数据。数据集。我们在KITTI数据集上训练和评估我们的模型[18]。它包含7481个训练图像以及相机校准文件。所有的照片都是在同一个城市从同一台相机拍摄的。为了 分 析 跨 数 据 集 泛 化 属 性 , 我 们 在 最 近 发 布 的nuScenes数据集的预告片上训练了另一个模型[5],并在KITTI上进行了测试。我们不进行跨数据集训练。培训/评估程序。为了获得2D关节和距离的输入输出对,我们应用了现成的姿态检测器,并使用0.3的交集将我们的检测与地面实况相匹配,获得了KITTI的5000个实例和nuScenes teaser的14500个实例。KITTI图像被放 大 两 倍 以 匹 配 COCO 实 例 的 32 像 素 的 最 小 尺 寸NuScenes我6866(二)在两种不同的条件下。遵循KITTI指南,我们根据边界框高度、遮挡和截断水平将实例分为三种难度:容易、中等和困难。我们还比较了结果对任务误差的方程。2,其定义了由于任务的模糊性而导致的单目方法的目标误差。几何方法。三维行人定位是一个病态的任务,由于人体的高度变化。另一方面,估计已知尺寸的对象从其投影到图像平面中的距离是众所周知的确定性问题。作为一个基线,我们认为人类作为固定的物体具有相同的高度,我们investigate的定位精度在此假设下。对于每个行人,我们应用姿势检测器来计算图像域中不同身体部位之间的像素距离。将这些信息与人在世界域中的位置相结合,我们分析了训练集中所有物体的真实尺寸(以米为单位)的分布,分为三个部分:头到肩,肩到髋和髋到踝。6867图4.所有方法通常检测到的实例的平均定位误差。我们的性能优于单目Mono3D[8]同时实现与立体声3DOP相当的性能[9]。单目的性能是有界的,我们的建模任务误差方程。二、对于我们的计算,我们假设相机的针孔模型,并且所有实例都是直立的。使用摄像机固有矩阵K并且知道每个实例D= [xc,yc,zc]T的真实位置,我们可以将每个关键点从图像平面反向投影到其3D位置,并且使用等式(1)测量每个段的高度。3.我们计算训练集中所有实例的每个片段的平均值和标准差(以米为单位)标准偏差用于选择最稳定的段用于我们的计算。例如,头部相对于肩部的位置可以针对每个实例变化很多。为了考虑2D关节预测中的噪声,我们还对左右关键点值进行平均。 的其结果是一个单一的高度y1 - 2,它代表两个身体部位的平均长度实际上,我们的几何基线使用肩-髋部分并预测平均身高为50。5厘米将第3节中描述的人体身高研究[52]与Drillis等人的人体解剖学研究相结合。[12],我们可以将我们的估计身高1 - 2与人类的平均肩臀高度进行比较:0的情况。288* 171. 5厘米= 49。3厘米下一步是计算每个输入的位置已知所选关键点v1和v2的像素值,并假设∆y1−2是它们的相对距离(以米为单位)。这种配置需要用两个镜面解来求解过约束线性系统,其中只有一个在相机视场内。基线。我们将我们的方法在KITTI上与两种单目方法和一种立体方法进行比较:• Mono3D[8]是一款用于汽车的单目3D物体探测器, 自行车和行人。三维定位图5.由MonoLoco预测的任意不确定性的结果(扩展b)和由于人类身高变化而建模的任意不确定性(任务误差e)。项b−e表示由噪声观测引起的任意不确定性。在最上面的图中,我们使用短轴为一米的椭圆作为参考,在各种距离处,将平均预测置信度和地面真实置信度可视化为t值±b和±e|X-µ|/σ|σ - -e的缩写|[m]召回率[%]p下降= 0。050.600.9082.8p下降= 0。20.580.9684.3p下降= 0。40.501.2688.3表2. KITTI验证集50次随机向前传递的不确定性的精确度和召回率。|是定位误差,σ是预测置信区间,e是任务误差模 。 |is the localization erro r,σthepredictedconfidenceinter val,eˆthetaskerrormod-在Eq。召回率由预测置信区间内的地面实况实例的百分比表示。行人不被评估,但是检测结果是公开可用的。• MonoDepth[19]是单目深度估计器,其预测图像中每个像素的深度值。要估计每个行人,我们使用PifPaf检测2D关节,并计算每个关键点周围9个像素的深度。然后,我们将最小深度视为参考值。实验上,与平均深度相比,最小深度增加了性能。根据深度,我们使用边界框的中心的归一化图像坐标来计算距离d• 3DOP[9]是一种用于行人、汽车和骑自行车者的立体方法,其3D检测是公开可用的。5.3. 结果定位精度。表1总结了我们对KITTI的定量结果。我们强烈优于所有其他单眼方法的所有指标与任何6868图6.模拟一个人躺在地上的异常情况。在顶部图像中,预测的置信区间较小,并且检测准确。在下面的图片中,我们通过在地面上投影原始姿势来创建一个网络预测更高的不确定性,这是警告分布外样本的有用指标。Mask R-CNNALE [m][21日]10020103020+30所有几何0.791.523.179.083.73L1损失0.851.172.244.112.14高斯损失0.901.282.344.322.26拉普拉斯损失 0.741.172.254.122.12[第28话]ALE [m]+3010020103020所有几何0.831.402.153.592.05L1损失0.831.242.093.321.92高斯损失0.891.222.143.501.97拉普拉斯损失0.751.192.243.251.90表3.不同损失函数和姿态检测器对nuScenes预告片验证集的影响[5]。方法\时间[ms]不构成t车型t总计Mono3D [8]-180018003DOP [9]-20002000我们的(1次向前传球)89 /1621099 /172我们的(50次向前传球)89 /16251140 /213表4.使用Pifpaf作为姿态检测器的KITTI数据集在GTX 1080 Ti上的单图像推理时间我们只考虑具有阳性检测的图像。大部分计算来自姿态检测器(ResNet 50 / ResNet 152主干)。对于Mono3D和3DOP,我们报告了Titan X GPU上发布的统计数据。两个模型在KITTI或nuScenes上训练。我们使用立体方法3DOP [9]获得了可比较的结果,该方法已在KITTI上进行了训练和评估,并在训练和测试期间使用了立体图像。在图4中,我们对平均定位误差作为地面真值距离的函数,而图7显示了来自KITTI和nuScenes数据集的挑战性图像的定性结果。一个视频与其他结果可在网上。二、偶然的不确定性我们在图5中比较了由我们的网络通过扩散b预测的任意不确定性与由于等式中定义的人类高度变化引起的任务误差。2.预测的扩展b是每个输入集合的属性,并且不同于e,不仅是距相机d的距离的函数。实际上,预测的任意不确定性不仅包括由于任务的模糊性而导致的不确定性,还包括由于噪声观测而导致的不确定性[25],即,推断的二维关节姿态检测器。因此,我们可以近似地将由于噪声关节引起的预测iv e随机不确定性定义为b−e,并且我们观察到,人离相机越远,项b−e就越高。展布b是模型的概率解释的结果,并且结果校准置信区间在KITTI验证集上,它们包括68%的实例。组合不确定性组合的任意和认知的不确定性被捕获的采样从多个拉普拉斯分布使用MC dropout。不确定性的大小取决于等式(1)中所选择的丢弃概率pdrop。5.在表2中,我们分析了不同丢失概率的精确度/召回率权衡,并选择pdrop= 0。二、我们执行50个计算昂贵的向前通过,并为他们中的每一个,100个计算- ally从拉普拉斯分布便宜的样本,使用Eq。6. 因此,84%的行人位于KITTI验证集的预测置信区间内我们的最终目标是让自动驾驶汽车变得安全,能够预测置信区间而不是单一的回归数是朝着这个方向迈出的第一步。为了说明预测区间优于点估计的好处,我们构建了一个受控风险分析。我们将所有这些情况定义为高风险情况,其中地面真实距离小于预测距离,因此更有可能发生碰撞。我们估计,在1932年检测到的行人在KITTI匹配地面真相,其中48%被认为是高风险的情况下,但其中89%的地面真相在于预测的区间内。离群值。利用2D关节操作的简单性,我们分析了预测的不确定性在异常值的情况下的作用。如图6所示,我们重新创建了一个人躺下的姿势,并将其与同一个人站起来的“标准”检测进行比较当行人躺下时,网络预测一个不寻常的大置信区间,其中包括地面实况位置。2https://youtu.be/ii0fqerQrec6869图7.KITTI [18](顶部和中部)和nuScenes [5](底部)数据集的结果图示,包含真实和推断的距离信息以及置信区间(由短轴为1米的椭圆我们观察到在遮挡的情况下预测的不确定性增加(底部图像,行人1和2)。在图7的底部图像中,我们还突出显示了在部分被遮挡的行人(行人1和2)的情况下模型的行为,其中当与在类似距离处的可见行人相比时,我们还凭经验观察到更大的置信区间。消融研究。在表3中,我们分析了选择具有不同损失函数和确定性几何基线的自上而下或自下而上姿态检测器L1型损失比高斯损失表现稍好,但主要的改进是通过选择PifPaf作为姿态检测器给出的运行时间。 运行时间比较如表4所示。 我们的方法是9-20倍的速度比比较的方法(取决于姿态检测器主干),并且它是唯一适合于实时应用的。6. 结论我们提出了一种基于单目图像的三维行人定位新方法,该方法通过预测校准的置信区间来解决任务的内在模糊性我们已经表明,我们的方法甚至在更远的距离处优于立体方法,因为它对低分辨率成像问题不太敏感。对于自动驾驶应用,将我们的方法与立体方法相结合是准确,低成本和实时3D定位的一个令人兴奋的方向。鸣谢我们感谢三星和Farshid Moussavi对我们的支持,感谢他们提供的有益讨论。6870引用[1] Alexandre Alahi,Michel Bierlaire,and Murat Kunt.与固定摄像机协作的移动摄像机的对象检测和匹配在多相机和多模态传感器融合算法和应用研讨会-M2 SFA 2 2008年,2008年。[2] 亚历山大·阿拉希,米歇尔·比尔莱尔,皮埃尔·范德根斯特.使用低分辨率摄像机在城市环境中进行鲁棒的实时行人检测。交通研究C部分:新兴技术,39:113[3] Alexandre Alahi,Albert Haque,and Li Fei-Fei. Rgb-w:当 视 觉 遇 上 无 线 。 IEEE International Conference onComputer Vision(ICCV),第3289-3297页,2015年[4] CharlesBlundell,JulienCornebise,KorayKavukcuoglu,and Daan Wierstra.神经网络中的权重不确 定 性 。 在 International Conference on MachineLearning,Proceedings of Machine Learning Research,第1613-1622页中。PMLR,2015.[5] Holger Caesar,Varun Bankiti,Alex H Lang,SourabhVora,Venice Erin Liong,Qiang Xu,Anush Krishnan,Yu Pan , Giancarlo Baldan , and Oscar Beijbom.nuscenes:用于自动驾驶的多模态数据集。arXiv预印本arXiv:1903.11027,2019。[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2d姿态估计。IEEE计算机视觉和模式识别会议论文集,第1302-1310页,2017年。[7] Florian Chabot 、 Mohamed Ali Chaouch 、 JaonaryRabarisoa 、 Ce´lineTeulie`re 和 ThierryChateau 。Deepmanta:一个从粗到细的多任务网络,用于从单目图像进行联合2D和3D车辆分析。在IEEE计算机视觉和模式识别会议中,第1827-1836页[8] Xiaozhi Chen , Kaustav Kundu , Ziyu Zhang , HuiminMa,Sanja Fidler,and Raquel Urtasun.用于自动驾驶的单目3d物体检测。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第2147-2156页[9] Xiaozhi Chen,Kaustav Kundu,Yukun Zhu,Andrew GBerneshawi , Huimin Ma , Sanja Fidler , and RaquelUrtasun.用于精确对象类别检测的3D对象建议。神经信息处理系统进展,第424-432页,2015年[10] Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集(CVPR),第1907-1915页[11] Armen Der Kiureghian和Ove Ditlevsen。偶然的还是冲动的?有关系吗?Structural Safety,31(2):105-112,2009.[12] 鲁道夫·德利斯、雷纳托·孔蒂尼和莫里斯·布鲁斯坦。体段参数。纽约大学工程与科学学院,1969年。[13] 方浩书,谢淑琴,卢策武。区域多人姿态估计。IEEE国际计算机视觉会议(ICCV)论文集,第2353-2362页[14] Di Feng,Lars Rosenbaum,and Klaus Dietmayer.实现安全自动驾驶:在激光雷达3d车辆检测的深度神经网络中捕 获 不 确 定 性 。 在 IEEE 智 能 交 通 系 统 国 际 会 议(ITSC)中,第3266-3273页[15] JV Freeman、TJ Cole、S Chinn、PRh Jones、EM White和MA Preece。1990年英国横断面身高和体重参考曲线。Archives of Disease in Childhood,73(1):17[16] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似:在深度学习中表示模型的不确定性。在机器学习国际会议上,第1050-1059页[17] Yarin Gal Jiri Hron和Alex Kendall混凝土辍学。神经信息处理系统的进展,第3581-3590页,2017年[18] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun.视觉与机器人技术的结合:Kitti数据集 。 InternationalJournalofRoboticsResearch(IJRR),2013。[19] Cle' mentGodard,OisinMacAodha,andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集,第270-279页[20] 亚历克斯·格雷夫斯神经网络的实用变分推理。在Advances in Neural Information Processing Systems,第2348-2356页[21] Kai m ingHe , Geo r giaGkioxari , PiotrDol la'r ,andRossB. 娘娘腔。面具R-CNN。IEEE计算机视觉国际会议(ICCV)论文集,第2980-2988页,2017年。[22] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,第770-778页[23] 胡厚宁,蔡奇智,王德全,林吉,孙敏,菲利普·卡普尔,特雷弗·达雷尔和余费舍尔。 联合单目3d车辆检测与跟踪。arXiv,abs/1811.10742,2018。[24] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。[25] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性?神经信息处理系统进展,第5574-5584页,2017年[26] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[27] Muhammed Kocabas、Salih Karagoz和Emre Akbas。多个标签:基于姿态残差网络的快速多人姿态估计。在欧洲计算机视觉会议论文集(ECCV)中,第417-433页6871[28] Sven Kreiss Lorenzo Bertoni和Alexandre Alahi。Pifpaf:用于人体姿势估计的复合场。在IEEE计算机视觉和模式识别会议(CVPR)的论文集中,第11977-11986页,2019年[29] Mikolaj E Kundegorski和Toby P Breckon.单目红外图像中行人实时三维定位与跟踪的摄影测量方法在SPIEOptics and Photonics for Counterterterrorism , CrimeFighting,and Defence,第9253卷,2014年。[30] Abhijit Kundu,Yin Li,and James M.瑞格3d-rcnn:通过渲染和比较进行实例级3d对象重建。IEEE计算机视觉和模式识别会议论文集,第3559-3568页,2018年。[31] Balaji Lakshminarayanan,Alexander Pritzel,and CharlesBlundell.使用深度集成的简单和可扩展的预测不确定性估计。神经信息处理系统进展,第6402-6413页,2017年[32] Peiang Li,Xiaozhi Chen,and Shaojie Shen.用于自动驾驶的基于立体r-cnn的3d目标检测。在IEEE计算机视觉和模式识别会议(CVPR)的论文集中,第7644-7652页[33] Ming Liang , BinYang , Shenlong Wang , and RaquelUrtasun.多传感器三维目标检测的深度连续融合在欧洲计算机视觉会议(ECCV)的会议记录中,第641-656页[34] 作者:Michael Maire,Serge J.卢博米尔?罗斯?布尔德 夫 Girshick , James Hays , Pietro Perona , DevaRamanan , PiotrDol la'r , andC.劳 伦 斯 · 齐 特 尼 克 。Microsoftcoco:上下文中的公共对象。欧洲计算机视觉会议(ECCV),2014年。[35] Fabian Manhardt , Wadim Kehl , and Adrien Gaidon.ROI-10 d:将2d检测提升到6d姿态和度量形状的单目提升在IEEE计算机视觉和模式识别会议(CVPR)中,第2069-2078页,2019年。[36] Julieta Martinez、Rayat Hossain、Javier Romero和JamesJ Little。一个简单而有效的三维人体姿态估计基线在IEEEInternationalConferenc
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功