单视角下基于人体姿态的相机自动校准和物理距离估计

22 浏览量更新于2023-10-15 收藏 2.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1×个×个基于人体姿态的Xiaohan Fei Henry Wang Lin Lee Cheong Xiangyu Zeng* Meng Wang Joseph Tighe亚马逊网络服务{xiaohfei，yuanhenw，lcheong，xianzeng，mengw，tighej}@amazon.com摘要我们提出了一个完全自动化的系统，同时估计相机的内在，地平面，和人之间的物理距离，从一个单一的RGB图像或视频捕获的从固定视点观察三维场景的照相机。为了自动化相机校准和距离估计，我们利用关于人类姿势的先验知识，并开发了一种用于基于姿势的自动校准和距离估计的新的直接公式，其在公开可用的数据集上显示出最先进的性能。所提出的方法使得现有相机系统能够测量物理距离而不需要专用校准过程或范围传感器，并且适用于广泛的使用情况，诸如社交距离和工作场所安全。此外，为了实现该领域的评估和驱动研究，我们对公开可用的MEVA数据集做出了贡献，具有额外的距离注释，从而产生1. 介绍从单个视图估计对象之间的物理距离是计算机视觉中的新兴且具有挑战性的问题。该任务对许多现实世界的情况具有广泛的适用性，诸如决定自主车辆和机器人中的适当移动、确定运动员之间的距离以及估计开放空间中的人或危险物体用于该任务的标准的基于图像的方法通常需要复杂的工厂或现场摄像机校准程序[19，30，54，57，11]（例如，使用棋盘）或专用硬件。前者测量从多个观测点观察的3-D场景的欧几里得重建内的距离。[2]这是项羽在亚马逊工作时完成的图1：我们的全自动系统的样品输出（最佳视图为5和彩色）（第2节）。5）在社交距离方面具有潜在的应用。左图：该图由牛津镇中心数据集[20]生成，其中青色网格表示估计的地平面（每个单元格为6英尺）。六英尺。），红色表示人与他人的距离在6英尺以内，即可能不安全的社会距离指南[13]，绿色意味着安全，链接显示每个人右上：场景的自上而下视图。右下：被认为不安全的个体随时间聚集的热图，其可以指导安全措施，例如，工作场所重新安排，采取。通过至少一个移动的或多个静态的预校准的摄像机来确定有利位置。后者利用RGB-D相机或距离传感器，其中度量距离测量是直接可用的。这些摄像机价格昂贵，没有广泛部署，并且在范围和操作条件方面受到三个挑战限制了对象距离估计的广泛采用：（i）大多数可用的视频摄像机仅输出RGB图像，（ii）对于绝大多数未校准的、已经安装的摄像机，现场应用基于标准棋盘的校准是极其昂贵的，以及（iii）在大多数安全设施中，场景仅可从一个摄像机视图观察到。我们提出了一种距离估计方法，该方法可以应用于单视图RGB图像，该图像利用场景中存在的粗略已知尺寸的参考对象，例如汽车、家具、窗户等。“1240612407固定摄像头特别地，当图像中的人的存在我们遵循在基于人体姿势的自动校准中常用的假设[33，34，6，28，26，35，29，23，50]：人直立在公共地平面上，并且可以近似为已知恒定高度的垂直线段当前公开的方法需要首先相交和拟合线的顺序步骤以计算垂直消失点和水平线[18]，然后提取相机参数。我们推导并提出了一个简单，更准确的方法来解决相机参数直接从关键点测量，只有三个线性方程。此外，我们联合估计地平面和3-D关键点从一个单一的视图。因此，我们的系统能够解决所有上述三个挑战。在本文中，我们证明了人与人之间的距离估计，但配方可以平凡gener- alized到其他对象类（大致）已知的尺寸。（i）我们导出了一种直接公式，其同时估计相机本征、地平面，并且通过求解三个线性方程从2-D关键点重建3-D点（Sect. （3）第三章。（ii）作为配方的应用，我们开发了一个完全自动化的系统（第5节），能够从一个RGB图像或视频中估计人与人之间的物理距离，而无需手动校准。（iii）由于没有合适的数据集用于距离估计任务（Sect. 2），我们在公开可用的多视图扩展视频与活动（MEVA）[27]数据集之上构建了MEVADA，以推动该领域的研究（Sect. （六）。MEVADA数据集可以在https：//feixh找到。github.io/projects/physical_distance/网站。2. 相关工作单图像3-D网络预测深度图[14，16，17]，重建3-D形状[46，55，51]，或从可用于物理距离估计的单个图像定位3-D人体骨架[42，56，49，38，5]然而，这些方法需要已知的相机参数并且对场景几何形状敏感。相反，我们采用了一种混合方法，其中2-D姿态检测器[52]向估计相机参数和物理距离的最小二乘估计器与单图像3-D网络相比，姿态检测器对相机和场景变化不太敏感，并且在训练中不需要3-D监督。单视图计量使用人体姿势来自动校准相机并不是什么新鲜事。[33，34，6]使用在人体上检测到的头部和脚部关键点来校准相机，这是一种类似于我们的设置，其中不使用时间信息相比之下，[28，26，35，29，23，50]跟踪行走的人，并使用头部和脚部关键点的轨迹来校准摄像机。无论方法如何，所有基于姿态的自动校准方法都假设关于人的高度的一些先验-[ 6，28，26，35，29，23 ]中标准假设包括（我们也采用）：定义地平线的主导地平面，直立的人可以近似为垂直线段和高度的先验在这些假设下，垂直线段彼此平行，并且在透视几何中，在无穷远处的垂直消失点处相交。由垂直线段的顶端和底端跨越的两个平面也是平行的，并且在透视几何中，它们在无限处相交的图像是水平线。因此，现有的基于姿态的自动校准方法使用标准技术1通过相交和拟合线来找到垂直消失点和水平线，并且只有这样，相机才能被自动校准。参数被提取。与现有方法不同，我们完全放弃了容易出错的线相交和拟合步骤。相反，我们从基础开始，并将问题用三个线性方程（Eq.（1）、（2）和（3）），并通过求解线性方程直接计算相机参数所提出的公式是更简单和更准确的，如两个模拟（节。4）和真实世界的实验（节。（六）。2-D人体姿态检测是在图像中定位一组人体关节（关键点）的任务[53，25]。姿态检测器中存在两种范例：自上而下[25，53，40，56，48]和自下而上[39、8、7、41]。在前者中，关键点在由人检测器产生的边界框内预测[15，45，21，31]。在后者中，关键点被预测并分组到全身姿势中。我们在端到端系统中采用HRNet [48]-（五）。从活动分析到身体重建以及二维人体姿势数据集[12，43，3，32，2]和3-D [24，47，4，37]由于研究兴趣的增加而越来越受欢迎。然而，没有一个例如，这些技巧可以在教科书中找到[ 18 ]的第215页关于计算消失点和p.年第218[18]关于计算消失线。12408·∈····∈ǁ ǁǁǁ×个∈∈--现有的数据集满足我们对评估距离估计的需要：2-D人体数据集通常在自然环境中收集，但缺乏3-D地面实况。具有3-D地面实况的3-D人体数据集通常在受控环境中收集，其中图像中有一个人[47，24]或几个人但处于非站立位置[37]-为此，我们用额外的距离注释来增强MEVA，从而产生新的MEVADA数据集（Sect.6.1）。3. 方法给定RGB图像I：R2Ω›→R3 -帽-响应踝关节中心XB，i沿着法线N通过恒定高度h>0作为XT，i=XB，i+hN，遵循在第12节中的恒定高度和直立站立假设二、由i和j索引的人之间的距离则为di，j= XB，i− XB，j。3.2. 校准设xT，i，xB，iR2是第i-th 把不同的-两个投影的有效性，并代入XT，i=由未校准的+摄像机里的人XB，i+h·N，我们有我们要估计它们之间的物理距离我们首先进行联合摄像机自动标定λT，ix¯T我-λB，ix¯ B我=h·KN。（一）和度量重建通过求解三个线性为了消除未知的深度λ，我们左乘具有测量的2-D人体关节关键点的方程。估计成对距离则是平凡的给定bothsidesbyyx¯ T我××¯ B我导致重建。二维关键点x3∈Ω是（x¯T，i×x¯B，i）TKN=0（2）上定义的三维关节关键点X∈R的投影人体这样的关键点可以容易地被现代姿态检测器检测到，HRNet. 我们的系统遵循一个共同的假设，提出了基于姿势的校准（节。2），其中测量值取自预期彼此垂直对准的任何一对关键点。在我们的方法中，我们使用脚踝和肩膀中心点，即每个人的两个脚踝和肩膀关键点的中间点我们进一步假设针孔相机模型，其中相机的主点与图像中心重合-这在不损失一般性的情况下，我们移动2-D关键点，使得亲这是对v，KN 从图像中可见的所有人收集约束，我们有一个线性系统Av=0，其中ARN×3的第i行是s（x¯T，ix¯B，i）T. 为了解决它，我们选择最小二乘问题min vAv 2的最优解，以避免平凡解v =0，可以通过奇异值分解（SVD）[ 18 ]来解决。当在一般配置中至少有两个人可见时，存在唯一的解决方案由于上述线性系统是标度不变的，因此我们只能求解到标度，即。e. ，我们使用vev~=µv作为我们的解决方案，其中µR是任意比例因子。将ev~in代入Eq. （1）、我们求解深度投射矩阵采取形式K=diag（fx，fy，1）。每个单独的λ~T，i、λ~B，i具有相同的缩放比例我们接下来恢复的因数μ3.1.问题公式化不像以前的作品，对准地平面的xy平面的参考帧内的相机姿势gSE（3）估计，我们采用一个以摄像机为中心的公式，简化推导对于由（i，j）索引的一对人，ij和i，j∈{1···N}，我们导出以下约束2：v~TW（λ~B，ix¯B，i−λ~B，jx¯B，j）=0 （3）其在W，diag（1/f2， 1/f2， 1）中是线性的什么并产生更简单和更精确的数字x y溶液具体来说，我们参数化N∈R3，N=1，且到光学元件的距离ρ>0该约束意味着踝中心所跨越的平面实际上是地平面，并且因此正交于地平面法线。收集所有的成对约束，我们构造和中心然后我们用2 2TN（N−1）×2由踝关节中心点XB我 ∈R3as求解B[1/fx，1/fy]=y，其中B∈R2NTXB，i+p=0 [36]。然后，通过将人的肩部中心点XT，i ∈ R3的3-D坐标移位到R3的中心点来近似人的肩部中心点XT，i ∈ R3的3-D坐标2对于肩部中心，可以导出类似的约束，然而，其不是线性地独立于等式2。（3）在我们的估计器中不使用。124092Ⓢµ±F22N¯i=1err且y∈RN（N−1）×1.具体来说，[B|y]=方法在批处理模式下对最大内点集执行。在模拟中（Sect.4），我们重点分析v~T（λ~B，1x¯B，1−λ~B，2x¯B，2）T.v~T（λ~B，ix¯B，.i−λ~B，jx¯B，j）T。（四）求解器在无异常值和批处理模式下的数值行为在现实世界的实验（节。6），使用RANSAC+批量细化。时间复杂度当使用RANSAC时，需要几千次迭代来实现0.99 confi。v~T（λ~B，N−1x¯B，N−1−λ~B，Nx¯B，N）T其中，是分量乘积。为了求解线性系统，如果我们先验地知道fx=fy，则至少必须观察两个人，并且在线性系统中观察三个人。fx/=fy的一般情况。注意，这两项1/f2dence水平，每次迭代在恒定时间内求解一个小的批处理模式的复杂度是O（N2），其中N是场景中的人数。典型的运行时间是几十毫秒，最多几百人使用标准的Python实现和12Xnumpy图书馆在一个商品笔记本电脑与2.8/fy对解施加正性，这对于噪声测量可能不存在更多细节可以在Sect中找到1.1、1.2补充Mat.由于地面平面enormalN=1K−1v~isunitaryy，因此我们将缩放因子rµ=其中μ的符号通过确保深度λB，i，λT，i，i=1···N的手性来确定。3.3. 重建通过反投影获得每个人的脚踝和肩部中心的3-D 坐标：XB ， i=λB ， iK−1x¯B ， i ，XT ， i=λT ，iK−1x¯T ，i。然后，我们计算peo之间的成对距离。使用3-D关键点进行填充地平面偏移为GHz英特尔酷睿i7 CPU和16 GB内存。非线性细化为了进一步细化结果，我们使用Ceres-Solver[1]进行了非线性优化实验，其中使用所提出的解决方案作为初始化，使踝关节和肩部中心的重新投影误差最小化。然而，我们只观察到可忽略不计的增益，因此我们在我们的方法中不应用非线性细化。使用Fitzgibbon [11]的单参数分割模型对镜头畸变进行建模，并在仿真中进行实验。然而，我们通过实验发现，失真建模对测量噪声相对敏感，并且导致方法不像鲁棒性作为一个简单的针孔模型，因此，我们ρ=1h−NT1（X¯B+X¯T）其中X¯B=1ΣNXB，i交给门派吧。1.5添加剂Mat.是踝关节中心的质心，XT是肩关节中心的质心。3.4. 讨论在&以前的方法[28，6，33，50]中，垂直消失点和水平线首先通过线相交和拟合显式地找到，如在第11节中所述。二、然后仅在假设人的已知恒定高度的情况下相比之下，所提出的公式校准相机并且通过求解三个线性方程来仅从2-D关键点重建3-D关键点，即，当量（1）、（2）和（3）。通过消除容易出错的线相交和拟合步骤，我们的方法更准确，如两个模拟（ Sect.4 ）和真实世界数据集（ Sect.（六）。RANSAC所提出的方法可以用于批处理模式和作为RANSAC循环中的最小求解器两者，以进一步稳健估计。当在RANSAC中使用时，两个人（三个在4. 仿真我们首先描述的评价指标，然后分析的方法，以不同的噪声源在不同的水平的敏感性。在模拟中，我们根据高度和正交性假设随机生成关键点测量（Sect. 2），并将它们传递给我们的直接线性求解器。为了证明我们的方法的数值优势，我们使用相同的模拟测量基线求解器，使用线相交和拟合。在相同输入条件下，排除了测量质量对估计精度的影响。由于基于线相交和拟合的现有技术不是公开可用的，我们使用[ 18 ]中的线相交拟合技术实现了4.1. 评估指标焦距误差f_err被定义为正常的的情况）来计算模型参数，并且内点估计的焦距与真实焦距，即， f= |f− f|× 100%，其中在其余的数据点中找到。通过应用所提出的f和f是估计的和地面实况焦点长度分别。12410× ×××个FH地平面误差由两项组成：正规误差 Nerr=arccosNTNin度，i. e. ，由估计的和真实的地面所跨越的角度平面法线，距离误差ρ err= |ρ−ρ|×100%，算法的尺度类似于测量噪声的变化，但始终比所提出的方法更差。其中（Nρ，ρ（）和（N，ρ）是估计的，并且地面真实地平面参数。定义第i个点的重建误差由于绝对估计误差Xi-Xinor-由其到摄像机的距离实现，即， XXi，err=Xi估计和地面实况3-D点在相机帧。归一化使得在到相机的不同距离处的3-D点对误差度量的贡献相等，否则3-D点的未归一化绝对误差随着其到相机的距离而增长。当存在多个点时，平均误差用作总体质量度量。4.2. 敏感性分析和比较无噪声模拟在这个实验中，我们用3种分辨率的图像来测试我们的方法，即640四百八十，一千二百八十720年和1920年1080用于摄像机。对于每个分辨率，我们测试4个视场（FOV），即45、60、90和120度。假设垂直FOV为θ，则沿y轴的地面实况焦距由表1：随着测量噪声变化的估计误差。我们将图像分辨率固定为1920 × 1080，FOV固定为90 ◦，并进行了5,000次试验的Monte Carlo实验。变化的标准偏差的零均值高斯噪声被添加到测量。对高度的敏感性在基于姿势的校准中广泛使用的假设之一（我们也使用）是场景中的人具有已知的恒定高度。这在现实中是不正确的。我们通过扰动场景中人的高度来测试我们的系统对高度变化的敏感性使得其分布遵循截断的高斯分布，然后生成噪声测量并将其传递给我们的求解器。表2中的结果表明，我们的求解器对高度变化非常鲁棒无论tan（θ/2）=H/2y其中H是变化，我们提出的方法始终估计误差小于基线。形象然后生成地面实况fxNumber 的测量虽然我们的方法fx=W·fy，其中W是im的宽度。使用最少数量的测量年龄我们对每个分辨率FOV对进行5，000次试验的Monte Carlo实验。在每次试验中，我们随机抽取3对样本（所需的最小测量次数，见第2.2节）。3.2）的3-D踝关节和肩部中心点，满足第3.2节中所述的模型假设。二、然后，我们将3-D点投影到图像平面上，并将得到的2-D投影传递给我们的求解器和基线求解器。我们观察到，在两个求解器中，在所有相机配置中，在5，000次试验中平均的估计误差接近于0（机器精度）参见补充Mat.第2节分项估计误差。对测量噪声的灵敏度我们加上零-平均高斯噪声的变化的标准偏差的测量-可能导致无法解决的问题（节。3.2），因此我们引入失败率来反映估计失败的百分比。表1总结了其中估计误差的增长相对于噪声标准是经验线性的结果为了实现期望的准确度水平，可以使用更多的测量，如表3所示。作为比较，基线中的估计误差一个单一的图像，我们发现，这两个估计误差和失败率降低给出更多的measures。这一发现的实际意义在于，可以通过聚合来自多个视频帧的测量表3总结了结果。基线中的估计误差没有像我们的方法中的估计误差那样快速地减小，并且始终较大。STD.的高度米误差Alg.0.050.10.150.20.25fx（%）我们4.668.1811.6013.1013.87基线7.3911.7714.1415.7316.14fy（%）我们5.207.5211.1711.7412.25基线6.8010.3912.3913.9714.78N（◦）我们0.791.351.872.202.40基线1.412.423.023.643.77ρ（%）我们2.063.524.885.776.45基线3.716.277.839.199.78X（%）我们4.918.0310.5212.3613.81基线8.5614.3815.8020.4120.37不合格（%）我们1.442.303.484.465.36基线2.744.666.126.807.68表2：随着高度变化的估计误差。设置与表1中相同，除了我们（i）将测量噪声std固定为0.5像素，以及（ii）从范围为1的截断高斯采样人的高度。5米到1. 9米，平均值为1。7m，以及变化的标准偏差。措施尺寸号ISE标准以像素为单位误差方法0.10.20.51.02.05.0fx（%）我们0.651.663.116.0411.9328.03基线1.202.004.588.4314.9032.69fy（%）我们0.731.672.995.5110.5224.97基线1.271.954.337.7113.9727.44N（◦）我们0.090.180.450.901.844.60基线0.200.330.831.713.729.70ρ（%）我们0.240.501.232.384.8612.41基线0.510.882.245.1513.1839.08X（%）我们0.671.362.885.3310.7124.70基线2.163.276.1610.5617.3131.5712411K，Ima估计器姿态检测流水线2-D关键点关键点边界检测器盒检测器（R-CNN）（HRNet）人葛重建校准乐表3：随着人数变化的估计误差。设置与表2中的相同，除了我们(i)将高度std设置为0。Im，以及（ii）改变测量的次数。5. 系统概述通过将我们的校准和重建算法与现成的姿态检测模型相结合，我们构建了一个端到端运行的全自动距离估计系统：它以单个RGB图像或由同一静态相机捕获的视频作为输入，并输出相机校准和人体上的3-D关键点。牛津镇中心数据集[20]的样本输出见图1Mat.我们采用HRNet [48] -一种性能最佳的姿态检测器。由于HRNet是一种自上而下的方法，需要将人的图像裁剪作为输入，因此我们首先运行Mask R-CNN [21]中的人物检测器HRNet和Mask R-CNN都在COCO数据集上训练[32]。图2示出了所提出的系统的流程图，其中姿态检测流水线获取单个图像并输出2-D关键点的列表，然后估计器将关键点作为输入并估计校准参数（K， N，P ）和 3-D关键点（X）。用于视频图2：所提出的基于人类姿势的自动校准和距离估计系统的系统流程图。在固定视点记录的视频帧中，我们通过姿势检测流水线迭代视频帧。然后，每帧关键点被连接成一个批次，并立即传递给估计器。在估计器中，执行RANSAC，然后对最大内点集进行批量细化。这个过程是用于视频数据在现实世界的实验（节。6.2）。6. 实验所提出的系统具有两个功能，相机自动校准和距离估计，我们在本节中对两者进行在三个公开可用的数据集上评估校准功能：[27][28][29]所有的数据集都包含室内和室外人类活动的视频，并由校准的摄像机捕获vPTZ和POM的子集已经被现有技术[33，34，6，50]用于评估基于姿态的自动校准，我们也在第6.2节中使用和比较。然而，上述三个数据集和任何现有的2-D和&3-D人体姿势数据集都不适合于评估距离估计任务。二、我们解决这个问题，通过增加MEVA节。6.1. 然后，我们评估我们的距离估计方法以及基于学习的基线在节。6.36.1. MEVADA：带距离注释的MEVAMEVA [27]由数千个由校准摄像机捕获的人类活动视频组成，但没有地面实况3-D位置注释。我们用距离注释对其进行了增强，从而产生了新的为了构建MEVADA，我们首先对包含地面实况校准的MEVA中的每个摄像机捕获的视频进行采样。然后，我们在Mask R-CNN [21]预测的每个视频帧中随机采样人物边界框对多个注释器为采样对选择4个距离类别之一：（a）0 - 1米，（b）1- 2米，（c）2- 4米，和（d）更大超过4米，并且多数票被用作地面实况标签。我们还要求注释器整理出Mask R-CNN预测的错误边界框。在注释中使用离散标签而不是连续标签，因为人类很难从2D图像中准确地感知3D距离，因此注释者通常感觉更舒适，并且在范围方面做得为了收集真实的距离，需要仔细设置多个摄像头和/或距离传感器，我们将其作为未来的工作。总而言之，MEVADA包含4667帧用地面实况度量距离标注的帧，我们将其分成746张图像的测试集和3921张图像的训练集。我们在训练集上训练用于距离估计的基线模型，然后在测试集上评估基线和建议的在MEVA中的28个校准摄像机中，2个摄像机的视频根本不包含人-Num人口误差Alg.5102050100fx（%）我们21.0314.158.176.365.27基线21.5315.6212.4011.5912.39fy（%）我们20.3811.478.245.444.78基线17.5314.1113.0512.7912.55N（◦）我们3.872.211.390.920.76基线4.873.622.932.702.61ρ（%）我们10.245.793.872.662.19基线13.719.337.606.776.19X（%）我们16.3112.7310.399.509.31基线20.5519.9418.0018.5717.91不合格我们9.884.702.281.841.5212412∼因此我们在评估中忽略它们6.2. 评估摄像机校准MEVA中的每个视频片段长5分钟，大部分时间不包含人。因此，对于MEVA中的26个测试摄像机中的每一个，我们随机采样多达5个视频片段，以确保HRNet检测到合理数量的人类关键点。然后，我们将每帧关键点串接成一批，并执行RANSAC+批细化，如第2.1.1节中所述五、由于MEVA中的地面实况不包含地平面参数，因此我们仅在表4中报告焦距误差，并在图4中定性地显示地平面估计4.第一章每个相机的分项估计误差可以在Supp. Mat.第4节。结果表明，我们的基于姿态的自动校准方法在具有挑战性的真实世界数据上90%的时间内都能很好地捕获焦距（误差高达一些测试摄像机仅包含视频，其中所有人都离摄像机非常远或在空间中分布非常不均匀，这对我们的校准算法提出了挑战-前者包含明显更多的测量噪声，后者使我们的求解器产生这些挑战导致相对较高的估计误差，如表4所示。如果相机观察场景足够长的时间段，使得人将出现在相机附近并且在空间中更均匀，则可以预期更好的校准。误差（单位）minMaxP90是说STDfx（%）2.5770.2745.3623.2116.75fy（%）0.4466.1246.7125.4917.46表4：MEVA上的相机校准。 P90表示误差分布的第90百分位数。我们将我们对vPTZ [43]和POM [12]数据集的焦距估计与现有技术[33，34，6，50]进行比较，如表5所示。与现有技术相比，我们的新公式示出了在大多数测试序列上的估计误差的显著减少，因为我们避免了容易出错的线相交和拟合过程。我们还将我们的方法与ES-THER [ 50 ]进行了比较，ES-THER [50]是一种我们注意到[50]的典型运行时间约为50秒，这是由于其进化优化方案3，而我们的线性求解器实现了更好或相当的结果，如图11所示。3[50]声称其方法的子系统的复杂度为O（N2）。然而，他们的进化算法的收敛速度没有解决，只有经验的运行时间报告。表5的成本的一小部分（通常是几毫秒，见节。3.2时间复杂度）。Seq.f gt（pix. ）方法fest（pix. ）误差#1vPTZ [43]设置1-凸轮-1311056.81[33]第三十三届1044百分之一[34个]1034百分之二[6]美国N/A[50个]N/A我们1106.374.7%#2vPTZ [43]设置1-凸轮-1321197.80[33]第三十三届1545百分之二十九[34个]1427百分之十九[6]美国1019百分之十五[50个]N/A百分之十点一四我们1201.940.35%#3vPTZ [43]set2-cam1321048.15[33]第三十三届N/A[34个]N/A[6]美国787百分之二十四点九二[50个]N/A百分之十二点零七我们1160.7610.74%#4POM [12]平台1-cam 0807[33]第三十三届N/A[34个]N/A[6]美国8505.33%[50个]N/A1.43%我们786.772.51%表5：焦距估计的比较。我们报告了我们的结果以及从[ 6 ]的表2& - 4和[ 50 ]的表2中获得的结果-最佳执行的基于姿势的自动校准方法。fgt和fest是真实焦距和估计焦距。N/A表示引用的论文未报告结果。最佳结果以粗体显示。6.3. 评估距离估计我们重建的3-D点使用摄像机calibrated节。6.2，然后计算人与人之间的成对距离。与具有3-D地面实况的模拟不同，我们只有离散距离标签，因此将距离估计的评估视为分类问题：我们将估计的距离量化为4个类别，并将它们与测试集中的地面真实标签进行比较，从而产生混淆矩阵，如图所示。3a. 结果表明，我们的方法(a) （b）基线图3：MEVADA测试集上距离估计的混淆矩阵（最佳颜色为5 ×）。大多数情况下都能捕捉到正确的距离该模型实现了高精度，特别是在光谱的两端-人们要么在0 - 1米之间，要么大于4米。对于中间的两个距离类，模型性能下降。直观地说，这些案例具有挑战性12413×个×个甚至对于人类注释者，例如，人类有可能将2.2米远人错误分类到1 - 2米的等级中虽然这是使用粗糙标签进行评估任务的限制，但我们发现我们的模型相当稳健，因为大多数错误分类的情况都属于相邻的距离范围。表6示出了每个类别的精确度-召回率和F1得分以及总体准确度。4显示了视觉结果，并在Supp. Mat.节4.第一章标签方法精度召回F1得分0 - 1米我们0.900.650.76基线0.370.290.321 - 2米我们0.610.720.66基线0.200.100.132 - 4米我们0.460.640.54基线0.110.080.09> 4米我们0.900.920.91基线0.490.680.57精度我们0.78基线0.40表6：MEVADA测试集上的距离估计。基于学习的基线我们还将我们的距离估计器与基于学习的基线进行了比较，其中在ImageNet [10]上预训练的ResNet [22]支持的分类器被修改为执行4向分类，并在MEVADA训练集上进行了微调基线模型将所选择的一对人周围的作物叠加的空白图像作为输入，并预测距离标签。我们在MEVADA测试集上对基线进行基准测试，并在图中显示结果。3b和表6。不难看出，基线将大多数情况错误分类为0 - 1米或大于4米的类别，这是预期的，另一方面，我们的基于姿态的距离估计器是免费的距离监督，但显着优于基线。6.4. 定性分析我们在图中包括视觉结果4更好地证明所提出方法的优点和局限性。图4a、图4b、图4c和图4d是示例，其中（i）所估计的地平面准确地表示物理世界中的平面，以及（ii）所估计的距离与地面实况一致。此外，通过与场景中的参考对象进行比较例如，在Fig.在图4a中，一个人站在三分线附近，而另一个人正好在底线之外，我们估计的距离是12.8米-与半场的长度14.23米一致。我们还发现，我们的方法对于适度的镜头失真是第4b条）在地面上的小高度（图）。第4c段）。另一方面，几种情况对我们的方法提出了挑战。人们在楼梯上行走的情况如图所示。4e违反了公共接地平面假设并导致校准中的不准确。拥挤的场景使得人类关键点几乎不可见，从而导致不可靠的距离估计，如图IB所示。4楼(a) 篮球场（b）大楼入口(c)楼梯路(e)楼梯间健身房图4：MEVADA上的示例结果（最佳查看位置：5、颜色）。青色的规则网格表示地平面。每个网格单元为2米 2米。左上角显示了所选人员（在彩色边界框中）的距离估计（以米为单位）和地面实况标签。见第6.4更多详情7. 结论我们发现，该系统的有效性时，suffers的基本假设是满意的：平均高度，地面和线性度的摄像机本质。满足这些假设的常见设置包括交通位置、工厂车间和公共区域（如商场和人行道）的行人。类似于现有方法，当违背这些假设时，系统性能受到损害，具有楼梯和斜坡的不平坦地平面、具有非站立位置（例如坐着）的人以及高度扭曲的摄像机镜头等。可以在包含坐着的人或平均高度不同的人（例如儿童、妇女和男子之间的差异）的场景中添加附加的滤波器，代价是增加了系统复杂性。如果需要，可以使用铅垂线约束或基于学习的方法来校正镜头失真。12414引用[1] Sameer Agarwal ，Keir Mierle ，and Others. 谷神星解算器http://ceres-solver.org网站。四个[2] MykhayloAndriluka ， UmarIqbal ， EldarInsafutdi-nov ， LeonidPishchulin ， AntonMilan ， JuergenGall ， andBerntSchiele.Posetrack：人体姿态估计和跟踪的基准在IEEE计算机视觉和模式识别会议论文集，第5167-5176页，2018年。二个[3] Mykhaylo Andriluka ， Leonid Pishchulin ， PeterGehler，and Bernt Schiele. 2D人体姿势估计：新的基准和最先进的分析。在 Proceedings of the IEEEConferenceoncomputerVisionandPatternRecognition，pages 3686 二个[4] DragomirAnguelov 、 PraveenSrinivasan 、Daphne Koller、Sebastian Thrun、Jim Rodgers和James Davis。景观：人的形体完成与动画。ACMSIGGRAPH 2005论文，第408-416页。2005. 二个[5] Lorenzo Bertoni ， Sven Kreiss ， and AlexandreAlahi. 单目3d行人定位与不确定性估计。在IEEE计算机视觉国际会议论文集，第6861-6871页，2019年。二个[6] Guido MYE Brouwers，Matthijs H Zwemer，RobGJ Wijnhoven，等.野外台站监控摄像机的自动校准。欧洲计算机视觉会议，第743-759页施普林格，2016年。二三四六七[7] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用局部亲和场的实时多人2d姿态估计。arXiv预印本arXiv：1812.08008，2018。二个[8] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议论文集，第7291-7299页，2017年。二个[9] Antonio Criminisi ， Ian Reid ， and AndrewZisserman. 单视图计量。 International Journal ofComputer Vision，40（2）：123-148，2000. 二个[10] Jia Deng ， Wei Dong ， Richard Socher ， Li-JiaLi，Kai Li，and Li Fei-Fei.Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。八个[11] 安德鲁·菲茨吉本。同时线性估计多视图几何和镜头畸变。2001年IEEE计算机协会计算机视觉和模式识别会议论文集。CVPR 2001，第1卷，第I-I页。IEEE，2001年。1、4[12] Francois Fleuret ， Jerome Berclaz ， RichardLengagne，and Pascal Fua.使用概率占用图的多摄像机人跟踪 IEEE Transactions on PatternAnalysis and Machine Intelligence，30（2）：267-282，2007。二六七[13] 疾病控制和预防中心社交距离“https://www.cdc.gov/coronavirus/2019-ncov/prevent-getting-sick/social-distancing.html”。一个[14] Ravi Garg，Vijay Kumar BG，Gustavo Carneiro，and Ian Reid.用于单视图深度估计的无监督CNN：几何学拯救了我们。在ECCV。施普林格，2016年。二个[15] 罗斯·格希克。快速R-CNN。在IEEE计算机视觉国际会议论文集，第1440-1448页，2015年。二个[16] Clément Godard ， Oisin Mac Aodha ， andGabrielJBrostow. 具有左右一致性的无监督单目深度估计。在CVPR，2017年。二个[17] Ariel Gordon，Hanhan Li，Rico Jonschkowski，and Anelia Angelova.野外视频的深度：来自未知相机的无在IEEE计算机视觉国际会议论文集，第8977-8986页二个[18] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何。剑桥大学出版社，2003年。二、三、四[19] 理查德一世哈特利。从几个角度进行自校准的算法。在Cvpr，第94卷，第908- 912页中Citeseer，1994年。一个[20] 茱尔斯哈维，亚当。拉普拉斯百万像素：“在野外”创建的数据集的起点和终点1、6[21] Kaiming He，Georgia Gkioxari，Piotr Dollár，and Ross Girshick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页，2017年。二、六[22] Kaiming H

下载后可阅读完整内容，剩余1页未读，立即下载