没有合适的资源?快使用搜索试试~ 我知道了~
103ActiveMoCap:用于主动人体运动捕捉的优化视点Sena Kiciroglu1 Helge Rhodin1,2 Sudipta N.Sinha3 Mathieu Salzmann1 Pascal Fua11CVLAB,EPFL2 Imager Lab,UBC3微软摘要单目3D人体姿态估计的准确性取决于捕获图像的视点虽然自由移动的摄像机(例如无人机上的摄像机)提供对该视点的控制,但是将它们自动定位在将产生最高精度的位置处仍然是一个悬而未决的问题。这就是我们在本文中要解决的问题具体来说,给定一个短的视频序列,我们介绍了一种算法,预测应该选择哪些视点来捕获未来的帧,以最大化3D人体姿态估计精度。我们的方法的关键思想是一种估计3D身体姿势估计的不确定性的方法。我们整合了几个不确定性来源,源于基于深度学习的回归量和时间平滑度。我们的运动规划器产生改进的3D身体姿态估计和超越或匹配现有的基于人跟踪和轨道。1. 介绍近年来,用于3D人体姿态估计的单目方法有了显着改进,但其准确性仍然相对较低。在本文中,我们探索使用一个移动的摄像机,其运动,我们可以控制,以重新解决单目三维重建固有的模糊性,并提高姿态估计精度。这被称为主动视觉,并且在使用身体姿势估计的现代方法的背景下令人惊讶地很少受到关注主动运动捕捉系统,例如基于个人无人机的系统当仅使用一个相机时,这样的反馈的质量将强烈地取决于选择用于姿态估计的最有益图1描绘了基于无人机的单目相机的我们的方法的概述。在本文中,我们介绍了一种算法,旨在连续定位一个运动的摄像机在最佳视点图1. 方法概述。2D和3D人体姿势是使用现成的CNN从无人机镜头的当前帧推断出来的。最后k帧的2D姿态和相对3D姿态然后用于针对全局3D人体运动进行优化选择无人机的下一个视图,使得来自该视图的人类姿势估计的不确定性最小化,这提高了重建精度。以最大化自由移动对象的3D姿态估计精度。我们通过将摄像机在6D姿态空间中移动到最大化用于预测重建精度的效用函数的视点来实现这一点。然而,效用函数不能根据反射精度来定义,因为这样做需要知道真实的人和相机位置,从而导致鸡和蛋的问题。相反,我们使用预测不确定性作为准确性的替代这是机器人导航系统中用于未知场景的常见策略,其中机器人探索其内部地图表示中最不完整的区域[20]。然而,在我们的情况下,估计不确定性要困难得多,因为需要考虑多种不确定性来源这些包括关于主体接下来将做什么的不确定性、姿态估计算法的可靠性以及沿着相机的视线的距离估计104因此,我们的主要贡献是一个正式的模型,提供了后验方差的估计和概率融合这些来源的不确定性与适当的先验分布。这使得我们能够开发一种主动运动捕捉技术,该技术将原始视频片段作为来自移动航空相机的输入,并以针对人类运动捕捉优化的方式连续计算用于定位相机的未来目标视点。我们在两种不同的场景中演示了我们的算法,并将其与标准的几何学进行了比较,例如不断围绕主题旋转并保持与主题的恒定角度。我们发现,当允许选择下一个视点没有物理约束,我们的算法优于基线一致。对于模拟的无人机飞行,我们的结果与恒定旋转相当,我们得出结论,在没有障碍物阻挡圆形飞行路径的情况下,这是最佳的轨迹选择。我们的代码可从https://github.com/senakicir/ActiveMoCap2. 相关工作最新的无标记运动捕捉方法依赖于从单目图像回归3D姿势的深度网络[16,17,21,38,25,31,22,44,36,34,41,39,15]。虽然这些方法中有一些通过强制时间一致性来提高鲁棒性[23],但没有一种方法考虑主动控制相机可能对准确性产生的因此,与我们最密切相关的方法是那些优化多摄像机设置中的摄像机位置的方法,以及那些在以前未知的环境中引导机器人的方法。运动捕捉的最佳摄像机位置。 在静态多视图设置的背景下,最佳摄像机放置是一个得到充分研究的问题。现有的解决方案依赖于最大化图像分辨率,同时最小化身体部位的自遮挡[5,2]或目标点遮挡和三角测量误差[27]。然而,这些方法离线操作并且在预先记录的范例运动上操作。这使得它们不适合于使用单个移动相机的运动捕获,该单个移动相机在估计噪声可能很高的大得多的场景中拍摄先验在[24]中,使用自监督强化学习方法优化了多个摄像机的姿态,以用于圆顶环境中的关节三角测量。在我们的例子中,我们考虑单眼问题。我们的方法不是基于学习的,我们试图从损失函数本身获得下一个最佳视图。静态和人员重建的视图规划。 在主动重建和视图规划方面有很多机器人工作这通常涉及移动,以便最大化信息增益,同时最小化运动成本,例如通过将空间离散化为体积网格以及计数先前未见过的体素[14,8]或通过累积估计不确定性[20]。当粗略场景模型可用时,可以使用离线优化找到最佳轨迹[30,13]。这也是为了在电影摄影中实现所需的美学特性[11]。另一种方法是使用强化学习来定义策略[7]或学习度量[12]以用于稍后的在线路径规划。这些方法处理刚性不变的场景,除了[6]中的方法在信息增益最大化期间执行人的体扫描。然而,这种方法只能处理非常缓慢移动的人,他们呆在原地。无人机上的人体动作捕捉。 无人机可以被视为飞行相机,因此是我们方法的自然目标。然而,一个问题是无人机必须将人保持在其视野内。为了实现这一点,[45]的算法使用单目视频中的2D人体姿势估计和来自运动的非刚性结构来重建主体的铰接式3D姿势,而[18]的算法在线对主体AirCap [32]计算多个无人机的轨迹,这些无人机旨在保持人的视野,同时执行物体回避。这在[35]中进行了扩展,以便通过最小化跟踪的3D人体关节位置的不确定性来优化多个MAV轨迹,但重点关注3D人体姿势估计作为离线步骤。在[19]中,这被集成到一个自主系统中,该系统主动引导一群无人机,并同时从机载摄像机重建3D人类和无人机姿势该策略实现预定义的策略以保持与对象的恒定距离,并使用预定义的视角(两个无人机之间为90°这使得移动大规模的运动捕捉,但依赖于准确的2D姿态估计的标记。在[40]中,三架无人机用于无标记运动捕捉,使用RGBD视频输入来跟踪主体。简而言之,现有方法或者针对无人机放置进行优化,但是针对大多数刚性场景,或者估计3D人类姿势,但是不优化相机放置。[24]为多个摄像机执行最佳摄像机放置。在这里,我们提出了一种方法,旨在找到最好的下一个无人机位置的单目视图,以便maximize三维人体姿态估计精度。3. 主动人体动作捕捉我们的目标是在6D姿态空间中连续定位摄像机,以便摄像机获取的数据可以用于实现最佳的整体人体姿态估计精度。使这个问题具有挑战性的是,当我们决定将相机发送到哪里时,我们还不知道在哪里105m·−(−222BB目标会在什么位置我们不得不猜测。为此,我们提出了以下三个步骤的方法描绘图。一曰:1. 估计当前时刻的3D姿势。2. 预测摄像头获取下一张图像时此人各个术语定义如下。升力项Elift利用LiftNet [36]的3D姿态估计L因为这些是相对于髋部的,并且没有绝对比例,所以我们从绝对3D姿势中减去髋部位置,Θt,并将比例因子m应用于L,以在最小二乘意义上匹配骨骼长度bcalib我们写Σt3.选择最佳相机姿势的基础上uncer-tainty估计并将相机移动到该视点。我们将考虑相机可以移动的两种方式在E升力(Θ,L)=ωli=t−kLiΘiΘi髋关节)12,(2)第一种情况,摄像机可以从一个位置传送到另一个位置。接下来没有限制,允许我们探索我们方法的理论极限。这样的隐形传输模式可以使用多相机设置来模拟,使我们能够在模拟数据和真实图像上评估我们的模型其中ωl是其相对权重。投影项测量检测到的2D关节位置与估计的3D姿态在最小二乘意义上的投影之间的差异我们把它写成Σt从多个视点获取的数据集。在第二个更现实的场景中,相机由模拟无人机携带,我们必须考虑到物理限制,Eproj(Θ,M,D)=ωpi=t−k<$Mi−<$(Θi,Di,K)<$2,(三)它可以采取的行动。3.1. 3D姿态估计3D姿态估计步骤将来自机载相机的过去N个帧上的视 频 馈 送 作 为 输 入 , 并 且 针 对 每 个 帧 输 出 t∈(1,. . .,N),3D人类姿态,表示为15个3D点Θt∈R15×3,无人机姿态,作为3D位置和旋转角度Dt∈ R2×3。其中,ω p是透视投影函数,K是相机内参数矩阵,ωp是控制该项影响的权重。平滑度项利用了我们使用的是连续视频馈送,并且通过惩罚由有限差分计算的速度,运动是平滑的,Σt我们的重点是使用[3]提出的实时方法估计3D人体姿势,该方法检测人体Esmooth(Θ)=ωs以ωs作为权重。i=t-k+1(Θi+1− Θi)<$2.(四)Mt∈R15×2,以及[36]的后续使用,为了进一步约束解空间,我们使用这些2D预测到3D姿态,Lt∈R15×3。然而,在这方面,了解骨长度bcalib 在cali中发现,这些每帧估计是容易出错的,相机为了弥补这一点,我们在时空优化中融合了2D和3D预测与时间平滑度和骨骼长度约束。这利用了这样一个事实,振动和惩罚长度偏差。对于帧t,所有骨骼b all的集合中的每个骨骼b的长度被发现为bt=<$(Θb1-Θb2)<$2。然后,骨长度项定义为:不断地移动,以消除歧义的indi-vidual估计 用b口径ΣtE骨(Θ)=ωbΣd(bi,bcalib,b),(5)在先验校准阶段期间计算骨架受试者必须站着不动20秒每例受试者仅进行一次从形式上讲,我们选择-以ωb为权重。i=t−k b∈ball通过最小化目标函数Epose来最小化全局3D人体姿势,我们在下面详细描述。3.1.1制剂我们的主要目标是提高全球3D人体姿态估计的主题变化的位置和姿势。我们优化了最后k帧的时变姿态轨迹。设t为最后观察到的帧。我们在姿态矩阵Θ中捕获姿态Θt-k至Θt的轨迹。然后我们写一个能量函数完整的能量E姿态通过梯度分解被最小化。在每个控制周期的开始时使用气味,以获得用于控制的姿势估计。所得到的姿态估计是概率视图中的最大后验估计。3.1.2校准模式每名受试者只需运行一次校准模式,即可找到骨长度,b校准。在这种模式下,主体被假定为静止的。这种情况相当于从多个固定摄像机观察场景,例如106E姿势 =Eproj (Θ,M,D)+E电梯(Θ,L)如[29]。我们发现单一的静态姿态Θc,+E光滑(Θ)+E骨(Θ,b)。(一)E校准=Eproj(Θc,M,D)+E对称性(Θc)。(六)107√能量函数分布简单情况复杂情况及其二次/高斯近似图2. 概率解释。左:二次能量函数及其相关的高斯误差分布。右:一个复杂的能量函数,在最小值附近用高斯(蓝色)局部近似。能量函数的曲率是估计的置信度和相关误差分布的变化的度量右边的能量受到更多的约束,其误差分布具有较低的方差。在这个目标中,投影项Eproj类似于我们的主要公式中的投影它可以写成ΣtEproj(Θc,M,D)=ωp<$Mi−<$(Θc,Di,K)<$2,(7)图3.每个候选无人机位置的不确定性估计,左侧显示为3D椭圆体,右侧显示为2D自上而下视图。当从其显示位置合并附加视图时,每个椭圆可视化髋关节位置的特征值。这里,先前的图像是从顶部(位置16)拍摄的,并且通过移动到正交视图来最小化不确定性。完整的分布具有三个以上的特征向量,并且不能直接在3D中可视化。p. 特征值之和捕获具有单个变量的多变量分布的扩展利用这种不确定性i=0时对于我们的问题,我们现在扩展E构成建模ωp控制其影响。对称项E对称通过惩罚其长度的平方差来确保估计骨架的左右肢具有相同的长度。3.2. 下一个最佳视图选择我们的目标是找到无人机在未来时间步长t+1,Dt+1的下一个最佳视图。我们将在概率设置中对姿态估计的令p(Θ|M,D,L,b)是姿势的后验分布。然后,E姿态是其负对数,并且其最小化对应于最大后验概率(MAP)估计。在这种形式主义中,Epose中各个项的和模型,我们的后验分布是由独立的似然和先验分布。对于纯二次项E(x)= ω(x − µ)2,相应的分布E= exp(−E)是高斯分布,平均值为µ,标准差为σ=1 .一、值得注意的是,σ与2ω能量的权重ω大多数能源术语涉及非线性操作,例如E投影中的透视投影,因此引起非高斯分布,如图1所示二、然而,对于简单的二次情况,Eproj和Elift的权重ωp和ωl可以被解释为2D和3D姿态估计中的测量噪声量的替代不确定性的一个很好的度量是基础分布不仅是现在和过去的姿势,并以未来无人机位置的选择为条件为了确定最佳的下一个无人机姿态,我们对候选位置进行采样,并选择不确定性最低的位置该过程在图3中示出。未来姿势预测。在我们的设置中,考虑到人的动态运动是成功定位相机的关键 我们对人从当前帧t到接下来的M个未来帧t + i的运动进行建模,i ∈(1,. - 是的- 是的,M)线性地,即,我们的目标是在我们的帧窗口上保持关节的速度恒定。我们还通过骨骼长度项来约束未来的姿势未来姿态向量θt+i受平滑度和骨长度项约束,但现在不受任何基于图像的项约束,因为未来图像在时间上还不可用。t.最小化用于未来姿态的该扩展E 姿态给出MAP姿态θt+1 。它在保持骨骼长度的同时平滑地继续运动θ<$t-k,···,t+K由于我们只预测不久的将来,我们发现这种简单的推断就足够了。我们将使用更先进的方法[10,42]来进一步预测作为未来的工作未来的测量预测。我们的目标是找到未来的无人机位置,Dt+1,减少后不确定性,但我们没有来自未来视点的镜头来调节后。相反,我们使用预测的未来人体姿态Θt+i,i∈(1,. -是的-是的,M),作为Lt+i和用投影近似Mt+i108i=1构成Mt+1=K(θt+1,Dt+1,K)。(八)乍一看,将未来姿态约束在E姿态中的这些虚拟估计上不会增加任何东西,因为通过这种构造,项Eproj和Elift在θt+1处为零。然而,它改变了能量景观,并对未来观察将如何强烈地约束姿势后处理器进行建模。特别地,投影项Eproj在图像平面的方向上缩小了解空间,但不能在深度方向上约束它,从而产生了如图3所示的椭圆不确定性。所有项的组合影响被方便地建模为E姿态的能量景观及其相应的后验。在我们当前的实现中,我们假设2D和3D检测受到姿态无关噪声的影响,并且它们的方差分别由ωp和ωl捕获原则上,这些因素可以是视情况而定的,并且与人例如,[4]在重建前视图时可能比重建侧视图更准确然而,虽然估计深度网络中的不确定性是一个活跃的研究领域[26],但尚未尝试预测未观察到的视图的预期不确定性用于姿态估计。这是一个有趣的未来工作方向。方差估计量由于投影和先验项的存在,E pose及其对应的posterior具有复杂的形式。因此,所寻求的协方差ΔP不能以封闭形式表示,并且通过对所有可能姿态的空间进行采样来近似它将是昂贵的。在-相反,为了估计不确定性,我们近似p(Θ|D,M,L,b)局部地具有高斯分布q,使得p(Θ|D,M,L)q其中q=N(Θ|(9)其中,Θe和θq分别是高斯均值和方差矩阵。这种近似在图2中举例说明对于高斯分布,q的协方差可以以封闭形式计算为4. 计算并求和相应的特征值以选择具有最小不确定性的候选。讨论原则上,p(Θ|M,D,L,b),即最可能的姿势的概率,也可以用作一种手段。确定性的确定性,如在[27]中隐含地使用在已知的运动轨迹上,以最小化三角测量误差。然而,对于未来时间,E姿态的项Epro j(Θθ,Mθ)为零步骤t+i,因为Θt+i的投影等于Mt+i,因此是uninformateiv e。文献中提出的另一种替代方法是通过一阶估计[37]近似协方差,作为雅可比矩阵的函数。然而,由于Eproj的一阶梯度也在MAP估计处消失,因此这种近似在我们的情况下是不可能的3.3. 无人机控制策略与飞行模型在我们模拟无人机飞行的实验中,该算法在向上、向下、向左、向右、右上、左上、右下、左下和中心的方向上的9个候选轨迹之间做出决定为了确保无人机与人保持固定距离,方向矢量由固定距离值归一化。在本节的剩余部分中,我们描述了如何对无人机的飞行进行建模,以便我们可以预测无人机在未来时间步长中沿着潜在轨迹的通过预测无人机在潜在轨迹c上的未来M个位置,我们可以预测2D姿态估计。对于每个{i}M,Mint + i更精确。我们控制我们的无人机的飞行,通过它的德-最大速度保持恒定在5m/s时,所需的速度矢量和所需的偏航旋转量每隔一段时间,无人机就会收到一次新的指令。2秒。我们以如下方式对无人机飞行进行建模。我们假设无人机在一个时间步长Δ t内以恒定的加速度运动。如果无人机具有当前位置x电流和速度V电流,则在当前加速度a电流的情况下,其下一个位置x目标将是负对数似然,n=H−1,其中H−logq=x=x+Vt+0. 5a2.(十)二、− log q目标电流电流电流− log q(Θ)。. 在高斯假设下,.Θ=θp在时间t的当前加速度被发现为加权的因此可以很好地近似为E pos e的二阶梯度HE−1。我们的实验表明,这种简化,WW,以及为引进的误差项。为了在一组K个候选无人机轨迹中选择具有最小不确定性的视图,因此1. 优化E个姿势一次以预测M个人体姿势θt+i,其中1≤i≤M2. 使用这些预测的姿态来为每个候选轨迹c设置Lt+i和Mt+i3. 计算E姿态的二阶导数,c,其形成Hc,和输入加速度ainput和前一步加速度aprevious的平均值。这可以写成a当前=αa输入+(1 − α)a先前。(十一)根据被评估的候选轨迹来确定输入。加速度矢量的方向被设置为候选轨迹的方向我们通过预测的x目标和实际无人机位置之间的差异的最小二乘最小化来确定输入加速度的大小α是通过线性搜索找到的。通过估计无人机的未来位置,我们能够预测更准确的未来2D姿态估计,∂Θ109预测不确定度平均误差图4.无人机环绕目标飞行时的预测轨迹。未来无人机位置是针对未来3个步骤预测的,由轨迹上的三角形标记红色表示选定的轨迹。从而做出更准确的决策。预测轨迹的示例如图4所示补充材料中提供了更多细节4. 评价在本节中,我们评估通过优化无人机飞行实现的3D人体姿态估计的改进。模拟环境。虽然[28,3,36]是实时运行的,并且可以从单目相机[9]进行在线SLAM,但我们使用无人机模拟器,因为将所有组件集成到受限的无人机硬件上是困难的,超出了我们的专业知识。我们通过使用CMU Graphics Lab运动捕捉数据库[1]中的真实运动捕捉数据来驱动我们的角色,并使用AirSim [33]无人机模拟器,该模拟器基于虚幻游戏引擎,因此可以生成自然环境的逼真仿真还具有相同的实验可以用不同的参数重复,并直接与基线方法和地面实况运动进行比较的优点模拟测试装置。我们在三个难度递增的CMU运动上测试我们的方法:直线行走(受试者2,试验1)、旋转舞蹈(受试者5,试验8)和绕圈跑步(受试者38,试验3)。 此外,我们使用由篮球运球(受试者6,试验13)和坐在凳子上(受试者13,试验6)组成的验证集来进行超参数的网格搜索。真正的测试设备为了表明我们的规划器也可以在模拟器之外工作,我们在MPI-INF-3DHP数据集的一部分上评估了我们的方法数据集提供了14个固定视点,这些视点彼此之间以及与受试者之间的距离不同,如图6所示。在这种情况下,最佳下一视图被限制到14个固定视点之这个数据集让我们评估[28]的对象检测器、[4]的2D姿态估计方法和[36]的3D姿态回归技术图5.在潜在视点上的无偏估计(左图)与我们访问这些位置时获得的平均误差(右图)相比。星号表示拍摄对象的位置,大圆圈表示根据最低不确定性选择的视点。图6. MPI INF 3DHP数据集,其中包含从14个视点拍摄的图像,这些视点与受试者的距离不同。我们使用这个数据集来评估我们在具有现实相机定位和真实图像的数据集上的性能在真实环境中是足够可靠的。由于我们无法在此设置中控制摄像机,因此我们从我们预测主体将在视点之外的候选位置中删除这些摄像机。基线。现有的基于无人机的姿态估计方法使用预定义的策略来控制无人机相对于人类的位置。要么从一个恒定的角度跟随人类,角度由外部设置, 用户[19]或无人机经历围绕人的恒定旋转[45]。作为另一个基线,我们使用随机决策策略,其中无人机在建议的视点中均匀随机地挑选。最后,通过将靶标移动到下一时间步中的重建将具有最低平均误差的视点来获得预言,这是通过在下一时间帧中穷尽地尝试具有对应图像的所有视点来实现的超参数。我们将重建的损失项的权重设置如下:ω p= 0。0001(项目)110噪声地面实况网络CMU-WalkCMU舞蹈CMU运行MPI-INF-3DHPMPI-INF-3DHP总Oracle0.101±0.0010.101±0.0010.109±0.0010.136±0.0020.17±0.00050.142±0.027我们的(活动)0.113±0.0010.116±0.0030.19±0.0010.145±0.0060.21±0.00080.155±0.39随机0.123±0.0020.125±0.0030.159±0.0030.286±0.0270.28±0.030.195±0.07恒定旋转0.157±0.0020.146±0.0040.223±0.0030.265±0.0100.29±0.030.216±0.06恒定角度0.895±0.540.683±0.310.985±0.241.73±0.611.26±0.531.11±0.36表1. 远距传送实验的3D姿态精度,使用噪声地面实况估计M和L在前三列中,并在第四列中使用[43,36]的网络。我们优于所有预定义的基线轨迹,并接近可以访问每个候选位置的平均误差的预言的准确性。,ω s= 1(平滑度),ω l= 0。1(升力项),ωb= 1(骨长)。 我们将决策的权重设置为ω p= 0。001,ω s= 1,ω l= 0。1,ωb= 1。 我们的推理是,我们需要将投影项和提升项的权重设置得稍微低一些a)GT2D姿态b)GT相对3D姿态因为它们是用大噪声估计的,这是介绍性的。由神经网络或作为加性噪声引入但是,对于不确定性估计,它们不需要那么低4.1. 分析重建精度c)Openpose结果e)嘈杂的GT2D姿态d)Liftnet结果f) NoisyGTRelative3D姿势我们在我们优化的时间窗口的中间帧中以米为单位报告每个关节的平均欧几里得距离。对于远距传送模式,时间窗口的大小被设置为k= 2个过去帧和1个未来帧,并且对于无人机飞行模拟,对于过去帧和3个未来帧,时间窗口的大小被设置为k= 6模拟试验通过将在第一帧中估计的2D关节位置Mt=0反向投影到距相机的距离d来初始化帧,所述距离d被选择为使得反向投影的骨骼长度与平均人类身高匹配然后,我们通过在没有平滑项的情况下运行优化来改进此初始化,因为只有一帧。所有序列都将针对120帧进行评估,动画序列以5Hz的频率播放传送模式。为了理解我们对潜在视点的不确定性预测是否与我们在这些位置处将具有的实际3D姿态误差相一致,我们运行以下模拟:我们在人周围的环上总共采样18个点,如图所示。5、允许无人机传送到这些地点我们对总共k= 2个过去帧进行优化,并预测未来的1帧。我们选择这个窗口大小是为了强调下一个帧选择的重要性。我们做了这个实验的两个变体。在第一个中,我们通过将高斯噪声添加到地面实况数据来模拟2D和3D姿态估计M,L。此噪声的平均值和标准差设置为[3]和[36]的误差,在动画的验证集上运行。图7显示了地面真值、噪声地面真值和网络结果之间的比较 该实验的结果报告在表1中,其中我们还提供了具有不同噪声并且从不同观点开始的5次试验的标准偏差。在MPI-INF-3DHP数据集上,我们还使用[3]提供了结果。图7.MPI-INF-3DHP数据集的示例图像连同2D姿态检测M和3D相对姿态检测使用地面实况、噪声地面实况或[3]和[36]的网络获得的结果L我们在地面真实姿势上添加的噪声是根据[3]和[36]的统计数据确定的,在我们的验证集上测量。和[36],以获得2D和3D姿态估计。补充材料中有进一步的结果。总而言之,结果表明,我们的主动运动规划器实现了比基线更低的误差值,并且我们最接近于实现这些序列和视点的最佳可能误差,尽管无法获得真实误差。随机基线在这些实验中也表现得很好,因为它利用了无人机传送到不同视点的优势活动计划器和基线生成的轨迹如图8所示。重要的是,图5证明了我们预测的不确定性准确地反映了真实的位姿误差,从而使它们非常适合我们的目标。模拟无人机飞行为了评估无人机被主动控制和限制只能移动到附近位置的更现实的在模拟无人机飞行时,我们将目标定位在距离主体7m的固定半径内,因此提供了导致保持该距离的方向候选。我们不提供不同距离处的样本,因为移近是不安全的,而移远会导致图像投影更集中,从而导致更高的3D误差。 我们还限制无人机飞出0的高度范围。25米-35米,以避免撞到地面和飞到物体上方。在这组实验中,我们使用111MPI-INF-3DHP跳舞a) 主动b)随机c)恒定旋转a) 主动b)随机c)恒定旋转图9.我们的计划员在飞行中发现的轨迹和基线。我们的算法还选择执行恒定旋转。由于无人机的动量,随机基线不能增加其相机视点之间的距离。图8. 由我们的主动规划器发现的轨迹以及随机和恒定的旋转基线。第一行描绘了MPI-INF-3DHP数据集的轨迹,第二行显示了舞蹈运动的轨迹用我们的算法得到的轨迹我们的算法,rithm更喜欢的轨迹,导致大的角度变化相对于视点之间的主题。CMU-WalkCMU舞蹈CMU运行总我们的(活动)0.26±0.030.22±0.040.44±0.040.31±0.10恒定旋转0.28±0.060.21±0.040.41±0.020.30±0.08随机0.60±0.130.44±0.190.81±0.160.62±0.15恒定角度0.41±0.070.63±0.061.26±0.170.77±0.36表2. 无人机全飞行模拟的结果,使用噪声地面实况作为输入来估计M和L。恒定旋转的结果是10次运行的平均值,其中5次顺时针旋转,5次逆时针旋转。我们的方法产生的结果与恒定旋转的结果相当,优于其他基线。我们的算法绘制的轨迹也会导致恒定的旋转,唯一的区别是旋转方向。模拟器的真实物理引擎。为此,我们对朝向上、下、左、右、右上、左上、右下、左下和中心的9个然后,我们使用我们的简化(封闭形式)物理模型预测3个连续的未来位置,以获得和估计无人机在9个方向中的每一个方向上继续飞行时的位置。然后,我们估计这些采样视点的不确定性,并选择最小值。在模拟无人机飞行中,我们获得了与恒定旋转相当的结果。事实上,除了无人机开始飞行的前几帧外,我们观察到的轨迹与恒定旋转相同,只是旋转方向不同。恒定旋转在这种设置中是最佳的并不违反直觉,因为恒定旋转对于保持动量非常有用这允许无人机采样视点尽可能远离彼此,同时保持观察对象。图9描绘了不同的基线轨迹和活动轨迹。5. 结论和未来工作我们已经提出了一个理论框架,从一个观点来估计未来测量的不确定性。这使我们能够通过优化视点选择来访问具有最低预期不确定性的位置,从而改善3D人体姿态估计。我们已经用越来越复杂的例子证明,在合成和真实镜头的模拟中,该理论转化为闭环无人机控制并提高了姿态估计精度。我们设想我们的方法正在进一步发展,以提高运动员和表演艺术家的表现在这种自治系统中保护受试者的隐私是重要的。我们鼓励研究人员对这个问题保持敏感。我们的方法成功的关键是几个不确定性来源的整合。我们的主要目标是使不确定性估计易于处理,但需要进一步改进,以在嵌入式无人机系统上运行。当前的实现运行在0。1Hz,但优化是在Python中实现的,使用PyTorch方便但缓慢的自动微分来获得二阶导数。此外,我们已经考虑了一个物理上合理的无人机模型,但忽略了物理障碍物和虚拟禁区,将限制可能的飞行轨迹。在复杂的场景与动态障碍的情况下,我们希望我们的算法优于任何简单的,预定义的政策。目前,我们假设2D和3D姿态估计的误差恒定在未来的工作中,我们将研究如何导出深度神经网络的情境依赖噪声模型此外,我们计划研究估计部署的深度学习方法的不确定性的新方法,并扩展我们的工作,以优化不同计算机视觉任务的无人机轨迹。6. 确认这项工作得到了瑞士国家科学基金会和微软联合研究项目的部分支持。112引用[1] CMU 图 形 实 验 室 运 动 捕 捉 数 据 库 。 mocap.cs.cmu.edu。[2] A. Aissaoui,A. Ouanshan,P. Pudlo,C. Gillet,Z. E.Baarir,以及A. 塔勒布·艾哈迈德基于引导遗传算法的人体运动捕捉摄像机辅助放置系统设计虚拟现实,22(1):13[3] Z. Cao,T.西蒙,S。Wei和Y.酋长基于局部仿射场的实时多人二维位姿估计。在计算机视觉和模式识别会议上,第1302-1310页[4] Y. Chao,J.扬湾,澳-地Price,S.Cohen和J.邓小平更从静态图像预测人体动态. 计算机视觉与模式识别会议,2017年。[5] X. Chen和J. Davis。鲁棒运动捕捉中考虑Oc- clusion的摄像机放置。斯坦福大学计算机图形学实验室。 Rep,2(2.2):2,2000.[6] W. 成 湖 , 澳 - 地 许 湖 , 加 - 地 汉 , Y 。 Guo 和 L. 房 .ihuman3d:使用单个飞行相机进行智能人体3D重建。在2018年ACM多媒体会议上的多媒体会议,第1733-1741页。ACM,2018。[7] S. Choudhury、A. K. G.,Ranade和D.戴学习通过模仿收集信息。在2017年国际机器人与自动化会议[8] J. Daudelin和M.坎贝尔一种用于未知三维物体重建的自适应概率次优视图算法。IEEE Robotics and AutomationLetters,2(3):1540[9] A. J. 戴维森岛Reid,N.Molton和O.斯塔塞Monoslam:实 时 单 摄 像 机 猛 击 。 IEEE Transactions on PatternAnalysis and Machine Intelligence,29(6):1052[10] K. Fragkiadaki,S. Levine,P. Felsen,and J.马利克人类动力学的递归网络模型2015年国际计算机视觉会议[11] C. Gebhardt,S.Stevsic和O.希利格斯优化四旋翼相机运动的美学效果。ACM Trans- actions on Graphics,37(4):90:1[12] B. Hepp,D.Dey,S.辛哈A.Kapoor,N.乔希,O. 希 利 格 斯 Learn-To-Score : Efficient 3D SceneExploration by Predicting View Utility.2018年欧洲计算机视觉会议[13] B. Hepp,M. Nießner和O.希利格斯Plan3D:用于空中多视图立体重建的视点和轨迹优化。ACM Transactions onGraphics,38(1):4,2018。[14] S.伊斯勒河Sabzevari,J. Delmerico和D.斯卡拉穆扎主动三维重建的信息增益公式在2016年机器人和自动化国际会议[15] A. Kanazawa,M.J. Black,D.W. Jacobs和J.马利克端到端恢复人体形状和姿势。计算机视觉与模式识别会议,2018年。[16] 马丁内斯河Hossain、J. Romero和J.点一个简单而有效的三维人体姿态估计基线。2017年计算机视觉国际会议[17] D. Mehta,H. Rhodin、D. Casas,P. Fua,O. 索特尼琴科W. Xu和C.希奥博尔特使用改进的CNN监督在野外进行单目3D人体姿势估计。在2017年的3D视觉国际会议上[18] T. 纳盖利湖 我是A. Domahidi,J. 阿隆索-莫拉,以及O.希利格斯自动化多视角无人机电影摄影的实时规划。ACM Transactions on Graphics,2017。[19] T. N a geli,S. Oberholze r,S. Pl ußs,J. 阿隆索-莫拉,以及O.希利格斯Flycon:利用飞行器进行实时环境无关的多视 图 人 体 姿 态 估 计 ACM Transactions on Graphics ,2018。[20] E. Palazzolo和C.水苏尼斯基于视觉的微型飞行器的信息驱 动 自 主 探 索 ISPRS Annals of the Photogrammetry ,Remote Sensing and Spatial Information Sciences , 4 :59,2017。[21] G. Pavlakos,X. Zhou,K. Derpanis,G.康斯坦丁诺斯,K.丹尼尔迪斯用于单图像3D人体姿势的粗到细体积预测。计算机视觉与模式识别会议,2017年。[22] G. Pavlakos,X.Zhou,K.D. G. Konstantinos和D.科斯塔斯为无标记的3D人体姿势注释获取多个视图计算机视觉与模式识别会议,2017年。[23] D.帕夫略角Feichtenhofer,D. Grangier和M.奥利基于时间卷积和半监督训练的视频中3D人体姿态估计。在计算机视觉和模式识别会议上,2019年。[24] A. Pirinen 、 E.Gartne r 和 C. 斯 明 奇 塞 斯 库Domestodrones : Self-supervised active triangulation for3d human pose reconstruction.神经信息处理系统进展,第3907-3917页。2019年。[25] 答:I.波帕湾Zanfir和C.斯明奇塞斯库集成二维和三维人体感知的深度多任务架构。计算机视觉与模式识别会议,2017年。[26] S. Prokudin,P. Gehler和S.诺沃津深度方向统计:不确定性量化的位姿估计。欧洲计算机视觉会议,第534-551页[27] P. Rahimian和J. K.科尔尼运动捕捉系统的最佳摄像机放置 。 IEEE Transactions on Visualization and ComputerGraphics,23(3):1209[28] J. Redmon和A.法哈迪。YOLOv3:增量改进。InarXivPreprint,2018.[29] H.罗丹C.理查德,D.卡萨斯E. 因萨夫季诺夫,M. Shafiei,H. P. Seidel,B. Schiele和C.希奥博尔特自我-帽:自我为中心的无标记运动捕捉与两个鱼眼相机。ACM SIGGRAPH Asia,35(6),2016.[30] M. 罗伯茨D.戴,A.Truong,S.辛哈沙阿A. Kapoor,P. Hanrahan,and N.乔希航空三维扫描的子模块轨迹优化。2017年计算机视觉国际会议[31] G. Rogez,P. Weinzaepfel,and C.施密特Lcr-Net:人体姿势的定位-分类-回归。计算机视觉与模式识别会议,2017年。113[32] N. Saini、E.普赖斯河塔拉姆拉朱河昂菲西奥河路德维希I. Martin o v ic',A. Ahmad和M. 黑色. 使用多个自主微型飞行器的无标记户外人体运动捕捉。在国际计算机视觉会议上,10月。2019年。[33] S. 沙阿角 ,加-地戴角 ,澳 -地Lovett 和A.卡普尔 。Airsim:用于自动驾驶车辆的高保真视觉和物理仿真。在现场和服务机器人,2017年。[34] X. Sun,J. Liang和Y.伟.组成胡曼姿势回归。在2017年的计算机视觉国际会议[35] R. 塔拉姆拉朱, E. 普莱斯 R. 路德维希 K. 卡拉帕伦,H. B ülthof f,M. Black 和A. 艾哈迈德基于行为感知IEE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功