基于光学非视线物理的三维人体姿势成像系统

132 浏览量更新于2023-10-23 收藏 1.75MB PDF 举报

成像系统

数据处理

身份认证购VIP最低享 7 折!

30元优惠券

1光子测量壁隐藏框架人估计的3D人体姿势成像系统封堵器基于光学非视线物理的三维人体位姿估计Mariko Isogawa，Ye Yuan，Matthew图1. 基于非视线（NLOS）物理的三维人体姿态估计。脉冲激光和瞬态传感器记录了光线从墙上的一个点传播到隐藏在视线之外的人（左）所需的时间。给定来自光学NLOS系统的3D瞬态测量序列（右上），我们的方法使用基于物理的策略来估计3D姿态序列（右下）。摘要我们描述了一种用于从瞬态图像（即，光子的3D时空直方图）。我们的方法可以感知三维人体姿态通过'环顾四周的角落'通过使用光的直接反射的环境。我们汇集了NLOS成像、人体姿态估计和深度强化学习等多种技术，构建了一个端到端的数据处理管道，将原始光子测量数据流转换为完整的3D人体姿态序列估计。我们的贡献是设计了数据表示过程，包括（1）一个可学习的逆点扩散函数（PSF）将原始瞬态图像转换为深度特征向量;（2）以瞬态图像特征为条件并从与物理模拟器的交互中学习的神经类人控制策略;以及(3)基于深度数据的数据合成和增强策略，可以将其传输到真实世界的NLOS成像系统。我们的初步实验表明，我们的方法是能够推广到现实世界的NLOS测量，估计物理有效的三维人体姿势。11. 介绍我们的目标是开发一种基于视觉的人体姿态估计技术，能够推断3D姿态序列1项目页面：https://marikoisogawa.github.io/project/nlos pose一个人没有直接的视线从传感装置（见图）。1）。为此，这项工作首次将计算成像、人体姿势估计、人形控制和深度强化学习方面的最先进技术整合在一起-从计算成像，我们使用体积重建算法，有效地处理瞬态测量（光子的三维时空直方图）从非视线（NLOS）成像系统捕获。从基于视觉的姿态估计和人形控制，我们在物理模拟器中利用深度强化学习来学习遵守物理定律的图像特征调节的3D人体姿态策略。所有组件都集成到一个单一的端到端的可学习的架构，采取原始的瞬态图像，将它们转换为一个深特征表示使用可学习的反向点扩散函数（PSF），并使用神经人形控制策略的条件下的深功能，以估计物理上有效的三维人体姿势。简而言之，我们提出的端到端系统对从光子级到3D人体姿势估计的高级认知任务的完整信息流进行为了捕捉角落周围的人的动作，我们采用了使用脉冲激光和飞行时间传感器的NLOS成像技术[30]。成像过程涉及向可见表面发送光脉冲，并测量反射回来的光的传播时间;这代表了这里使用的瞬态图像是一个3D体积，它对图像进行编码。70137014单个光子在空间区域（前两个维度）和时间（第三维度）上的竞争;瞬态图像序列见图1。可见光或近红外波长下的光学NLOS成像具有几个优点，例如能够在长距离下成像[3]，在微米尺度下重建表面[32]，以及对具有不同BRDF的多个物体进行稳健成像[13]。虽然NLOS成像使我们能够查看周围的角落，但NLOS系统获取的原始瞬态测量值具有几个独特的属性，使得3D人体姿态估计变得困难。为了获得3D人体姿态理解所需的快速图像采集，现有的NLOS解决方案限制了瞬态图像在空间和时间上的分辨率[13]。这使得难以捕获小的形状细节和快速运动，这两者对于估计人体姿势序列都是重要的此外，由于多次散射事件之后的光损失，非常少的光子到达传感器，并且所获取的瞬态图像因此可能非常嘈杂。所有这些特点使得直接从瞬态图像估计三维人体姿态非常具有挑战性。由于瞬态图像的噪声性质，重要的是利用关于身体及其动力学的先验信息来帮助解决3D人体姿态估计问题。特别地，我们具有关于人体结构的先有知识（例如，手臂、头和腿连接到躯干）并且我们还知道人的姿势必须遵守物理定律。基于这种先验知识，我们利用参数化的人形模型和基于物理学的深度强化学习方法来从一系列瞬态图像中估计3D人体姿势受[35]的启发，我们首先定义了马尔可夫决策过程（MDP），其中状态被定义为人形模型的当前姿势和一系列瞬态图像，动作被定义为人形的目标关节角度，环境是物理模拟器（即，MuJoCo [28]），奖励函数是基于模仿的目标函数[18]。通过强化学习求解MDP，我们能够学习将状态映射到动作的最优策略。在我们的场景中，策略函数对人形机器人应该如何移动进行编码，以便最好地解释瞬态图像序列中捕获的3D姿态信息。用于实现MDP策略的深度神经网络设计是系统的关键代表性元素，因为它必须具有将3D瞬态图像映射到人类关节角度向量所需的计算组件。受最近的NLOS成像技术的启发，我们基于用于处理瞬态图像的现有重建算法对我们的网络进行建模，并引入P2PSF Net：一个神经网络，学习“校正”，改善NLOS图像重建过程。然后将P2PSF Net计算的深度特征传递给双向递归神经架构，确保策略的输出（下一个关节位置）遵循运动规律并且匹配所展示的人类姿势动态。该策略的雄心勃勃的目标是从瞬态图像中估计精细尺度的3D人体姿态，并克服NLOS成像的分辨率限制和噪声如上所述，用于人类姿势估计的MDP公式化利用基于模仿的奖励函数，其需要大量瞬态图像形式的注释数据和对应的3D人类姿势序列。作为一个实际问题，目前的NLOS成像系统是相当昂贵的建设和不平凡的校准。因此，对大量注释数据的需求和收集此类数据的成本相互矛盾。虽然我们相信这些实际障碍将随着时间的推移通过新的创新来解决，但对于这项工作，我们通过使用深度相机恢复的3D身体体积合成伪瞬态图像来解决这些问题。为了学习我们的MDP策略，我们仅依赖于与运动捕捉系统获取的地面真实3D人体姿势同步的合成数据。从用于训练的深度图合成瞬态图像为了确保我们最小化这个域间隙的大小，关键是实现基于成像过程的物理原理的原则性数据增强技术，例如，再现与真实瞬态图像相关联的噪声特性。我们介绍了几种增强技术，使三维人体姿态估计政策能够处理现实世界的NLOS数据。概括起来，我们的贡献如下：(1) 我们是第一个提出一个端到端的数据处理管道，模型的信息流从光学NLOS瞬态测量三维人体姿态估计。(2) 我们提出了一种新的策略网络架构，将逆点扩散函数（PSF）、瞬态图像和人体姿势集成为一个深度神经网络。(3) 我们描述了一种用于生成伪（即，合成的）瞬态图像。我们提出了几个关键的过程来增强伪瞬态图像，以帮助学习的3D人体姿势策略更好地生成真实世界的数据。(4) 我们提供了广泛的实验与合成和真正的瞬态图像，并表明我们的模型优于其他基线方法。2. 相关工作NLOS成像及其应用。NLOS成像最近受到了极大的关注[1，2，3，6，8，9，10，12、13、17、30、14、21、27、29、32、36]。这包括在硬件系统和重建算法方面，在电磁频谱的不同部分中操作的大多数NLOS解决方案7015使用可见光（380-740 nm）或近红外（740-1500 nm）光[3，13，32];我们将这些称为光学NLOS系统。其他人选择在更长的波长下工作，包括长波IR（8-15 um）[14]，太赫兹（毫米级）[21]，WiFi和射频（RF）（厘米级）[10]，甚至声波[12]。在频谱的特定部分中操作会影响可用于姿态估计的NLOS信号的性质。例如，RF或WiFi信号通过-壁厚/金属/水墙传感器人员RF/WiFi穿墙可见光/近红外（一）✔（b）第（1）款✔（c）第（1）款✔✔（d）其他事项✔墙姿态估计[1，10，36]，因为较长的电磁波往往通过对象;然而，如图所示。2，当估计姿态动态时，这也带来了许多基本限制：空间和角度分辨率必须受到限制，使得难以区分小物体或运动;物体在长波长下倾向于表现为镜面反射，当试图形成图像时呈现挑战; RF信号在穿过厚物体时会被高度衰减;而射频信号在穿过其他表面时，如金属或水，会被完全阻挡。因此，它们并不总是适用于图1所示的场景。2（a）、（c）和（d）。大多数NLOS工程选择在光域中工作并在拐角处成像，而不是使用RF信号来尝试通过墙壁成像这是通过将光反射离开墙壁以间接照亮隐藏的场景，并利用瞬态传感器测量光返回到墙壁所花费的时间来完成的，单光子雪崩二极管（SPAD）。在这些工作中，许多人试图重建3D体积[6，13，17，30]，其中每个体素表示场景在3D位置处的反射率;或计算表面表示[29，32]，提供更精确重建的可能性。即使是普通的摄像机也可以用于跟踪在被动[2]或主动[8，9，27]照明下在房间中走动的人。用于光学NLOS成像的数据驱动方法也受到了一些关注，例如，从原始瞬态测量中离散地分类人的姿势[24]或使用常规相机形成NLOS图像[27]。在视线成像的背景下，还提出了用于对SPAD的瞬态测量进行降噪的网络架构[11]。然而，还没有先前的工作广告的任务，学习完全基于物理的3D人体姿态估计在NLOS上下文中。基于物理的三维人体姿态估计。执行-基于人体姿态动力学约束的仿真物理学通常用于模拟人形控制[18，19，20，34，35]。这些方法使用深度强化学习（DeepRL）来学习控制策略，这些策略可以在物理模拟器中再现人形运动。在这些方法中，[34，35]使用以自我为中心的视频的光流作为运动策略的附加输入来估计物理上有效的人类姿势。我们使用[35]中提出的类似的基于RL的姿态估计框架，因为它能够图2. WiFi/RF概述（即，穿墙）和可见/近红外（即，在拐角处）NLOS人体姿态估计。（a）该人隐藏在附近的走廊中，但通过可见表面的反射光而被间接看到。（b）该人被隐藏在封闭的房间中，该房间只能通过穿过墙壁的WiFi/RF来访问。（c）该人在可通过任何方法进入的部分封闭空间内。（d）墙壁要么太厚，要么是由阻止WiFi和RF信号通过的材料制成的。仅用有限的视觉信息量来估计物理上准确的人体姿势然而，我们作为输入使用的瞬态图像在学习策略时提出了许多新的挑战，我们在本文中解决了这些挑战。3. 方法我们的方法背后有三个关键思想。首先，为了对物理上有效的人类姿势进行建模，我们在物理模拟器内使用人形模型，并且作为以输入瞬态图像为条件的人形控制策略的结果，对隐藏的3D人类姿势进行建模（第二节）。第3.1节）。其次，为了使我们的模型适用于真实捕获的数据，我们合成了大小为3.2）。第三，为了增强我们的姿态估计，我们进一步引入了P2PSF Net，它改进了NLOS成像过程（第二节）。3.3）。3.1. 基于物理的3D位姿估计框架给定瞬态图像序列τ1：T，我们基于物理的姿态估计流水线的目标是预测物理有效的姿态序列p1：T。如图3、管道包含两个主要部分：（1）使用由NLOS成像流水线和P2PSF Net组成的特征提取器从瞬态图像τ 1：T中提取瞬态特征τ1：T;（2）使用以瞬态特征τ 1：T为条件的仿人策略来控制物理模拟器中的仿人机器人并生成瞬态图像下的姿态序列p1：T。在本节中，我们将重点介绍第二部分，即，仿人控制，并留下如何提取瞬态特征（第1部分）的细节。3.2和3.3。在[35]之后，我们形式化了估计一个7016t=1不视觉环境1不t+1TLSTM cell特征提取器瞬态特征1⋯不t +1电子邮件MLP层⋯ ⋯伪瞬态图像（输入）3D卷积t=（t，t）1估计的3D姿态（产出）阿勒特t+1电子邮件（tt）不1⋯（t，t）不t+1⋯不图3.我们的DeepRL基于光子的3D人体姿势估计框架根据物理定律利用马尔可夫决策过程（MDP）从瞬态图像序列τ1：T中提取姿态序列p1：TMDP由状态、动作、转换动态、奖励函数和折扣因子的元组M=（S，A，P，R，γ）定义。如图3所示，在每个时间步，类人代理从策略π（a t）中采样动作a t|s t），其输入状态s t包含视觉上下文φ t（稍后定义）和人形状态z t（即，人体模型关节的位置和速度）。接下来，环境生成下一个状态st+1通过物理模拟，并给予代理一个奖励rt的基础上如何以及人形为了解决这个MDP，我们应用PPO策略梯度法[25]来获得最优策略π，使预期贴现率最大化。returnE[T]γt−1r]。在测试时，从一些初始状态s1，我们推出策略ππ，以生成状态序列s1：T，从中我们提取输出姿态se。序列p1：T.在下文中，我们将讨论每个组件的详细信息状态st由人形物体的状态z t和视觉背景φt组成。zt由姿态pt（根位置/方向和关节角度）和速度vt（根线）耳/角速度和关节速度）。视觉上下文φt是用双向LSTM（BiLSTM）从瞬态特征φ1：T中提取的，如图所示3 .第三章。在训练过程中，我们将起始状态z1设置为地面实况z1。由于我们在测试时无法访问地面真值，因此我们学习将视觉上下文φt映射到其相应状态zt的回归量F。动作at指定比例-微分（PD）控制器针对除根之外的人形关节的每个自由度（DoF）激活来模拟从st到平均值µt的映射。奖励功能。为了鼓励该策略输出与地面实况p1：T匹配的姿势序列p1：T，我们使用[35]中提出的奖励函数奖励功能的具体设计在补充资料中给出3.2. 伪瞬态图像在介绍我们从深度图合成的瞬态数据之前（Sec.3.2.2），我们提供的背景下，在这项工作中使用的NLOS成像程序。3.2.1.3.2.1背景：共焦NLOS成像共焦NLOS成像是指用于捕获瞬态测量的专门光栅扫描程序[17]。测量是在可见表面上照射和成像公共点（x′，y′）的结果在用脉冲激光照射该点之后，光散射到环境的隐藏区域，并在稍后的时刻返回到SPAD测量同一点的瞬态响应，表示为光子到达时间的直方图[16]。对于跨表面的点的均匀且平面的2D网格重复该过程;瞬态的集合被存储为3D瞬态图像τ（x，y，t）。NLOS成像的目的是将该3D将瞬态τ（x′，y′，t）转换为离散化重构vol-τρ（x，y，z），其表示空间中每个点（x，y，z）处的反射率。在体素（x，y，z）中存在对象会产生非零反射率值ρ（x，y，z），其中壁位于z=0处。在重新测量沿关节力矩的计算基于稳定的PD控制。时间维（τ=Rt{τ}），并恢复重建。在[26]中使用指定的目标关节角度at的滑车。策略π θ（a t|s t）由高斯分布N（μ; μ）表示，具有被视为超参数的固定对角协方差矩阵。我们使用一个θ参数化的多层每-具有两个隐藏层（ 300 ， 200 ）和 ReLU 的 ceptron（MLP）沿深度方向的结构函数ρ（ρρ=Rz{ρ}），建立了共焦非视距成像的正演成像模型ages变成了一个简单的3D卷积运算[17]：τ=hρ，（1）伪瞬变图像（Sec.不–z瞬态特征不不P2PSF网络128×64× 6432×32× 64@132×16× 1632×16× 16@@1@16 168×4× 4@6416×8×816×8×8@32@3264×32× 3264×32× 32@1@1逆PSF优化部分特征提取器（Sec. 3.3）反PSF体积Fourier逆FourierResNet18仿真环境最大池化7017z30其中，隐藏的值ρη与由h表示的已知的3D点扩散函数（PSF）进行卷积。该PSFh描述了单个散射体的瞬态响应。等价地，我们可以将该卷积重写为矩阵-向量形式如下：τ=R−1F−1H<$ FRρ，（2）特征[16]。因此，我们将泊松噪声应用于我们的合成瞬态测量，作为对方程的后处理操作。二、时间模糊瞬态测量的时间轮廓受抖动和激光脉冲形状的影响。结果是瞬态测量变为tz在时域中模糊在泊松噪声步骤之前其中我们向量化体积τ和ρ。矩阵F表示3D离散F变换，并且H是表示PSFh的傅里叶变换的对角矩阵。NLOS成像过程通过反转等式（1）从瞬态图像τ重建3D体积ρτ2并求解3D去卷积过程（例如，Wienerfilter）：我们通过将瞬态测量与高斯卷积来引入时间模糊[16] 。高斯的标准偏差的特征在于其半高宽（FWHM），据报道，对于本工作中使用的真实世界NLOS数据，FWHM为70皮秒 [13]。时间转移光子的到达时间是相应的-ρ=R−1F−1ΣH|2+1 |2+1ΣFRt τ，（3）与隐藏的人离墙的距离有关。我们通过在合成伪瞬变波之前将深度值偏置一个恒定的量d来“我的天αx逆点扩散函数其中，用户定义的参数α控制逆PSF对噪声的敏感程度3.2.2伪瞬态图像合成我们提出了一个程序，用于合成伪瞬态图像生成注释的训练数据，我们的姿态估计。这涉及使用运动捕捉（MoCap）系统来获得3D地面真实人类姿态，其与深度相机同步以捕捉用于合成伪瞬态图像的深度图像给定深度图d（x，y），我们计算场景的相应合成反射体积：当z = d（x，y）时，ρ s（x，y，z）=a，否则为零。标量a= 100是表示由体积中的体素反射的光量的常数值。2、我们将把“一”转化为“二”体积ρ 转换为瞬态测量值τ，年龄，其在时间上移动瞬态图像。在我们在实验中，我们使用五个级别的移位，将训练数据增加到五倍。时间重采样。共焦非视线成像需要光栅扫描可见表面逐点。当前系统的机械对该光栅扫描过程的速度施加限制。例如，我们使用在32×32个位置采样的NLOS数据，帧速率为4Hz [13]。因为点和相应的瞬变顺序扫描，姿态估计会受到快速移动的身体部位的影响。我们提出了一个程序，暂时重新采样瞬态数据。首先，为了模拟光栅扫描过程，我们以30Hz捕获深度图，将它们转换为伪瞬态测量，并通过将结果下采样到4Hz来模拟光栅扫描测量。其次，我们将伪瞬态数据从4Hz上采样回30Hz。每个瞬态图像是从时间tk到tk+1扫描的瞬态的集合，其中tk=k表示s4 4Eq.中描述的图像形成模型二、然而，请注意，图像形成模型目前是不完整的，因为它没有对真实世界瞬态测量的所有特征进行建模。对于动态场景（例如，一个人在房间里走来走去），获取时间必须短。因此，光栅扫描瞬态测量受运动的影响，并且壁上采样点的数量可能受到限制。用于NLOS成像的传感器（例如，SPAD）也受到不同类型的传感器噪声的影响。为了缩小合成大小的数据和真实瞬态测量之间存在的域间隙，我们将泊松噪声、时间模糊、时间移位和时间重采样引入图像形成模型。泊松噪声在低光照水平下，SPAD探测到的光子数近似遵循泊松噪声2.虽然本文中假设了均匀反射率，但可以使用强度图像来编码非均匀反射率信息。第k帧的开始时间（以秒为单位）。生成30Hz瞬态序列，我们简单地组装瞬态电容-在相同的时间范围内，但是将第k帧的开始时间设置为tk=k。对于使用的真实瞬态图像在测试时，我们还执行上述过程以将它们上采样到30 Hz，以与人形策略兼容。3.3. P2PSF网络：光子到逆PSF网络为了从瞬态图像预测3D人体姿态，如在第12节中所讨论的。3.1，我们基于DeepRL的框架需要一个特征提取器来从瞬态图像τt中获得瞬态特征τt。我们通过将共焦NLOS成像过程的各个方面（描述于第2节）结合起来，对特征提取器进行建模。3.2.1）到我们的特征提取器网络中。注意，由于两个关键原因，学习从瞬时图像估计3D人体姿势是具有挑战性的：（1）瞬时图像是有噪声的，具有低空间分辨率，并且以低帧速率记录;（2）逆PSF，标记为7018不不由方程式3，对非视距成像过程做了几个简化假设。为了克服这些挑战，我们提出了P2PSF Net：光子-逆PSF网络其目的是调节共焦NLOS重建过程中使用的逆PSF体积（例如，以帮助处理实际的传感器噪声、校准误差、采集期间的运动）。P2PSF Net是一个具有9个3D卷积层的3D体积到体积网络（见图1）。（3）第三章。它也有两个残余的缺点-nections，这是灵感来自过去的作品[5，22]。给定分辨率（x，y，t）=32×32×64的瞬态图像，网络输出体积（x，y，d）=128×64×64，与配置中使用的逆PSF体积的大小相cal NLOS成像。为了提取瞬态特征ρt，我们首先按照在共焦NLOS成像中使用的程序（等式10）重建反射体积ρt3）修改后，我们将P2PSF Net的输出作为校正体积添加到反转的PSF体积中。给定重建的反射体积ρρ，我们然后通过跨体积的深度轴应用单个最大池化层来生成2D热图。然后将 2D 热图传递给在 ImageNet [23] 上预训练的ResNet-18 [5]以提取热图。4. 实验设置sent图像，我们与最先进的方法V2V-PoseNet进行比较，以进行基于深度体积的姿势估计[15]。我们使用重建的深度体积ρ ω训练V2 V-PoseNet，该深度体积ρω是使用常规NLOS图像从我们的合成伪瞬态图像计算的。ing过程（无P2PSF网络）定义在方程。3 .第三章。2. PoseReg：为了研究我们基于物理的姿态估计框架内的物理效果，我们将我们的方法与基于回归的方法进行比较，该方法直接将视觉上下文φt映射到人形状态zt，而不使用任何物理。我们整合根线/角速度生成全局位置和姿态序列的方向。3. PoseReg w/o P2PSF：PoseReg的一种变体，在NLOS成像过程中不使用建议的P2PSF Net。4. 我们的无P2PSF：我们的方法的一个变体，不使用建议的P2PSF网络。4.3. 评估指标我们使用以下指标来评估每种方法的准确性和物理正确性：1. 平均每关节位置误差（MPJPE）：一种基于姿态的度量，用于测量地面真实值与定义为1T的关节预测J||（xj−4.1. 数据集TJt=1 j =1txroot）−（x<$j−x<$root）||2，其中xj是第j个关节po-伪瞬态图像数据集。我们创造了一个巨大的t t t t t tJ根一组来自MoCap数据的合成伪瞬态图像。该数据集是1小时长，有103200帧，30估计的姿态和x的位置是基本事实。Xt和表示估计和地面实况的根联合位置FPS。它由五个科目组成，执行各种COM-丛运动：走，跳，转身，弯腰-2. 2D关键点错误（E关键）：A 基于姿势的方法前进/前进，旋转，并在所有Ric 使用为房捕获数据集，计算为1Σ TJ||二、||2. 这里，yj是第j个2Dk，这些动议。我们的方法不需要分割的姿态序列或标记的动作。实时捕获的瞬态图像数据集。为了进一步展示我们的方法的适用性，我们还在实际瞬态图像上测试了我们的方法[13]。这是一个训练数据集，因为它包含一个不同的主题，数据采集条件与训练数据不同该测试数据还包含显著的噪声，sam-使用稀疏网格（32×32），并记录测量值TJt=1 j =1t t t估计姿态的点，并且y是地面实况。对于估计值和地面实况，我们将臀部关键点设置为原点并缩放坐标以使肩部和臀部之间的高度等于0。五、3. 速度误差（Evel）：一种基于物理的度量，用于测量生成的速度序列v1：T与地面实况v1：T之间的欧几里得距离，计算按1千吨计算||vt−vt||二、不t=1在低帧速率（即，4Hz）。该人穿着回射运动服以增加NLOS成像中使用的光信号。通过我们的时间重新采样过程（第二节）。3.2.2），我们将此数据上采样至30FPS，4. 平均加速度（Aaccl）：一种基于物理的指标，使用关节加速度的平均幅度来衡量姿势序列的平滑度，计算作为1千吨||vstect||其中vstect表示关节加速度TNt=1一千帧。由于该数据集没有姿势地面实况，我们使用第三人称RGB相机使用AlphaPose [334.2. 基线方法1. V2 V-PoseNet [15]：由于目前还没有关于从transmart.com进行光学NLOS人体姿态估计的工作，并且N是致动的DoF的数量。4.4. 实现细节仿真环境我们使用MuJoCo [28]作为由58个自由度和21个刚体组成的人形机器人的物理模拟器。我们使用稳定的PD控制器[26]来计算关节扭矩。增益kp的范围从50到500，7019地面实况我们V2V-PoseNet我们的，不带P2PSFPoseRegw/P2PSFPoseReg，不带P2PSF(a) 单一受试者（b）交叉受试者图4. （a）单个主体和（b）跨主体姿态估计的定性结果其中诸如腿和脊柱的关节具有较大的增益，而手臂和头部具有较小的增益;k d被设置为0.1 k p。网络和培训。我们将奖励权重（wq，we，wp，wv）设置为（0.5，0.3，0.1，0.1）。我们使用PPO [25]，裁剪系数为0.2，用于策略优化。贴现因子γ为0.95。我们使用Adam [7]来优化学习率为5e-5的策略和值函数。该策略通常在3k次迭代后收敛，在GeForce RTX 2080Ti上大约需要一天时间。5. 实验和结果我们在三个不同的实验设置和一个消融研究中根据基线评估我们的方法：（1）具有伪瞬态数据的单个受试者，在训练和测试中使用相同的受试者;（2）与伪瞬态数据交叉的主题，使用不同的主题进行训练和测试;（3）与真实捕获的数据交叉的主题，即使我们的模型仅在合成数据上训练，我们也使用真实的瞬态图像。我们进一步进行了消融研究，以显示在我们提出的伪瞬态图像合成过程中每个增强的重要性单一受试者评价。我们为每个主题训练模型。我们使用80-20的训练测试数据分割。如定量结果所示（表1（左）），我们可以看到我们的方法在基于姿势的度量（MPJPE）和基于物理的度量（Evel，Aaccel）。我们还提出了定性结果图。第4（a）段。如白色虚线矩形所示，V2 V-PoseNet和我们的方法没有P2PSF Net无法再现更精细的运动，如步行。而且，非基于物理的方法（即，除了我们的不带P2PSF的基线外，所有的基线都经常导致人形机器人的脚陷入地面（黄色圆圈突出显示）。相比之下，我们的方法产生的3D人体姿势比任何其他基线更接近地面实况。跨学科评价。为了进一步评估我们的方法的鲁棒性和通用性，我们进行了跨学科实验，在实验中，我们在四个科目上训练我们的模型，并在另一个科目上进行测试。这是一种挑战，因为不同的人有不同的行动特征。如表1（中）所示，我们的方法在MPJPE和Evel方面再次优于其他基线。对于平滑度度量Aaccel，V2 V-PoseNet在定量上是最好的，但这是因为它主要仅输出单个姿势（由高MPJPE指示）并且不能估计更精细的运动，诸如行走或举手，如图1B所示。第4（b）段。如图中的定性结果。4（b）显示，我们的P2PSF Net方法产生了最接近地面真实的姿势，尽管它在困难的序列中仍然失败。图中的绿色箭头图4（b）突出了估计姿态与地面实况相比的大7020表1.单个（左）、跨受试者（中）和真实捕获数据（右）的结果表2.消融研究结果。velacclvelaccl关键地面实况我们V2V-PoseNet我们的，不带P2PSFPoseRegw/P2PSFPoseReg，不带P2PSF图5.真实捕获瞬态的定性结果。真实捕获的跨主题评估。为了展示我们的方法4.1，我们的模型使用相同的数据集进行单主题实验训练如表1（右）所示我们还提出了定性结果图。五、如图所示，我们使用P2PSF Net的方法在估计人体姿势方面优于基线，包括跳跃（左起第二个）和举手（左起第六个，右起第一个）。同样，非基于物理的方法会导致人形机器人的脚陷入地面（由黄色圆圈突出显示）。绿色箭头再次标识与地面实况的较大差异。消融分析。如第3.2，我们的伪瞬态图像模拟了真实捕获的瞬态测量的特征。这个烧蚀测试研究了用于最小化域的四个操作伪瞬态图像和真实瞬态图像之间的间隙：（a）泊松噪声，（b）时间模糊，（c）时间偏移，以及（d）时间重采样。为了研究它们中每一个的重要性，我们在真实捕获的跨学科设置下训练我们的模型四次，每次排除四个操作中的一个。如表2所示，时间偏移对于性能至关重要。时间重采样也提高了准确性。单独去除泊松噪声和时间模糊不会严重影响性能。所有四个操作的组合产生最佳姿势精度。6. 结论这项工作汇集了计算机视觉的各种子领域，包括计算成像、基于物理的视觉、人体姿势估计和基于物理的深度强化学习的最新技术作为这种整合的结果，我们首次表明，可以对人体运动进行嘈杂的真实世界光子级测量，并将该信息转换为对人体动力学的高层次理解，并借助数据驱动的机器学习的力量。虽然这项工作的主要技术重点是更好地理解视觉信息应该如何表示和处理，以实现从NLOS成像的3D姿态估计，这项工作中描述的技术也有一些实际应用的下一代自动驾驶系统。在自动驾驶的背景下，检测和跟踪其传感器视线之外的人的能力可以有助于通知规划算法和预防事故。在家用机器人的背景下，能够看到墙壁周围的能力可以帮助机器人在进入房间或避免碰撞时做出更明智的决定虽然有必要进行更多的研究，以降低本工作中所描述的NLOS成像系统的财务成本和计算复杂性，但我们相信，这项初步工作显示了在现实世界中使用NLOS成像进行更高级别推理的显着潜力。鸣谢。我们感谢Ioannis Gkioulekas提供了许多有用的建议。 M. Isogawa 由 NTT Corporation 提供支持 M.O’Toole is supported by the DARPA RE- VEAL单科交叉学科真实数据方法MPJPE ↓ E ↓ A公司简介 ↓ E ↓ A ↓E ↓方法E键↓[15]第十五话123.95.12 4.61137.74.853.670.185(a)无泊松分布0.174PoseReg，不带P2PSF109.05.96 9.92114.85.53 8.930.178(b)无温度模糊0.179PoseReg w/P2PSF100.85.99 9.98108.75.54 8.740.175(c)无温度移位0.197我们的，不带P2PSF98.04.96 4.61110.84.83 4.390.176(d)无温度重采样0.185我们96.14.92 4.33108.64.774.160.173(e)所有噪音类型0.1737021引用[1] Fadel Adib，Chen-Yu Hsu，Hongzi Mao，Dina Katabi，and Fr e´ doDurand. 透过墙捕捉人体。ACM Transactionson Graphics（TOG），34（6）：1二、三[2] 凯瑟琳湖放大图片放大图片Yedidia，Fr e'doDurand，Gre goryW. Wornell，Antoni oTorralba，andWilliam T.弗里曼。将拐角转换为摄像机：原理与方法。在IEEE国际计算机视觉会议（ICCV），第2289-2297页，2017年10月。二、三[3] 作者： Susan Chan ， Ryan E. Warburton ， GenevieveGaribe，Jonathan Leach，and Daniele Faccio.远距离非视线跟踪人。Optics Express，25（9）：10109-10117，2017。二、三[4] 约安尼斯·吉欧莱卡斯，阿娜特·勒文，杜兰德神父和托德·齐克勒。使用干涉测量法的半尺度光输运分解。ACM Transactions on Graphics（TOG），34（4）：37：1--37：14，2015. 1[5] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页，2016年。6[6] Felix Heide，Wolfgang Heidrich，and Matthias B Hullin.漫反射镜：使用廉价的飞行时间传感器从漫射间接照明进行3D重建。在IEEE计算机视觉和模式识别会议（CVPR），第3222-3229页，2014年。二、三[7] Diederik P. Kingma和Jimmy Ba。亚当：一种方法用于随机优化。国际学习代表大会（ICLR），2015年。7[8] Jonathan Klein，Christoph Peters，Martin Laurenzis，andMatthias Hullin.使用2d强度图像跟踪视线外的物体。科学报告，6（32491）：32491：1-32491：9，2016。二、三[9] Jonathan Klein，Christoph Peters，Martin Laurenzis，andMatthias Hullin.非视线移动摄像头在ACM SIG-GRAPH2017 Emerging Technologies，SIGGRAPH'17，第18：1-18：2页中。ACM，2017。二、三[10] Tianhong Li ， Lijie Fan ， Mingmin Zhao ， YingchengLiu，and Dina Katabi.使不可见的变为可见的：通过墙壁和遮挡进行动作识别。InarXiv preprint，2019. 二、三[11] David B.林德尔马修·单光子3D成像与深度传感器融合。 ACMTransactionsonGraphics （ TOG ，SIGGRAPH），（4），2018。3[12] David B. Lindell，Gordon Wetzstein，and Vladlen Koltun.声学非视线成像。在IEEE计算机视觉和模式识别会议（CVPR）中，第6780-6789页二、三[13] David B.林德尔，戈登·韦茨斯坦，马修基于波的非视线成像使用快速fk迁移。ACM Transactions on Graphics（TOG），38（4）：116，2019。二三五六[14] Tomohiro Maeda ， Yiqin Wang ， Ramesh Raskar ， andAchuta Kadambi.热非视线成像。在IEEE国际计算摄影会议（ICCP），第1-11页，2019年。二、三[15] 文庆植张居勇李庆穆V2v-posenet：体素到体素预测网络，用于从单个深度图进行准确的3d手部和人体姿势估计。在IEEE计算机视觉和模式识别会议（CVPR），2018年。六、八[16] 放大图片作者：David B. Lindell，Kai Zang，StevenDiamond，and Gordon Wetzstein.从单光子传感器重建瞬态图像。在 IEEE 计算机视觉和模式识别会议（CVPR），第2289-2297页，2017年。一、四、五[17] 放大图片作者Lindell和Gordon Wetzstein。基于光锥变换的共焦非视线成像。Nature，555（7696）：338，2018. 二、三、四[18] Xue Bin Peng ， Pieter Abbeel ， Sergey Levine ， andMichiel van de Panne. Deepmimic：示例引导的基于物理的角色技能的深度强化学习 ACM Trans- actions onGraphics（TOG），37（4）：143：1二、三[19] Xue Bin Peng ， Glen Berseth ， KangKang Yin ， andZuelel van de Panne. Deeploco：使用分层深度强化学习的动态运动技能。 ACM Transactions on Graphics（TOG，SIGGRAPH 2017），36（4），2017。3[20] Xue Bin Peng ， Angjoo Kanazawa ， Jitendra Malik ，Pieter Abbeel，and Sergey Levine. Sfv：从视频中强化学习身体技能。ACM Transactions onGraphics（TOG），37（6），Nov. 2018. 3[21] AlbertRedo-Sanchez 、 BarmakHeshmat 、 AlirezaAghasi、Salman Naqvi、Mingjie Zhang、Justin Romberg和Ramesh Raskar。太赫兹时间选通光谱成像用于通过分层结构的内容提取。Nature Communications，7：12665，2016. 二、三[22] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络医学图像计算和计算机

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于光学非视线物理的三维人体姿势成像系统

Kinect三维人体建模系统设计

基于matlab isar像进行三维成像

基于MATLAB的三维超声成像及图像处理

matlab三维雷达成像课程设计

三维sar成像代码 csdn

波前编码三维计算成像方法详细说明

python 三维人体测量

kinect三维人体建模系统设计研究方法技术路线

视频 检测三维人体姿态

matlab激光三维成像

三维雷达成像matlab程序

机器人视觉三维成像技术综述 pdf

基桩三维超声CT当前的研究领域

三维超声成像相比于二维的优势

基于三维超声CT图像成像的故障检测

基于深度学习的服装三维重建tailornet系统设计

常见的三维人体模型有哪些？如SMPL

用matlab写一个基于传感器阵列的三维成像

基于RGBD的人体三维重建

三维超声图像重建的研究历史

最新资源

视频检测三维人体姿态