没有合适的资源?快使用搜索试试~ 我知道了~
1获取多视图的无标记三维人体姿势标注作者:Georgios Pavlakos1,Xiaowei Zhou1,Konstantinos G.Derpanis2,KostasDaniillei11宾夕法尼亚大学2瑞尔森大学摘要卷积网络(ConvNets)的最新进展已经将许多计算机视觉任务的瓶颈转移到了带注释的数据收集上。在本文中,我们提出了一种几何驱动的方法来自动收集注释的人类姿势预测任务。从2D人体姿势的通用ConvNet开始,并假设多视图设置,我们描述了一种自动收集准确的3D人体姿势注释的方法。我们利用相机设置的3D几何形状和人体的3D结构提供的约束,多视图设置通用2D姿态ConvNetsHeatmaps3D图像结构3D注释概率性地将每个视图的2D ConvNet预测组合成全局最优的3D姿势。此3D姿势用作获取注释的基础。我们的方法自动生成的注释的好处在两个具有挑战性的设置中得到了证明:(i)微调通用的基于ConvNet的2D姿态预测器以捕获对象的外观的区别性方面(即,(ii)从头开始训练ConvNet用于单视图3D人类姿势预测,而不利用3D姿势地面实况。所提出的多视图姿态估计器在标准基准上实现了最先进的结果,证明了我们的方法在利用可用的多视图信息方面的有效性1. 介绍卷积网络(ConvNets)成功的关键是大量标记训练数据的可用性。但对于许多任务来说,这种假设是不现实的。因此,最近的许多工作都探索了替代的训练方案,例如无监督训练[17,26,45],改善学习表示的辅助任务[42],以及地面实况免费或非常容易获得的任务[31]。受这些工作的启发,本文提出了一种几何驱动的方法来自动收集一组高质量的注释,用于2D和3D的人体姿态估计任务。ConvNets对2D人体姿势估计任务产生了巨大的影响[40,41,27]。提高性能的一个很有前途的研究方向是自动图1:我们的采集姿势方法概述注释。给定多视图相机设置,我们使用通用ConvNet进行2D人体姿势估计[27],并以每个视图的2D热图形式生成单视图姿势预测。使用3D图像结构模型最佳地组合单视图预测,以产生具有关联的每个关节不确定性的3D姿态估计。进一步探测姿态估计以确定要用作注释的可靠关节。适 应 ( 即 , “personalize”) a pretrained ConvNet-based2D pose 与其2D对应物相比虽然从图像中收集大规模2D姿态注释是可行的,但收集相应的3D地面实况是不可行的。相反,大多数作品依赖于在非常限制性的室内设置中使用运动捕捉(MoCap)装备捕捉的有限3D注释。理想地,简单的、无标记的、多相机方法可以在一般设置中提供可靠的3D人类姿势利用这些估计作为图像的3D注释将捕获用户,服装和设置的变化,这对于ConvNets正确概括至关重要。为了实现这一目标,本文提出了一种几何驱动的方法来自动收获可靠的注释从多视图图像。图1提供了我们自动获取可靠关节注释的方法的概述。给定一组使用校准的多视图设置捕获的图像,用于2D人体姿势的通用ConvNet [27]亲69886989为每个关节引入单视图置信度热图。每个视图中的热图都被反向投影到一个共同的离散化3D空间,用作3D图形结构的一元势[16,15],而树图则对关节之间的成对关系进行建模。每个关节的3D图像结构模型的边缘化后分布用于识别哪些估计是可靠的。这些可靠的关键点用作注释。除了实现国家的最先进的性能,作为com-american到以前的多视图人类姿态估计,我们的方法提供了丰富的注释姿势相关的学习任务。在本文中,我们考虑两个任务。 在第一个任务中,我们将3D姿态注释投影到2D图像上,以创建在第二个任务中,我们使用3D姿势注释从头开始训练ConvNet,用于单视图3D人体姿势估计,这与当前最先进的技术水平相当。值得注意的是,在训练我们的姿势预测器时,我们将训练集限制为收获的注释,而不使用可用的3D地面实况(图2b)。概括而言,我们的四项主要贡献如下:• 我们提出了一种几何驱动的方法来自动获取人体姿态的3D注释,而无需3D标记;• 所收获的注释用于微调用于2D姿态预测的预训练的ConvNet,以适应子图像的外观的区分方面研究对象,即,“个性化”;我们在实践中显示出显著的性能优势;• 收 获 的 注 释 用 于 从 头 开 始 训 练 ConvNet , 该ConvNet将图像映射到3D姿势,这与最先进的技术相当,尽管没有任何使用可用的3D地面实况• 我们的多视角3D人体姿态估计方法在标准基准上取得了最先进的结果,这进一步强调了我们的方法在利用可用的多视图信息的程度。2. 相关工作人 类 姿 势 任 务 的 数 据 稀 缺 性 : Chenet al. [12] 和Ghezelghieh等人。[18]为3D人体姿势创建额外的合成Rogez和Schmid [34]介绍了一种拼贴方法。他们从不同的图像中组合人体部位,以生成具有已知3D姿态的示例。Yasin等人[44]通过利用不同来源的数据解决数据稀缺问题2D姿态注释和MoCap数据。Wu等[42]还在单个ConvNet中集成了双源学习“Personalized”(a) “Personalizing” a 2D pose3D注解(b) 训练3D姿势ConvNet图2:在两个应用程序中展示了所获取的注释的质量:(a)将3D估计投影到2D图像中,并使用它们来使通用2D姿态ConvNet适应(“个性化”)对象的有区别的外观方面,(b)训练从单个彩色图像预测3D人类姿态的ConvNet。与创建合成示例或绕过丢失的数据不同,我们方法的重点是不同的。特别是,我们的目标是收集具有相应的2D和3D自动生成的注释的图像,并使用它们来训练ConvNet。通过这种方式,我们使用的图像的统计数据与野外发现的图像相似,这些图像已被证明对基于ConvNet的方法具有很大的价值。2D人体姿势:直到最近,2D人体姿势的主导范例涉及身体部位的局部外观建模,以及使用图像结构模型的结 构 约 束 的 强 制 执 行 [3 , 43 , 32] 。 最 近 , 使 用ConvNets的端到端方法已经成为该领域的标准。To-shev和Szegedy [40]的初始工作使用ConvNets的级联直接回归关节的x,y坐标。Tompson等[39]提出了热图的回归来改善训练。Pfister等人[30]建议使用中间监督,与魏等。[41] Carreiraet al. [10]迭代地细化网络输出。最近,Newellet al.[27]建立在以前的工作,以确定人体姿势预测的最佳实践,并提出一个由ResNet组件[19]组成的沙漏模块,以及迭代处理,以实现标准基准测试的最先进性能[2,36]。在这项工作中,我们采用沙漏架构作为我们的起点,自动生成3D人体姿势注释。单视图3D人体姿势:通常通过在图像上应用越来越强大的判别方法并将它们与表达性3D先验相结合来实现从单个图像估计3D人体姿势,6990恢复最终姿势[37,47,7]。与2D姿势的情况一样,端到端训练的ConvNets已经变得越来越突出。Li和Chan[24]直接回归每个关节的x,y,z空间Tekin等人[38]另外,使用自动编码器来学习和强制输出的结构约束。Pavlakos等人[29]相反,建议回归3D热图而不是3D坐标。Li等[25]遵循彩色图像和姿态候选之间最近邻方法。Rogez和Schmid [34]使用分类方法,其中类表示姿势的样本为了证明我们收获的3D注释的质量,我们还回归了x,y,z关节坐标[24,38],同时采用了更新的架构[27]。多视图3D人体姿势:几种方法[6,1,9,22,4,5]扩展了图像结构模型[16,15]来推理从多个(校准的)视点获取的3D人体姿势。早期的工作提出了跨多个视图同时推理2D姿态,并对2D估计进行三角测量以实现实际的3D姿态估计[6,1]。最近,Elhayeket al.[13,14]使用ConvNet姿势检测进行多视图推理,但重点是跟踪而不是注释收获,如本文所述。与当前论文类似,3D姿态先前已在3D空间中直接建模[9,22,4,5]。由于零件参数化的六个自由度,将基本图形结构模型直接应用于3D计算是昂贵的。相反,我们的参数化仅对3D关节位置进行建模,这也是在单视图3D姿态估计的背景下提出的[23]。由于我们处理的是三个自由度而不是六个自由度,这种图示结构的实例化使推理变得容易处理个性化:考虑视频中的姿势提供了一个机会,可以将外观模型调整到主题的区别性外观方面,从而提高性能。先前的工作[33]通过使用通用姿态检测器来最初识别一组高精度规范姿态,从而利用了这一点。这些检测然后用于训练特定于对象的检测器。最近,Charleset al. [11]使用通用2D姿势ConvNet扩展了这一想法,以识别选定数量的高精度注释。这些注释基于2D图像证据跨视频序列传播,例如,光流关于确定有信心的预测,Jammalamadaka等人的工作。[21]是相关的,其中它们从图像和输出中提取特征,并训练评估器来估计预测的姿势是否正确。在我们的工作中,而不是使用2D图像线索来识别可靠的注释,我们提出的方法利用由多视图设置和3D人体姿势结构的约束所呈现的丰富的3D几何形状来组合和合并单视图信息。这些线索是高度可靠的,是基于图像的线索的补充。3. 技术途径以下小节描述了我们提出的方法的主要组成部分。第3.1节简要描述了用于2D姿态预测的通用ConvNet。第3.2节描述了用于聚合多视图图像驱动的关键点证据的3D图像结构模型(即,热图)作为由基于ConvNet的2D姿态预测器与来自人类骨骼模型的3D几何信息的输出提供第3.3节描述了我们的注释选择方案,该方案基于每个关键点的3D图像结构模型的边缘化后验分布来识别可靠的所提出的不确定性度量固有地集成了所有视点和几何形状的图像证据。最后,第3.4节和第3.5节介绍了我们的注释收集方法的两个应用。第3.4节描述了使用收获的注释来微调现有的2D姿态ConvNet预测器。所得到的自适应预测器对所考虑的对象的外观的区别性方面敏感,即,“个性化”。部分3.5描述了我们如何使用收获的注释从头开始训练3D姿势ConvNet预测器,该预测器将单个图像映射到3D姿势。3.1. 通用ConvNet我们方法的初始组件是用于2D人体姿势估计的通用ConvNet,它为单视图图像提供了初始的噪声预测集由于我们的方法对特定的网络架构是不可知的,因此任何性能最好的ConvNets都足以完成这一步,例如,[41、8、27]。在这里,我们采用了最先进的堆叠沙漏设计[27]。该网络的主要架构组件是沙漏模块,该模块由连续的卷积层和池化层组成,随后是卷积层和上采样层,从而形成对称的沙漏设计。将多个沙漏堆叠在一起允许图像特征的迭代处理。最佳性能是通过使用中间监督来实现的,迫使网络在每个沙漏结束时产生一组网络的预测是以每个关节的整个热图输出包括关于预测置信度的有用信息,并且可以被认为是关节位置的2D分布为了利用整个热图预测,我们将关节的2D分布反向投影到离散化的3D立方体中。这是用来容纳所有视图的预测,并作为3D图形结构模型的推理空间,在第二节中描述。3.2.3.2. 多视图优化用于跨视图聚合信息的姿势模型基于经典pic的3D概括6991结构模型[16,15]。当前工作与多视图方法的先前3D实例化的主要偏离[9])是联合表示的使用,S={si|i=1,. . . ,N},其中si∈R3编码每个关节的3D位置,而不是3D配置部件,即,四肢成对项的简化参数化和树结构允许通过动态编程进行有效的3D和积算法关节约束:关节之间的成对关系由人体骨架的树结构建模。边集合由E表示,并且边(即,肢体)长度|(i,j)∈E}. 先验分布由清晰度约束给出,并且可以写为3.3. 注释选择由多视图优化提供的3D重建提供了非常丰富但有噪声的注释集。我们有效地为多视图设置的所有图像配备了自动3D注释。此外,这些注释整合了来自每个视图的外观线索这允许我们利用来自图像和3D几何形状的可用信息来提供一组鲁棒的注释。为了进一步的好处,我们进行到从3D重建提供的注释一Yp(S)p(s,s)。(一)我们的多视图优化的有用属性,我J(i,j)∈E成对项p(si,sj)约束人类肢体的长度Lij:.图像结构模型的一个重要特征是,每个关节的边缘化分布提供了预测不确定性的度量这意味着我们可以免费获得选择提示例如,可以使用每个关节的边缘化分布的3D协方差矩阵的行列式p(s,s)=1,如果Lij−ε≤si−sj≤Lij+ε作为一种信心措施,以决定联合是否将我J0,否则、(二)用作注释。 在我们的实验中,我们确定为可靠注释,根据3D协方差的决定因素,每个关节的70%最置信预测其中,ε=1被用作来自受试者的预期肢体长度Lij更多的诡辩-如果MoCap数据可用,例如,[23]第10段。数据可能性:给定3D姿态,从M个校准相机看到M个同步图像的可能性被建模为矩阵,但其他措施也是可能的。3.4. “Personalizing”“个性化”的目标Ramanan等人[33] Charleset al. [11]建议的方法YMp(I|S)YNp(Ik|π k(si)),(3)ODS使用2D证据来光学流)。相反,我们的建议k=1i =1其中πk(si)表示给定相机参数的第k个视图中si数据似然性,p(Ik|π k(si)),由ConvNet的多通道热图输出建模(第二节)。第3.1节)。推断:最后,给定来自不同视图的2D图像的3D姿态的后验分布由下式给出:方法集中于由图像证据、多视图设置的几何特性和人体的结构约束提供的线索。给定选定的注释集,我们使用它们来微调具有反向传播的通用2D姿势ConvNet,使其适应感兴趣的测试条件。该过程与最初用于训练ConvNet的过程非常相似,区别在于我们YMp(S|I)∝ YNp(Ik|π k(si))Yp(si,sj).(四)利用我们自动生成的注释作为可用图像的目标。目标热图由一个k=1i =1(i,j)∈E2D高斯,标准偏差σ=1像素,cen-在运动类型的注释位置上设置单独的3D关节位置的解空间被限制在受试者周围的3D包围体,并通过64×64×64网格进行量化。姿态估计被计算为给定多视图图像的每个关节的边缘分布的平均值。的边际分布,具体变量通过和积算法有效地计算[15]。为每个关节合成热图。在训练过程中,我们使用预测和目标热图之间的均方误差损失。如果关节不在所选注释集内(即,本地化是不可靠的),我们简单地忽略它在优化过程中产生的损失。我们通过自动注释的数据在四个时期后终止细化,以避免对给定示例的过拟合6992GTPR3.5. 3D pose ConvNet训练对于3D人体姿态估计,我们从头开始训练ConvNet我们的公式遵循坐标回归范式[24,38],但也可以采用更复杂的方法,例如,3D姿态的体积表示[29]。网络的目标是N个人体关节的x,y,z坐标。对于x,y,我们使用像素坐标,而z则以相对于指定根关节(此处骨盆定义为根)的公制深度表示我们将输出组织成一个3N维向量.该网络使用L2回归损失进行监督:ΣN两个相机三个摄像头[9]第一章[4]美国[五]《中国日报》我们[9]第一章[22日][4]美国[五]《中国日报》我们上臂 5364969860896898100下臂 2850689235685672100大腿 88759899100 1007899100小腿 8266889790997092100平均 62.7 63.8 87.5 96.5 71.2 89.0 68.0 90.3 100表1:KTH Multiview Football II上的多视角姿态估计方法的定量比较。数字是使用两个和三个摄像机的3D中正确部分(PCP)的百分比。基线数字取自相关文件。与比较的方法相比,我们的方法没有使用来自该数据集的训练数据。L=xn− xn<$2,(5)GTn=1公关2值得一提的是,在实验中,其中xn是groundtruth和xn是预测的地点下面,没有地面实况数据用于训练,接头的义务我们使用的架构是一个单一的沙漏模块[27],在最后添加了一个完全连接的层,以允许每个输出与前一个特征卷的每次激活都有连接4. 实证评价本节致力于对我们提出的方法进行实证评估。首先,我们给出了所使用的数据集的描述(第4.1节)。接下来,我们简要讨论我们的方法的实现细节(第4.2节)。最后,我们提出了定量(第4.3至4.5节)和定性评价(第4.6节)。4.1. 数据集对于我们的定量评估,我们集中在两个数据集,目标是人类姿势估计,并提供多个相机设置;(i)KTHMultiview Football II [9],一个具有挑战性视觉条件的小规模户外数据集,以及(ii)Human3.6M [20],一个具有各种可用场景的大规模室内数据集。KTH Multiview Football II[9]包含职业足球运动员在比赛中的图像。使用引入与数据集[9]和其他地方使用[22,5],其中“玩家2”的序列1报告的结果基于正确部件(PCP)的百分比,以使用两个和三个摄像机设置来测量3D部件定位。使用“播放器2”的序列2进行2D姿势的附加评估以Human3.6M[20]是最近在实验室环境中捕获的3D人体感知的大规模数据集。它包括11个子动作,执行15个动作,如走路,坐着,打电话。根据之前的工作[25,47],我们使用两个受试者进行测试(S9和S11),并根据平均3D关节误差报告结果。各自的数据集。 我们完全依赖于通用的2DConvNet(在MPII上训练[2])和来自校准相机设置的几何知识。4.2. 实现细节对于通用的2D姿势ConvNet,我们使用一个公开可用的模型[27],该模型是在MPII人体姿势数据集[2]上训练的。为了学习率设置为2.5e-4,批量大小为4,rmsprop用于使用优化和数据增强,包括旋转(±30o),缩放(±0.(25)左右翻转。为了训练3D姿态ConvNet,我们采用相同的ar-架构,但我们只使用一个沙漏组件,并在末尾添加一个完全连接的层,以回归N个关节坐标。关于优化和数据增强的训练细节与初始网络相同,但训练是从头开始的(我们不使用预训练模型)。4.3. 多视点姿态估计首先,我们需要评估从我们的多视图优化方案提供的注释的准确性。由于我们的ConvNets没有使用上述数据集的地面实况数据进行训练,因此我们严重依赖这些自动注释的质量。因此,我们使用我们的方法评估多视图姿态估计,如第3.2节所述首先,我们报告了我们的方法在小规模但具有挑战性的KTH数据集上的结果。尽管相关方法训练专门的2D检测器进行姿态估计,但我们的方法仅使用通用的ConvNet进行2D联合预测,它们的性能都优于我们的方法。表1中说明了相对改进。对于Human3.6M,我们将相同的方法应用于多个6993方向讨论吃问候打电话照片构成购买Li等人[25日]-134.1397.37122.33-166.15--Zhou等人[47个]87.36109.3187.05103.16116.18143.32106.8899.78Tekin等人[38个]-129.0691.43121.68-162.17--Zhou等人[46个]91.83102.4196.9598.75113.35125.2290.0493.84我们41.1849.1942.7943.4455.6246.9140.3363.68坐着吸烟等待散步遛狗一起散步平均Li等人[25日]----134.1368.51--Zhou等人[47个]124.52199.23107.42118.09114.2379.3997.70113.01Tekin等人[38个]----130.5365.75--Zhou等人[46个]132.16158.97106.9194.41126.0479.0298.96107.26我们97.56119.9052.1242.6851.9341.7939.3756.89表2:我们的方法对Human3.6M的定量评估数字是平均3D关节误差(mm)。基线数字取自相关文件。请注意,Zhouet al.[47]使用视频,而我们提出的方法是多视图。视图姿态估计。由于该数据集是最近发布的,因此没有报告多视图姿态估计方法的结果。有趣的是,与单视图3D姿态的最佳表现作品进行比较,以便我们可以量化单视图和多视图估计之间的当前差距。完整结果见表2。我们的方法减少了错误的国家的最先进的单视图的方法周等。[46]几乎一半。我们注意到Zhouet al.[47]使用视频而不是从单个帧进行预测。我们不包括来自Bogo等人的结果。[7]和Sanzariet al. [35]报告的平均误差为82。3毫米和93。15mm,因为它们在估计的姿态和地面实况之间使用刚性对准,使得其与其他方法不可比较此外,作为弱多视图基线,我们平均了来自最先进方法之一的每个视图3D估计[47]。这种简单的组合达到了103的平均误差。10 mm,与原始误差113相比,这是最小的改进。01mm用于相应的单视图方法。这表明,在后期阶段独立处理视图并组合单视图3D姿态结果不会利用可用的丰富3D几何约束,并且与我们的多视图优化相比表现明显不佳。4.4. “Personalizing”在验证了我们提出的多视图优化方案的准确性之后,下一步是实际利用自动注释进行学习。最直接的好处来自于使用它们来改进通用的ConvNet并使其适应特定的测试条件。Seq 1Seq2通用成品通用成品上臂981008089下臂89926474大腿981008591小腿961007986平均95.398.077.084.5表 3 : 通 用 ConvNet 与 KTH Multiview Football II 的“Player 2”的两个序列的改进版本的定量比较。数字是2D中正确零件(PCP)的在所有部件中均观察到性能由于我们的重点是纯粹评估改进前后的2D预测质量,因此我们在表3中报告了2D PCP结果。我们观察到的性能改善的所有部分的主题。此外,对于第二个序列,这是相当更具挑战性的,从我们的改进的好处甚至更大。这强调了当原始检测器失败时改进的重要性。对于Human3.6M,我们通过其对多视图优化的影响来评估2D热图的质量实现2D姿态估计的更好结果肯定是我们的多视图优化。在表4中,我们提供了一个更详细的消融研究,比较了不同的注释集进行细化。从“通用”ConvNet开始选项。这可以被认为是“人格化”的应用[11],其中报告了在准确性方面的显著姿态估计增益对于KTH,我们使用来自“玩家2”的两个可用序列这些预测中最有信心的(“HM+sel”)。对于这些作为改进ConvNet的基线。 我们还采用了完整的注释-从我们的多视图优化提供的任务集6994平均购买量下载(15个动作)平均(6个动作)平均(15个动作)Li等[25] 121.31-通用63.6897.56 119.9056.89Tekin等人[38个]116.77-HM57.5786.37 100.3955.13Park等人[28日]111.12117.34HM+sel52.5091.49 110.3055.62Zhou等[46个]104.73107.26PS51.3279.3997.2651.18Rogez等人[34个]-121.2PS+sel45.9868.0973.9147.83我们113.65118.41表4:在使用不同注释集微调ConvNet我们给出了三个最具挑战性的行动的结果(基于表2),以及所有行动的平均值数字为平均3D关节误差(mm)。“Generic”,“HM”, “HM+sel”, “PS” and “PS+sel” are defined inSection(根据表2,报告的结果包括所有15个动作的平均表现,以及具有最高误差的三个动作的表现,即购买、坐下和坐下。同样,对于更具挑战性的操作,性能优势更大,这证明了使用我们的方法来克服数据集偏差并适应感兴趣的场景是合理的。此外,在通用ConvNet(最后,所提出的选择方案(4.5. 训练3D姿势ConvNet我们的方法的一个巨大挑战,但也是一个非常有趣的由于KTH是一个小规模的数据集,我们专注于Human3.6M。我们利用来自多视图优化方案的高质量注释,并从头开始训练第3.5表5中给出了结果以及其他方法。尽管我们只使用我们的方法恢复的噪声注释进行训练,并忽略了数据集的基础事实,但最终训练的ConvNet与最先进的ConvNet不相上下。4.6. 定性结果对于表5:Human3.6M上单个图像方法的定量比较。数字是平均3D关节误差(mm)。基线数字取自相关文件。与其他作品相比,我们不使用3D地面实况进行训练,而是完全依赖于收获的3D注释。尽管如此,我们的表现与最先进的水平相当。分别为。尽管通用ConvNet非常可靠,但它可能会失败,因为在原始通用训练集中代表性不足的最具挑战性的姿势。在这些情况下,“个性化”ConvNet的好处对于从头开始训练的3D姿态ConvNet,我们在图5中展 示 了 示 例 3D 重 建 。 注 意 主 体 的 挑 战 性 姿 势 和ConvNet预测的非常准确的5. 总结本文提出了一种自动收集人体姿态估计任务的3D注释的方法,使用通用的ConvNet进行2D姿态估计和多视图设置的记录。自动生成的注释用于使通用ConvNet适应特定任务,证明了这种“个性化”的重要性能优势。此外,我们还训练了一个用于3D姿态估计的ConvNet,它的性能与当前最先进的技术相当,尽管我们只使用了自动获取的注释,并忽略了提供的地面实况。未来工作的一个有希望的方向是在户外环境中使用自动标注设置(其中MoCap系统和深度传感器不适用)来收集野外图像的3D标注。这将使我们能够训练一个通用的3D人体姿势ConvNet,类似于2D同行,通过克服有限的彩色图像与3D地面实况的瓶颈。项目页面:https://www.seas.upenn.edu/pavlakos/projects/harvesting鸣谢:我们衷心感谢通过以下赠款提供的支持:NSF-DGE-0966142( IGERT ) 、 NSF-IIP-1439681 ( I/UCRC ) 、 NSF-IIS-1426840 、ARL MAST-CTA W911NF-08-2-0004 、 ARL RCTA W911NF-10-2-0016、ONR N00014-17-1-2093、ONR STTR(机器人研究),NSERC发现,和DARPA FLA计划。6995图3:KTH Multiview Football II上的示例,显示了“个性化”带来的性能提升。对于每对图像,姿态估计结果来自通用(左)和图4:Human3.6M上的示例显示了“个性化”带来的性能提升。对于每对图像,姿态估计结果来自通用(左)和图5:来自ConvNet的Human3.6M的示例预测,该ConvNet经过训练以从单个图像估计3D姿势对于每个示例,我们呈现(从左到右)输入图像、来自原始视图的预测3D姿态和新视图。红色和绿色分别表示左和右。6996引用[1] S. 阿明,M。Andriluka,M.Rohrbach和B.席勒用于三维人体姿态估计的多视图图像结构。InBMVC,2013. 3[2] M.安德里卢卡湖Pishchulin,P. Gehler和B.席勒2D人体姿态估计:新的基准和最先进的分析。CVPR,2014。二、五[3] M. Andriluka、S.罗斯和B。席勒图片结构回顾:人物检测和关节姿态估计。CVPR,2009。2[4] 诉 贝拉吉安尼斯 S. 阿明 M. 安德里卢卡 B. 席勒N. Navab和S.伊利克用于多个人体姿势估计的3D图像结构。CVPR,2014。三、五[5] 诉 贝拉吉安尼斯 S. 阿明 M. 安德里卢卡 B. 席勒N. Navab和S.伊利克3D图像结构再访:多人姿态估计。PAMI,38(10):1929 三、五[6] M. Be r gtholdt,J. H. Kappes,S. Schmidt和C. Schn oürr r. 以完全图为基础之物件类别侦测之研究IJCV,87(1-2):93-117,2010. 3[7] F. Bogo、A.金泽角放大图片,P. Gehler,J. Romero和M.J. 黑色. SMPL:从单个图像自动估计3D人体姿势和形状在ECCV,2016年。三、六[8] A. Bulat和G.齐米罗普洛斯通过卷积部分热图回归的人体姿势估计。在ECCV,2016年。3[9] M. Burenius,J.Sullivan和S.卡尔森用于多视图铰接姿态估计的3D图形结构CVPR,2013。三、四、五[10] J. Carreira,P. Agrawal,K. Fragkiadaki和J.马利克基于迭代误差反馈的人体姿态估计在CVPR,2016年。2[11] J. Charles,T.Pfister,D.Magee,D.Hogg和A.齐瑟曼。个性化人类视频姿态估计。在CVPR,2016年。一二三四六[12] W. Chen,H. Wang,Y. Li,H. Su,D. Lischinsk,D.Cohen- Or,B.Chen等人合成训练图像以增强人体3D姿态估计。在3DV,2016年。2[13] A. Elhayek、E.Aguiar,阿吉亚尔A.Jain,J.汤普森湖皮舒林M.安德里卢卡角布雷格勒湾Schiele和C.希奥博尔特高效的基于ConvNet的无标记运动捕捉,适用于相机数量较少的一般场景。CVPR,2015。3[14]A. 埃尔海耶克,E. de 阿吉亚尔A. 杰恩J·汤普森,L. Pishchulin,M.安德里卢卡角布雷格勒湾 schiele和C.希奥博尔特MARCONI -基于ConvNet的无标记运动捕捉,适用于室外和室内场景。PAMI,39(3):501-514,2017年。3[15] P. F. Felzenszwalb和D. P. Huttenlocher。用于对象识别的图形结构。IJCV,61(1):55-79,2005. 二、三、四[16] M. A. Fischler和R. A.埃尔施拉格图像结构的表现TC,C-22(1):67-92,1973年。二、三、四[17] R.加格和我。里德用于单视图深度估计的无监督CNN:几何学拯救了我们。在ECCV,2016年。1[18] M. F. 盖泽尔吉耶河Kasturi和S.萨卡使用CNN学习相机视点以改进3D身体姿态估计。在3DV,2016年。2[19] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。2[20] C. 约 内 斯 库 D. Papava 、 V.Olaru 和 C. 斯 明 奇 塞 斯 库Human3.6M:自然环境中3D人体感知的大规模数据集和预测方法。PAMI,36(7):1325-1339,2014. 5[21] N. Jammalamadaka , A. Zisserman , M. Eichner , V.Ferrari,and C.贾瓦哈我的算法成功了吗?人体姿态估计器的评估器。ECCV,2012年。3[22] 诉Kazemi,M.Burenius,H.Azizpour和J.苏利文基于随机森林的多视角人体部位识别. InBMVC,2013. 三、五[23] I. Kostrikov和J.胆用于从图像估计3D人体姿势的深度扫描回归森林。InBMVC,2014. 三、四[24] S. Li和A. B.陈使用深度卷积神经网络从单目图像估计3D人体姿势。InACCV,2014. 三、五[25] S. Li,W. Zhang和A. B.陈使用深度网络进行最大余量结构化学习,用于3D人体姿势估计。在ICCV,2015年。三五六七[26] G. 朗湖,澳-地Kneip,J.M. Alvarez和H.李通过简单地观看视频来学习图像在ECCV,2016年。1[27] A. Newell,K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。在ECCV,2016年。 一、二、三、五[28] S. Park,J. Hwang,and N.夸使用卷积神经网络和2D姿态信息进行3D人体姿态估计。在ECCVW,2016年。7[29] G. Pavlakos,X. Zhou,K. G. Derpanis和K.丹尼尔迪斯用于单图像3D人体姿势的从粗到细的体积预测CVPR,2017年。三、五[30] T. Pfister,J. Charles,and A.齐瑟曼。Flowing ConvNets用于视频中的人体姿势估计。在ICCV,2015年。2[31] L. Pinto、D. Gandhi,Y.汉,Y.- L. Park和A.古普塔。好奇的机器人:通过物理交互学习视觉表征。在ECCV,2016年。1[32] L. Pishchulin,M.安德里卢卡山口Gehler和B.席勒姿态-let制约的图像结构。CVPR,2013。2[33] D. Ramanan、D. A. Forsyth和A.齐瑟曼。通过学习他们的外表来跟踪他们。PAMI,29(1):65 三、四[34] G. Rogez和C.施密特MoCap-guided data augmentation for3D pose estimation in the wild.在NIPS,2016年。二、三、七[35] M. 桑扎里河谷Ntouskos和F.皮里基于贝叶斯图像的三维姿态估计。在ECCV,2016年。6[36] B. 萨普和B。Taskar MODEC:用于人体姿势估计的多模态可分解CVPR,2013。2[37] E. Simo-Serra,A. Ramisa,G. Ale nya`,C. 托拉斯,以及F. 莫雷诺诺格尔从噪声观测中估计单个图像3D人体姿态CVPR,2012。3[38] B. 泰金岛Katircioglu,M.萨尔茨曼河谷Lepetit和P.呸使用深度神经网络对3D人体姿势进行结构化预测。在BMVC,2016年。三五六七6997[39] J. J. Tompson,A.Jain,Y.LeCun和C.布莱格勒卷积网络和图形模型的联合训练用于人体姿势估计。在NIPS,2014。2[40] A. Toshev和C.赛格迪DeepPose:通过深度神经网络进行人体姿势估计。CVPR,2014。一、二[41] S.- E. Wei,V.Ramakrishna,T.Kanade和Y.酋长卷积姿态机器。在CVPR,2016年。一、二、三[42] J.Wu,T.作者:J. J. Lim,Y. Tian,J. B. Tenenbaum,A.Torralba和W. T.弗里曼。单图像三维解释器网络。在ECCV,2016年。一、二[43] Y. Yang和D.Ramanan 具有部件的灵活混合的铰接式人体检测PAMI,35(12):2878-2890,2013. 2[44] H. 亚辛,美国。伊克巴尔湾 Kr uger,A. Weeberr和J. 胆一种从单幅图像估计三维位姿的双源方法在CVPR,2016年。2[45] J. J. Yu,A. W. Harley和K. G.德尔帕尼斯回到基本知识:通过亮度恒定性和运动平滑性的光流的无监督学习。在ECCVW,2016年。1[46] X. Zhou,X.太阳,W。Zhang,S. Liang和Y.伟.深度运动姿态回归。在ECCVW,2016年。六、七[47] X. 周先生, M. 朱 S. 莱昂纳多斯, K. G. 德尔帕尼斯,还有K.丹尼尔迪斯稀疏与深邃:基于单目视频的三维人体姿态估计。在CVPR,2016年。三五六
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功