没有合适的资源?快使用搜索试试~ 我知道了~
2990HUMBI:一个大型多视图人体表情数据集柳智轩<$柳在申尹<$尹尹圭李<$PrashanthVenkatesh<$朴在植<$JihunYu朴贤洙 <$†明尼苏达大学Universityof Minnesota图1:我们提出了一个新的多视图人体表情的大型数据集,用于建模视图特定的外观和几何形状。107台同步摄像机捕捉772个不同主题的表情。我们集中在五个基本表达式:脸(蓝色)、凝视(黄色)、手(粉红色和紫色)、身体(浅橙色)和包括顶部(浅蓝色)和底部(浅绿色)的服装。摘要本文提出了一种新的大型多视图数据集称为HUMBI的人体表达与自然服装。HUMBI的目标是方便建模特定于视图的外观和几何形状的目光,脸,手,身体,和服装从各种各样的人。107台同步高清摄像机用于拍摄772名不同性别、种族、年龄和身体状况的受试者利用多视图图像流,我们使用3D网格模型重建高保真度身体外观,这允许使用其规范图谱表示视图特定外观。我们证明了HUMBI在学习和重建完整的人体模型方面非常有效,并且是对现有的具有有限视图和主题的人体表情数据集的补充,例如MPII-Gaze,Multi-PIE,Human3.6M和Panoptic Studio数据集。1. 介绍我们通过诚实的身体信号表达真诚的意图,情感和注意力[50],包括凝视,面部表情和手势。因此,这种身体信号的建模和真实感渲染是纹理、几何、照明和视点之间的复杂物理交互(例如,半透明的皮肤、微小的皱纹和反光织物)。最近,通过利用大量的神经编码能力[6,39],姿势和视图特定模型大大扩展了现有线性模型的可表达性[16]。到目前为止,这些模型已经通过使用专用相机基础设施(例如,多摄像机系统[7,25,73])。展望未来,我们将期待一种新的多功能模型,适用于各种人的一般外观,而不需要对每个目标对象进行大量扫描。在众多因素中,构建这样一个可推广的模型的核心资源是什么?我们认为,数据,可以跨越一个广泛的范围内的外观从numerous形状和身份是先决条件。为了验证我们的猜想,我们提出了一个新的人体表情数据集,称为HUMBI(人类多视图行为成像),它推向了两个极端:观点和主题。截至2019年11月1日,该数据集由772名不同年龄、性别、种族和身体状况的自然服装的受试者组成,由107台高清同步摄像机(68台摄像机面向正面身体)拍摄。与现有的人体表情数据集相比,如CMU Panoptic Studio [24,26],MPII [51,52]和真实的远程呈现然而,它具有挑战性,因为1在与公共活动场所的合同中,数据集预计将增长两位作者对这项工作的贡献相当每年2991CMU姿态(VGA)HUMBIINRIACMU social(HD)MPII人体EVA 人3.6M5001001011 10 100 1000的受试者图2:我们展示了两个极端的HUMBI:观点和主题。由107台高清摄像机测量的772个不同主题的五种基本身体表情的特定外观。INRIA [31],HUMBI提供了前所未有的大规模视觉数据(图2),这些数据非常适合学习五种基本人体表情的详细外观和几何形状:凝视、面部、手部、身体和服装(图1)。我们的分析表明HUMBI是有效的。我们利用香草卷积神经网络(CNN)从HUMBI学习视图不变的3D姿态,其在数量上优于由具有有限视图和主题的前向数据集训练的对应模型更重要的是,我们表明HUMBI是对这些数据集的补充,即,训练的模型可以是基本上不确定的。通过结合这些数据集来证明。HUMBI的主要特性总结如下。(1)完整:它捕获整个身体,包括凝视,面部,手,脚,身体和服装,以表示整体身体信号[28],例如,面部和手部运动之间的知觉协调。(2)密集:107台高清摄像机创造了一个密集的光场,观察微小的身体外展,最小的自我遮挡。这种密集的光场使我们能够将精确的外观建模为视图的函数[39]。(3)自然:受试者均为自愿参与者(无男演员/女演员/学生/研究者)。他们的活动是松散的指导下的性能指令,产生自然的身体表情。(4)多样性:772名不同的受试者,具有不同的服装风格、肤色、随时间变化的凝视/面部/身体/手的几何形状和运动范围。(5)精细:利用多视图HD摄像机,我们使用3D网格重建高保真度3D模型,这允许在其规范图谱中表示视图特定外观。2. 相关工作我们简要回顾了现有的数据集建模人类的身体表情:凝视,脸,手,身体,和服装。这些数据集总结见表1。凝视哥伦比亚凝视数据集[62]和UT-多视图数据集[64]已在头部姿势固定的受控环境中捕获。在随后的工作中,这些限制已经放松。Eyediap数据集[43]在允许头部运动的同时捕获凝视,提供自然的凝视运动。MPII-Gaze数据集[81]测量了笔记本电脑的野外凝视,包括214 K图像,15名受试者。这包含了各种外观和照明。RT-GENE数据集[18]通过测量自由范围的关注点进一步采取了措施,其中通过使用移动眼动跟踪眼镜的运动捕获获得了地面真实情况。人脸3D变形模型(3DMM)[10]是通过对大量人口进行3D扫描来构建的,以模拟人脸的复杂几何形状和外观。例如,通过利用面部标志[8,29,36,55,57]和密集面部网格[17,68]重建3D面部。值得注意的是,将3DMM拟合到来自多个面部对齐数据集的60 K样本[8,42,56,82,85],以创建300 W-LP数据集[84]。对于面部外观,深度外观模型[39]使用条件变分自动编码器引入视图相关外观,其优于线性主动外观模型[16]。灵巧的手操作经常会引入自遮挡,这使得构建3D手部姿势数据集具有挑战性。结合跟踪提供琐碎手部分割的深度图像已被用于建立地面真实手部姿势[65然而,这样的方法仍然需要大量的手动调整。这一挑战通过使用图形化生成的手来解决[44,45,86],这可能会在真实数据和合成数据之间引入域差距对于真实数据,使用辅助输入(如磁传感器)来精确测量关节角度,并使用正向运动学恢复3D手部姿势[74,78]。值得注意的是,多相机系统已被用于使用3D自举来注释手部[61],其提供了RGB数据的手部注释FreiHAND[15]利用MANO [53]网格模型来表示密集手部姿势。人体无标记运动捕捉是一种可行的解决方案,以测量密集的人体表达在高分辨率。例如,多相机系统已经被用于捕获身体姿势的不同集合,例如,男演员和女演员表演一些脚本活动,如喝酒,接电话,坐着[23,60]。自然的3D人体是在来自多视图系统的社交事件的角色扮演中捕获的[27],而这些事件固有地涉及人或物体的显著遮挡,这抑制了对完整人体的建模。此外,4D扫描仪[11,52]能够实现高分辨率身体捕获以构建参数化人体模型,例如,SMPL [40].值得注意的是,50K COCO图像上的图像到表面的对应关系[38]使得能够从单视图图像[32]中对人类进行建模。此外,在图像中渲染人体模型可以减轻注释工作[70]。衣服以前的作品已经提出捕捉自然的衣服变形,以响应人体运动。使用多视图重建在3D中分割布料区域[13,75]。为了确保在从3D重建中分割布料时具有相同的拓扑结构,SMPL身体模型可用于参数化布料运动,从而在保留布料几何形状的多视图捕获系统视图数2992数据集受试者数量测量方法目光脸手身体布哥伦比亚凝视[62]565个摄像头J(固定)[64]第六十四话508个摄像头J(固定)[43]第四十三话161个深度摄像头和1个高清摄像头J(自由)[第81话]151相机J(自由)RT-GENE [18]17眼动追踪装置J(自由)[19]第十九话33715个摄像头J3DMM [10]2003D扫描仪JBFM [49]2003D扫描仪JICL [12]10,0003D扫描仪J纽约大学手[69]2(81K样本)深度相机JHandNet [74]10(213K样本)深度相机和磁传感器J[78]第78话10(220万份样本)深度相机和磁传感器JRHD [86]20(44K样本)N/A(合成)J新加坡旅游局[80]1(18K样本)1对立体摄像机J免费WiFi [15]N/A(33 K样本)8个摄像头JCMU Mocap[47]第四十七话∼100<10基于标记基于标记JJJINRIA [31]N/A无标记(34个摄像头)JJ(天然)人类EVA [60]4基于标记和无标记(4-7个摄像头)J[23]第二十三话[27,61]第二十一话11∼100无标记(深度摄像头和4个高清摄像头)无标记(31个高清和480个VGA摄像头)JJJ[52]第五十二话10无标记(22对立体摄像机)J[第51话]10无标记(22对立体摄像机)J(合成)BUFF [79]5无标记(22对立体摄像机)JJ(天然)3DPW [71]7基于标记(17个IMU)和无标记(1个摄像头+ 3D扫描仪)JJ(天然)TNT 15 [72]4基于标记(10个IMU)和无标记(8个摄像头+ 3D扫描仪)JD-FAUST [11]10无标记(22对立体摄像机)JHUMBI772无标记(107台高清摄像机)J(自由)JJJJ(天然)表1:人体表达数据集。皱纹水平细节[51]。Our Approach Unlike existing datasets focusing on eachbody expressions, HUMBI is designed to span geometryand appearance of total body expressions from a numberof distinctive subjects using a dense camera array. 我们的万亿级多视图视觉数据提供了一个新的机会,概括姿态和视图特定的外观。3. HUMBIHUMBI由107台同步高清摄像机拍摄的772个独特的主题组成69个摄像机均匀分布在直径为2.5 m的十二边形框架上,沿着两个水平的弧(0.8 m和1.6 m),相邻摄像机之间的基线约为10mm(22 cm)。另外38个摄像机分布在十二边形框架的前象限(平均基线:10cm),以使用于捕获面部/凝视的相机致密化。该数据集包括五个基本的身体表情:目光、脸、手、身体和衣服。我们使用COLMAP [59]来校准相机,并使用物理相机基线将重建升级到公制尺度。显著的学科统计数据包括:性别分布均匀(女性50.7%;男性49.3%);广泛的年龄组(30多岁的11%,20多岁的29%,青少年的26%);多种肤色(黑色、深棕色、浅棕色和白色);各种风格的服装(连衣裙、短袖/长袖T恤、夹克、帽子和短裤/长裤)。统计数据总结见图3。在本节中,我们将重点放在结果计算表示上,同时将重建方法的详细描述推迟到Ap-pennsylvania。表示法我们将人体实验的表示法表示如下:• 图像:I={Ii}是一组多视图图像。• 3D关键点:K.• 3D网格:M ={V,E}。• 3D占用图:O:R3→ {0,1},其将3D体素坐标作为输入并输出二进制占用。• 外 观 图 : A : R2→[0 , 1]3 , 作 为 输 入 图 谱 坐 标(UV)并输出归一化的RGB值。通过使用RANSAC对2D人体关键点检测进行三角测量[14],然后进行非线性细化,最大限度地减少几何重投影误差,重建面部(K面)、手部(K手)和身体(包括脚)上的3D关键点当多个人可见时,我们通过几何验证定位每个主体3.1. 目光HUMBI Gaze包含1093K图像(4个注视方向每名受试者30次浏览)。我们使用相对于移动头部坐标系的单位3D矢量g∈S2来表示注视几何。头部坐标定义如下。原点是眼睛的中心,o=(pl+pr)/2,其中pl,pr∈R3是左右眼中心。x轴是沿着 连 接 两 个 眼 睛 中 心 的 直 线 的 方 向 , ( pl−o )/pl−o;z轴是垂直于由pl、pr和pm组成的平面的方向,其中pm是嘴的中心,朝向后面;y轴被定义为在右手定则约束下与x轴和z轴正交的矢量对于眼睛外观,我们提供了两种表示:(1)归一化的眼罩和(2)姿态无关的外观图。对于归一化的眼罩,我们扭曲眼罩区域,使得方向和距离在视图中保持恒定。RGB值是直方图均衡的.对于外观,我们选择Surrey人脸模型[22]中眼睛区域的顶点,为每只眼睛构建一个规范我们代表特定于视图的2993性别(%)男女年龄(%)<1010-2020-3030-4040-5050-60> 605.9肤色(%)白色浅棕色深棕色黑色布面(%)套筒类型全半没有一4.2布底(%)半长短裙头发(%)长中短帽图3:(上图和下图)HUMBI包括772个不同性别、种族、年龄、服装风格和身体状况的受试者,这些受试者产生了人类表情的多样性。(中)对于每个受试者,107个高清摄像机捕捉她/他的表情,包括凝视,面部,手部,身体和服装。appearance map通过将图像中的像素投影到图集坐标上来进行凝视图4(a)示出了具有外观的中值和方差的跨视图的视图特定外观方差图表明,出现是高度依赖于视点,特别是在虹膜区域。3.2. 脸HUMBIFace包含约1730万张图像(每个主题330帧×68视图)。 我们使用具有3,448个顶点和6,736个面的3D混合变形模型M面(Surrey [22])来表示面几何。 我们使用68个面部关键点(K面)和相关联的多视图图像(Ifac e)来重建形状模型,即,Mface=ffac e(Kfac e,Ifac e)其中fface是面部对准函数。 我们通过最小化形状、表情、光照和纹理参数的重投影误差来对齐人脸模型(见附录)。给定重建的人脸网格模型,我们通过将图像中的像素投影到其规范图集坐标上来构造视图特定的外观图A人脸。 对于每个视图,通过重建网格中相应的3D位置,利用双线性插值建立图像和图谱坐标之间的投影映射。图4(b)示出了跨视图的视图特定外观,具有外观的中间和变化。 方差图显示外观取决于视图,例如,诸如眼睛、眉毛、鼻子和嘴的显著标志的区域,这证明了视图特定外观建模的必要性[39]。3.3. 手HUMBI Hand包含2400万张图像(290帧×每名受试者68次浏览 我们代表了手的几何形状-使用手部关键点的模型(具有21个关键点的K手),即,M手=f手(K面),其中f手是手对齐函数。我们通过最小化手部关键点和网格模型的相应姿态之间的欧氏距离来将手部模型与多视图图像对齐,该欧氏距离具有L2参数正则化。为了学习每个受试者的手模型的一致形状,我们在给定帧上的重构关键点的情况下推断形状参数的最大似然估计(参见附录)。给定重建的手网格模型,我们通过将图像中的像素投影到规范图集坐标上来构造视图特定的外观图A手。图4(c)各视图中具有中位数和外观方差的插图视图特定外观方差图显示外观取决于视点。3.4. 身体每个主体执行一系列的动作和舞蹈表演,这构成了126M图像。 给定每个时刻的一组多视图图像,我们使用身体关键点Kbody和ocupan c y映射Obody来重建网 格 模 型 M body ,即,其中fbody是将Mbody的表面匹配到占用图的外表面同时最小化重构的关键点Kbody与网格的底层姿态之间的距离的对准函数(参见附录)。我们使用SMPL参数模型[40],该模型由4,129个顶点和7,999个面部组成,没有手和头部顶点。从轮廓恢复形状2[34]用于重建占用图O身体。通过人体分割生成占用图[37]。作为副产品,语义(即,头部、躯干、上臂、下臂、大腿使用3D参数化模型M手(MANO [53]),778个顶点和1,538个面。 我们重建网格2MultiView立体[59]与占用图互补。50.7 49.312.712.269.25.73.311.712.711.126.429.28.334.457.312.747.235.811.6十五点四26.246.72994多视图图像视图特定外观中位外观多视图图像视图特定外观外观差异外观差异中位外观多视图图像中位外观多视图图像特定于视图的外观中位外观外观差异外观差异视图特定外观(a) 凝视外观(b)面部外观(c) 手的外观(d)身体外观图4:从具有中值外观和方差的多视图图像呈现的视图特定外观,用于(a)凝视,(b)面部,(c)手,(d) 身体和小腿)可以通过与如图5所示的投影身体标签[76]相关联而在occu-observe图中的每个位置处被标记。给定重建的身体网格模型,我们通过将图像中的像素投影到规范图集坐标上来构造视图特定的外观图A身体图4(d)示出了跨视图的视图特定外观,具有外观的中间和变化。方差图显示外观取决于视点。3.5. 服装鉴于身体重建,我们使用与[51]类似的服装网格模 型 Mcloth 表 示 使 用 对 准 函 数 Mcloth=fcloth(Mbody,0body)从身体模型和占用图重建布料网格预先定义了布料和人体网格之间的一组基准对应关系,这些基准对应关系用作布料变形的控制点通过拉普拉斯正则化[63](见附录),将变形的布料与占用图的外表面每个布料片使用三种服装上衣:无袖衬衫图5:我们使用从轮廓恢复形状的方法重建身体占用图及其外表面,并将点云与身体语义(头、身体、手臂和腿)相关联。(3,763个顶点和7,261个面)、T恤(6,533个顶点和13,074个面)和长袖衬衫(8,269个顶点和16,374个面)以及底部:短的(3,975个顶点和7,842个面)、中等的(5,872个顶点和11,618个面)和长的裤子(11,238个顶点和22,342个网格),其被人工匹配到每个对象。2995-45-30-150153045UTMV凝视-45-30-150153045MPII凝视-45-30-150153045RTGENE凝视-45-30-150153045HUMBI凝视-45 -30 -15 0 15 30 45UTMV头位-45-30-150153045-45 -30 -15 0 15 30 45-45 -30 -15 0 15 30 45MPII头位-45-30-150153045-45 -30 -15 0 15 30 45-45 -30 -15 0 15 30 45RTGENE头部姿势-45-30-150153045-45 -30 -15 0 15 30 45-45 -30 -15 0 15 30 45HUMBI头姿势-45-30-150153045-45 -30 -15 0 15 30 45表3:交叉数据评估的3D注视预测的平均误差(单位:度)。头部姿势,由于大量的意见和自然头部移动--45-30-150153045UTMV眼位-45-30-150153045MPII眼位RTGENE眼位-45-30-150153045-45-30-150153045HUMBI Eyepose许多主题的作品注视和眼睛姿态的偏转和俯仰均匀地分布在所有角度上。注视分布的偏倚和方差的定量分析总结见表2。HUMBI显示最小的平均偏差(5.98○相比于6.69○-14.04○从其他-45 -30 -15 0 15 30 45-45 -30 -15 0 15 30 45-45 -30 -15 0 15 30 45-45 -30 -15 0 15 30 45图6:MPII-Gaze、UT-Multiview、RT-GENE和HUMBI在标准化空间水平轴和垂直轴分别表示偏航角和俯仰角(单位:度)。偏倚/方差UTMVMPIIRTGENEHUMBI目光7.43/33.098.80/10.1019.35 /31.717.70/30.01头部姿势4.20/29.2812月51日/16月4日17.97 /22.481.42/24.77眼位8时43分/15时40分20.81 /19.023.21/17.498.78 2019年04月19日平均6.69/25.9314.04 /15.0513.51 /23.905.98/24.61表2:头部姿势、注视和眼睛姿势分布的偏差和方差分析(单位:最小偏差和最大方差以粗体表示,第二个带有下划线)。4. 评价我们评估HUMBI的概括性,多样性和准确性。对于可推广性,我们对单视图人体重建任务进行了跨数据评估,例如,单目3D人脸网格预测。对于多样性,我们可视化HUMBI的分布,例如,沿着偏航角和俯仰角的注视方向分布。对于精度,我们测量相机的数量如何影响重建的质量更多评价见附录。4.1. 目光基准数据集我们使用三种基准数据集:(1)MPII-Gaze(MPII)[81]包含213,659张来自15名受试者,这是在日常使用笔记本电脑(2)UT-Multiview(UTMV)[64]由50名受试者组成,160个注视方向由8个安装在监视器上的摄像头捕获。使用真实数据,从144个虚拟摄像机合成的图像被增强。(3)RT-GENE [18]包含了15名受试者的122,531张由眼动追踪眼镜拍摄的图像。为了表征HUMBI凝视,我们在图6中可视化三个测量:(1)凝视姿势:相对于相机姿态的注视方向;(2)头部姿势:相对于摄像机姿态的头部方位;(3)眼睛姿态:相对于头部的注视方向。HUMBI涵盖了广泛而连续的数据集)和第二大平均方差(UTMV的24.61○公厘到25.93○ 公 厘注意UTMV是一个合成大小的数据集,而HUMBI是真实的。单目3D凝视预测为了验证HUMBI凝视的通用性,我们使用现有的凝视检测网络[81]进行交叉数据评估。我们随机选择25000张图像(平均分布在受试者中)作为每个数据集的实验集。一个数据集用于训练,其他数据集用于测试。 每个数据样本被定义为{(ec,hc),gc},其中ec∈R36×60,hc∈R2,gc∈R2是归一化的眼罩、头部姿态的偏航角和俯仰角以及相对于虚拟相机c的注视方向。 训练检测网络以最小化注视偏航角和俯仰角的均方误差。我们对每个数据集进行自我数据评估,其中90%/10%的训练/测试划分。表3总结了实验结果。与HUMBI相比,MPII和UTMV训练的检测器在交叉数据评估上表现出较弱的性能,有3 ○-16 ○的裕度。HUMBI在交叉数据评估方面表现出强大的性能,具有最小的退化(小于1○下降)。此外,UTMV+ HUMBI和MPII +HUMBI分别在第三个数据集MPII和UTMV上测试时,表现出4.1 ○和13.9 ○的优势,表明HUMBI与UTMV和MPII互补。4.2. 脸基准数据集我们使用3DDFA [84],提供3D面几何体和关联几何体的2D-3D对过时的图像我们使用90%/10%的训练/测试分割。3DDFA的基础人脸模型是Basel模型[49],它不同于我们的人脸模型(Surrey [22])。我们手动预先定义两个模型在规范坐标中的对应关系。单目3D人脸网格预测我们通过使用最近的网格重建网络预测3D人脸网格来评估HUMBI Face [77]。网络编码器直接从单个视图图像回归3D面部形状和头部姿势。我们修改了解码器以适应可微巴塞尔模型。我们训练网络培训测试MPIIUTMVHUMBIMPII+ HUMBIUTMV+ HUMBIMPII6.1±3.311.8±6.68.8±4.87.4±4.17.7±4.6UTMV23.3±9.45.0±3.28.2±4.59.4±5.15.4±3.2HUMBI23.7±13.714.6±10.37.9±5.48.9±6.28.0±5.42996重投影误差(像素)培训测试3DDFAHUMBI3DDFAHUMBI3DDFA+HUMBI7.1±6.423.5±13.920.7±7.113.3±13.74.3±6.68.4±12.2402512-90 ° ~ -60 ° 约-30 °~ 0 °30° ~ 60° ~90°20180 ° ~ 120 ° ~ 60 ° ~ 0 ° 60° ~ 120° ~180°表5:3D手部关键点预测的交叉数据评估结果度量是在0-20mm误差范围内计算的PCK AUC前摄像头的图7:我们测量了由多个数据集训练的面部/身体网格重建模型的视点依赖性增强HUMBI大大减少了视图依赖性。表4:用于交叉数据评估的3D人脸网格预测的平均误差(单位:像素)。具 有 三 个 数 据 集 组 合 , 即 , 3DDFA 、 HUMBI 和3DDFA+HUMBI三种训练方法,并对每一种训练方法,采用弱透视投影模型使重投影误差损失最小化。为了测量精度,我们使用缩放到输入图像分辨率(256像素)的重新投影误差。表4总结了结果。从3DDFA+HUMBI的结果来看,通过组合两个数据集(来自3DDFA的2.8像素和来自HUMBI的4.9像素),预测精度得到提高,这表明HUMBI的互补性由于HUMBI中的多视图图像,网络可以学习视图不变的几何表示,即使有相当大的遮挡,也可以实现精确的反射,如图7所示。4.3. 手基准数据集我们使用三种基准数据集:(1)[86]第86话:你是我的女人大小的手部数据集,包含44K图像,由20个免费提供的3D模型构建,执行39个动作。(2)Stereo Hand PoseTracking Benchmark(SHPTB)[80]是由立体rgb相机装置捕获的真实手部数据集。(3)FreiHAND [15]是由8个摄像头捕获的多视图真实手部数据集。(4)ObMan [21]是一个大规模合成手部网格数据集,具有相关的2D图像(141K对)。我们使用前两个数据集进行手部关键点评估,最后一个用于手部网格评估。单目3D手部姿势预测为了验证HUMBI Hand,我们对来自单视图图像的3D手部姿势估计任务进行了交叉数据评估,其中我们使用了最近的手部姿势检测器[86]。我们训练和评估由每个数据集以及HUMBI和其他数据集的组合训练的模型。结果为sum-在表5中。我们使用在0- 20 mm误差范围内的PCK曲线下面积(AUC)作为度量。结果表明,HUMBI模型在预测三维手部姿态方面比其他三个数据集具有更好的泛化能力(0.02-0.16 AUC)。此外,HUMBI与其他数据集是互补的,并且单独使用另一个数据集训练的模型的性能随着HUMBI的增加而增加(幅度为0.04-0.12AUC)。单 目 3D 手 部 网 格 预 测 我 们 将 HUMBI Hand 与 合 成ObMan [21]数据集进行比较。我们使用最近的回归网络[77],该网络输出手部网格形状和相机姿势,并进行微小修改,例如,我们将潜在系数的大小和手部网格解码器改变为来自MANO手部模型的那些。在弱透视投影模型的基础上,利用重投影误差对网络进行训练和评价。结果总结于表6中。由于真实数据和合成数据之间的域差距然而,通过组合两个数据集,性能得到了极大的改善(甚至比数据内评估更好),例如,ObMan+HUMBI可以分别超过ObMan和HUMBI 0.3和1.7像素。4.4. 身体基准数据集我们使用四个基准数据集:(1)Human3.6M [23]包含许多3D人体姿势由动作捕捉系统测量11名男演员/女演员,并从4台摄像机获得相应的图像。(2)MPI-INF- 3DHP [41]是3D人体姿势估计数据集,其中包含3D和2D姿势标签以及覆盖室内和室外场景的图像。我们使用它的测试集,包含2,929个有效帧,从6个主题。(3)UP- 3D [33]是一个3D人体网格数据集,提供109 K对3D人体重建和相关的2D图像。我们使用Human3.6M,MPI-INF-3DHP进行人体姿势评估,UP-3D进行人体网格评估。单目3D人体姿势预测为了验证HUMBI身体,我们对从单视图图像估计3D人体姿势的任务进行了交叉数据评估我们使用最近的身体姿势检测器[83]。我们训练和评估由每个数据集训练的模型以及由HUMBI和其他数据集组合训练的模型通过遵循[83]的训练协议,我们使用来自MPII数据集[5]的 2D地标标签结果是summa-UP-3D UP-3D+HUMBI3DDFA+HUMBI培训测试SRFHS+HR+HF+HSTB(S)0.720.400.220.470.400.520.44右舵驾驶员(右)0.160.590.260.490.480.500.44FreiHand(女)0.150.400.720.370.350.430.35HUMBI(H)0.160.360.180.500.430.470.41平均0.300.440.360.460.420.480.41299710.54060801004320 406080100表6:用于交叉数据评估的3D手部网格预测的平均误差(单位:像素)。培训测试H36MMI3DHUMBIH36M+HUMBIMI3D+HUMBIH36M0.5620.3620.4340.5510.437MI3D0.3170.3770.3540.3750.425HUMBI0.2480.2670.4090.3720.377平均0.3760.3350.3990.4330.413表7:3D身体关键点预测的交叉数据评估结果。度量是在0-150 mm误差范围内计算的PCK AUC。培训测试UP-3DHUMBIUP-3D+悍马UP-3D22.7±18.649.4±0.0918.4±13.8HUMBI26.0±19.714.5±6.612.5±8.4表8:交叉数据评估的3D人体网格预测平均误差(单位:像素)。在表7中列出。我们使用0-150 mm误差范围内的PCK曲线下面积(AUC)作为度量。结果表明,HUMBI算法在预测三维人体姿态方面比Hu-man 3.6M和MPI-INF-3DHP 算 法 具 有 更 好 的 推 广 性 ( 分 别 为 0.023 和0.024)。0.064 AUC)。此外,HUMBI与其他数据集是互补的,并且单独由其他数据集训练的模型的性能与HUMBI一起增加(分别增加0.057和0.078 AUC的幅度)。单目3D人体网格预测我们使用最近的CNN模型来比较人 体 网 格 预 测 的 准 确 性 , 该 CNN 模 型 在 ( 1 )HUMBI,(2)UP-3D和(3)HUMBI+UP-上训练。3D.虽然我们使用[77]来测试CNN模型,但最近的单目身体重建方法[146,48,54,58]可以替代测试HUMBI的泛化能力。对网络解码器进行了改进,以适应可微SMPL参数预测。重投影误差被用来监督网络和评估测试性能。交叉数据评价总结见表8。我们观察到,使用HUMBI训练的网络由于缺乏姿势多样性而表现出较弱的然而,它与其他数据集相比非常复杂,因为它提供了来自107个视点的各种外观,如图7所示。4.5. 服装我们进行了相机消融研究,以评估相机的数量如何影响服装重建质量。我们逐步减少摄像机的数量,并测量重建精度和密度。重建密度由多视图立体产生的3D点的数量计算[59]。重建精度度量是距离3D图像的最近点距离,摄像机数量摄像机数量空间雕刻图8:我们进行相机消融研究,以评估服装重建的密度(左)和准确度(右)方面的准确性。[34]第34章:一个女人的秘密在这两种情况下,即使没有107个摄像头,性能也达到了最佳水平,如图8所示,确保我们的服装重建是准确的(密度:90台摄像机,107台摄像机;精确度:60个摄像头,107个摄像头)。有关服装廓形准确度的额外评估,请参阅附录。5. 讨论我们提出了HUMBI数据集,旨在促进高分辨率的姿态和视图特定的外观人类身体表情。五个基本的身体表情(凝视,脸,手,身体,和服装)被一个密集的相机阵列组成的107个同步相机捕捉。该数据集包括772名不同性别、种族、年龄和身体状况的受试者我们使用3D网格模型来表示表达式,其中视图相关外观由其规范图谱协调。我们的评估表明,HUMBI优于现有的数据集建模几乎是一致的意见,并可以补充这样的数据集。HUMBI是第一个尝试通过向两个极端推进来跨越各种人的一般外观的数据集:观点和主题。这将提供一个新的机会,建立一个多功能的模型,产生真实感渲染真实的telepress- ence。然而,HUMBI的影响将不仅限于外观造型,即,它可以提供一种新的多视图基准数据集,用于更强的和可推广的针对人类的重构和识别模型。确认这项工作得到了韩国国家科学基金会(No.1846031和1919965)、韩国国家2020R1C1C1015260)。多视图立体侧密度正面培训测试ObManHUMBIObMan+HUMBIObMan3.84±2.66.1±4.13.5±2.4HUMBI10.6±11.36.5±8.44.8±5.8误差2998引用[1] T. Alldieck,M.马格诺尔湾L.巴特纳加尔角Theobalt和G.庞莫尔学习从单个RGB相机重建穿着衣服的人。在IEEE计算机视觉和模式识别会议(CVPR),2019年。8[2] T. Alldieck,M.马格诺尔Xu,C. Theobalt和G.庞斯-莫尔基于视频的三维人体模型重建。在IEEE计算机视觉和模式识别会议上。CVPR聚焦文件。8[3] T. Alldieck,M.马格诺尔Xu,C. Theobalt和G.庞斯-莫尔从单目视频的详细的人类化身。在3DV,2018年。8[4] T. Alldieck , G. 庞 斯 莫 尔 角 Theobalt 和 M. 玛 格 诺Tex2shape:从一个单一的图像详细的完整的人体几何形状。在ICCV,2019年。8[5] M.安德里卢卡湖Pishchulin,P. Gehler和B. 席勒7[6] M. Armando,J.- S. Franco和E.波耶自适应网格纹理用于多视图外观建模。在3DV,2018年。1[7] T. 比勒湾Bickel,P.比尔兹利湾Sumner和M.恶心高质量的面部几何形状的单镜头捕捉SIG-GRAPH,2010年。1[8] P. N. Belhumeur,D. W. Jacobs,D. J. Kriegman和N. Ku-mar.使用一致的例子定位面部的部分。TPAMI,2013年。2[9] B. L.巴特纳加尔湾蒂瓦里角Theobalt和G.庞莫尔多服装网:学习从图像中打扮3d人在ICCV,2019年。8[10] V. Blanz和T.维特基于拟合三维变形模型的人脸识别。TPAMI,2003年。二、三[11] F. Bogo,J. Romero,G. Pons-Moll和M. J.布莱克。动态浮士德:记录运动中的人体在CVPR,2017年。二、三[12] J·布斯 A. 鲁索斯 A. 波尼亚, D. 达纳韦,以及S. Zafeiriou.大型3D变形模型。IJCV 3[13]D. 布拉德利 T. 波帕 A. 谢弗, W. 海德里希,以及T. 布贝克无标记服装捕获。InTOG,2008.2[14] Z. Cao,T. Simon,S.- E. Wei和Y.酋长利用局部仿射场的实时多人2D姿态估计在CVPR,2017年。3[15] J. Y. B. R. M. A. Christian Zimmermann、Duygu Ceylan和T.布洛克斯Freihand:一个用于从单个rgb图像无标记捕获手部姿势和形状的在ICCV,2019年。二、三、七[16] T. F. Cootes,G.J. Edwards和C.J. Taylor. 活跃的模特。TPAMI,2001年。一、二[17] Y. Feng,F. Wu,X.邵,Y. Wang和X.舟结合位置映射回归网络的三维人脸重建与密集对齐。在ECCV,2018。2[18] T. Fischer,H. Jin Chang和Y.德米里斯RT基因:在自然环境中的实时眼睛注视估计。在ECCV,2018。二、三、六[19] R.格罗斯岛Matthews,J. F. Cohn,T. Kanade和S. 贝克多个PIE。 IVC,2009年。3[20] M. Haberman,W. Xu,M. Zollhoefer、G. Pons-Moll,以及C.希奥博尔特Livecap:从单目视频中实时捕捉人类表现。ACM Transactions on Graphics(TOG),2019年。8[21] Y. Hasson,G.Varol,D.齐奥纳斯岛Kalevatykh,M.J. 黑人I. Laptev和C.施密特学习手和操作对象的关节重建。在CVPR,2019年。7[22] P
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功