人体姿态与深度估计的合成数据集SURREAL及其应用

124 浏览量更新于2023-10-15 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

109向人造人学习Gu？lVarol？？哈维尔·罗梅罗¶泽维尔·马丁NaureenMahmoodINRIABody LabsINRIAMPIMichael J.黑伊万·拉普捷夫CordeliaSchmidMPIINRIAINRIA摘要从图像和视频中估计人体姿势、形状和运动是许多应用的基本挑战。2D人体姿态估计的最新进展使用大量手动标记的训练数据来学习卷积神经网络（CNN）。这些数据获取起来很耗时，而且难以扩展。此外，手动标记的三维姿态，深度和运动是不切实际的。在这项工作中，我们提出了SURREAL（合成人类的真实任务）：一个新的大规模数据集，具有从人体运动捕捉数据的3D序列中合成生成的但真实的人的图像。我们生成了超过600万帧，以及地面真实姿势，深度图和分割掩码。我们表明，在我们的合成数据集上训练的CNN允许在真实RGB图像中进行准确的人体深度估计和人体部位分割。我们的研究结果和新的数据集为使用廉价和大规模的合成数据进行人员分析开辟了新的可能性1. 介绍卷积神经网络为具有大量训练数据的问题提供了显着的在人体分析领域，最近的数据集[4，36]现在收集了足够数量的注释图像来训练用于2D人体姿势估计的网络[22，39]。其他任务，如准确估计人体运动，深度和身体部位分割是落后的，因为人工监督这样的问题，在大规模是昂贵的。人物形象在姿态、衣着、发型、体型、遮挡、视点、运动模糊等因素上有着丰富的变化。其中的许多变化，如何-法国巴黎†De'partementd德国图宾根马克斯·普朗克智能系统研究所法国格勒诺布尔市Jean Kuntzmann律师事务所目前在Body Labs Inc.，纽约州纽约市。当JR在MPI-IS时进行了这项工作。图1. 我们生成照片般逼真的合成图像及其相应的地面实况，用于学习逐像素分类问题：人体部分分割和深度估计。仅在合成数据上训练的卷积神经网络可以生成真实图像，足以完成这两项任务。此图中的真实测试图像取自MPII人体姿势数据集[4]。可以使用现有的3D运动捕捉（MoCap）数据[3，17]和现代工具进行合成，以实现逼真的渲染。如果提供足够的真实性，这种方法将非常有用的许多任务，因为它可以生成丰富的地面真相的深度，运动，身体部位分割和遮挡。虽然合成数据已使用多年，但真实性有限。在这部作品中，我们提出了超现实：一个新的大规模数据集，包含合成生成的但真实的人物图像。图像是从MoCap数据的3D序列渲染的。为了确保真实性，使用SMPL身体模型[19]创建合成身体，其参数通过给定原始3D MoCap标记数据的MoSh [20]方法拟合。我们随机抽取了各种各样的视角、衣服和灯光。SURREAL包含超过600万帧，包括地面真实姿势、深度图和片段，110图2. 我们生成合成数据的管道。使用运动捕捉数据来对3D人体模型进行摆姿势，并且使用背景图像、身体上的纹理图、照明和相机位置来渲染帧。这些成分是随机抽样的，以增加数据的多样性我们为渲染的人生成RGB图像以及2D/3D姿势、表面法线、光流、深度图像和面具。我们表明，在合成数据上训练的CNN可以在真实的RGB图像中进行准确的人体深度估计和人体部位分割，见图1。在这里，我们证明了我们的数据集虽然是合成的，但达到了支持多个复杂任务训练所需的现实主义水平。这为使用现在可用的图形技术训练深度网络SURREAL数据集与生成合成数据和训练身体部位分割和深度估计模型的代码一起公开提供[1]。本文的其余部分组织如下。第二节回顾了相关工作。第3节介绍了我们的方法来生成逼真的合成视频的人。在第4节中，我们描述了用于人体部位分割和深度估计的CNN架构第5节报告实验。我们在第6节结束。2. 相关工作从合成图像到真实图像的知识转移最近已经用深度神经网络进行了研究。多索维特-斯基等[8]学习CNN，用于使用渲染的3D移动椅子的合成生成图像进行光流估计。Peng等[25]研究在渲染合成3D对象以进行对象检测任务时，不同视觉线索（如对象/背景纹理和颜色）类似地，[38]探索渲染3D对象来执行视点估计。Fanello等人[12]渲染手和脸的合成红外图像以预测深度和部位。最近，Gaidonet al.[13]发布了虚拟KITTI数据集，其中包含合成生成的汽车视频，以研究多目标跟踪。几项工作集中在创建人体的合成图像，用于学习2D姿态估计[26，29，35]，3D姿态估计[7，9，14，23，34，42]，行人检测，[21][26][27][28][29][ 29][ 29]Pishchulin等人[27]使用游戏引擎生成合成图像。在[26]中，他们用3D模型变形2D图像。最近，Rogez和Schmid [34]使用基于图像的合成引擎来增强现有的真实图像。Ghezelghieh等人[14]用10个简单的身体模型渲染合成图像，重点是直立的人;然而，使用现有的MoCap数据进行训练的主要挑战是对不直立的姿势进行泛化。在[30，31，32，37]中探索了类似的方向在[30]中，使用来自MoCap数据的合成人类轨迹来解决动作识别。[31，37]用合成深度图像训练CNN。EgoCap [32]通过用背景增强自我中心序列来创建数据集。与本文最接近的工作是[7]，其中作者使用CNN渲染大规模合成图像以预测3D姿态。我们的数据集与[7]的不同之处在于它具有更丰富的每像素地面实况，因此可以针对像素预测和多任务场景进行训练。此外，我们认为我们的合成图像的真实感更好（参见[1]中的示例视频），从而导致从合成图像和真实图像中学习到的特征之间的差距更小。[7]中的方法严重依赖于真实图像作为其具有域适应的训练中的输入。我们的合成训练并非如此。此外，我们渲染的视频序列，可用于时间建模。我们的数据集与现有的合成数据集存在一些差异。它是第一个为合成RGB帧提供深度、部分分割和流地面实况的大规模人物数据集。其他现有的数据集用于将RGB图像作为输入并仅针对2D/3D姿态进行训练，或者用于将深度/红外图像作为输入并针对深度/部分分割进行训练。我们表明，在形状、纹理、视点和姿势的大变化下，人的照片真实感渲染可以帮助解决像素级的人类标记任务。111图3. 从我们的SURREAL数据集的样本帧与各种各样的姿势，身体形状，衣服，观点和背景。3. 数据生成本节介绍了我们的SURREAL（合成人类真实任务）数据集，并描述了其生成的关键步骤（第3.1节）。我们还描述了如何获得真实MoCap序列的地面实况数据（第3.2节）。3.1. 人造人我们生成合成数据的管道如图2所示。在随机光照和随机背景图像下，从随机视点绘制具有随机三维姿态、随机形状和随机纹理下面我们定义在所有这些情况下“随机”的含义。由于数据是合成的，我们还生成地面真实深度图，光流，表面法线，人体部位分割和关节位置（2D和3D）。结果，我们得到650万帧，分为67582个连续的图像序列。更多统计数据见表1，合成训练/测试分离描述见第5.2节，SURREAL数据集样本见图3人体模型。使用SMPL身体模型创建合成身体[19]。SMPL是一个由数千个高质量3D扫描创建的逼真的身体关节模型，它将身体变形分解为姿势（由于骨骼姿势引起的运动学变形）和形状（特定人固有的身体变形，使他们与其他人不同SMPL与大多数动画软件包兼容，如Blender [2]。SMPL变形被建模为线性混合蒙皮和由身体形状变化的主成分定义的线性blendshapes的组合SMPL姿态和形状参数使用Blender转换为三角网格，然后应用纹理，着色并添加背景以生成最终的RGB输出。体型。为了渲染不同但真实的身体形状，我们使用CAESAR数据集[33]，该数据集用于训练SMPL。为了创建一个身体形状，我们随机选择一个CAESAR受试者，并用前10个SMPL形状主要成分近似他们的形状。nents 十个形状组件解释了CAESAR中超过95%的形状变化（在我们的网格分辨率下），并产生了非常逼真的身体形状。身体姿势为了生成逼真姿势的人的图像，我们从CMUMoCap数据库中获取运动捕捉数据[3]。CMU MoCap包含23个高级动作类别的2000多个序列，从而产生超过10小时的记录身体标记的3D位置。将MoCap骨架数据逼真地自动重定向到新模型通常具有挑战性。为此，我们不使用骨架数据，而是使用MoSh [20]来拟合SMPL参数，这些参数最好地解释了原始3D Mo-Cap标记位置。这给出了对象的3D形状和SMPL的铰接姿态参数为了增加多样性，我们用一组随机采样的身体形状代替估计的3D身体我们使用不同的随机参数渲染每个CMU MoCap序列三次此外，我们将序列分为100帧的剪辑，这三个渲染分别有30%，50%和70%的重叠。序列的每个姿势都是用一致的参数（即，体型、服装、光线、背景等）在每一个剪辑。人体纹理我们使用两种类型的真实扫描身体模型的纹理。首先，我们从CAESAR扫描中提取SMPL纹理图，每个3D点都有颜色纹理。这些地图在肤色和个人身份方面各不相同，然而，由于分辨率低，统一的紧身服装以及放置在面部和身体上的可见标记，它们的质量通常很低人体测量标记- ers自动删除的纹理图像和修补。为了提供更多的多样性，我们提取了第二组纹理，这些纹理是从穿着正常服装的受试者的3D扫描中获得的。这些扫描与4Cap配准，如[28]所示。真实衣服的纹理大大增加了生成图像的真实性，即使SMPL不对衣服的3D变形进行建模。我们的数据的20%是用第一组（158 CAE-SAR纹理随机抽样4000），其余的第二组（772衣服纹理）。保存112匿名的主题，我们取代所有的脸在纹理地图的平均CAESAR脸。此平均面部的肤色将被校正，以适合原始纹理贴图的面部肤色。这个校正后的平均面部与原始贴图平滑地混合，从而产生逼真且匿名的身体纹理。光使用具有9个系数的球面谐波照明身体[15]。系数从−0之间的均匀分布中随机采样。7和0。7，除了环境照明系数（其具有最小值0. 5）以及垂直照明组件，其被偏置以促进来自上方的照明。由于搅拌机不提供球形哈蒙-ics照明，一个球面谐波着色器的身体材料是实现在开放着色语言。相机投影相机的分辨率为320×240，焦距60毫米，传感器尺寸32毫米。到为了在广泛的位置范围内生成身体的图像，我们采用100帧MoCap子序列，并且在第一帧中，渲染身体，使得视口的中心以随机距离（从具有8米平均值、1米偏差的正态分布然后，序列的其余部分有效地在相对于静态相机的位置范围内产生物体。背景我们在静态背景图像上渲染人物。为了确保背景是合理真实的，并且不包括其他人，我们从LSUN数据集的一个子集[41]中采样，该数据集包括来自厨房，客厅，卧室和餐厅类别的总共400K图像。地面真相我们在Blender中执行多个渲染通道，以生成不同类型的每像素地面实况。材料通道生成渲染的身体部位的逐像素分割，给定不同的材料指数，以我们的身体模型的不同部位为标志。速度过程通常用于模拟运动模糊，它为我们提供了一个模拟光流的渲染深度和法线通道用于模拟雾、散景或执行着色等效果，可生成每像素深度贴图和法线贴图。最后的纹理渲染过程将着色的带纹理的主体覆盖在随机背景上。与这些数据一起，我们保存相机和照明参数以及身体关节的2D/3D位置。3.2. 为真实人类数据Human3.6M数据集[16，17]提供了2D和3D人体姿势的基础事实。我们补充了这一基础事实，并为Human3.6M中的人生成预测的身体部位分割和深度图。在这里，我们再次使用MoSh [20]将SMPL体型和姿势拟合到原始MoCap标记数据。这提供了模型与真实身体的形状和姿势的良好拟合。给定提供的相机校准，我们将模型投影到图像。然后，我们渲染地面实况分割，深度，表1.数字中的超现实数据集每个MoCap序列渲染3次（具有3个不同的重叠比率）。剪辑大多是100帧长。我们总共获得了650万帧。受试者数量#序列剪辑数量#帧火车1151,96455,0015,342,090测试3070312,5281,194,662总1452,60767,5826,536,7522D/3D关节如上所述，同时确保与数据集中的真实像素值相对应由于MoSh提供了几乎完美的模型拟合，我们认为该数据是生成的示例参见图6和图7我们使用这个基础事实作为基线，我们只在真实数据上训练，也用于微调我们在合成数据上预先训练的模型在本文的其余部分中，来自合成训练集的所有帧都用于合成预训练。4. 方法在本节中，我们介绍了我们用于人体部位分割[5，24]和人体深度估计[10，11，18]的方法，我们使用合成和/或真实数据进行训练，请参见第5节进行评估。我们的方法建立在最初为2D姿态估计问题引入的堆叠沙漏网络架构上[22]。该网络涉及几个重复的收缩，然后是扩展层，这些扩展层具有跳过连接，以从不同的分辨率隐式地建模空间关系，从而允许自下而上和自上而下的结构化预测。具有残差连接和8个“沙漏”模块的卷积层读者可参考[22]了解更多详情。该网络的变体已用于场景深度估计[6]。我们选择这种架构是因为它可以通过考虑人体结构来推断像素级输出。我们的网络输入是一个大小为256 × 256的3通道RGB图像，经过裁剪和缩放，以适应使用地面真实值的人类边界框。每个堆栈的网络输出在分割的情况下为64×64×15（14个类加上背景），深度为64 × 64 ×20（19个深度类加上背景）。我们用交叉熵损失定义在所有像素上的分割和深度。网络的最终损失是8个堆栈的总和。我们使用RMSprop算法进行了50K次迭代的合成预训练，小批量大小为6，学习率为10−3。我们在训练过程中的数据增强包括随机旋转，缩放和颜色抖动。我们制定的问题，为分割和深度的逐像素分类任务。当解决分割时，每个像素被分配给预定义的14个人体部位之一，即头部、躯干、大腿、小腿、上臂、下臂、手、脚（分别用于右和左）或背景类。关于113深度，我们将地面实况深度图在z轴上与骨盆关节的深度对齐，然后将深度值分成19个bin（骨盆后面9个，前面9个）。我们将量化常数设置为45 mm，以大致覆盖常见人类姿势的深度范围。该网络被训练为将每个像素分类到19个深度箱或背景中的一个。在测试时，我们首先使用双线性插值对每个类别的特征图进行上采样，然后，将每个像素分配给相应通道具有最大激活的类别。5. 实验我们在几个数据集上测试了我们的方法。首先，我们评估了我们的合成SURREAL数据集的测试集上的分割和深度估计其次，我们测试了Freiburg Sitting People数据集的真实图像的分割性能[24]。接下来，我们使用可用的3D信息评估来自Human3.6M数据集[16，17然后，我们在更复杂的MPII人体姿势数据集上定性评估我们的方法[4]。最后，我们对SURREAL数据集的设计选择进行了实验和讨论。5.1. 评估措施我们使用交集工会（IOU）和像素精度的措施，用于评估分割方法。最终测量值是14个人体部位的平均值，如[24]所示。深度估计被公式化为分类问题，但是我们在评估时考虑了连续性。我们计算预测的量化深度值（类）和人类像素上的地面真实量化深度之间的均方根误差（RMSE）为了解释真实世界坐标中的误差，我们将其乘以量化常数（45 mm）。我们还报告了一个尺度和平移不变RMSE（st-RMSE），通过求解z轴上的最佳平移和缩放来拟合预测。由于从RGB推断深度是模糊的，因此这是评估中使用的常用技术[11]。5.2. 合成图像训练/测试分割。为了在合成图像上评估我们的方法，我们将20%的合成帧分离为测试集，并在剩余的训练集上训练我们所有的网络分割被构造为使得给定的CMU MoCap主题被分配为训练或测试。然而，一些主体具有大量的实例，一些主体具有独特的动作，并且一些动作是非常常见的（走、跑、跳）。总体而言，145名受试者中有30名被指定为受试者。28个测试对象涵盖了所有常见动作，2个具有独特动作。其余的科目用于培训。尽管我们的合成图像具有与原始MoCap序列中的主体不同的身体形状和外观，但我们仍然发现按主体分割是合适的我们将我们的体型，服装和背景信息的子集Input PredsegmGTsegmPreddepthGTdepth图4.合成测试集上的分割和深度预测输入Real Synth Synth+Real GT图5.在Freiburg Sitting People数据集上进行部分分割微调是有帮助的，尽管只有200次迭代。测试集的年龄这确保了我们的测试在外观方面是公正的，但仍然代表了所有的动作。表1总结了每个分割中的帧、剪辑和MoCap序列的数量。剪辑是连续的100帧序列，我们有相同的随机体形，背景，服装，相机和照明。在每个剪辑处拾取一个新的随机集。注意，一些序列具有少于100个帧。合成测试集的结果。在每个100帧剪辑的中间帧上进行评估前面提到的合成测试集，总共有12,528张图片。分割的 IOU 和像素准确率分别为 69.13% 和80.61%。深度估计的评价给出RMSE和st-RMSE误差分别为72.9mm和56.3mm。图4显示了样本预测。对于这两个任务，结果在合成测试图像上大多是准确的。然而，存在几个chal-challening姿势（例如，爬行）、具有极端特写视图的测试样本以及引起错误的手的精细细节。在下面的部分中，我们将研究是否可以对真实图像得出类似的结论。5.3. 关于Freiburg Sitting PeopleFreiburg Sitting People（FSitting）数据集[24]由6名坐在轮椅上的受试者的200张高分辨率（300x300像素）前视图图像组成。有14个人体部位注释可用。样本测试图像和相应的地面实况（GT）注释见图5114表2. Freiburg Sitting People数据集的4个测试对象的部分分割结果。给出了头部、躯干和大腿的IOU（左右两侧的平均值）以及14个部位的平均IOU和平均像素精度。平均值不包括背景类。通过添加一个上采样层，我们可以在此数据集上获得最佳结果。头躯干腿是说是说训练数据IOUIOUIOUIOUAcc.Real+Pascal[24]---64.1081.78房58.4424.9230.1528.7738.02Synth73.2065.5539.4140.1051.88Synth+Real72.8880.7665.4159.5878.14Synth+Real+up85.0987.9177.0068.8483.37表3.Human3.6M上的部件分割结果最好的结果是通过微调合成网络与真实图像。尽管仅使用真实数据训练的网络的性能优于仅使用合成数据训练的网络，但由于过度拟合，预测在视觉上更差，请参见图6。IOU准确性训练数据fg+bgFGfg+bgFG房49.6146.3258.5455.69Synth46.3542.9156.5153.55Synth+Real57.0754.3067.7265.53第我们使用与[24]相同的训练/测试分割，2个受试者用于训练，4个受试者用于测试。训练深度网络的数据量有限。我们表明，我们的网络只在合成图像上进行预训练，已经能够分割人体部位。这表明合成数据集中的人类渲染代表了真实图像，因此专门在合成数据上训练的网络可以很好地推广到真实数据。表2总结了FSitting上的分割结果。我们进行了几个实验，以了解合成预训练的增益。对于“真实”基线，我们使用2个训练对象从头开始训练网络。这个网络过度拟合，因为可以学习的科目很少，性能也很低。我们的使用这种方法，我们得到了51.88%的像素准确率和40.1%的IOU，并且明显优于真实图像的训练。此外，微调（合成器+真实）与2个训练科目有显着帮助。定性结果见图5。考虑到FSit- ting中的少量训练，微调在200次迭代后收敛。在[24]中，作者介绍了一种网络，该网络在几层上卷积后输出高分辨率分割。为了进行公平的比较，我们修改了我们的网络，通过添加一个双线性上采样来层，然后是非线性（ReLU）和具有3× 3滤波器的卷积层，输出15× 300× 300，而不是第4节中解释的15×64× 64 。如果我们在 FSitting 上微调这个网络（Synth+Real+up），[24]《易经》中的“道”字，是一个非常重要的概念。请注意，[24]在相同的FSitting训练图像上训练，但添加了大约2,800个Pascal图像。因此，它们使用的手动注释比我们的方法多得多。5.4. Human3.6M上的分割和深度为了评估我们的方法，我们需要足够的真实数据和地面实况注释。这样的数据获得起来很昂贵，并且目前不可用。出于这个原因，我们为用校准的相机记录的图像生成近乎完美的地面实况，Human3.6M是目前可获得此类信息的最大数据集4个摄像头拍摄了360万帧。我们使用受试者S1，S5，S6，S7，S8进行训练，S9进行验证，S11进行测试，如[34，40]所示。每个受试者执行15个动作中的每一个两次。我们使用每个动作的两个实例之一的所有帧进行训练，并使用所有实例的每第64 框架有解决方案-在1000× 1000像素的情况下，为了减少计算的复杂性，我们假设一个256× 256的裁剪人体包围盒我们评估两个分割和深度，并与我们仅在真实图像上训练网络的基线进行比较细分表3总结了Human3.6M的部分分割结果。我们报告了14个人体部位的平均值（fg）和平均值与背景类（fg+bg）。在真实图像而不是合成图像上进行训练，IOU提高了3.4%，像素精度提高了2.14%。这是预期的，因为训练分布在背景、相机位置和动作类别方面与测试分布相匹配（即，姿势）。此外，真实数据的量足以执行CNN训练。然而，由于可用的主题很少，我们看到网络不能推广到不同的在图6中，“真实”基线具有肩部和上臂之间的边界，该边界正好在T恤边界上。这表明网络学习的是皮肤颜色，而不是实际的身体部位。我们的预训练网络（Synth）表现相当不错，尽管我们的MoCap中的姿势当我们使用Human3.6M（Synth+Real）的真实图像对网络进行微调时，该模型预测出非常准确的分割，并且性能大大优于此外，我们的模型能够在所有4个视图上大部分时间区分左和右，因为它是用随机采样的视图训练的。深度估计。在图7中示出了针对各种姿态和视点的Hu-man 3. 6 M上的深度估计结果。在这里，预先训练的网络在非常具有挑战性的姿势上失败了，尽管它仍然捕获了部分正确的估计（第一行）。对真实数据的微调可以补偿这些误差并改进估计。在表4中，我们显示了在前景像素上测量的RMSE误差，以及尺度平移不变版本（见5.1节）。我们还报告了仅在已知2D关节（PoseRMSE）上的错误，以了解基于深度预测的3D姿态估计模型的工作情况人会115输入房SynthSynth+RealGT输入房SynthSynth+RealGT图6.在Human3.6M数据集上进行部分分割，仅在真实图像和来自Human3.6M（Real）的MoSH生成的地面实况上进行训练“真实”基线在上臂明显不符合肤色。合成的预训练网络在服装方面有更多的变化。最好的结果是通过微调网络实现的。输入房SynthSynth+RealGT输入房SynthSynth+RealGT图7. Human3.6M数据集上的深度分割，列表示与图6中相同的训练分区。预训练的网络（Synth）由于训练集中的尺度不匹配和低对比度身体部位而失败，但使用真实数据进行微调（Synth+Real）往往会从这些问题中恢复。表4.Human3.6M上的深度估计结果（以毫米为单位）。在前景像素上报告深度误差RMSE和st-RMSE。PoseRMSE误差仅在给定的人体关节上测量。训练数据RMSEst-RMSEPoseRMSESt-PoseRMSE房96.375.2122.694.5Synth111.698.1152.5131.5Synth+Real90.067.192.982.8需要处理被遮挡的关节来推断所有关节的3D位置，这超出了本文的范围。5.5. MPII人体姿势的定性结果FSitting和Human3.6M是相对简单的数据集，具有有限的背景杂波，少数受试者，每个图像单个，全身可见。在本节中，我们将在更具挑战性的图像上测试模型的泛化能力。MPII Human Pose [4]是最大的数据集之一，具有不同的观点和混乱。然而，该数据集没有用于部分分割或深度的地面实况因此，我们定性地展示了我们的预测。图8显示了几个成功和失败的案例。我们的模型可以很好地概括，除了当有多个人彼此接近和极端的观点时，这些观点在训练过程中没有出现。有趣的是，尽管合成训练中不存在下半身遮挡和布料形状，但模型在这种情况下表现得很准确，请参见图8的标题。5.6. 设计选择我们做了几个实验来回答诸如“我们应该合成多少数据？'，‘Is CMU够了吗？数据量。我们将性能绘制成函数训练数据的大小。我们使用55 K训练剪辑的10- 2、10- 1、100、101%的随机子集进行训练，100%对应于550个剪辑，总共55k帧。图9（左）显示了随着训练数据的增加，分割和深度的性能都有所提高。结果在有和没有微调的合成和人3.6M测试集在所有曲线的开始处，性能增益较高。有一定的饱和度，55k帧的训练就足够了，在一定的时间点后，在Human3.6M上更明显。我们解释这一点的缺乏多样性，在胡曼3.6M测试集和冗余的MoCap构成。服装变化。同样，我们研究当我们增加衣服时会发生什么。我们使用100个片段的子集进行训练，这些片段仅包含1、10或100件不同的衣服（总共930件），因为数据集对于给定的衣服最多有100个片段，我们希望使用相同数量的训练片段，即，1件衣服100个夹子，10件衣服10个夹子，100件衣服1个夹子。图9（右）显示了当我们增加服装变化时，两项任务的表现都有所提高。在微调的情况下，影响变得不那么突出，因为Human3.6M的训练和测试图像是在同一个房间里记录的。此外，测试集中只有一个受试者，理想情况下，这种实验应该在更多样化的数据上进行评估MoCap变体。位姿分布取决于钼帽源.为了试验类似的效果116图8.MPII人体姿势数据集的挑战性图像的定性结果多人，遮挡和极端姿势是我们模型的困难情况鉴于该模型仅在合成数据上进行训练，因此它能够在杂乱的真实数据上进行充分的推广值得注意的是，虽然我们没有对布料的形状进行建模，但我们在第8列（底部）中看到，整件衣服都被标记为躯干，深度相当准确。此外，下半身闭塞从来没有发生在训练中，但在测试中处理得很好（第二顶部，第四底部）。在训练和测试中，我们使用Human3.6M MoCap呈现合成数据。当在真实的Human3.6M上测试时，在此数据上预训练的分割和深度网络（IOU：48.11%，RMSE：2.44）重要的是要有不同的MoCap和匹配的目标分布。请注意，我们在第5.4节中排除了Human3.6M合成数据，以解决没有数据集特定MoCap数据可用的更一般的情况。6. 结论在这项研究中，我们已经成功地从合成的人的图像中大规模训练CNN我们已经解决了两个任务，即人体部分分割-43.532.521.510- 2 10- 1 100 101 102训练样本7060504030201043.532.521.517060504030201010 100衣服数量和深度估计，其中大规模的人-人工注释是不可行的。我们生成的合成数据集10- 2 10- 1 100 101 102训练样本1 10 100衣服数量具有丰富的像素级地面实况信息，并且可以潜在地用于这里所考虑的其他任务与许多现有的合成数据集不同，SUR- REAL的重点是对人的逼真渲染，这是一项具有挑战性的任务。在我们未来的工作中，我们计划通过考虑照明和3D场景布局，以更逼真的方式将人融入背景中。我们还计划通过更具挑战性的场景来增加数据，例如遮挡和多人。图9. 左：数据量。右：服装变化。分段-在合成和Human3.6M上测试了精神状态和深度测试集与在合成训练数据的子集上预先训练的网络。我们还展示了对Human3.6M的微调。X轴为对数标度。鸣谢。这项工作得到了Alexander von Humbolt基金会，ERC资助ACTIVIA和ALLEGRO，MSR-Inria联合实验室以及Google和Facebook研究奖的部分支持。合成测试集H3.6M，预训练H3.6M，微调segm - IOU（%）深度-RMSEsegm - IOU（%）深度-RMSE117引用[1] http://www.di.ens.fr/willow/research/surreal/. 2[2] Blender-3D建模和渲染软件包。网址：//www.blender.org网站。3[3] 卡内基-梅隆Mocap数据库。http://mocap.cs的网站。cmu.edu/网站。第1、3条[4] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。CVPR，2014年。一、五、七[5] L- C. Chen，Y.杨，J.Wang，W.Xu和A.L. 尤尔。注意比例：尺度感知语义图像分割。CVPR，2016年。4[6] W. Chen，Z. Fu，D. Yang和J.邓小平更在野外的单一图像深度感知。NIPS，2016年。4[7] W. Chen ， H.Wang ，Y.Li ，H. 苏， Z.Wang ， C.Tu ，D.Lischin- ski，D.Cohen-Or和B.尘合成训练图像以增强人体3D姿态估计。3DV，2016. 2[8] A. 多索维茨基山口Fischer、E.Ilg，P.豪塞尔角哈齐尔巴斯Golkov，P. van der Smagt，D. Cremers和T.布洛克斯FlowNet：使用卷积网络学习光流. ICCV，2015年。2[9] Y. 杜，Y.黄，Y.Liu，F.汉，Y。桂，智-地Wang，M.Kankan- halli和W.耿。基于单目图像序列和高度图的无标记三维人体运动捕捉。ECCV，2016。2[10] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。ICCV，2015年。4[11] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行NIPS，2014年。四、五[12] S. R. 法内洛 C. 凯斯金， S. 伊扎迪 P. Kohli，D. 金姆，D. Sweeney，A. 克里米尼西，J。Shotton，S. B. 康与T.白学习成为一个深度相机近距离人类捕捉和互动。SIGGRAPH，2014. 2[13] A.盖东，Q. Wang，Y. Cabon和E.维格虚拟世界作为多目标跟踪分析的代理。CVPR，2016年。2[14] M. F. 盖泽尔吉耶河Kasturi和S.萨卡使用cnn学习摄像机视点以改进3D人体姿态估计。3DV，2016. 2[15] R.共享的球面谐波照明：那些细节。在Archives of theGame Developers Conference，第56卷，2003年。4[16] C. 约内斯库湖Fuxin和C.斯明奇塞斯库用于人体姿态估计的潜在结构ICCV，2011年。四、五[17] C. 约内斯库 D. Papava 、 V.Olaru 和 C. 斯明奇塞斯库Human3.6M：自然环境中3D人体感知的大规模数据集和预测方法。IEEE Transactions on Pattern Analysis andMachine Intelligence，36（7）：1325-1339，2014. 一、四、五[18] F. Liu，C.Shen和G.是林书用于从单个图像进行深度估计的深度卷积神经场CVPR，2015年。4[19] M. 洛珀，N.Mahmood，J.罗梅罗湾Pons-Moll和M.J.布莱克。SMPL：一个多人皮肤线性模型。SIG-GRAPH Asia，2015. 第1、3条[20] M. M. 洛珀，N.Mahmood和M.J. 黑色. MoSh：从稀疏标记捕获运动和形状。SIGGRAPH Asia，2014. 一、三、四[21] J. Marin，D.巴斯克斯D. Geronimo和A. M.洛佩兹在虚拟场景中学习行人检测的外观。2010年，加拿大残疾人协会。2[22] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。ECCV，2016。1、4[23] R. Okada和S.索阿托相关特征选择用于杂乱图像中人体姿态估计与定位。ECCV，2008年。2[24] G. Oliveira、A.瓦拉达角Bollen，W. Burgard和T. 布洛克斯深度学习用于图像中的人体部位发现。ICRA，2016年。四五六[25] X.彭湾，澳-地孙，K. Ali和K.萨恩科从3D模型中学习深度对象检测器。ICCV，2015年。2[26] L. Pishchulin，A.贾恩，M。Andriluka，T. Thormhlen，以及B.席勒清晰的人检测和姿态估计：重塑未来。CVPR，2012年。2[27] L.皮舒林A.杰恩C.沃杰克M. 安德里卢卡T. Thormhlen，和B.席勒从少量训练样本中学习人员检测模型。CVPR，2011年。2[28] G. Pons-Moll，J.罗梅罗，北Mahmood和M. J.布莱克。Dyna：动态人体运动模型。SIG-GRAPH，2015. 3[29] W.邱使用计算机图形生成人类图像和地面实况。硕士论文，加州大学洛杉矶分校，2016。2[30] H. Rahmani和A.眠学习一个非线性知识转移模型用于跨视角动作识别。CVPR，2015年。2[31] H. Rahmani 和 A. 眠从新的角度进行 3D 动作识别。CVPR，2016年。2[32] H.罗丹C.理查德，D.卡萨斯E. 因萨夫季诺夫，M. Shafiei，H. P. Seidel，B. Schiele和C.希奥博尔特自我-帽：自我为中心的无标记运动捕捉与两个鱼眼相机。SIGGRAPH Asia，2016. 2[33] K. 罗比内特 S. 布莱克威尔 H. 达能 M. BoehmerS. Fleming，T.Brill，D.Hoeferlin和D.伯恩赛德民用美国和欧洲表面人体测量资源（CAESAR），最终报告。2002. 3[34] G. Rogez和C.施密特MoCap-guided data augmentation for3D pose estimation in the wild.NIPS，2016年。二、六[35] J. Romero，M. Loper和M. J.布莱克。FlowCap：来自光流的2D人体GCPR，2015年。2[36] B.萨普和B。Taskar人体姿态估计的多模态可分解模型。CVPR，2013年。1[37] J. Shotton，A. Fitzgills，，A. Blake，A. Kipman，M. 菲诺基奥河Moore和T.点整打从单个深度图像中部分地实时人体姿势识别。CVPR，2011年。2[38] H.苏C. R. Qi，Y. Li和L.吉巴斯为CNN渲染：使用经过渲染的3D模型视图训练的CNN进行图像中的视点估计。ICCV，2015年。2[39] S.- E. Wei，V.Ramakrishna，T.Kanade和Y.酋长卷积姿态机器。CVPR，2016年。1[40] H. Yasin，U.伊克巴尔湾Krger，A. Weber和J.胆一种从单幅图像估计三维位姿的双源方法CVPR，2016年。6[41] F. Yu ， Y.Zhang ， S.Song ，中国黑杨 A.Seff 和 J. 萧LSUN：使用深度学习构建大规模图像数据集，其中人类处于循环中。arXiv：1506.03365，2015。4118[42] X. Zhou，M. Zhu，S

下载后可阅读完整内容，剩余1页未读，立即下载