IGE-Net：基于深度学习的逆向图形能量网络用于人体姿态估计和单视图重建

59 浏览量更新于2023-10-18 收藏 2.31MB PDF 举报

人体姿态估计

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1IGE-Net：逆向图形能量网络用于人体姿态估计和单视图重建多米尼克·杰克1qut.edu.au弗雷德里克·梅尔1f.maire@qut.edu.auSareh Shirazi1s. qut.edu.au安德斯·埃里克森2a. uq.edu.au1昆士兰科技大学电气工程与计算机科学学院2昆士兰大学信息技术与电气工程学院摘要从2D观测推断3D场景信息是计算机视觉中的一个开放性问题。我们提议-使用基于深度学习的能量最小化框架来学习2D观测与所提出的世界模型之间的一致性度量，并证明该框架可以端到端训练以产生一致和现实的推断。我们评估了人体姿势估计和基于体素的对象重建基准的框架，并显示了具有竞争力的结果，可以实现相对较浅的网络，与传统的深度学习方法相比，具有更少的学习参数和浮点运算。1. 介绍计算机图形学涉及使用基于物理的参数和数学运算（如帧变换和投影）将3D场景信息还原为2D计算机视觉可以被认为是一个逆向问题与图形不同，计算机视觉本质上是不适定的。虽然使用标准图形和优化技术可以直接获得与给定2D表示一致的推理，但不能保证此推理是真实的。为了解决这个问题，我们建议使用简单的优化技术的学习能量函数相结合的图形操作与学习的现实主义组件。我们使用深度学习优化技术来学习这个能量函数本身，从而产生一个可以端到端训练的多级优化框架我们将我们的框架应用于两个常见问题：3D人体姿态估计和基于单视图体素的对象重建。2. 主要贡献我们的主要贡献如下。1. 我们提出了简单的参数化的能量函数，捕获的一致性和可行性的问题，人体姿态估计和对象重建的基础上的2D功能和良好理解的计算机图形学原理。2. 对于人体姿态估计的情况下，我们表明，所提出的能量函数可以用于提升2D姿态推断到3D在竞争力的准确性与sign-nificantly更少的学习参数和计算要求。3. 对于对象重建，我们证明了该框架可以在标准桌面GPU上从单个图像生成高分辨率体素网格，而不需要3D卷积或去卷积，在准确性方面优于最先进的高分辨率方法3. 先前工作3.1. 多级优化机器学习中的许多问题都涉及从观察结果中推断未知变量的值。基于能量的模型通过将每个组合映射到标量能量值来描述变量集之间的关系，其中现实的组合对应于比它们不太可行的对应物更低的通过固定已知变量的值并寻找使能量最小化的未知值来进行推断[27]。基于能量的模型在过去已经与深度学习相结合。Zheng等[59]将条件随机场（CRF）公式化为递归神经网络层，与标准卷积神经网络（CNN）相结合，实现了图像的最新结果。70757076细分Amos和Kolter [1]考虑了基于二次规划的能量他们的实现有效地解决了内部优化问题，并证明了它能够学习与数字游戏数独相关的硬约束Domke [13]提出了许多用于有效计算和区分近似优化的实现方案，虽然这些算法没有找到能量最小化问题的精确解，但这些截断的优化过程仍然对图像去噪和标记问题产生了良好的结果。Belanger等人[3]采用了类似的方法，并显示了复杂能量函数的不精确优化优于使用简单函数进行图像去噪和自然语言语义角色标记的精确解3.2. 人体姿态估计从图像中推断人体的二维或三维姿态是人机交互和动作识别等许多任务的重要组成部分对于2D问题，传统方法将视觉特征和图像描述符与身体的树结构和已知的不变量和比例相结合[58]。最近，深度学习在其他图像处理应用（如图像分类和分割）中的成功浪潮已经流入姿态估计，全卷积方法通过回归热图而不是关节坐标本身来实现非常准确的3D问题更具挑战性。除了2D变体中涉及的问题之外，训练在野外工作的3D姿态推理系统的主要困难是各种数据集的可用性。虽然2D数据集可以手动注释，但3D信息通常使用特殊的运动捕捉系统收集。尽管这些系统能够生成大量的数据，但这些数据集中的示例通常在种类上是有限例如，人类360万个数据集（H3M）[19]包含数百万帧，但所有图像都是在同一个房间中收集的，只有少数受试者。相比之下，流行的2D数据集COCO [30]具有超过50，000个人类姿势注释，几乎没有重复。为了解决这种缺乏变化的3D数据的问题，许多方法通过从图像推断2D姿态，然后将这些2D姿态单独提升到3D来使用两阶段方法进行3D推断[4，7，33]。这些方法受益于2D数据集中的各种图像特征，但单独的阶段意味着任何“提升”模块都无法利用在第一阶段中学习的上下文信息。3D姿态估计的另一个主要困难是与深度推断和封闭相关联的固有模糊性对抗性方法通过引入损失项来解决这个问题，这些损失项本身是在一个改进的最小-最大博弈中学习的[21，47，56]。3.3. 单视图三维物体重建从单视图重建三维物体是计算机视觉和机器人技术中的一个任何方法的基础都是输出对象的表示。体积方法在3D学习中使用最广泛[48，54，8，9，20，55，37，51，24，60]。这些这些方法通常使用在图像处理中已经证明成功的想法和操作的3D模拟，包括卷积、去卷积和特征池。自动编码器[15，43]和GAN [53，52，31，17]的最新进展也显示了规则3D网格的有希望的结果，而Tulsiani等人。[46]示出的对象形状和姿态可以同时学习，而无需仅使用深度图或轮廓的3D标签，以鼓励跨多个视图的视图一致性。不幸的是，3D表示所固有的额外维度意味着这些方法的分辨率很差，导致通常粗糙的输出为了克服这个缩放问题，八叉树网络[40，49，18，45]递归地将感兴趣的区域划分为八分区。通过仅关注对象表面附近的区域，这些方法的操作复杂度与表面积而不是体积成比例。其他高分辨率推理方法保持常规的体积数据结构，但使用更好地扩展到更高分辨率的操作[23，39]。点云方法避免了离散空间的需要，而是在物体表面上的点的连续坐标上工作[14，36，38，28]。然而，点云的可变大小和无序性质在深度学习框架中引入了其自身的复杂性。模板变形方法[26，22，57]相反，推断出可以应用于任意密集云或网格的恒定大小的空间扭曲。然而，这是有代价的，因为输出形状的拓扑结构与变形模板的拓扑结构内在地耦合。4. 方法概述我们的方法是基于能量最小化网络，这在文献[27，13，2，3]中已经讨论过我们基于Belanger，McCallum和Yang [3]的工作，在那里我们寻求一些能量函数argminE （ y∈;x ， θE ） .（一）y~我们将能量函数E实现为神经网络，该神经网络将建议的解决方案y和e作为输入7077Ij2特征x与学习参数θE。对于一般的非凸能量，计算精确的argmin是困难的，因此我们用迭代策略的输出来近似结果y（t）=f（y（t），E（y（t−1）;x，θE）;θopt），（2）其中θopt是优化策略的型参数，y_p（0）是初始方案。例如，具有学习率η的基本梯度下降被实现为f （ y， E （ y;x ， θE ） ;η ） =y−ηyE.（三）在本研究中，我们还考虑了具有动量和梯度剪切的梯度下降，其中动量项和剪切值作为θopt的一部分进行训练。图1：展开优化涉及迭代地更新建议的值y∈（t），以根据更新步骤f最小化某个能量函数E参数E和f（蓝色）在外部优化过程中学习该过程如图1所示。我们把这个方案称为展开梯度下降或内部优化。为了训练我们的网络，我们使用由应用于优化的所有步骤的损失的加权和组成的损失λ过程，不λ=∑λ（y（t），y）。（四）t=0其中kt是标量加权值，y是示例标签，λt是取决于问题的某个优先级损失函数在所有实验中，我们使用指数加权k t= 0。9T−t。假设E和f是分段双可微的并且λ0是分段可微的，可以使用称为外部优化器的任何标准优化策略来学习参数θE和θopt。为了简洁起见，我们在下面的等式和图表中删除参数θE和θopt总而言之，我们的逆图形能量网络（IGE-Net）由以下部分组成：5. 人体姿态估计我们首先考虑将人体关节信息从2D（x∈RNJ2×2）提升到3D（y∈RNJ3×3）的问题。注意，我们不要求关节的数量相同，也不要求两个集合之间有任何已知的对应关系这允许我们将来自在一个数据集上训练的模型的2D推断与具有不同关节的3D姿态数据注释。这一领域的最新进展已经导致许多算法在标准基准测试中表现非常好，在精度指标上的差异仅为毫米。对于许多应用程序，这样的错误率是非常令人满意的，所以我们处理这个问题的目的是最小化内存需求和计算成本-在移动机器人和自主系统等领域更重要的因素-同时保持合理的准确性我们还限制我们的方法，以及执行定义的尺度不变的度量。虽然可以根据上下文信息来学习规模，但规模推断中的错误往往会淹没与相对位置相关的错误5.1.网络结构我们基于我们的特征提取模块的工作马丁内斯等人。[33 ]第33段。所提出的网络由两个残差块组成，每个残差块包含两个密集层以及总共六个输入和输出层，以及批量归一化，线性激活，权重裁剪，残差连接和丢弃。虽然这个网络的工作是小的现代标准，我们进一步减少它删除的内部块之一，并下降的单位在每个剩余的内层的一个因素的数量为8。这将可训练参数的数量减少了大约100倍。由于我们的损失和评估是规模不可知的，我们也删除了权重裁剪。我们将能量函数E视为以下的组合：重投影能量Ex和可行性能量Ey，E （y;x）=Ex（ x （y）;x）+Ey（ y ），（ 5）其中x（y）是所提出的解决方案的投影。我们假设相机的内部参数是已知的，并且在相机的参考系中推断3D姿态。每个能量函数利用与Moreno-Noguer [34]类似的成对平方欧氏距离2（z）=||zi−zj||2，j>i，（6）• 特征提取器模块，其提供（可能为空的）特征集合以及初始估计;• 能量模块，其将所提出的解决方案和观察到的特征减少到标量值;以及• 内部优化策略。其中z是RN中的点的有序集合。这种变换具有许多理想的性质，包括旋转、平移和反射不变性.与Moreno-Noguer不同，我们使用平方距离而不是实际差异，因为这避免了平方根运算导致梯度接近零的问题。7078x x）图2：为了将2D姿态信息提升到3D，我们将能量分为2部分：重新投影损失Ex，其测量投影的建议姿态与观察到的2D信息的一致性;以及可行性损失Ey，其对归一化的建议姿态进行操作。我们将重投影损失参数化为具有softplus和softtab激活的2层密集网络DNx输入由x和x中所有点之间的成对平方距离给出，即。E（x;x）=DN2（xx，（7）其中，n是沿着联合维度的级联运算符。虽然一个完美的提议会产生一个完美的重投影（y=yx=x），但反向蕴涵并不成立。顾名思义，可行性能量Ey旨在独立于外观xxy促进可行的建议。为了使该比例不变，我们通过除以髋关节之间的距离来归一化所提出的姿势y_n=N（y_n）E（y）=DN（2（y））。（八）为了防止由于初始损失函数中的伪梯度而导致的早期负动量，我们使用了学习参数的绝对值而不是学习参数本身。我们在流行的人类360万（H3M）数据集上运行实验[19]。我们使用马丁内斯等人提供的2D姿态推断。[33]这来自Newell等人的堆叠沙漏网络。[35]：一个完全在野外训练不同的2D姿势，另一个在H3M上调整。我们还尝试了地面真实2D姿势。所有训练和评估都使用COCO [30]中使用的16个关节的输入，并在3D中推断出一组略有不同的16个关节。根据Martinez等人的评价，对17关节骨骼和额外的骨盆关节进行评价。[33 ]第33段。我们对科目1，5，6，7和8进行培训，并对科目9和11进行评估5.3. 结果我们在2D地面实况输入上训练的两步网络的样本结果如图3所示。我们看到网络学会在一个步骤中协调不一致的2D数据。后续步骤的影响较小，但仍对3D姿势进行微小调整，而不会失去与观察的一致性。图3：相机视图（顶部）和新视图（底部）y y推断的姿势（实心）和地面实况（虚线）在0、1和这种能源架构如图2所示。为了训练我们的模型，我们使用每步外部损失函数λ（y（t），y）=||ky（t）−y||2,(9)其中k是相对于平方误差的最佳缩放因子。5.2.实现细节我们独立地预训练初始姿态估计网络 200个epoch，批量大小为64，与原始[33]相同。对于我们的内部损失网络，我们使用Glorot初始化[16]初始化隐藏层权重，并将损失层权重缩小10−3。这导致内部优化器开始时几乎没有效果，并且不断增长，这在非常早期的阶段平滑了学习。我们使用与Martinez等人相同的学习率衰减时间表。[33]除了初始学习率降低10倍和训练收敛。我们将内部优化器的学习率、梯度裁剪值和动量分别初始化为1、1和0.1。到两步。请注意，观察到的2D姿势（虚线，顶部）在头部中少了一个关节。该模型使用相机视图2D关节坐标（顶部，虚线）作为输入。我们使用两个度量来评估我们的模型：根据等式9缩放后的平均每关节误差，以及最佳刚体变换后的每关节误差我们将这些分别称为方案1a和方案2（Martinezet al.[33] de fine Protocol 1是一个稍微不同的度量。它在意义上与我们的第1a号议定书大致相似，但不等同）。我们开始分析，看看我们的网络的性能，使用地面真实的2D姿态与不同数量的内部优化步骤。我们通过改变残差块的数量以及每层中隐藏单元的数量来比较没有IGE组件的基础模型的不同方案2结果如图4所示。我们的IGE网络可以通过几个步骤实现有竞争力的结果，其性能与完全基本模型相当，操作量非常少。与基线不同，我们的网络也有恒定数量的707970605040105 106乘加图4：协议2得分（越低越好）和由于推理中的密集层而导致的乘加数基础模型值是针对每个密集层中具有（从左到右）128、256、512和1024个单元以及1个（红色）或2个（蓝色）残差块的网络IGE值（黑色）是（从左到右）0、1、2、4、6和8、12和16步。每个点的大小表示模型的可训练参数的数量。二维源ProSH育酚FT1aGT议定书SH FT2GTMart. [33个]---52.547.737.1基地1024/279.075.161.652.247.935.8IGE475.167.845.156.151.539.4IGE872.866.042.655.150.537.7表1：基于堆叠沙漏检测（SH）、微调堆叠沙漏检测（FT）和地面实况投影（GT）的推断的平均方案la/方案2分数。基线模型有1024个隐藏单元和2个残差块。IGE网络进行了4和8个步骤的培训越低越好。训练参数，导致显著更小的存储器占用空间。基于推断的2D姿态的实验的结果在表1中示出。有趣的是，我们的基线方法适用于过拟合某些位移，导致相对较高的协议1a损失，但与Martinetz等人的损失一致。最佳翻译后我们的IGE网络表现略差于Martinez等人。关于延迟检测，尽管考虑到减少的计算和存储器负担，但我们相信这在许多情况下是可接受的6. 单视图三维物体重建对于三维物体重建的问题，我们参数化的形状作为体素占用网格，并寻求一种方法，将规模以及高分辨率。6.1. 能量方程从理论上讲，分离重投影和可行性损失的方法可以应用于目标重投影，图5：单视图重建的能量函数通过比较轮廓和使用一些3D卷积编码器分别。然而，最初的实验表明，这种方法受到一些问题的影响。这些问题包括制定连续值的建议解决方案的预测和缩放问题与网格的立方性质相反，我们提出了一个非常不同的能量函数公式的单视图重建。我们认为内部优化器输入x是具有不同分辨率x={ x1， x2，···， xNC}的NC个输出特征库的某个2D卷积网络的渐进输出。我们考虑一个能量函数，它是由每个分辨率下的能量函数对于形状为（hi，wi，fi）的每个图像特征图xi，我们通过在平截头体素体积上的世界坐标y中的所提出的voxel网格值来考虑形状为（hi，wi，di）的相机的视锥体y i中的体素网格。我们的能量函数试图学习沿着射线的所有体素值与相关像素的图像特征之间的一致性E（y;x）=∑CNNi（xi<$y<$i），（10）我其中连接是沿着特征维度进行的，CNNi是一些短的2D卷积神经网络。通过将平均平截头体素网格的深度di和CNNi的每层中的滤波器的数量设置为与图像特征的数量fi成比例，并假设这些图像特征的深度大致加倍，因为它们的空间分辨率减半，我们确保每个图像分辨率下的操作数量相同。这允许比典型的3D卷积/去卷积网络更好的分辨率缩放在实践中，在对应于截头体网格的体素上对世界坐标中的体素网格求平均是一个非平凡的操作，并且必须在所有示例中在内部优化器的每个步骤和分辨率处完成。相反，我们在预处理步骤中将数据集的标签转换到截头体空间中。在推断期间，所提出的解决方案y是在截头体坐标中的voxel网格，其是针对每个图像分辨率以不同池大小各向异性地池化的verage。这意味着只有平均池-IgE基地1基地 2方案2（mm）7080v必须在每个内部优化步骤和解决方案中进行优化。虽然这种池化操作仍然按比例缩放的体素和内部优化步骤（O（TN3））的数量，GPU池化实现是相对快速的，操作不引入额外的虽然这意味着我们的方法需要了解相机的内部参数，但我们认为帧的选择是任意的。我们的方法在其推断中没有明确使用相机的姿态，虽然与文献中的其他方法相比，上面讨论的数据集变换导致了稍微不同的问题，但我们不认为这使我们处于不公平的优势。相反，转换的结果在一个更多样化的数据集，我们的实验表明，传统的方法在这种环境中表现稍差。我们的能源架构如图5所示。6.2. 外部损失为了训练，我们试验了两种不同的每步外部损失.首先，我们考虑基于交叉熵的α平衡焦点损失[29tion，这是一个3× 3，其次是2× 2，与softplus和softabs激活。我们的内部优化器使用了一个学习率和梯度剪辑值。我们没有观察到动量的显著差异，因此没有将其包括在实验中。我们使用基线3D去卷积网络进行低分辨率比较（323），类似于初始估计网络，除了我们将特征数量加倍以保持训练参数的数量相当。特征尺寸和参数计数的概述见表2。补充材料中提供了更多细节和网络基地MN2 I4IgEMN2 I4图像编码器输出大小1280 153642× 320 42× 1536参数2，223，872 54，276，1921，811，712 54，276，192初始大小43× 128 43× 51243× 64 43× 256参数2，656，113，159，297238，009 3，802，849图像解码器初始大小- -42× 128 42× 512参数- -140，992 2，928，384内环CNN初始大小- -42× 256 42× 1024参数- -1， 109， 840 16， 573，760内部优化器参数- -2 2总参数4，879，985六十八、四三五、四八九三千三百五百五十五七七五八一一八七λ（y，y）=−[y（1−y）γ（1+α）log（y）+表2：网络规格摘要。参数计数CE∑vvvv（十一）用于323网络-图像解码器和内环CNN参数计数对于更高的分辨率增加可以忽略不计。（1−yv）y <$γ（1−α） log（ 1−y<$v）]，其中求和是在所有体素v上。这是标准交叉熵（通过设置γ=α=0恢复）的一般化，旨在缓解类不平衡的问题。α∈（0，1）导致对阳性示例的额外关注，而γ>0导致对简单示例的关注减少，例如与体素网格的外部（通常为空）或非常中心（通常为填充）相其次，我们实验了一个连续的交集-并集实现，类似于Richter和Roth [39]，6.4. 数据集我们对Choy等人推广的流行Shapenet数据集[6]的13个类别进行了实验。[9]的文件。由于作者提供的渲染参数、图像和模型难以协调，我们使用自己的渲染和体素化。根据Choyet al.每个模型从24个不同的摄像机位置绘制，方位角从[0°， 360°]均匀采样，仰角在[25°， 30°]，分辨率为128× 128。我们创建体素网格的定义，任何体素包围的一个面作为填充。这意味着薄的结构会占据...λ IoU（y= 1，y）=1-y·y||1−y·y||1−y˜·y.（十二）在低分辨率下的大体积。这与采取不太严格的方法的方法这可以保持更好的总体积比，但风险6.3.实现细节我们尝试了两种架构：一个小的网络，编码器基于MobilenetV 2（MN）[42]，另一个更大的网络基于Inception-V4（I4）[44]。图像解码网络建立在编码器网络之上，遵循文献中常见的典型U-Net架构[41，32，35]。对于初始估计，我们使用基于Wu等人的生成器的3D反卷积网络的输出。[53]减少一层，产生分辨率为323的输出。然后，我们进行三线性上采样，以达到所需的分辨率。内循环CNN（CNNi）每个都由两个3× 3 2D卷积组成，除了最低分辨率外，没有填充完全失去了薄的结构。这种差异会显著影响低分辨率网格，尽管在较高分辨率下这种差异并不显著。在初始体素化之后，按照Johnston等人使用的方法填充网格。[23]第10段。6.5. 结果我们的两个模型的推断图像毫不奇怪，两种模型都能很好地学习空间雕刻，几乎没有沿着光线错过物体的体素。IoU训练的模型似乎更保守，7081IGE-MNIGE-I4续IOUα=γ=0α= 0。7γ=2续IOUα=γ=0α= 0。7γ=232363岁560.758.059.866岁。061.959.664.064361岁556.857.156.9六十四760.859.359.31283五十八951.654.553.962. 256.456.857.1平均值63.7六十五958.059.0六十点八六十四4 56.0 59.5 63.5表3：32× 3分辨率下的IoU值（%）。IGE模型用来自等式12的连续IoU损失进行训练。按类别计算平均值。我们为每个列的所有类别训练了当涉及薄结构时，α平衡模型的推论通常显示沿射线的轻微阴影这通常会导致更现实的推断，尽管平均IoU得分较低。定量地，我们首先调查的模型的性能和效果的锥台网格在323分辨率。我们与R2N2 [9]（一个标准基准）以及其他专为高分辨率推理设计的方法进行比较：八叉树生成网络（OGN）[45]和Matryoshka网络（Mat.）[39 ]第39段。交并（IoU）值如表所示3 .第三章。在与世界对齐的网格上训练的基线模型的性能明显优于在截头体网格上训练的基线模型。这表明在截头体数据集中存在的模式比在常规数据集中的模式更难学习。这并不奇怪，因为在截头体素网格数据集中有明显更多的变化（每个视图1个网格，而不是每个模型1个网格）。例如，世界对齐数据集中的几乎所有飞机都有长机身和成角度的机翼。一个学习识别飞机的模型可以在低分辨率下通过简单地推断类平均值而不是考虑精细级细节来做得相当好为了在平截头体数据集上做得同样好，模型需要额外推断相机位置并学习相应地转换平均网格值虽然这意味着随后与在世界对齐的网格上训练的其他方法进行比较我们相信，只要他们在解释时牢记这一免责声明，这比仅仅使用自我比较更有启发性我们的多级优化方法在所有类别和两个图像网络的相同数据集上的性能明显优于基线。它在更容易的世界对齐数据集上的性能也优于基本方法，以及平均考虑的所有其他竞争方法表4：使用不同损失训练的 IGE模型的平均 IoU（以%为单位，按类别平均汽车平面工作台决议326412825632641282563264128256OGN1[45]64.177.178.276.6--------MAT1[39]68.378.479.479岁。636.748.858.059.638.642.343.541.3IGE-MN1357.868.872.873.329.644.852.954.433.644.047.848.2IGE-I41357.970.974.075.230.547.857.557.334.846.552.750.5IGE-MN157.070.376.275.230.747.958.758.133.645.950.650.2IGE-I4158.471.276.576.530.149.260.562. 035.046.452.252岁1表5：在不同分辨率下训练的平均IoU（%），并在2563下对所有类别（13）和每个类别（1）训练的模型进行评估。补充资料中提供的13类型号的按类别毫不奇怪，我们的大模型在所有类别中的表现都优于小模型，无论模型架构如何。为了更好地理解所涉及的损失函数的影响，我们在各种分辨率下训练模型，并与使用不同版本的等式11训练的模型进行比较：基础交叉熵（α =0，γ = 0），重新加权交叉熵（α= 0）。7，γ=0）和焦点丢失（α=0，γ=2）。结果提供于表4中。连续的IoU损失为交叉熵的所有变化提供了优越的度量分数。在交叉熵变体中没有明显的赢家。最后，我们考虑我们的连续IoU模型如何在2563分辨率下执行。在不同分辨率下训练然后线性插值的模型的结果在表5中给出。我们在所有13个类别上训练了一个模型，以及汽车，飞机和桌子的单独模型，以便与其他工作进行公平比较。我们的网络都可以在汽车和飞机上运行，我们的大型网络的性能稍好一些，特定类别的训练也略有改善。我们在表类上的表现明显优于其他方法，其中我们的网络的空间雕刻能力可以提取高精度的角和边，并准确地重建许多薄结构。低分辨率模型在高分辨率下评估时性能较差，这对于我们的模型来说是显而易见的我们将此归因于这些结构的体积随着我们的体素化策略的结果分辨率的增加而发生的巨大变化在我们的13类模型上的大多数实验中，观察到从1283到2563这与OGN [45]中的观察结果一致，OGN证明在更有限的数据集上进行训练会提高分辨率的性能，而更多样化的数据集会受到分辨率增加的阻碍。锥IGEMN I4数据集基地MN IF基地MN I4全球对齐数据集R2N2 [9]OGN [45]Mat. [39]第三十九届平面59.662.449.250.255.062.651.358.764.7板凳52.455.247.347.952.858.142.148.157.7内阁73.674.970.671.372.174.971.672.977.6车78.479.974.273.577.276.979.881.685.0电话69.972.265.464.570.970.366.170.275.6椅子57.060.152.453.655.060.746.648.354.7沙发69.671.265.966.866.769.862.864.668.1里弗莱60.662.647.850.055.060.254.459.361.6灯54.056.547.550.148.750.838.139.840.8监测58.860.753.555.454.760.046.850.253.2扬声器74.576.572.472.870.672.466.263.770.1表57.460.652.954.357.861.051.353.657.37082图6：使用α = 0训练的IGE-MN模型的样本结果。7 loss@1283 resolution和IGE-I4 model trained with continuousIoU@2563.对于每6个区块，顶行：（左）输入图像，（中）推断（蓝色）投影的地面真实轮廓（灰色），（右）与中间相同，除了用I4网络训练的。损失损失。底行：（左）地面实况对象，（中）MN推断，（右）I4推断。解决方案与OGN不同，我们的回归发生在跨类别数据集上训练时，而他们显然是在汽车数据集上训练。7. 结论我们已经证明了基于能量的多级优化网络可以利用计算机图形学原理从2D输入推断3D信息我们的丈夫-人姿态维数提升模型对具有数量级模式参数的网络进行了建模，并使用了一小部分操作。我们研究了两种3D重建网络，并表明相对较小的网络可以实现具有竞争力的结果，而较大的网络可以超越其他最先进的高分辨率网络。这项研究得到了澳大利亚研究委员会的资助，资助号为ARCFT170100072。7083引用[1] B.阿莫斯和J. Z。科尔特Optnet：微分优化作为神经网络的一层。 arXiv 预印本 arXiv ： 1703.00443 ，2017。2[2] D. Belanger和A.麦卡勒姆结构化预测能源网络。在机器学习国际会议上，第983-992页，2016年。2[3] D.贝朗格湾Yang和A.麦卡勒姆结构化预测能量网络的端到端学习。在 Proceedings of the 34th InternationalConference on Machine Learning- ing-Volume 70 ，ICMLJMLR.org，2017年。2[4] F. Bogo、A.金泽角放大图片，P. Gehler，J. Romero和M. J.布莱克。保持它smpl：由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉会议，第561-578页。施普林格，2016年。2[5] Z. Cao，T.Simon，S.-E. Wei和Y.酋长利用部分相似度场进行实时多人二维位姿估计。在CVPR，2017年。2[6] A. 张氏T.芬克豪泽湖吉巴斯山口Hanrahan，Q.黄先生，Z. Li ， S. Savarese ， M. Savva ， S. 宋， H. Su 等人Shapenet ：一个信息丰富的 3d 模型库。 corrabs/1512.03012。网址http：//arxiv.org/abs/1512.03012。6[7] C.- H. Chen和D. Ramanan 3D人体姿态估计= 2D姿态估计+匹配。在CVPR，第2卷，第6页，2017年。2[8] I. 谢拉比河、C. 你好，M. R. Os wald和M. Pollef e ys.使用体素块的多标记语义3D重建。在3DV，2016年。2[9] C. B. Choy，D. Xu，J. Gwak，K. Chen和S. Savarese3d-r2 n2：一种用于单视图和多视图3d对象重建的统一方法。在欧洲计算机视觉会议上，第628-644页。施普林格，2016年。二六七[10] X.朱，W。欧阳，H. Li和X.王.用于姿态估计的结构化特征学习。在IEEE计算机视觉和模式识别会议论文集，第4715-4723页，2016年。2[11] X.朱，W。杨，W.欧阳C. Ma，A. L.尤尔，还有X.王.多上下文注意力用于人体姿态估计。在IEEE计算机视觉和模式识别集，第18312[12] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第248-255页。Ieee，2009年。11[13] J·多姆克基于优化建模的一般方法。在人工智能和统计，第318-326页，2012年。2[14] H.范，H. Su和L.吉巴斯一种从单幅图像重建三维物体的点集生成网络。在CVPR，2017年。2[15] R. Girdhar，D. F. Fouhey，M. Rodriguez和A.古普塔。学习对象的可预测和生成矢量表示。在ECCV，2016年。2[16] X. Glorot和Y.本吉奥。了解训练深度前馈神经网络的困难。法律程序第十三届人工智能和统计国际会议，第249-256页，2010年。四、十一[17] J. Gwak，C. B. 蔡A. 加格M. Chandraker，以及S. Savarese用于3D重建的弱监督生成对抗网络。在3DV，2017年。2[18] C. Hane，S. Tulsiani和J. 马利克用于三维物体重建的分层表面预测。在3DV，2017年。2[19] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库人类3。6m：大规模数据集和预测方法，用于自然环境中的3D人体感知。IEEE Transactions on Pattern Analysisand Machine Intelligence，36（7）：1325-1339，2014.二、四[20] D. J. Rezende，S. M. A. Eslami，S. Mohamed，P. 巴塔利亚M. Jaderberg和N.海斯从图像中无监督学习3D结构。在NIPS，2016年。2[21] D. Jack，F.Maire，A.Eriksson和S.希拉兹三维人体姿态估计的逆向参数化优化。在3D视觉（3DV），2017年第五届国际会议上。IEEE，2017年。2[22] D.杰克，J.K. Pontes，S.斯里德哈兰角Fookes，S. Shi-razi，F. Maire和A.埃里克森学习自由变形的三维物体重建。arXiv预印本arXiv：1803.10932，2018。2[23] A. 约翰斯顿河，巴西-地Garg，G.卡内罗岛D. Reid和A.范登亨格尔。缩放cnn，从单个图像进行高分辨率体积重建。在ICCV研讨会，第930-939页，2017年。二、六[24] A. 卡尔角Ha？ ne和J.马利克学习多视角立体声机。在NIPS，2017年。2[25] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。11[26] A. Kurenkov，J.Ji，黑穗醋栗A.Garg，V.Mehta，J.瓜克角B. Choy和S. Savarese DeformNet：自由变形网络，用于从单个图像重建 3D 形状。第一卷，ABS/1708.04672，2017年。2[27] Y. LeCun，S.乔普拉河哈德塞尔M.Ranzato和F.煌关于能量学习的教程。预测结构化数据，1（0），2006年。一、二[28] C.- H.林角，澳-地Kong和S.露西学习有效的点云生成，用于密集3D物体重建。在AAAI，2018。2[29] T.- Y. Lin，P. 戈亚尔河格希克角He和P. 多尔拉。用于密集对象检测的焦点损失。 arXiv 预印本 arXiv ：1708.02002，2017。6[30] T.- Y. 林， M 。迈尔， S 。贝隆吉， J.Hays ，P.Perona，D.Ra-manan，P. Doll a'r 和C. L. 齐特尼克Microsoftcoco：上下文中的通用对象。欧洲计算机视觉会议，第740Springer，2014.二、四[31] J. Liu，F.Yu和T.A. 放克豪瑟使用生成对抗网络进行交互式3D在3DV，2017年。2[32] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络在IEEE计算机视觉和模式识别会议论文集，第3431-3440页6[33] J. 马丁内斯河Hossain，J.Romero和J.J. 点一种简单而有效的三维人体姿态估计基线国际计算机视觉会议，第1卷，第5页，2017年。二三四五7084[34] F. 莫雷诺诺格尔通过距离矩阵回归从单个图像估计3D人体姿态在计算机视觉和模式识别（CVPR），2017 年 IEEE会议上，第1561-1570页。IEEE ，2017年。3[35] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络欧洲计算机视觉会议，第483施普林格，2016年。二、四、六[36] C. R. Qi，H. Su，K. Mo和L.吉巴斯PointNet：对点集进行深度学习，用于3D分类和分割。在CVPR，2017年。2[37] C. R. Qi，H.苏，M。尼斯纳A.戴，M. Yan和L.吉巴斯用于3D数据对象分类的体积和多视图CNN。在CVPR，2016年。2[38] C. R.齐湖，加-地Yi，H. Su和L.吉巴斯PointNet++：度量空间中点集的深度层次特征学习。在NIPS，2017年。2[39] S. R. Richter和S.罗斯Matryosh

下载后可阅读完整内容，剩余1页未读，立即下载