优化生成3D训练数据的混合梯度方法的研究

74 浏览量更新于2023-10-23 收藏 1002KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1通过混合梯度学习生成3D训练数据Dawei Yang1，21密歇根大学ydawei@umich.edu邓佳22普林斯顿大学jiadeng@cs.princeton.edu摘要由图形引擎渲染的合成图像是训练深度网络的一个很有前途的来源然而，确保它们可以帮助训练网络在真实图像上表现良好是具有挑战性的，因为基于图形的生成管道需要许多设计决策，例如3D形状的选择和摄像头的放置。在这项工作中，我们提出了一种新的方法，优化生成的3D训练数据的基础上，我们称之为“混合梯度”。我们参数化的设计决策作为一个真正的向量，并结合近似梯度和分析梯度，以获得相对于这个向量的网络性能的混合梯度。我们evalu- ate我们的方法估计表面正常的任务，深度或内在的分解从一个单一的图像。在标准基准测试上的实验表明，我们的方法在优化3D训练数据的生成方面，特别是在计算效率方面，可以优于现有技术。1. 介绍由图形引擎渲染的合成图像已经成为深度网络训练数据的一个有前途的来源，特别是对于涉及从RGB像素感知3D结构的视觉和机器人任务[7，66，59，49，39，63、8、29、55、47、46、67、33]。从计算机图形生成训练图像的一个主要吸引力是，它们几乎无限量供应，并免费提供高质量的3D地面实况。尽管它有很大的前景，但是，使用从图形合成的其中之一是确保合成训练图像可用于现实世界的任务，因为它们有助于训练网络在真实图像上表现良好。确保这一点是具有挑战性的，因为基于图形的生成流水线需要许多设计决策，包括3D形状的选择、场景布局的组成、纹理的应用、照明的配置以及相机的位置。这些设计决策可以深刻地影响生成的训练数据的有用性，但在以前的工作中主要是由研究人员手动完成的，可能导致次优结果。在本文中，我们解决了自动优化合成3D训练数据的生成管道的问题，其明确目标是提高经过训练的深度网络在真实图像上的泛化性能。一个想法是黑盒优化：我们尝试管道的特定配置，使用管道来生成训练图像，在这些图像上训练深度网络，并在真实图像的验证集上评估网络。我们可以将训练好的网络的性能视为发电管道配置的黑盒函数，并应用黑盒优化技术。最近的作品[65，50]已经探索了这个确切的方向。杨和邓[65] 使用遗传算法优化生成管道中使用的3D形状。特别是，他们开始与一个简单的原始形状，如立方体和球体的集合，并通过变异和组合将它们进化成复杂的形状，其适应度由训练后的网络的泛化性能决定。他们表明，从头开始演变的3D形状可以提供比手动创建的3D CAD模型更有用的训练数据。与此同时，Ruiz et al.[50]使用黑盒约束学习算法来优化模拟器的参数，并表明他们的方法在受控实验中收敛到最优解，并且确实可以发现好的参数集。黑盒优化的优点是，只要可以计算，它就不会对被优化的函数进行任何假设。因此，它可以应用于任何现有的功能，包括先进的真实感渲染器。另一方面，黑盒优化在计算上是昂贵的-对函数的其他信息一无所知相比之下，通过假设分析梯度的可用性，基于梯度的优化可以更有效，分析梯度可以有效地计算并直接对应于对当前解决方案的良好更新，但缺点是分析梯度779780真实图像参数三维构图和渲染训练图像3D Ground Truth火车网络权值评价性能混合梯度近似梯度分析梯度图1.我们的混合梯度法。我们将设计决策参数化为实向量β，并优化性能L关于β的函数。从β到生成的训练图像和地面实况，我们通过对有限差分近似进行平均来计算近似梯度。从训练样本X到L，我们通过展开训练步骤的反向传播计算分析梯度。通常是不可用的，尤其是对于许多高级的真实感渲染器。在这项工作中，我们提出了一种新的方法，优化生成的3D训练数据的基础上，我们称之为其基本思想是在分析梯度可用的地方利用它们，并将它们与黑盒优化结合起来用于函数的其余部分我们假设，混合梯度将导致更有效的优化比黑盒方法，因为它利用了部分可用的分析梯度。具体地，如果我们将设计决策参数化为实向量β，则将β映射到网络性能L的函数可以分解为两部分：（1）从设计参数β到生成的训练图像X，以及（2）从训练图像X到网络性能L。第一部分通常没有分析梯度，由于使用先进的真实感渲染器。相反，我们通过沿随机方向对有限差分近似求平均来计算近似梯度[36]。对于第二部分，我们通过反向传播计算分析梯度然后，我们将近似梯度和解析梯度相结合，以获得网络性能L相对于参数β的混合梯度，如图所示。1.一、我们的方法的一个关键组成部分是代表设计决策的实际向量的固定尺寸，包括形状的选择和组成。Yang和Deng [65]将3D形状表示为一组有限的图形，每个图形一个。这种表示适合于遗传算法，但与我们的方法不相容相反，我们建议将3D形状表示为由概率上下文无关语法（PCFG）生成的随机样本[21]。为了对一个3D形状进行采样，我们从一个初始形状开始，然后重复地对语法中的一个产生式规则进行采样以对其进行修改。应用生产规则的（条件）概率被参数化为固定维度的实向量。我们的方法在多个方面都是新颖的。首先，据我们所知，我们是第一个提出混合梯度的想法，即。结合近似梯度和分析梯度，特别是在优化3D训练数据生成的背景下。其次，我们提出了一种新的集成PCFG为基础的形状生成和我们的混合梯度方法。我们评估我们的方法上的任务，估计表面正常，深度和内在成分从一个单一的图像。在标准基准和受控设置上的实验表明，我们的方法在优化3D训练数据的生成方面，特别是在计算效率方面，可以优于现有技术。2. 相关工作生成3D训练数据由计算机图形生成的合成图像已广泛用于训练深度网络以完成许多任务，包括单幅图像3D重建[54，22，39，23，65，9]，光流场重建[估计[38，7，19]，人体姿势估计[59，11]，动作识别[48]，视觉问题回答[25]以及许多其他[45，37，63，58，46，47，62]。这些工作的成功证明了合成图像的有效性为了确保生成的训练数据与现实任务的相关性，需要大量的手动工作，特别是在获取形状和场景等3D资产时[9，23，13，64，22，39，55]。为了减少手工劳动，已经提出了一些自动生成3D配置的方法。例如，Zhang et al.[67]设计一种方法来使用对象遮罩的熵和渲染图像的颜色分布来选择采样的相机姿势。McCormac等人[39]模拟房间内物理上合理的物体配置的重力。除了简单的几何学之外，先前的工作还执行了3D配置的自动优化，以达到明确的目标。例如，Yeh et al.[66] 以满足诸如不重叠和占用的约束为目标来合成布局。江781等人[24]学习用于室内场景生成的概率语法模型，其中参数使用SUNC [55]中现有3D配置的最大似然估计来学习。类似地，Veeravasarapu et al.[60]使用生成对抗网络调整随机场景生成的参数，目标是使合成图像与真实图像无法区分。Qi等人[44]基于家具之间以人为中心的关系合成3D房间布局，以实现场景的视觉真实性、功能性和自然性。然而，这些优化目标与我们的目标不同，我们的目标是训练网络在真实图像上的泛化性能。在生成3D训练数据方面，与我们最接近的先前工作是[65，26，50]。具体来说，Yang和Deng [65]使用遗传算法来优化用于渲染合成训练图像的3D形状。他们的优化目标与我们的相同，只是他们的优化方法不同：它们利用基于进化的方法，而不是使用梯度信息。类似地，Meta-Sim [26]也尝试使用REINFORCE优化3D参数，以获得更好的任务泛化性能，Ruiz等人[50]学习同样使用REINFORCE的仿真器参数策略。然而，它们不从Meta目标反向传播分析梯度，因此它们的算法可以被认为是通过多次试验的黑盒估计，并采用改进的有效采样策略（REINFORCE）。在我们的实验中，我们与在训练深度策略网络方面与REINFORCE竞争的算法进行了比较[36，51，56]。展开和反向传播通过网络训练我们方法的一个组成部分是通过深度网络的训练迭代展开和反向传播。这是一种在其他环境中经常被实验工作使用的技术，包括超参数优化[35]，元学习[1，20，40，31，16]等[68，12]。我们的工作是不同的，因为我们在一个新的背景下应用这种技术：该算法用于优化三维训练数据的生成，并将输入图像的梯度与近似梯度相结合，形成混合梯度。超参数优化我们的方法与超参数优化有关，因为我们可以将3D生成管道的设计决策视为训练过程的超参数。深度网络的超参数优化通常被视为黑箱优化[5，4，30，6]。虽然Klatzer和Pock [28]提出了一种用于支持向量机的连续超参数优化的基于双层梯度的方法，但它尚未应用于深度网络和3D生成。由于黑盒优化不假设函数是但是，由于深度网络是最优化的，它需要对函数进行重复评估，这在这种情况下是昂贵的，因为它包含训练和评估深度网络的过程。相比之下，我们结合了反向传播的分析梯度和广义有限差分的近似梯度，以实现更有效的优化。领域适应研究人员还应用领域适应技术将从合成数据中学到的知识转移到真实数据中。与域自适应一样，我们的方法涉及来自两个域的数据：合成的和真实的但是，我们的设置不同：在域自适应中，训练数据的分布是固定的;在我们的设置中，我们关心的是在源域中生成和改变训练数据的分布。微分渲染研究人员还探索了微分渲染引擎，以获得相对于输入3D内容的梯度，如网格顶点，光照强度等。[34、27、61、32、10]。通常，他们通过反向传播[27，34]或采样[61，32，10]获得梯度。可微分渲染器通常是简单的表面反射和照明模型，并且它们通常是针对特定的3D输入格式（例如三角形网格和定向照明）或特定的渲染算法（例如路径跟踪）而开发的事实上，我们不知道任何真实感可微渲染器，其在不仅允许连续变形而且允许拓扑变化的形状参数化上是可微的在我们的方法中，我们不对渲染引擎做任何假设，而是通过近似来获得相对于决策向量的梯度因此，我们的方法是灵活的，不受任何类型的图形引擎的选择。3. 问题设置假设我们有一个概率生成管道。我们使用确定性函数f（β，r）来表示采样操作。该函数f将实向量β和随机种子r作为输入。通过评估函数f（β，r）来计算图像及其3D地面实况。通过选择n个不同的随机种子r，我们获得了一个大小为n的数据集用于训练：X= （ f （ β ， r （ 1 ））， f （ β ， r（2）），···，f（β，r（n）（1）然后，具有初始化权重w0被训练在训练数据X上，其中函数train（w0，X）表示优化过程并生成训练网络的权重。然后在真实数据X上用验证损失估计来估计网络，以获得泛化性能L：L=leval（train（w0，X），Xn）（2）782∂β火车体重（n+1）结合上述两个函数，L是β的函数，任务是相对于参数β优化该值L。正如我们在前一节中提到的，黑盒出租通常需要对该函数进行重复评估，这是昂贵的。4.2.混合梯度在合成训练数据X上训练深度网络之后，在一组验证图像X上对网络进行评估，以获得泛化损失L。回想一下，为了计算混合梯度RGL以优化β，我们将两种类型的梯度相乘：网络训练梯度和图像生成梯度4. 方法XX4.1. 合成训练数据的生成式建模我们将函数f（β，r）分解为两部分：3D合成和渲染。3D合成上下文无关语法已被用于场景生成[24，44]和构造立体几何（CSG）形状的解析[52]，因为它们如图所示，二、我们假设网络是在一组先前生成的训练图像 X（1），X （2），···，X （n）上训练的。在不损失一般性的情况下，我们假设使用批量大小为1的小批量随机梯度下降（SGD）进行权重更新。令函数g表示SGD步长，并且令ltrain表示训练损失：可以以灵活和可组合的方式表示形状和场景。在这里，我们设计了一个概率上下文无关w（k+1）=w（k）−η高速列车（w（k），X（k））w（k）（六）语法（PCFG）[21]来控制无限形状的随机生成[18]。在PCFG中，给定一组概率，对树进行随机采样。从根节点开始，通过随机抽样概率规则重复扩展节点，直到所有叶节点不能扩展。由于可以应用多个规则，因此PCFG中的参数定义应用不同规则的概率分布。在我们的PCFG中，一个形状是通过联合和差异组合两个其他形状来构造的;这种构造是递归应用的，直到所有叶子节点都是一组预定义的参数=g（w（k），X（k）;l ，η）注意，如果我们的训练损失l t r a in是可微的两倍（子），则SGD步骤g相对于网络权重w（k）以及训练批次X （k）是可微的。这一要求在大多数实际情况下都得到了满足。为了简化等式，我们假设训练损失ltrain和学习率η在β的一个更新步骤期间不改变，因此可以安全地丢弃等式中的变量。因此，从泛化损失L到每个样本X（k）的梯度可以通过反向传播来计算给定等式第六章：包括基本形状的参数以及联系我们w（k+1）扩展节点或将其替换为的概率=·=·g′（w（k），X（k））终端。X（k）Ln（k+1）LX（k）n（k+1）n（k+1）L2′（k）（k）给定我们的PCFG模型，βS，三维形状S可以通过计算给定βS的确定性函数fS和随机字符串rS来组成。w（k）=w（k）=n_w（k+1）·g_1（w，X）（七）输入：S=fS（βS，rS）（3）初始值是从验证损失评估计算的：渲染训练图像我们使用图形渲染器R以呈现合成形状S。渲染配置-L体重（n+1）′eval（w（k+1），X）（8）也从由一组参数βR（具有随机字符串rR）控制的分布中采样PP=fR（βR，rR）（4）现在我们有了EQ。用于训练数据生成的完整功能可以表示如下：f（β，r）=R（S，P）=R（fS（βS，rS），fR（βR，rR））（5）其中β=（βR，βS）且r=（rR，rS）。通过对不同的随机串r进行采样，我们得到一个集合训练图像和它们的3D地面实况X。=L783从有限差分的近似梯度对于方程中的公式。5、图形渲染器可以是一般的黑盒和不可微的。我们可以使用广义有限差分，相对于生成参数β，用地面真值X（1），X （2），···来近似每个渲染图像的梯度我们采用的形式是[36]因为随机搜索中的这种梯度近似算法已被证明对训练深度策略网络是有效的[36，51，56]。具体地，我们从不相关的多元高斯分布中采样一组噪声：δ1，δ2，···，δm<$N（0，σI）（9）784不不不使用混合梯度更新合成训练样品样品合成图像近似合成图像近似火车火车火车火车火车火车反向传播评价evaleval真实图像真实图像图2.使用“混合梯度”增量更新β并训练网络的细节分析梯度是通过展开的训练步骤（用橙色表示）反向传播计算的。通过在βt（以青色着色）的邻域中采样，使用有限差分近似计算数值梯度。然后使用混合梯度更新β t，并将训练的网络权重保留到下一个时间戳t+1。接下来，我们近似每个样本的雅可比矩阵（注意叉积）：为了进行比较，我们实现了一个黑盒优化方法。随机搜索[2]已被广泛探索[17，41，36]作为一种无导数优化，第十条（一）1ΣmfD（β+δ，r）−fD（β−δ，r）δ方法，和Mania et al.”[36]他说。j ij伊什季βmj=12δjδj（十）简单的版本，基本随机搜索，具有可比的每-与典型的强化学习算法相比，因此，我们重新实现了他们的基本随机根据杨和邓[65]，我们随着β的更新递增地训练网络w，而不是每次都从头开始初始化w（1）。在时间戳t，我们用混合梯度更新βt;对于网络权重，我们将训练好的网络保持在时间戳t，以便在下一个时间戳t+1进行初始化：搜索使得该基线具有与我们的方法相同的设置在下面的实验中，我们还将随机β基线与基线进行了比较。在这些基线中，网络是在生成的数据集上训练的。βt+1=βt−γnLt=βt−γLt第十条（一）使用多个随机但固定的β，具有最佳验证性能的产品用于评估（一）电话+1α βt=w（n+1）i=1 第十条（一）αβt（十一）测试集。这两个基线，以及我们的混合梯度方法，都使用来自验证集的信息，但在一个5. 实验数据集我们评估我们的算法在四个不同的数据集，和三个标准的预测任务的单图像3D。输入是RGB图像，输出是逐像素的表面法线、深度或渐变着色贴图。具体而言，我们在两个真实数据集上进行了表面正常估计任务的实验： MIT-Berkeley Intrinsic ImagesDataset（MBII）[3]，专注于单个对象的图像和NYUDepth [53]，专注于室内场景。对于另外两个数据集，我们说明了我们的方法可以很容易地扩展到其他3D设置。我们对Basel Face Model数据集[43]中扫描人脸渲染的深度估计任务以及ShapeNet [9]形状渲染的内在图像分解和评估任务进行WΣ·785不同的方式：混合梯度反向传播验证性能的梯度以更新β;随机搜索样本β以从验证性能获得梯度;随机β基线固定数据集并使用验证性能来选择最佳网络快照。在我们所有的实验中，在训练迭代中只使用合成图像更新网络权重，并且仅在上述数据集的验证分割上计算泛化损失。对于混合梯度，使用RMSprop [57]更新决策向量β。对于MBII，我们使用纯合成形状[65]来渲染训练图像。我们首先将我们的方法与消融基线进行比较，然后表明我们的算法优于MBII上的现有技术对于纽约大学深度，我们786我们的生成模型基于SUNC [55]，并增强了Zhang等人的原始3D配置。[67]。对于Basel人脸模型，我们从变形模型中采样合成人脸，并对扫描人脸的渲染进行评估。对于内在图像分解任务，我们从简单的程序管道中采样纹理，并将合成纹理附加到SUNC形状[55]，并对ShapeNet形状的渲染进行评估[9]。5.1. MIT Berkeley本征图像的正态估计在Yang和Deng [65]的工作之后，我们从单个图像恢复对象的表面法线。合成形状生成在Yang和Deng [65]中，原始形状（如圆柱体，球体和立方体）的流行被进化和渲染以训练深度网络。演化算子包括单个形状的变换和Construc中形状的布尔运算三维实体几何（CSG）[18]在我们的算法中，我们还为PCFG使用CSG语法：S => EE => C（E，T（E））|PC => union|减去P =>球面|立方体|截锥|四面体T => attach* rand_transl* rand_rotate* rand_scale在该PCFG中，最终形状S通过递归地组合（C）其他形状E与变换T来生成，直到在所有E节点处对图元P进行采样。参数向量β由三部分组成：（1）不同规则的概率;（2）控制形状基元（P）的对数正态分布的均值和变化，如球体的半径;（3）控制转换参数（T）的对数正态分布的均值和变差，如标度值。采样形状的例子如图所示。3.第三章。对于泛化损失L，我们计算了MIT-Berkeley数据集训练集上预测的平均角度误差。训练设置对于网络训练和评估，我们遵循Yang和Deng[65]并在图像上训练堆叠沙漏网络[42]，并使用MBII数据集的标准分割进行β优化和测试。我们报告了表面法线方向的性能与以前的作品中常用的指标，包括平均角误差（MAE），中值角误差，均方误差（MSE），和像素的比例，也没有-mals落在误差范围（≤N）内。详细定义见补充资料。图3.从我们的概率上下文无关语法中采样形状，使用混合梯度优化参数。[61]第61话：我的世界，我的世界504030200 50 100 150 200 0 10 20 30 40CPU时间（小时）GPU时间（小时）图4.测试图像上的平均角度误差与计算时间，与两个黑盒优化基线相比。消融研究我们首先对β的10个随机值进行采样，并预先固定这些值。然后，对于每个β，我们对3D形状进行采样并渲染图像来训练网络，除了不更新β之外，训练和评估配置与我们的混合梯度相同。然后，我们报告这10个网络的最佳，中位数和最差性能，并将相应的β标记为βbest，βmedin和βworst。在混合梯度中，我们从这三个值初始化β0，运行我们的算法，并在表1中报告测试图像的性能。从表中我们可以观察到，使用固定β的训练很难与我们的方法的性能相匹配，即使是多次试验。相反，我们的混合梯度方法可以优化β到一个合理的性能，而不管不同的初始化（βbest/median/worst）。这个简单的诊断实验证明我们的算法是正确的：为了生成用于训练网络的有用的合成图像，β的优化是必要的。除了前面提到的基本随机搜索之外，在这个实验中，我们还比较了Yang和Deng [65]，这是麻省理工学院伯克利分校内在图像的最先进方法。在Shape Evolution [65]中，形状的群体被进化，并且使用在增量数据集上训练并在验证集上评估的网络来计算我们在网格表示中组成我们的形状，与Yang和Deng [65]中的隐式函数略有不同。因此，我们重新实现了他们的算法与网格表示公平的比较.我们遵循Yang和Deng [65]对β进行初始化，并训练网络并以相同的步骤更新β。然后，我们报告具有最佳验证性能的网络的测试性能。结果示于表2中。我们还在同一组CPU和GPU上运行实验，计算计算时间，并绘制平均角度误差（在测试集上）相对于CPU时间和GPU时间的图。4）. 我们看到我们的算法比上面的基线更有效这是自然的，因为当在黑盒算法hms中计算μL/μβ （t）时，对于β（t）+δj 的每个样本，需要训练一个网络来评估性能。平均角度误差（）787汇总统计↑错误↓≤11。25○≤22。5○≤30○MAE 中位MSE表1.消融研究：与随机但固定的β进行比较的诊断实验。我们对10个β值进行采样，前进，然后用相同的设置β=βbest19. 百分之九五十二。百分之七十百分之五二十四岁0○21。五○○。2282固定ββ=β中位数20块占7%50块百分之九67岁百分之五二十四岁8○二十二岁1○0的情况。2461β=βworst十七岁百分之九四十六岁。占7%六十四占6%二十五6○23岁8○0的情况。2553β0=βbest二十二岁占7%五十八百分之五七十三。百分之九二十二岁5○19号。3○0的情况。2065混合梯度β0=β中位数二十四岁0%的百分比六十岁。百分之一75. 占7%21岁8○十八岁8○0的情况。1938β0=βworst二十六岁0%的百分比五十八占6%七十三。百分之九二十二岁0○19号。1○0的情况。1998汇总统计↑错误↓≤11。25○≤22。5○≤30○Mae中值MSESIRFS [3]20块百分之四五十三百分之三七十百分之九二十六岁2○-0的情况。2964[65]第65话：我的世界，我的世界21岁占6%23岁0%的百分比55. 百分之五五十八百分之三七十三。百分之五七十三。百分之八23岁3○二十二岁5○-十八岁8○0的情况。22040的情况。2042如混合梯度。在测试图像上报告最佳、中值和最差性能，并且使用相应的β值来初始化混合梯度的β 0以进行比较。结果表明，我们的方法是一致的，明显优于固定β的基线。表2.我们的方法与以前的工作相比，在MIT-Berkeley图像的测试集上[3]。结果表明，我们的方法优于[65]中报道的最先进的方法而在混合梯度中，仅需要单个网络的前向训练通道和反向传播通道来计算WTL/WAX。从我们优化的PCFG中采样的样本如图所示。3 .第三章。5.2. NYU深度的正态估计场景扰动我们设计我们的场景生成gram-mar作为使用Zhang等人的相机收集的SUNC场景的增强[54]。[67]：S => E，PE => T_shapes* R_shapes* E0 P=>T_camera*R_camera*P0T_shapes => translate （ x ， y ，z）R_shapes => rotate（yaw，pitch，roll）对于每个3D场景S，我们使用随机平移和旋转来扰动原始相机（P0）和形状（E0）的位置和姿态位置扰动遵循不相关高斯的混合，而姿态角（偏航、俯仰、滚转）的扰动遵循冯米塞斯的混合，即。包装高斯。向量β由上述分布的参数组成训练设置我们的网络仅在合成图像上进行训练，并在NYU Depth V2 [ 53 ]上进行评估，设置与Zhang等人相同。[67]。对于我们优化管道中的真实图像，我们从NYU Depth V2中的标准验证图像中抽取了一个图像子集。我们从Zhang等人的综合训练模型初始化我们的网络。[67]并使用较小的值初始化β0。为了与随机β进行比较，我们构造了一个40k图像的数据集，每个图像具有一个小的随机β。然后，我们加载相同的预训练网络，并进行与混合梯度相同的迭代次数的训练然后，我们按照相同的方案，在NYU Depth V2 [53]的测试集上评估结果报告于表3中。请注意，除了验证之外，这些网络都没有在真实图像上进行训练，并且真实图像的验证子集仅用于更新决策向量。这些数字表明，我们的参数化生成的SUNC增强超过了原始基线，基本随机搜索[36]21岁百分之九五十九6%74岁0%的百分比二十二岁8○19号。2○0的情况。2106788汇总统计↑错误↓≤11。25○≤ 22。5○ ≤ 30○平均值[67]24.第67话 49. honor 百分之七61。百分之五28. 八○二十二。7○[67]第六十三章：你是谁？0%的百分比四十八百分之八61岁百分之三29岁2○23岁2○混合梯度+ [67]二十七岁百分之三52岁百分之五63岁百分之八28岁一○二十一。1○表3.与[67]中的原始网络相比，在NYU Depth V2 [53]的测试集上微调网络的性能网络仅在合成图像上进行训练。如果不优化参数（随机β），增强会损害泛化性能。通过使用混合梯度对β进行适当的搜索，我们能够获得比原始模型更好的性能。表演。请注意，使用随机β训练的网络比原始性能更差。这意味着在没有适当优化扰动参数的情况下，这种随机增强可能会损害泛化，这表明这些参数的良好选择对于泛化到真实图像至关重要。5.3. Basel人脸模型合成面部生成我们利用现成的3DMM可变形面部和表情模型[14，70，69]来生成人类3D模型，面部和姿势参数从高斯或von Mises的混合物中随机采样。由于3DMM的参数是PCA系数，因此我们仅包括决策向量β中的几何、纹理和表情参数的前10个主维度，并且对剩余维度进行均匀采样以节省磁盘使用。训练设置我们从头开始训练一个堆叠的沙漏网络[42]，在ReLU层之后使用单通道输出来预测原始深度，并使用均方误差进行监督。网络的学习率为0。1，批量大小为8。评估我们对扫描的效果图进行评估789人的面孔[43]。我们将10个身份分成两个不相交的集合进行验证和测试，然后使用数据集中提供的渲染参数来重新创建渲染和深度图像。对于每次扫描，有3个照明方向和9个姿态角，创建135个验证图像和135个测试图像。示例图像示于图1中。五、对于深度评估，我们使用标准度量，包括相对差（绝对和平方）和均方根误差（线性，对数和尺度不变对数）。定义列于Eigen et al.[15]并在补充材料中详细说明从PCFG生成的合成面真实扫描图5.使用PCFG与3DMM人脸模型生成的训练图像，以及示例测试图像。相对差RMSEABSSQR线性日志规模投资随机β0的情况。037189 .第九条。701 ×10−30的情况。13950的情况。10140的情况。09717基本随机搜索[36]0的情况。023301 .一、728×10−30的情况。05810的情况。02990的情况。02700混合梯度0的情况。022561 .一、649×10−30的情况。05700的情况。02930的情况。02603表4.Basel Face Model扫描面的结果我们的方法能够搜索合成的人脸参数，这样训练好的网络可以更好地泛化。4中的结果表明，我们的算法能够搜索更好的β，以便网络在合成人脸上训练，并在扫描人脸上更好地泛化。5.4. 基于ShapeNet的纹理的生成和绘制我们设计了一个画家的算法作为PCFG生成的纹理。为了生成一个纹理图像，我们将Perlin噪声扰动的多边形顺序绘制到画布上，然后重复画布作为最终的纹理图像。重复次数和多边形数服从零截尾泊松分布，顶点坐标服从独立截尾高斯混合分布，多边形的边数也由采样概率控制.所有的离散参数被连接以形成决策向量β。示例纹理如图所示。六、然后将纹理映射到SUNC形状上[55]。我们选择SUNC形状，因为它们是纹理映射的参数化，我们可以很容易地应用我们的合成纹理。然后，我们使用随机方向光作为训练数据渲染纹理形状。为图6.使用我们的程序管道生成的示例纹理，参数由β控制。验证和测试，我们随机渲染ShapeNet [9]形状与其原始纹理，并随机选择50作为验证和50用于测试。验证或测试中使用的形状是互斥的。训练我们使用Stacked Hourglass Network [42]，具有4通道输出（3个用于渲染，1个用于着色），并以10−4的学习率和8的批量大小进行训练。对于超视，我们将两个投影和阴影输出的均方误差相加作为损失。评估我们还与我们的基本随机搜索实现和随机β基线进行了比较。我们使用平均绝对误差（abs），均方根误差（rmse）和尺度不变的rmse的阴影和阴影的性能进行评估。我们还评估了渲染图像的重建结果示于表5中。ABSRMSErmse（scaleinv.）反照率0.1570.1980.175随机β着色0.1180.1320.095重建0.1390.169–基本反照率0.1520.1930.177随机着色0.1040.1160.085美国[36]0.1340.166–溷合反照率0.1470.1890.168梯度遮光0.1040.1190.088重建0.1180.150–表5. ShapeNet渲染上的固有图像分解结果。6. 结论在本文中，我们提出了混合梯度，一种新的方法来自动优化合成3D训练数据的生成管道的问题我们evalu- ate我们的方法估计表面正常的任务，深度和内在的分解从一个单一的图像。我们的实验表明，我们的算法可以优于现有技术的优化生成的3D训练数据，特别是在计算效率方面。致谢这项工作是由国家科学基金会根据批准号部分支持。1617767。790引用[1] Marcin Andrychowicz ， Misha Denil ， Sergio Gomez ，Matthew W Hoffman ， David Pfau ， Tom Schaul ，Brendan Shillingford，and Nando De Freitas.通过梯度下降来学习。神经信息处理系统，第3981-3989页，2016年3[2] N.爸爸一类随机优化方法的收敛性约束优化问题 Journal of Optimization Theory andApplications，33（4）：451-461，Apr 1981）。5[3] Jonathan T Barron和Jitendra Malik。形状，照明，和来自阴影的反射率。TPAMI，2015）。五、七[4] 詹姆斯·贝尔格斯特拉，雷米·巴德内，约阿希姆·本吉奥和巴尔·阿兹·凯格尔。 H型参数优化算法。在第24届神经信息处理系统序言中，NIPSCurran Associates Inc. 2011年）。3[5] James Bergstra和Yoshua Bengio。超参数优化的随机搜索。J.马赫学习. Res. ，13（1）：281-305，Feb. 2012年）。3[6] Eric Brochu，Vlad M.科拉和南多·德·弗雷塔斯你...关于昂贵的成本函数的最佳化，应用于主动用户建模和分层再强化学习。CoRR，abs/1012.2599，2010）。3[7]D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个自然的-用于光流评估的uralistic开源电影。在A.菲茨吉本等人（编），编辑，欧洲会议关于计算机视觉（ECCV），第IV部分，LNCS 7577，第611-625页。Springer-Verlag，Oct. 2012年）。一、二[8] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport3d：从室内环境中的 rgb- d 数据中学习。国际 3D 视觉会议（3DV），2017年）。1[9] 天使XChang，Thomas Funkhouser，Leonidas Guibas，PatHanrahan，Qixing Huang，Zimo Li，Silvio Savarese，Mano-lis Savva ， Shuran Song ， Hao Su ， JianxiongXiao，Li Yi，and Fisher Yu. ShapeNet：一个信息丰富的 3D 模型库。 Technical Report arXiv ： 1512.03012[cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所，2015）。二五六八[10] Cheng Qian Che，Fujun Luan，Shuang Zhao，KavitaBala，和扬尼斯·吉欧勒卡斯逆向运输网络。arXiv预印本arXiv：1809.10820，2018）。3[11] 陈文正，王欢，李阳燕，苏浩，振华Wang ， Changhe Tu ， Dani Lischinski ， Daniel Cohen-Or，and Baoquan Chen.合成训练影像以提升人体三维位姿估计。在3D Vision（3DV），2016中）。2[12] Yunjin Chen，Wei Yu，and Thomas Pock.对学习优化的反应扩散过程，以实现有效的图像恢复。InICCV，2015）. 3[13] Sungjoon Choi，Qian-Yi Zhou，Stephen Miller，andVladlen科尔顿。对象扫描的大型数据集。arXiv：1602.02481，2016）。2[14] 放大图片作者：William A.史密斯和克里斯蒂安邓肯颅面形状和纹理变化的三维可变形模型。在IEEE计算机视觉国际会议（ICCV），2017年10月）。7[15] David Eigen、Christian Puhrsch和Rob Fergus。深度使用多尺度深度的791网络在 Z. Ghahramani ， M. 威灵角 Cortes ， N. D.Lawrence和K. Q. Weinberger，编辑，神经信息处理系统进展，第2366Curran Associates，Inc. 2014）。8[16] Chelsea Finn、Kelvin Xu和Sergey Levine。概率模型不可知元学习。In S. Bengio，H. Wallach，H.拉罗谢尔湾格劳曼Cesa-Bianchi和R. Garnett，编辑，神经信息处理系统进展，第9516-9527页Curran Associates，Inc. 2018年）。3[17] 亚伯拉罕 ·D Flaxman ， Adam Tauman Kalai ， AdamTaumanKalai和H.布兰登·麦克马汉。在线凸优化在强盗设置：无梯度下降。在 Proceedings of the Sixteenth AnnualACM-SIAMSymposiumonDiscreteAlgorithms ，SODA'05，pages 385- 394，Philadelphia，PA，USA，2005中）。工业与应用数学学会。5[18] James D.放大图片创作者：John L. 费纳，以及John F.休斯计算机图形：原理与实践（第二版）.Addison-Wesley Longman出版公司股份有限公司、1990年）。四、六[19] Adrien Gaidon ， Qiao Wang ，

下载后可阅读完整内容，剩余1页未读，立即下载