没有合适的资源?快使用搜索试试~ 我知道了~
无监督3D位姿转换的内-外保持GAN
8630用于无监督3D位姿转换的内-外保持GAN陈浩宇1唐昊2石恒林1彭伟1NicuSebe3赵国英1,*1奥卢大学CMVS 2苏黎世联邦理工学院计算机视觉实验室3特伦托{陈浩宇石恒林彭伟赵国英}@ oulu.fihao. vision.ee.ethz.chnicu.unitn.it摘要近年来,随着深度生成模型的发展,三维位姿传递重新成为研究热点现有方法主要依赖于各种约束来实现3D网格上的姿态转移,例如,需要手动编码以进行形状和姿态解缠。在本文中,我们提出了一种无监督的方法来进行任何仲裁给定的三维网格之间的姿势转移具体地,提出了一种新的内在-外在保留生成对抗网络(IEP-GAN),用于内在(即,形状)和外在的(即,姿势)信息保存。外在地,我们提出了一个共现鉴别器来捕获来自网格的不同拉普拉斯算子的结构/姿态不变性。同时,本质上,引入了一个局部本质保持损失,以保持测地线先验,同时避免沉重的计算。最后,我们展示了使用IEP-GAN以各种方式操作3D人体网格的可能性,包括姿势转移,身份交换和姿势插值与潜在的代码矢量算法。在人、动物和手的各种3D数据集上的大量实验定性和定量地证明了我们的方法的通用性。我们提出的模型产生更好的结果,是更有效的相比,最近的国家的最先进的方法。代码可用:https : //github.com/mikecheninoulu/ 无 监 督_IEPGAN1. 介绍高效的3D网格操作与高保真的生成模型是至关重要的,在计算机图形学领域,并享有巨大的潜力,在各种实际应用中,从3D人类活动的理解,3D增强现实的机器人。在这项工作中,重点是将3D姿态样式从源网格以无监督的方式转移到尽管已经针对该任务提出了一些尝试,但是由于若干问题,在现有技术的方法中仍然存在限制。*通讯作者。图1:通过我们的IEP-GAN学习的可视化潜在姿势空间分布。每个颜色中的点代表来自FAUST数据集[2]的姿势类的潜在代码。我们观察到潜在空间中的集群适合他们的姿势表示,这表明IEP-GAN已经推广了投影的凝聚力。迄今为止,在几乎所有现有方法中,网格的加强对应性的严格约束是不可避免的[26,8]。然而,提供这些对应需要额外的人工努力或对数据的特定尽管一些现有的工作声称它们可以在无监督的设置中实现3D姿态变形,但是仍然需要对训练数据集的约束,即应该给出由相同主体执行的不同姿态以成功地解开形状和姿态信息[4,39]。该约束实际上用作手动标记先验的强监督。因此,在任何现有的工作中还没有实现用于姿势转移学习的真正的非监督设置。此外,与具有固定刚性排列的2D图像相比[29,38,27,28],3D网格嵌入在具有任意阶数和复杂几何属性的连续空间中,这使得任务更具挑战性。这种内在的结构性差异--8631来自2D图像的参考排除了标准离散卷积算子立即适用于3D网格/点。一个专门为几何字符设计的模型是可取的[14]。最后,固有的(即,测地线)距离是用于学习可变形3D形状的潜在表示的强大度量[16,3,2],但是传统的基于测地线的方法遭受密集计算,这使得它们不适合在大规模数据集上学习。学习无监督的3D姿势转移,而无需对训练集进行任何约束,这一目标推动了我们目前的研究工作。为此,我们提出了一个基于GAN的框架,由三个关键的观察动机。首先,提出了各种深度生成模型,通过分解姿态和形状信息来编码和再生姿态转移网格。然而,在所有现有的方法中,对训练数据的额外约束是不可避免的,否则形状和姿势的潜在表示不能成功地解开,这导致退化的解决方案。在理想的情况下,模型应该能够学习形状和姿势表示,而无需对训练数据进行任何强制约束,见图2。1.一、其次,为了获得网格的内在保存的测地线距离先验,采用了各种可微的内在度量,但它们需要密集的计算成本或大规模的训练集[11,31]。最后,据我们所知,目前还没有专门针对3D数据的外部信息学习提出的深度生成模型。在本文中,我们提出了一种新的内在-外在预服务生成对抗网络(IEP-GAN)(见图1)。2)的情况。引入双分支判别器,使学习过程不受数据约束的限制。引入全局分支鉴别器,通过强制生成的网格向真实网格收敛来代替真实网格此外,一个外分支的判别器被纳入到增强的姿势风格学习,通过共生静态的拉普拉斯的网格。此外,引入测地线自适应采样策略来计算区域几何保持损失,以代替全局测地线先验,从而形成有效的几何规则作为内在保持,同时避免了繁重的计算。总而言之,这些创新之处可列举如下:• 据我们所知,所提出的工作是第一个可以在没有任何人类监督的情况下实现无监督3D姿势转移的工作,并且内在-外在预服务生成对抗网络是第一个用于3D人类姿势学习的基于GAN的框架。• IEP-GAN由新提出的双分支鉴别器组成。全局分支增强了模型的生成能力,并取代了对训练数据的手动编码的需要。外部分支利用拉普拉斯算子来增强外部几何结构。以共现静态方式进行度量学习。• 最后,提出了一种区域几何保持损失法,通过测地线自适应采样策略来保持区域固有先验,既保证了有效的几何调整,又大大提高了计算效率.• 在四个不同数据集上的实验结果,即,DFAUST[3],FAUST [2],ANIMAL [26]和MANO [23]表明,所提出的方法实现了新的最先进的性能,具有令人满意的视觉质量。此外,我们进一步表示使用所得到的嵌入空间的3D人体网格操作,如平滑的姿势转移,插值和交换的给定形状的可能性。2. 相关工作姿势和风格生成学习的解开。在2D图像处理中,深度生成模型已经实现了无监督学习的诱人性能,并利用独立可控的因素操纵数据分布[17,13,10]。这些方法实现无监督学习的核心思想是引入不同的鉴别器作为训练操纵器,以给出具有期望的各种因素的调制信息。我们的工作受到[17,13]的启发,但从2D图像扩展到3D网格/点。据我们所知,这是第一个工作,以实现基于GAN的框架的三维人体网格操作任务。在[4,39,22]中也可以找到交换姿势代码用于风格转移的想法,但是我们另外引入了双分支鉴别器,其在完全无监督设置中提供全局和局部几何学习的深度几何表示。与2D图像理解的像素被放置在规则网格中并且可以用经典卷积来处理不同,3D点/网格在3D空间中是无序和分散的。各种研究工作[20,21,15,34]已经出现在响应针对这一挑战,包括基于3D体素化的方法[24],连续卷积[32]和最流行的基于图形的模型[33],如PointNet系列[20,21]。这些模型确实取得了实质性的改进,比以前的作品。然而,他们仅仅考虑了非结构化逐点聚合到最大激活,没有充分考虑3D点/网格的关键结构化几何为此,最近,采用了不同的几何保留度量来增强深度几何表示学习,例如尽可能刚性[25],热测地线[5]。但是在反向传播中求解全局测地线度量的解析解涉及大量的计算消耗。在[4]的工作中,对原始网格进行了简单的下采样,以8632X1外在保存重建DDD搭接D搭接交换DX2GE内在保存LLL训练数据约束IEP-GAN双分支鉴别器全局分支外部分支以前的作品给定相同姿势的网格给定形状相同的补片我们任意给定网格图2:(左)以前的方法和我们的方法的训练数据约束区域测地损失我们的工作训练数据,而在先前的工作中不可避免地需要区分形状和姿态。(右)IEP-GAN框架。我们的IEP-GAN由重建(顶部)架构和传输(底部)架构组成。在顶部重建流程中,编码器E嵌入网格输入姿态码Ze和形状码Zi,其将经由生成器G解码以重建原始网格。在底层转换流程中,目标网格和源网格的位姿代码ze将被交换以生成位姿转换网格G(z1,z2)。生成和重建的网格将被馈送到全局ei鉴别器D用于逼真效果。拉普拉斯共生鉴别器DLap将用作外在保留。最后计算形状网格与生成网格之间的区域测地线损失,实现网格的本征保持。降低了计算复杂度,这公平地导致测地线失真。在这项工作中,我们专注于保持可变形形状的几何属性,并保证一个有效的计算能力。3D变形转移的无监督学习。网格变形传递的开创性工作可以追溯到[26,8]。这些方法依赖于典型地指定具有局部变形梯度的源和目标形状之间的大量逐点对应。近年来,深度生成模型由于其强大的学习和泛化能力而成为三维网格变形转换任务的主流解决方案[37]和[39]分别提出了一种自动编码器/循环一致对抗网络,可以实现自动变形转移。但是对于每个映射域,需要训练新的模型。[31]可以同时实现对多个形状的训练,但它具有大规模合成目标姿势网格的强烈要求,并且在现实世界的数据集中不时失败。受点云处理的生成模型[1]的启发,一些在[39,4]中的设置将不再有效。不同于所有现有的工作,我们解决了一个完全无监督的设置,没有先验信息 之 间 的 训 练 网 格 需 要 提 供 和 训 练 可 以 实 现 与arbitrating给定的网格。3. 方法本节首先介绍了整个IEP-GAN框架的一般介绍。然后,将指示IEP-GAN的每个组件及其功能。最后给出了网络的设计细节.3.1. 概述我们使用生成对抗网络实现了无监督表示学习的目标,如图所示。2基于四个核心任务:1)精确的网格重建,2)真实的位姿转换,3)内在和外在的保持,4)去纠缠。为了解决这四个任务,整个框架训练的完整目标函数推导如下:无监督的方法,如[39,4]试图使用几何保存先验来解开形状和姿势因素,并通过潜在代码交换进行姿势转移。L_full=L_rec+L_GAN,rec+L_GAN,transfer+L内在+L外在,(一)平. 然而,它们的整个理论和实现都依赖于训练数据假设:应该给出不同姿势的同一对象。因此,这些模型的训练都是通过输入数据类型的手工方案进行干预的,以确保有效的解纠缠。如果一个数据集不能满足这个假设,那么无监督集-其中第一项和第二项rec和GAN , rec是一对对抗性损失,如在用于精确网格重建的经典GAN中;第三个GAN , transfer是生成真实感姿态转移网格的鉴别器损失,后两者的引入是为了保证形状和姿态信息的分离。GE86331个2个一一二外在保存圈数1随机n阶拉普拉斯采样共生拉普拉斯x真/假?内在保存区域测地损失X2适应性区域测地抽样图3:我们的IEP-GAN中的内在和外在保存在顶部外部保存中,共现鉴别器用于区分真实网格和生成网格之间的拉普拉斯算子。以这种方式,所生成的网格被强制为具有与真实网格相同的外在/姿势样式。在底层固有保持中,真实网格和生成网格将被自适应地采样到若干拓扑区域中。将计算生成的网格的每个区域的测地线保持度量,并与真实网格的相应区域进行比较。3.2. 点式重建IEP-GAN的设计从定义经典开始给定3D人体网格。我们通过使用GAN损失引入鉴别器来实现这一点:自动编码器[9]。其用于编码姿态(即,外在的)LGAN,transfer(E,G,D)=(四)和形状(即,固有)信息Ex1,x2X,x1x2[−log(D(G(z,z)],转换成对应的潜在表示ze,ziZ,其中ei编码器E,并通过生成器重建原始网格其中z1和z2由两个网格x1和x2得到。eiG使用逐点重建损失:Lrec(E,G)=Ex1X[x−G(E(x))2],(2)其中损失的目的是在监督重建网格和原始网格之间的逐点L2距离的情况下使接近其正确位置然而,简单的逐点回归将不能保证平滑的表面。为了避免明显的伪影,我们通过引入判别器D来强制网格真实。生成器G和编码器E的非饱和对抗损失[7]计算为:LGAN,rec(E,G,D)=ExX[−log(D(G(E(x)],(3)3.3. 无监督的姿势转移基于上述自动编码器,通过交换两个网格x1和x2的潜在位姿代码z1和z2来实现它们之间的3D位姿传递,如底部所示x2与编码器E.它们稍后用于生成新的网格,同时保留来自网格x1的外部/姿态信息和来自网格x2的内部/形状信息。最后,鉴别器可以作为一个替代的地面实况,以强制生成的网格收敛到现实的。在理想情况下,IEP-GAN的训练将转换到具有若干期望属性的状态。1)对编码函数E和生成函数G进行优化,以实现不同网格与其相应潜码之间的平滑映射。2)应根据内在和外在因素成功地解开潜在代码:内在代码捕获形状分布,而姿态代码捕获网格的结构信息。3)生成网格的潜在位姿码可以被分解,并且可以通过对潜在位姿码分布的对于上述第一性质,可以容易地利用e e在图2中。在先前的工作中,应保持对训练数据的强制性约束,即相同姿势中的不同形状或相同形状中的不同姿势,这对于监督模型从数据中正确地分离姿势和形状是必要的。然而,在现实世界中,这样的先决条件并不总是能够得到满足。针对这个问题,我们将任务推进到一个无监督的设置,学习任意重建的损失。然而,确保后两种性质是一项极具挑战性的任务。解开潜在代码z i和z e并且保证它们在非监督设置中精确地表示形状和姿势是棘手的对训练数据集施加不同的约束以实现这两个因素的令人满意的解开,例如,固定一个因素(姿势/形状)不变,并训练模型以保持一个因素不变8634R×× ×LΣN−Σ2MRe我2eiei时间与任何现有的工作,我们解决了这个问题,在一个不受约束的方式,通过设计两个新的约束,分别捕获的内在和外在的信息,这将在未来两个部分介绍。3.4. 区域测地线保护为了在姿态转换过程中保持形状信息,我们利用原始网格x2和生成网格G(z1,z2)之间的等距关系,并借助这确保了在整个拓扑上的全局遍历。实际上,子区域采样数N为4,每个子区域的采样顶点为300,这是模型的动态计算负载和测地线保持能力之间的平衡。以这种方式,计算测地线先验的计算量大大减少。例如,给定具有6,890个顶点的典型人体网格,Dag(具有300个采样顶点的4个子区域)的计算将ei如图所示的测地线先验。3、底部部分。特别地,我们称一对网格是等距的,如果它们共享相同的形状,这两个网格之前的测地线距离因此,我们在反向传播中引入测地线距离失真[5]的思想,以使生成的网格的形状与原始网格的形状一致,其可以定义如下:在2 300 300个顶点上进行,这比具有6,890 × 6,890个顶点的全拓扑距离D测地线约3.5. Laplacian外保通过隐式地交换潜在位姿代码并保留测地线先验,可以在一定程度上实现位姿传递。但简并可能发生在L固有(E,G)=ExX[D测地线(x2)−D测地线(G(z1,z2))2],(五)网络实际上,网络有时会让生成的网格继承x2(形状)的意外姿态属性其中D测地定义成对测地线 距离源)通过形状代码。通过这种快捷方式,模型可以直接生成具有类似姿势的网格在网格拓扑上的所有顶点之间,并且内在损耗内在度量两项的L2范数。然而,经典方法[5,11]必须遍历整个网格拓扑来测量测地线距离,这涉及大量计算并且不能扩展到大规模训练。在[4]的工作中,将顶点数从6,890降采样到2,100,以减少计算量,而该操作将严重破坏几何细节以及模型的高保真度。因此,我们引入了一个自适应测地线测量D ag计算几个网格区域,而不是整个拓扑距离。Dag的公式定义如下:NDag(x)=D测地线(xi),xi∈Nk(pi),(6)我其中N是用于测地线测量的子区域编号,k(pi))表示由k个相邻顶点通过基于局部几何失真分数排序R的几何自适应采样策略获得顶点pi:x2,以混淆鉴别器,而不是与目标姿势的网格。这意味着来自x2(形状源)的不需要的姿态信息流入形状代码,并且期望用于外部保存的约束。为此,我们提出了拉普拉斯共生判别器D Lap,如图3的底部所示。3.第三章。其目的是将生成的网格G(z1,z2))与输入网格x1的各种拉普拉斯算子区分开,使得鼓励生成器G捕获外部信息:L外部(E,G,DLap)=Ex1X[log(DLap(L组(G(z1,z2),L组(x1))],(八)其中L生成给定网格的迭代次数在1到100之间的随机拉普拉斯算子(并且L组是多个拉普拉斯算子的集合)。我们的公式受到2D纹理感知[19,6]中的工作的启发,但从根本上转移到3D任务,假设具有相同姿势/外在风格的网格将在拉普拉斯统计上保持感知相似共现鉴别器用于通过使用拉普拉斯算子分离来强制外部信息被一致地传递R={r1,r2,…rj,…RV|rj=u∈M(pj)pj−u(七)所有与形状相关的详细信息。已经使用了类似的用于建模同现的想法[35,17],但这其中(pj)表示顶点pj的单环邻居顶点,V是拓扑网格的总顶点数。局部几何失真分数排名是测量网格上每个顶点的局部几何失真我们对前N个顶点进行采样并计算它们的子区域。子区域的采样基于局部几何失真得分排序来3.6. 网络架构用于处理输入网格的编码器E是经典的PointNet[20]。此外,每个卷积层由InstanceNorm层堆叠,而不是批量归一化运算符,用于保留对于样式传输任务至关重要的实例特征。姿势代码8635源形状×个×个表1:与FAUST和DFAUST数据集上的最新方法的比较。 插值误差度量了固有的保持能力。解缠结误差测量外部保存能力。具有最佳性能的结果以粗体显示。我们的方法的结果用下划线标记。请注意,我们的IEP-GAN是在不需要在比较方法中使用的数据约束的情况下训练的。插值误差解缠错误方法VAE [1][4]第四届中国国际汽车工业展览会IEP-GAN(我们的)VAE [1][4]第四届中国国际汽车工业展览会IEP-GAN(我们的)浮士德3.89e-25.08e-33.82e-34.02e-37.164.04 3.480.19DFAUST9.82e-23.43e-32.89e-43.16e-46.154.90 4.110.34被固定为512维,形状代码是用于姿态转移任务的原始对于生成器,我们融合了[17]和[31]的架构特别地,我们采用了[17]的GAN框架和网络结构,并将其残差块更改为[31]中引入的SPAdaIN ResBlock,该模块专门为3D样式传输任务设计。鉴别器结构是生成器的对称结构,除了鉴别器的最后两层成为全连接层以产生+源姿势=结果真实或假网格。拉普拉斯共生鉴别器的一般结构与[17]相同,而我们将其编码器替换为上面提到的3D网格编码器。每个拉普拉斯算子将通过泊松盘方法[36]进行下采样请参见补充材料,了解整个体系结构的详细规范以及超参数设置的详细信息。4. 实验在本节中,通过在各种数据集上比较其他最先进的模型 ,包括 人类 网格数 据集 FAUST [2]和 DFAUST[3] , 动 物 数 据 集 ANIMAL [26] 和 手 部 网 格 数 据 集MANO [23],进行综合实验以评估我们提出的方法。首先,定量评估我们的IEP-GAN对两个数据集。更进一步,我们定性地可视化了IEP-GAN在四个数据集上的强大泛化能力和解纠缠效果。最后,我们还进行了消融研究,以评估内在和外在保存的有效性。4.1. 数据集FAUST[2]数据集是从10个不同的人类受试者收集的3D人体扫描数据集,每个受试者以10个不同的姿势进行。FAUST配准的网格结构适合具有6,890个顶点的SMPL身体模型。DFAUST[3]数据集是一个大型的人体运动序列数据集,它捕获了10个人类主体执行14种不同身体运动的4D运动,例如每个运动的长度同样的亲-图4:我们的IEP-GAN对DFAUST数据集的姿势转移效果。顶部是源形状的列表。底部部分示出了相同姿势下的相应结果。我们的方法不需要对训练数据集进行约束,它实现了无监督设置。在Tocol [4]中,四个代表性帧用于一个训练实例(每个对象每个运动)。MANO[23]数据集是通过配准拟合[23]网格模型的手部扫描获得的3D手部数据集。MANO数据集中的扫描包括右手和左手,并且通过镜像对应的手来补偿丢失的数据。遵循[39]中相同的处理策略,在右手上训练模型,并通过镜像翻转将其推广到左手。动物[26]是来自[26]的合成动物网格数据集。合成的动物网格被参数化地变形为来自3D四足动物模型的期望姿态作为地面实况。4.2. 实现细节我们的算法在PyTorch中实现[18]。所有的实验都是在具有单个NVIDIA Tesla V100,32GB的PC上进行的 。 我 们 训 练 我 们 的 网 络 4 104epoch , 学 习 率 为0.00005,Adam opti- mizer [12]。对于所有设置,批次大小固定为4。整个培训时间约为30小时。详情请参阅补充材料。训练GAN是非常困难的,很容易遇到发电机崩溃的问题,因此我们设计了三个阶段的IEP-GAN的训练。对于前2 × 10 -4次迭代,仅进行重建以稳定8636×× ×表2:FAUST数据集上的自适应区域测地线保留的消融研究为了公平起见,运行时间是在相同的平台(Pytorch1.6.0)和硬件设置(单个GPU NVIDIA GTX 1080Ti,CPU Intel Core i7)上测量的。用于GIH计算的顶点数目固定为6,890。下面的插值误差都是用IEP-GAN得到的区域采样插补误差计算方法复杂性运行时无测地线保存-3.11e-2-0.00 s全球-3.94e-3 O(n2)8.31 s测地线保护区域随机7.29e-3O(n log n)1.81 s区域自适应4.02e-3O(n log n)2.07 s源姿态源形状结果源姿态源形状结果MANO数据集ANIMAL数据集图5:我们的方法的姿势转移结果。右一个是带有人手网格的MANO数据集。右边的是ANIMAL数据集,其中包含具有不同姿势的各种动物。顶部的线显示具有不同形状的源网格,底部的线显示具有传递的姿势的网格。GAN和避免局部最小值,其中重建对抗损失对与原始SMPL网格一起使用。从迭代2104到3104,姿态转移学习从交换损失和外部保存损失相加开始经过3×104次迭代后,将本征保持损失加到总的保持损失上。4.3. 位姿转换的定量评价在下文中,我们定量地呈现了我们的IEP-GAN在上的姿势转移任务上的性能。FAUST和DFAUST数据集,包括外在保存(姿势转移)能力和内在保存(形状保存)能力。内在保存。我们首先验证IEP-GAN的内在保存能力。为此,我们利用姿态转移形状的平均(整体表面点)测地失真作为度量。平均测地失真在[5]中定义,其测量给定网格之间的测地距离不一致性。它可以被认为是形状信息的近似地面实况,其通常用于先前的作品[4,11]中。它我们将我们的方法与最先进的方法进行了比较,包括点VAE [1],基于欧几里得的VAE(LIMP Euc)[4]和基于测地线的VAE(LIMP Geo)[4]在FAUST上[2]和DFAUST [3]数据集。固有的保存性能如右图所示(插值误差)表1中值得注意的是,比较的方法[4]使用了数据约束,可以严格监督我们的IEP-GAN保持不变的解纠缠形状和姿态。在FAUST和DFAUST数据集上,我们的非监督模型的插值误差仅为2.00e-4和2.70e-4,低于比较基线方法(有数据约束的监督),显示出有竞争力的内在保持能力。外部保存。由于在现有数据集中,不同受试者执行完全相同的姿势,因此姿势转移(外在保存)任务没有基础事实,因此遵循[4]中的协议,我们利用解纠缠误差来评估外在保存(姿势转移)性能。具体地,解缠结误差的概念定义如下。给定两个具有相同内禀特性的位姿传递网格,在它们之间进行位姿传递,然后测量位姿传递网格之间的平均点到点距离。因此,可以从数据集中的对应形状获得地面实况。表1中的左侧部分(解纠缠误差)呈现了不同模型的外在保留性能可以观察到,我们的IEP-GAN具有比所 比 较 的 方 法 显 著 更 好 的外 在 保 存 性 能 ( 0.19vs.FAUST数据集上的3.48和4.11)。它证明了我们的外在保存约束(拉普拉斯共生鉴别器)是相当强大的捕捉外在信息(姿势风格)和解开姿势的形状。8637形状解缠结姿势解缠图6:我们的IEP-GAN的解纠缠效果上半部分示出了通过在两个潜在形状代码之间插值的形状解纠缠效果。底部部分示出了通过在两个潜在姿势代码之间插值的解纠缠传递效果。表3:FAUST数据集上拉普拉斯外在保留的消融研究参考拉普拉斯算子可以极大地增强外部保存学习。方法参考解缠结4.4. 定性评价我们定性地可视化我们的方法在四个数据集上的泛化能力,即,上述FAUST和DFAUST数据集,以及两个额外的数据集,MANO人手数据集[23]和ANIMAL数据集[26]。图4呈现了DFAUST数据集上的姿态转移结果。基于FAUST数据集,我们在图中提供了潜在代码空间的分布。1通过利用t分布随机邻居嵌入(t-SNE)方法[30]来可视化高维数据。具体地,由在FAUST数据集上训练的编码器产生的潜在代码将被嵌入t-SNE并投影到低维空间中此外图6表示形状和姿态与我们的IEP-GAN的解纠缠效果。最后,在Fig.5、在动物数据集ANIMAL和人手数据集MANO上的移植结果表明了该方法的泛化能力。4.5. 消融研究在这里,我们密集地进行实验,以验证我们提出的关键组件的有效性。拉普拉斯共生鉴别器的效果。我们还验证了拉普拉斯共生鉴别器的效果,如表3所示。正如预期的那样,引入拉普拉斯共生鉴别器会导致显著的增益(解缠结误差从2.6降低到0.19)。这证明,通过测量与参考网格的拉普拉斯共生,生成的网格可以有更好的外部保存。然而,增加参考拉普拉斯算子的数量需要更大的计算消耗,并且达到GPU内存限制,因此我们采用3个参考拉普拉斯算子作为实验中的默认设置。区域测地线保护的效果。我们改变了拟议的区域大地测量保护的设置,以显示其效果在表2中。在这第一行中,我们观察到,没有测地线保护,局部几何畸变是严重的插值误差为3.11e-2。这证明了基于测地线的先验的必要性。从表2的最后三行,我们可以看到,我们的区域测地线保留可以指数级地降低计算复杂性,同时与全局测地线先验(7.29e-3)相比,保留了令人满意的测地线先验具体而言,我们提出的自适应采样策略可以进一步提高测地线保存随机采样相比。最后,运行时间(2.07与8.31秒)证明,我们的区域测地线保护可以有效地减少计算。5. 结论在本文中,我们介绍了IEP-GAN,实现了姿势转移在一个无监督的方式与仲裁给定的网格。我们展示了两个关键组成部分,以实现潜在的代码解开之间的姿势和形状没有额外的数据约束,即内在的保存和外在的保存。拉普拉斯共生判别器被证明是有效的捕获姿态信息和自适应区域测地线损失,不仅可以提高几何先验学习,但也大大减少了计算。最后,利用得到的潜在代码,可以将任务从三维位姿传递扩展到位姿插值、形状交换和因子分解。区域测地线保护和拉普拉斯共生鉴别器可以很容易地实现现有的经典模型。然而,由于该工作中具有挑战性的无约束设置,当姿态或形状太极端时,仍然可以观察到姿态传递和插值中的伪影和可见失真。提高鲁棒性与更大的三维空间的多样性和减少训练时间的替代度量的几何距离将是未来的工作。谢谢。这项工作得到了芬兰科学院项目MiGA(赠款316765),ICT 2023项目(赠款328115),EU H2020SPRING(编号871245)和EU H2020 AI4Media(编号951911)的支持。项目,中国国家留学基金管理委员会和Infotech Oulu。此外,作者希望感谢CSC-IT科学中心,芬兰,计算资源。拉普拉斯误差无内在保存-2.610.59内在保存20.2130.198638引用[1] Tristan Aumentado-Armstrong,Stavros Tsogkas,AllanJepson和Sven Dickinson。生成潜在形状模型的几何解纠缠。在ICCV,第8181-8190页,2019年。三六七[2] Federica Bogo , Javier Romero , Matthew Loper , andMichael J Black. Faust:3D网格配准的数据集和评估。CVPR,2014。一、二、六、七[3] Federica Bogo,Javier Romero,Gerard Pons-Moll,andMichael J Black. 动 态 浮 士 德 : 记 录 人 体 运 动 。 在CVPR,2017年。二六七[4] Luca Cosmo , Antonio Norelli , Oshri Halimi , RonKimmel和EmanueleRodol a`。Limp:学习具有度量保留先验的潜在形状表示ECCV,2020年。一、二、三、五、六、七[5] Keenan Crane,Clarisse Weischedel,and Max Wardetzky.热测地线:基于热流的距离计算新方法。TOG,32,092013. 二、五、七[6] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络进行纹理合成arXiv预印本arXiv:1505.07376,2015。五个[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS中。Curran Associates,Inc. 2014. 四个[8] Thibault Groueix、Matthew Fisher、Vladimir G Kim、Bryan C Russell和Mathieu Aubry。3d编码:通过深度变形的3d对应。在ECCV,2018。第1、3条[9] Geoffrey E Hinton和Ruslan R Salakhutdinov.用神经网络降低数据的维数。science,313(5786):504-507,2006. 四个[10] Tero Karras , Samuli Laine , Miika Aittala , JanneHellsten,Jaakko Lehtinen,and Timo Aila.分析和改善stylegan的图像质量。在CVPR中,第8110-8119页,2020年。二个[11] Ron Kimmel和James A Sethian。计算流形上的测地线路径。美国国家科学院院刊,95(15):8431-8435,1998。二、五、七[12] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议。六个[13] Yuheng Li,Krishna Kumar Singh,Utkarsh Ojha,andYong Jae Lee. Mixnmatch:条件图像生成的多因子解纠缠和编码。在CVPR中,第8039-8048页,2020年。二个[14] 梁健,赖荣杰,黄慈伟,赵宏凯利用Laplace- Beltrami算子实现点云的几何理解。CVPR,2012。二个[15] Xinhai Liu,Zhizhong Han,Yu-Shen Liu,and MatthiasZwicker.点2序列:使用基于注意力的序列到序列网络学习3d点云的形状表示。在AAAI,2019年。二个[16] 放 大 图 片 作 者 : Nima Ghorbani , Nikolaus F.Troje、Gerard Pons-Moll和Michael J.黑色. Amass:将动作捕捉存档为曲面形状。在ICCV,2019年。二个[17] Taesung Park , Jun-Yan Zhu , Oliver Wang , JingwanLu,Eli Shechtman,Alexei A Efros,and Richard Zhang.交换8639用于深度图像处理的自动编码器在NeurIPS,2020年。二、五、六[18] Adam Paszke , Sam Gross , Francisco Massa , AdamLerer , James Bradbury , Gregory Chanan , TrevorKilleen , Zeming Lin , Natalia Gimelshein , LucaAntiga,et al. Pytorch:命令式的高性能深度学习库。NeurIPS,2019。六个[19] Javier Portilla和Eero P.西蒙切利基于复小波系数联合统计的参数化纹理模型。IJCV,40:49-71,2000. 五个[20] Charles R Qi,Hao Su,Kaichun Mo,and Leonidas JGuibas.Pointnet:对点集进行深度学习,用于3D分类和分割。在CVPR,2017年。二、五[21] Charles Ruizhongtai Qi,Li Yi,Hao Su,and Leonidas JGuibas. Pointnet++:度量空间中点集的深度层次特征学习。NeurIPS,2017。二个[22] Helge Rhodin,Mathieu Salzmann,and Pascal Fua.用于3d人体姿态估计的非监督几何感知表示。在ECCV,2018。二个[23] Javier Romero、Dimitrios Tzionas和Michael J.黑色.具体化的手:建模和捕捉手和身体在一起。TOG,36(6),2017. 二、六、八[24] Shuran Song 、 Fisher Yu 、 Andy Zeng 、 Angel XChang、Mano-lis Savva和Thomas Funkhouser。语义场景完成从一个单一的深度图像。在CVPR中,第1746二个[25] 奥尔加·索尔金和马克·亚里克萨。尽可能刚性表面建模。在Alexander Belyaev和Michael Garland,编辑,几何处理。欧洲制图协会,2007年。二个[26] RobertWSumner和J ov anPop o v ic'。三角形网格的变形传递TOG,23(3):399-405,2004. 一二三六八[27] 唐昊、宋白、菲利普·HS·托尔、尼库·塞贝。用于人物图像生成的双特征图推理gans。在BMVC,2020年。一个[28] 唐昊、宋白、张立、菲利普·HS·托尔和Nicu Sebe。用于人物形象生成的兴感在ECCV,2020年。1[29] Hao Tang,Dan Xu,Gaowen Liu,Wei Wang,NicuSebe,and Yan Yan.用于关键点引导图像生成的循环生成对抗网络在ACM MM,2019年。一个[30] Laurens Van der Maaten和Geoffrey Hinton使用t-sne可视化 数 据 。 Journal of Machine Learning Research , 9(11),2008. 八个[31] Jiashun Wang,Chao Wen,Yanwei Fu,Haitao Lin,Tianyun Zou,Xiangyang Xue,and Yinda Zhang.通过空间自适应实例归一化的神经姿态在CVPR,2020年。二、三、六[32] Shenlong Wang , Simon Suo , Wei-Chiu Ma , AndreiPokrovsky,and Raquel Urtasun.深度参数连续卷积神经网络。在CVPR中,第2589-2597页,2018年。二个[33] Yue Wang , Yongbin Sun , Ziwei Liu , Sanjay ESarma,Michael M Bronstein,and Justin M Solomon.点云学习的动态图cnn。TOG,38(5):1-12,2019. 二个8640[34] 吴文轩,齐忠昂,李福新。Pointconv:3D点云上的深度卷积网络。在CVPR,2019年。2[35] Wenqi Xian,Patsorn Sangkloy,Varun Agrawal,AmitRaj,Jingwan Lu,Chen Fang,Fisher Yu,and JamesHays. Tex- turegan:使用纹理块控制深度图像合成。在CVPR,2018年。五个[36] 杰姆·尤克塞尔生成泊松圆盘样本集的样本消去法Computer Graphic Forum,34(2):25-32,May 201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功