没有合适的资源?快使用搜索试试~ 我知道了~
18614(a)字母R到G(c)字母H到A(e)斜体到正则(g)常规到粗体(i)实线到虚线(b)桌子到椅子(d)椅子到桌子(f)带扶手至不带扶手(h)从高到矮UNIST:未配对神经隐式形状翻译网络陈启民1约翰内斯·默茨1 阿迪蒂亚·桑吉2 胡曼·沙亚尼2阿里·马赫达维-阿米里1张昊11西蒙弗雷泽大学2Autodesk AI实验室图1.我们提出了UNIST,一个建立在神经隐式表示上的模型,它能够学习保持风格的内容更改(a-d)以及使用相同的网络体系结构在两个不成对的形状域之间的内容保持样式传输(E-I)摘要我们介绍了UNIST,这是第一个在2D和3D域中用于通用的非配对形状到形状转换的深度神经隐式我们的模型是建立在自动编码隐式字段,而不是点云,代表了最先进的。此外,我们的翻译网络经过训练,可以在潜在的网格表示上执行任务,该网格表示结合了潜在空间处理和位置感知的优点,不仅可以进行剧烈的形状变换,还可以很好地保留空间特征和自然形状翻译的精细局部细节。在相同的网络架构下,仅由输入域对决定,我们的模型可以学习保持样式的内容更改和保持内容的样式传输。我们展示了翻译结果的一般性 和 质 量 代 码 可 在 www.example.com 上 获 得https://qiminchen.github.io/unist/。1. 介绍自2017年CycleGAN [29],DualGAN [26]和UNIT [16]出现以来,不成对的图像到图像翻译已成为计算机视觉中最广泛研究的问题之一。有些令人惊讶的是,在形状的相同问题上,也就是说,不成对的形状到形状的平移。迄今为止,大多数图像翻译网络已经被设计用于本地化的风格转换,而没有大的结构改变。然而,对于形状平移,人们自然会期望后者更多,例如, 将字母“R”的形状改变为“G”的形状,或将桌子改变为椅子;见图1(a-d)。最近,Yin等人。[27]提出了LOGAN,一种不成对的形状翻译网络,可以训练它来执行风格和内容,即,形状和结构级别,变换形式。然而,他们的网络设计用于低分辨率点云(高达2,048个点),这可能严重限制重建和转换形状的质量,特别是此外,翻译网络被训练为对多尺度但不具有位置感知的全局信息进行编码的“整体”潜在代码进行操作在编码中缺乏位置信息的结果是在形状平移期间失去对空间特征以及局部细节的例如,当翻译被假定为仅斜体字母形状时,这是姿势改变,源形状的局部细节(例如,形状的某些尖端的厚度/锐度)也可能意外地改变,如图4的第二行中字母A平移所示在本文中,我们提出了一种基于自动编码神经隐式场[3,18,20]而不是点云[27]的不成对形状到形状转换近年来,连续隐函数的学习优于离散表示,如体素,网格18615图2.概述了我们的非配对神经隐式形状到形状翻译框架,该框架由两个单独训练的网络组成。自动编码网络(顶部)学习对来自源域和目标域的形状的二进制体素占位符进行编码和解码,其中编码器将输入形状映射到潜在网格表示Z。在二维情况下,Z ∈Rk×k×m,其中k×k网格是通过对n×n输入图像进行空间卷积获得的,m是潜在码的长度。通过对存储在Z中的潜在代码进行双线性插值来获得任何查询点p处的潜在特征。在3D的情况下,网格是三维的,并通过体积卷积和三线性插值来获得,翻译网络(底部)使用上面的预训练自动编码器网络将翻译问题转换为潜在空间。在该空间中,生成器学习两个任务:1)将源域代码(ZX1)转换为目标域代码(ZX1-2);2)保留目标域代码,从ZX2到ZX2-2。 ZX1→2被传递到预训练的隐式解码器以获得由生成器网络产生的最终目标形状。贴片和点云已经被证明主要用于重建任务,包括神经绘制、形状完成和单视图3D重建。我们的工作将表明,神经隐式模型的相同优势可以转移到域翻译。此外,我们的翻译网络被训练为在潜在网格表示上执行任务,该网格表示的网格结构通过卷积与输入形状的网格结构在空间上相关,而其剩余维度对潜在特征进行编码。因此,我们的方法结合了潜在空间处理和位置意识的优点,前者促进了更剧烈的形状翻译[16,27],后者在翻译过程中更好地保留了空间特征和细节[4,5,22]我们的模型,被称为UNIST,用于不成对的神经隐式形状翻译,由两个单独训练的网络组成,如图2所示。给定两个不成对的形状域,例如,椅子和桌子或不同字体的各种字母(参见图1中的几个域对示例),自动编码网络学习使用潜在网格对来自两个域的形状(以二进制体素占位符的形式网络训练是自监督的,具有典型的重建损失。翻译网络基于LOGAN [27]体系结构,该体系结构由一个潜在生成器组成,该生成器被训练用于执行两个任务:一个是在对抗设置下将源形状的代码与原始LOGAN不同,UNIST生成器的输入不再是整体和过完备的潜在代码;它们被预先训练的自动编码器网络的编码器产生的潜在网格特征所取代(图2中的顶部)。翻译网络使用与LOGAN相同的损失集进行训练,而生成器的输出将通过预训练的解码器(图2中的顶部)来生成目标域中的最终形状。我们的工作代表了第一个深隐模型的通用,不成对的形状到形状的翻译。使用相同的网络架构,并且仅由输入域对决定,我们的模型可以学习保持样式的内容更改和保持内容的样式传输,如图1所示。我们证明了翻译结果的通用性和质量,并将其与LO-GAN [27]和其他基线进行比较。我们表明,明确的质量改善,无论是形状重建和trans-mitted,M通过双线性插值查询点p编码器隐式解码器K...K潜在网格多维潜码位置感知编码...自动编码翻译隐式解码器编码器发生器仅凭推断鉴别器特征保持损失对抗性损失重构损失共享权重共享权重18616仅通过对隐式字段而不是点云进行自动编码来获得定位。此外,通过潜在网格添加位置感知导致更自然的形状转换,更好地保留空间特征和细节。2. 相关工作(a) 常规编码。(b) 位置感知编码。图像翻译。图像到图像的转换可以在配对或非配对设置下完成。配对翻译的一个例子是pix2pix [10],它采用了具有重建损失的条件GAN。不成对的翻译更复杂,通常需要额外的损失函数,如循环一致性[26,29]。虽然大多数方法[26,29]在图像空间中操作,但[16]等作品利用共享的潜在空间在两个域中转移更多的结构变化。然而,这样的方法倾向于产生较少的空间感知局部变化。我们的工作在潜在空间中进行不成对的翻译,使用隐式解码器的潜在网格,而不是一个整体向量,以允许结构和空间感知的局部变化。形状平移。P2P-Net [28]研究了成对的形状到形状的转换,而Gao等人[7]研究了不成对的变形转移。UNIST的灵感来自LOGAN [27],这是一种用于不成对形状翻译的通用网络。然而,我们的工作在几个重要方面与LO-GAN不同.首先,而不是点云,我们采用隐式表示,可以生成,erate拓扑变化的形状翻译。第二,我们使用位置感知的潜在网格,而不是只编码全局特征的整体潜在代码。最后,通过大量的实验,UNIST被证明产生更高质量的重建和更自然的形状翻译。深层隐式函数。隐式表示在机器学习领域非常受欢迎,最近已应用于3D视觉[3,18,20],图像[19,23,24]和动态场景[13,21,25]。深度隐式表示方法可以大致分为三类:全局方法、局部方法和层次方法。全局方法对所有基于位置的查询点使用单个潜在代码来解码对象,并且已经在诸如[3,6,12,18,20]的作品中进行了探索。而局部隐式方法通过在给定点[5,22]处的编码器特征网格上进行三线性插值或仅将不同的潜在代码分配给每个局部部分[1,8,11]来为每个基于位置的查询点获得不同的潜在代码。最近,还提出了基于层次的方法[4,15],其结合细节级别来解码3D形状。代替全局潜在代码,我们使用潜在网格,因为它们在自动编码中成功地保留了细节[5,22]。由于我们的主要目标是执行翻译,并且在每个查询点处的翻译在计算上是昂贵的,因此我们改为查询解码器的潜在网格,并直接在潜在网格上执行翻译。图3.常规与位置感知编码。(a)常规潜在编码直接与点坐标p连接以预测内部/外部值。(b)位置感知潜在编码是从以点坐标p为中心的潜在网格双线性内插的,以预测内部/外部值。3. 方法在 本 节 中 , 我 们 详 细 介 绍 了 UNIST 的 设 计 ,UNIST是一种用于在2D和3D域中进行通用的非配对形状到形状平移的隐式模型。如图2所示,网络使用位置感知编码对来自源域和目标域的输入形状进行编码,并在潜在网格空间中执行翻译,这由一组损失指导,以确保域翻译以及特征保留。3.1. 神经内隐形状我们的网络通过学习内部/外部或占用信息来采用形状的神经隐式表示[3,18]。为了重建这样的形状,对形状周围的体积空间进行采样。将输入形状表示为s并且将查询点表示为p∈R3,隐式字段f被定义为:f(p)=D(E(s),p)→[0,1],其中查询点p连同从编码器E获得的输入形状的潜在码一起被传递到解码器D以预测指示内部/外部值的0/1。然后可以通过Marching Cubes [17]提取网格表面。3.2. 位置感知编码我们采用了来自先前作品的位置感知编码的思想[4,22],其中输入形状被编码到潜在网格Z中,该潜在网格Z根据其位置经由线性插值为空间中的每个样本点提供潜在代码。而不是使用一个规则的潜在的矢量是不可知的空间信息,潜在的网格捕捉结构信息的输入形状,见图3。更具体地说,如图2(上图)所示,给定输入形状为大小为n×n的2D二进制图像,我们首先使用编码器E将其映射到大小为k×k×m的潜在网格Z,该编码器由几个2D跨越卷积组成,m是特征维度。该潜在网格Z利用高级空间信息对输入形状的压缩表示进行编码。然后,根据查询点p的空间位置,利用双线性插值从查询点p的潜在网格Z中提取出一个大小为m×1的潜在代码这与[3,18,20]不同,其中所有查询点通过串联查询点p通过双线性插值查询点pM编码器隐式解码器编码器隐式解码器常规编码位置感知编码18617χ→χ12χ→χ12χ→χ12χ2共享相同的潜在向量,这导致网络付出-是特征保留损失:更多地关注全球信息,LWGAN=E[D(G(z))]−E[D(z)](4)当地细节这是由于缺乏结构性信息-在这种编码中的形成是,当翻译χ1→χ2z1P(Zχ1)1z2P(Z)2潜在空间,潜在向量的微小变化可能导致不合理的变换,因为所有信息FPχ1→χ2 =Ez2P(Zχ2[||G(z2)− z2||(五))关于输入形状的信息被编码在单个潜在代码中。我们选择IM-NET [3]作为我们的隐式解码器D来解。对从潜在网格Z内插的潜在代码进行编码,并且预我们强制网络通过循环一致性损失在两个域之间自然转换,定义为:dict每个点p的内部/外部值。我们针对重建任务L循环=Ez1P(Zχ1)[||G2→1(G1→2(z1))−z1||第1页]使用查询点p的地面实况SDFs <$p和预测SDF之间的加权均方误差。设S+Ez2P(Zχ2)[||G1→2(G2→1(z2))− z2||(6)是训练形状并且P是在每个形状上采样的点的集合,然后我们将重建损失定义为:其中G1→2和G2→1用于χ1→χ2和χ2→χ1翻译,分别。1 1ΣΣ23.4。实施和培训详情L重建=| S||P|s∈Sp∈P|(D(δ(E(s), p)) − s¯p)·wp|(一)在2D实验中,我们使用n= 256个像素,k= 2,m= 64。 为了训练我们的自动编码网络,我们使用其中δ(·)表示3D情况下的三线性插值,在2D情况下,双线性插值,并且wp表示在采样期间分配给点p的权重。更具体地,我们将边界附近采样的点的权重设置为2,而其他点的权重设置为1。在训练了自动编码器之后,我们使用它的编码器和解码器作为翻译任务的预训练网络。3.3. 位置感知翻译与LOGAN不同,我们的生成器采用潜在网格特征Z并将其转换为与目标域分布相匹配,而搜索器则学习目标域在整个网格空间上的真实分布;参见图2。也就是说,给定来自域χ1和χ2的大小为k×k×m的潜在网格Zχ1和Zχ2,生成器G学习在自动设置中将Zχ1转换为Zχ1→2,并且在特征保留损失的情况下将 Zχ2 转 换 为 Zχ2→2 与 LOGAN [ 27 ] 不 同 的 是 ,LOGAN [ 27]的递归函数处理全局潜在向量并输出单个标量值,我们的递归函数D处理Zx1→2并输出k×k网格中每个潜在向量的标量值这导致能够携带局部和空间信息的更受调节的翻译特征向量。我们通过潜在网格空间上的损失来优化翻译网络:Ltranss=Lχ1→χ2+Lχ2→χ1+γLcycle(2)χ2定义如下,Lχ2→χ1可以容易地定义为:切换域:一个简单的2D conv-encoder,其中每层将图像降采样一半,并将特征通道的数量为了训练翻译网络,我们使用了一个具有五个2D卷积层的生成器对于自动编码,我们训练了800个epoch的所有2D实验,批量大小为24,并使用Adam优化器和初始学习率0。00005 我们在400个epoch之后将学习率衰减一半。对于翻译,我们训练生成器和判别器1,200个epoch,批量大小为128 ,我们再次使用初始学习率为0的Adam优化器。我们每100个epoch将学习率减半,直到它达到0。0005对于等式(2)和(3),我们根据经验设置α= 10,β= 20和γ= 20我们在配备两个Nvidia GeForce GTX 1080 Ti GPU的机器上运行所有测试。在2D数据上训练自动编码器和translator网络分别需要10小时和30分钟。对于3D数据,时间为24小时56分钟,按对象类别平均。推理速度快:0。每个2D形状2s; 2. 7和4。2秒,用于643和2563分辨率的3D输出有关网络架构和培训的更多详细信息,请参阅补充材料。4. 实验和结果我们首先通过研究第4.1节中的常规编码和位置感知编码的行为来验证我们的网络设计。然后,我们在第4.2节和第4.3节中证明了UNIST在2D形状平移和3D形状平移方面的优越性能。4.1. 消融研究Lχ→χ=LWGAN+αLGP+βLFP(三)为了验证位置感知编码在1 2χ1→χ2χ1→χ2χ1→χ2翻译形状和保留局部细节,我们比较其中LWGAN与LGP中包括使用我们的基线,即常规编码模型,通常的WGAN损失与梯度惩罚[9]和LFP在没有位置意识的情况下进行隐式自动编码。L18618实线→点线点线→实线常规→斜体常规→粗体锐利→光滑斜体→常规粗体→常规光滑→锐利(a) 输入(b) 位置感知编码(c) 常规编码(d) 从训练形状到(a)的检索,IOU(e) 从 训 练形状到( b ) 的 检索关于IOU(f) 从 训 练形状到( b ) 的 检索关于MSE(a) 输入(b) 位置感知编码(c) 常规编码(d) 从训练形状到(a)的检索,IOU(e) 从 训 练形状到( b ) 的 检索关于IOU(f) 从 训 练形状到( b ) 的 检索关于MSE图4.在不同字体形状数据集上对位置感知编码、规则编码和检索结果进行定性比较。第一行(左):实线→虚线,(右):虚线→实线。第二行(左):规则→斜体,(右):斜体→规则。第三行(左):常规→粗体,(右):粗体→常规。第四行(左):锐利→平滑,(右):平滑→锐利。(a)测试输入图像。(b)通过位置感知编码得到翻译结果。(c)通过常规编码的翻译结果。(d)基于IOU测量,从目标域中检索最接近测试输入(a)的训练形状。基于(e)IOU测量和(f)MSE测量,从最接近位置感知编码转换(b)的目标常规编码。我们的基线模型利用常规编码(图3a),而不是位置感知编码(图3b)。输入形状在编码器中被编码为来自不同卷积层的大小为m/4×1的这些子向量被连接以形成大小为m×1的过完备潜在码,该过完备潜在码与查询点p的坐标一起被传递到隐式解码器以预测其内部/外部值。常规与位置感知编码。我们在四个2D跨域数据集上比 较 了 常 规 和 位 置 感 知 编 码 的 翻 译 结 果 :SolidParticipDotted,RegularParticipItalic、RegularParticipBold和SharpParticipSmooth。在这些数据集、局部几何特征,例如,尖角/圆角和局部弯曲等特征更为突出,从而导致了内容保持性的风格转换,这一点也适用于验证翻译中位置意识的重要性。我们遵循与[27]中相同的训练和测试分割如图4(b)和(c)所示,很明显,规则编码设法将输入形状转换到具有相当干净边界的目标然而,常规编码不太能够保留每个字体的局部几何特征(例如,缺少局部曲率和不规则点)。我们使用了三个3D 跨 域 数 据 集 : ChairParticipTable , ChairwithArmrest ParticipwithoutArmrest和Tall table参与与[27]相同的训练和测试分割的短表,以进一步验证位置感知。类似的观察结果对于图5(b)中所示的3D平移结果是有效的。以及(c)其中受益于位置感知编码的我们的网络可以产生其几何和结构特征已经被更好地保留的结果。检索。我们表明,UNIST确实知道嵌入在潜在的网格中的结构信息。也就是说,它生成一个尽可能与输入形状相似的形状,并改变形状以匹配目标域的最显著特征。从图4(e-f)中可以明显看出,具有位置感知编码的翻译与目标域中检索到的训练形状我们还在图5(d-f)中示出了来自目标域的检索结果,其最佳地匹配测试输入和具有3D数据集上的位置感知编码的翻译可以注意到,第3行(b)列中的结果与第(f)列中的结果相似,并且第5行中的结果相同。但是,我们仍然可以观察到局部细节的差异。4.2. 2D形状上的平移对于2D形状转换,我们将UNIST与几个未配对的跨域图像到图像转换网络进行了比较:LOGAN[27],CycleGAN [29]和GANHopper[14] 四个数据集:SolidParticipDotted,AParticipH,GParticipR和MParticipN。请注意,LOGAN使用点云表示进行平移,因此,我们填充点云的凸包并转换为图像以进行公平比较。图6显示了翻译结果的定性比较。我们观察到,CycleGAN和GANHopper学习内容保留风格trans-transmitting的能力较低,18619椅子→桌子桌子→椅子带扶手→不带扶手→带扶手高桌→矮桌矮桌→高桌(a) 输入(b) 位置感知编码(c) 常规编码(d) 从训练形状到(a)的检索,IOU(e) 从 训 练形状到( b ) 的 检索关于IOU(f) 从 训 练形状到( b ) 的 检索关于MSE(a) 输入(b) 位置感知编码(c) 常规编码(d) 从训练形状到(a)的检索,IOU(e) 从 训 练形状到( b ) 的 检索关于IOU(f) 从 训 练形状到( b ) 的 检索关于MSE图5.定性比较不同3D形状数据集上的位置感知编码、规则编码和检索结果。1-2排(左):椅子→桌子,(右):桌子→椅子。第3-4排(左):带扶手→不带扶手,(右):不带扶手→带扶手。第5-6行(左):T all表→短表,(右):短表→T all表。(a)测试输入。(b)通过位置感知编码的翻译结果(c)通过常规编码的翻译结果。(d)基于IOU测量,从目标域中检索最接近测试输入(a)的基于(e)IOU测量和(f)MSE测量,从最接近位置感知编码转换(b)的目标域检索训练形状实线→虚线A → HG → RM → N虚线→实线H → AR → GN → M(a) 输入(b) UNIST(我们的)(c) LOGAN(点云)(d)Logan(图片)(e) CycleGAN(f)GANHopper(a) 输入(b) UNIST(我们的)(c) LOGAN(点云)(d)Logan(图片)(e) CycleGAN(f)GANHopper图6.比较UNIST(我们的)、LOGAN、CycleGAN和GANHopper在不同2D形状上的翻译结果。第一行(左):实线→虚线,(右):虚线→实线。第二行(左):A→H,(右):H→A。第三行(左):G→R,(右):R→G。第四行(左):M→N,(右):N→M。(a)测试输入。翻译:(b)UNIST,(c)点云表示中的LOGAN,(d)图像中的18620LOGAN,(e)CycleGAN和(f)GANHopper。fer(SolidParticipDotted)和保持样式的内容传输(AParticipH、GParticipR和MParticipN)。虽然LOGAN设法保持和传输特征,但它有时会产生散乱的点云,导致形状不那么紧凑我们另一方面,所提出的UNIST能够产生具有明显更好的视觉质量的形状,因为它可以再现小尺度风格特征以及保留拓扑特征,例如点状字体中的点。18621MSE:0.184借据:0.691MSE:0.120借据:0.794常规编码(我们的)0.1840.5070.1970.4930.201 0.508MSE:0.348借据:0.257MSE:0.301借据:0.334表1.在A-H、G-R和M-N上的不成对翻译网络之间的定量比较,其中一个可能的地面真实(GT)目标可用。对于每个域对,均方误差(MSE)和并集上的交集(IoU)针对GT目标字母进行测量,并在(a) 输入MSE:0.189借据:0.733(b) 位置感知编码MSE:0.155借据:0.792(c) 常规编码(d) 洛根(e) 目标两个方向(例如A→H和H→A的平均值)。↓表示越低越好,↑表示越高越好。定量比较。我们需要地面实况(GT)进行定量研究。对于AParticipH、GParticipR和MParticipN,自然的GT目标将是来自相同字体家族的字母。通过使用均方误差(MSE)和交集对并集(IoU)对GT进行测量,我们在表1中显示了各种未配对翻译网络之间的定量比较。正如我们所看到的,由于使用了神经隐式形状,使用常规编码的UNIST击败了所有竞争对手,包括LOGAN。另一方面,位置感知编码的使用相对于LO-GAN表现不佳,但仍优于其他基线。通过图7中所示的定性比较,我们观察到位置感知编码倾向于尽可能多地保留输入的空间和风格特征,仅以被认为对到达目标域最关键的方式对其进行更改对于AParticipH示例,仅在顶部引入了一个小的中断。请注意,在图7中,常规编码结果可能看起来更接近目标。然而,接近目标并不是翻译人员所接受的培训,因为UNIST是完全不受监督的,翻译结果应该通过他们保留输入特征的程度来定性判断。总的来说,我们发现位置感知编码比常规编码和LOGAN产生更自然的翻译,例如,参见图7中的GParticipR和MParticipN示例。其在表1中的不足可以归因于强特征保留或MSE和IoU作为可行感知度量的不足,因为它们仅测量空间失真。4.3. 3D形状的转换我们对来自ShapeNet [2]的ChairParticipateTable、带 扶 手 的 椅 子 ParticipwithoutArmrest 和 TalltableParticip-Shorttable进行了3D实验,并将我们的方法与LOGAN [27]进行了比较,因为它是最先进的不成对形状到形状转换网络。我们使用Marching Cubes[17]图7. LOGAN和UNIST之间的视觉比较(正则与位置感知编码)。目标字母(e)具有与相应输入(a)相同的字体。虽然位置感知编码似乎产生更自然的翻译,具有更好的空间特征和风格保留,但它在MSE和IOU上的表现优于其他两种,针对目标进行测量。以从以256× 3分辨率采样的输出中获得网格。请注意,我们采用[3]中的采样策略从网格表面获得2,048个点,以便与LOGAN进行公平比较,因为它仅生成2,048分辨率的点云。图8显示了定性结果。定量评估再次提出了挑战,因为形状翻译本质上是一个特定领域的任务。一个正确的翻译是什么可以有很大的不同,这取决于两个选择的域的形状语义和翻译本身的性质。因此,我们提供了不同的方法来评估3D翻译如下。当在有扶手和没有扶手的椅子之间转换时(图8的第三和第四行),我们自然的期望是网络应该只添加/移除扶手,同时保留输入。我们将其视为GT场景,并使用从无扶手椅子到其相应的带扶手椅子的单侧倒角距离(CD)来测量平移的质量,而不管平移的方向如何表3中给出的数字表明,UNIST在这个指标上优于我们的基线和LO-GAN,表明它更好地了解了两个域之间的本质区别。在TableParticipChair翻译的情况下,网络的任务不仅是修改输入形状的几何形状 因此,很难量化一个好的结果,激励用户研究,以衡量翻译的质量 。 在 我 们 的 用 户 研 究 中 , 我 们 通 过 AmazonMechanical Turk询问了72名参与者,使用常规或位置感知编码对LOGAN [27]和UNIST执行的翻译质量进行排名。我们在表2中报告了研究结果,结果表明,MSE:0.126MSE:0.326MSE:0.164A参与者HG参与者RM参与者MSE↓IoU↑MSE↓IoU↑MSE↓IoU↑CycleGAN0.2460.3850.2290.4120.2660.383单元0.2530.3760.2640.3770.2950.348MUNIT0.2800.2860.3580.1710.3630.292洛根0.1950.4900.2130.4720.2070.506GANHopper0.2580.3840.2680.3800.2960.356位置感知编码(我们的)0.2150.4410.2110.4520.2330.43318622椅子→桌子桌子→椅子带扶手→不带扶手不带扶手→带扶手高桌→矮桌矮桌→高桌(a)输入(b)UNIST(c)UNIST(d)LOGAN输入(e)洛根(a)输入(b)UNIST(c)UNIST(d)LOGAN输入(e)洛根(ours网格)(ours点云)(点云)(点云)(ours网格)(ours点云)(点云)(点云)图8.比较UNIST(我们的)和LOGAN在不同3D形状上的翻译结果1-2排(左):椅子→桌子(右):桌子→椅子。第3-4行(左):带扶手→不带扶手(右):不带扶手→带扶手。第5-6行(左):T all表→短表,(右):短表→T all表。(a)测试来自体素的输入网格(b)由联合国软件技术研究所(我们的)翻译成网格表示法。(c)由UNIST(我们的)翻译成点云表示。(d)LOGAN测试输入点云。(e)洛根的翻译带臂→不带臂不带机械臂→带机械臂洛根定期0.02490.02550.02730.0267位置感知38.11%33.94%百分之二十九点零八36.28%33.16%30.47%位置感知0.02340.0235表2.通过Amazon Mechanical Turk对ChairParticipate进行的用户研究。%是相对于每个等级的总票数。与会者最有可能选择UNIST与位置感知编码作为最好的翻译方法在这两个方向。同时,位置感知UNIST也最不可能被列为三种比较方法中最差的。尽管如此,这些收益还是有点微不足道,考虑到如何判断什么是好的翻译的模糊性和主观性,这并不完全令人惊讶。5. 结论、局限性和未来工作我们表明,在潜在过完备GAN(LOGAN)的一般框架下,流行的神经隐式表示非常适合于不成对的形状到形状翻译任务[27]。UNIST相对于点云的改进是显而易见的,特别是当转换或重建涉及更精细的细节和拓扑变化时。此外,将位置感知表3.单面CD用于在有扶手和没有扶手的形状之间进行平移,以测量两个形状之间的公共部分保留得有多好。在第一个结果列中,单侧距离计算为输出→输入,第二列表示输入→输出。在所有计算中,我们从网格中采样了2,048个点,以确保与LOGAN进行公平比较。编码到设计中进一步加强了翻译网络的特征保留。另一方面,隐式函数不像点云LOGAN那样适合表示几何结构,如骨架或轮廓曲线。然而,更关键的限制与可控性或缺乏可控性有关。因此,未来工作的主要途径是探索UNIST的少镜头学习和条件生成建模,以指导或约束翻译网络。致谢我们感谢那些令人讨厌的评论者的评论,以及于丰根、华莱士·里拉和尹康学的讨论。这项工作得到了NSERC(611370)和Autodesk礼物的部分支持。椅子→桌子第一次第二次第三次桌子→椅子第一次第二次第三次洛根30.55%35.68%33.25%35.94%30.47%33.51%经常项目31.34%30.38%37.67%27.78%36.37%36.02%18623引用[1] Rohan Chabra , Jan E Lenssen , Eddy Ilg , TannerSchmidt,Julian Straub,Steven Lovegrove,and RichardNewcombe.深度局部形状:学习局部sdf先验,用于详细的3d重建。在ECCV,2020年。3[2] 天 使 X 作 者 : Thomas A. Funkhouser , Leonidas J.Guibas , Pat Hanrahan , Qi-Xing Huang , Zimo Li ,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,Jianxiong Xiao,Li Yi,and Fisher Yu. ShapeNet:信息丰富的3D模型存储库。CoRR,abs/1512.03012,2015。7[3] 陈志勤和张浩。学习生成式形状建模的隐式字段。在CVPR,2019年。一二三四七[4] Zhang Chen , Yinda Zhang , Kyle Genova , SeanFanello,Sofien Bouaziz,Christian Hane,Ruofei Du,Cem Keskin,Thomas Funkhouser,and Danhang Tang.三维形状表示的多分辨率深度隐函数ICCV,2021。二、三[5] Julian Chibane,Thiemo Alldieck,Gerard Pons-Moll.特征空间中的隐式函数用于三维形状重构和补全。在CVPR,2020年。二、三[6] Yueqi Duan , Haidong Zhu , He Wang , Li Yi , RamNevatia ,and Leonidas J Guibas. 课程深度 在ECCV ,2020年。3[7] Lin Gao,Jie Yang,Yi-Ling Qiao,Yu-Kun Lai,Paul LRosin,Weiwei Xu,and Shihong Xia.自动不成对形状变形转移。ACM TOG,37(6):1±15,2018。3[8] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas Funkhouser。三维形状的局部深度隐式函数。在CVPR,2020年。3[9] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin 和 Aaron C Courville 。 改 进 了Wasserstein GAN的训练。NeurIPS,2017。4[10] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros. 使 用 条 件 对 抗 网 络 的 图 像 到 图 像 翻 译 。 在CVPR,2017年。3[11] Chiyu Jiang,Avneesh Sud,Ameesh Makadia,JingweiHuang, Matthias Niegner , Thomas Funkhouser ,et al.Local implicit grid representations for 3d scenes. 在CVPR,2020年。3[12] Marian Kleineberg,Matthias Fey,and Frank Weichert.连续隐式形状表示的对抗生成。arXiv预印本arXiv:2002.00349,2020。3[13] Zhengqi Li,Simon Niklaus,Noah Snavely,and OliverWang.神经场景流场用于动态场景的时空视图合成在CVPR,2021年。3[14] 华莱士·里拉,约翰内斯·默茨,丹尼尔·里奇,丹尼尔·科恩-奥尔,张浩。Ganhopper:用于无监督图像到图像翻译的多跳Gan。在ECCV,2020年。5[15] Lingjie Liu , Jiatao Gu , Kyaw Zaw Lin , Tat-SengChua , and Christian Theobalt. 神 经 稀 疏 体 素 场 。 在NeurIPS,2020年。3[16] Ming-Yu Liu,Thomas Breuel,and Jan Kautz.无监督图像到图像翻译网络。NeurIPS,2017。一、二、三[17] 威廉·E·洛伦森和哈维·E·克莱恩。Marching Cubes:一个高分辨率的3D表面构造算法。SIG- GRAPH,1987.三、七[18] Lars Mescheder,Michael Oechsle,Michael Niemeyer,Se- bastian Nowozin , and Andreas Geiger.Occupancynetworks:Learning 3d reconstruction in function space.在CVPR,2019年。第1、3条[19] Ben Mildenhall,Pratul P Srinivasan,Matthew Tancik,Jonathan T Barron , Ravi Ramamoorthi , and Ren Ng.Nerf:将场景表示为用于视图合成的神经辐射场。在ECCV。Springer,2020年。3[20] 郑俊朴、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。DeepSDF:学习用于形状表示的连续符号距离函数。在CVPR,2019年。第1、3条[21] Keunhong Park 、 Utkarsh Sinha 、 Jonathan T Barron 、Sofien Bouaziz 、 Dan B Goldman 、 Steven M Seitz 和Ricardo- Martin Brualla。可变形神经辐射场。ICCV,2021。3[22] PengSongyouPeng , MichaelNiemeyer , LarsMescheder,Marc Pollefeys,and Andreas Geiger.卷积占有网络。在ECCV,2020年。二、三[23] Vincent Sitzmann , Julien NP Martel , Alexander WBergman,David B Lindell,and Gordon Wetzstein.具有周期性激活函数的内隐神经在NeurIPS,2020年。3[24] Matthew Tancik,Pratul P Srinivasan,Ben Mildenhall,SaraFridovich-Keil , NithinRaghavan , UtkarshSinghal,Ravi Ra-mamoorthi,Jonathan T Barron,andRen Ng.傅立叶特征使网络在低维域中学习高频函数。在NeurIPS,2020年。3[25] Wenqi Xian , Jia-Bin Huang , Johannes Kopf , andChangil Kim.自由视点视频的时空神经辐照场。在CVPR,2021年。3[26] 自立一、张浩、谭平、龚明伦。Dualgan:图像到图像翻译的无监督双重学习。InICCV,2017. 第1、3条[27] Kangxue Yin,Zhiqin Chen,Hui Huang,Daniel Cohen-Or,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功