无监督学习的多图像数据集3D对象重建网络

50 浏览量更新于2023-10-14 收藏 1.26MB PDF 举报

三维重建

无监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12600培训测试基线基于多幅图像Long-Nhat Ho1Anh Tuan Tran1，2Quynh Phung1Minh Hoai1，31 VinAI Research，Hanoi，Vietnam，2VinUniversity，Hanoi，Vietnam，3Stony Brook University，Stony Brook，NY 11790，USA{v. nhathl，v.anht152，v.quynpt29，v. hoainm} @ vinai.io图1：我们提出了一个系统，以无监督的方式从多图像数据集学习单视图3D对象重建。从从上到下：Multi-PIE [23]，CASIA-WebFace [54]和Youtube Faces [50]数据集。从左到右：不同的训练数据结构，测试时相应的3D重建，以及基线[52] 3D结果。对于每个3D模型，我们提供了两个无纹理视图，两个纹理视图，和规范的法线映射。摘要从单个图像恢复对象的3D结构是一项具有挑战性的任务，由于其不适定的性质。一种方法是利用相同对象类别的大量照片这种方法已成功地证明了最近的工作吴等。（2020），它通过无监督学习获得了令人印象深刻的3D重建网络。然而，他们的算法仅适用于对称对象。在本文中，我们消除了对称性的要求，与一种新的无监督算法，可以从多图像数据集学习的三维重建网络。我们的算法是更一般的，并涵盖了对称性要求的情况下，作为一个特殊的情况。此外，我们采用了一种新的反照率损失，提高了重建的细节和真实感。我们的方法在质量和鲁棒性方面都超过了以前的工作，如在各种结构的数据集上的实验所示，包括单视图，多视图，图像收集和视频集。代码可在https://github.com/VinAIResearch/LeMul上获得。1. 介绍图像是真实世界3D对象的2D投影，并且从2D图像恢复3D结构是具有许多应用的重要计算机视觉任务。大多数基于图像的3D建模方法依赖于多视图输入[42，43，16，17，11，57，48，21]，需要从不同视图捕获的目标对象的多个图像。然而，这些方法不适用于只有单个输入图像可用的场景，这是本文工作的重点。这个问题被称为单视图三维重建，它是不适定的，因为图像可以是无限多个三维形状的投影。有趣的是，人类非常擅长从单个图像中估计任何已知类对象的3D结构;我们甚至可以预测它在看不见的视图中的样子。这可能是因为人类具有关于所考虑的对象类的3D形状和纹理的强先验知识受此观察的启发，已经针对特定对象类别提出了许多类别特定的3D建模方法，例如面部[3，40，59，46，39，44，47，13]。手[60，30，4，18]和机构[34，24]。12601在本文中，而不是专注于任何个别的类别，我们的目标是开发一个通用的框架，可以为任何对象类别的工作，只要有许多图像从该类别来训练一个单视图的三维重建网络。此外，鉴于获取3D地面实况注释的困难，我们还旨在开发一种不需要训练图像中的对象的地面实况3D结构的无监督学习方法。然而，这是一个具有挑战性的问题，由于训练图像的巨大变化，关于他们的观点，外观，照明，和背景。最近的一项研究[52]通过一种新型的端到端可训练深度网络解决了这个问题。他们的网络由几个模块组成，用于回归图像形成的组件，包括对象的3D形状，纹理，视点和照明参数，以便渲染图像与输入相似。这些模块在图像数据集上以无监督的方式进行训练。他们假设每个训练样本只有一张图像，所以它仍然是高度欠约束的。为了使这个训练过程收敛，作者提出使用对称约束。他们的系统在各自的数据集上训练后，成功地恢复了人脸、猫脸和合成汽车的3D形状。为了方便起见，从现在起，我们将把这种从对称性学习方法称为LeSym。虽然显示出良好的初始结果，LeSym有几个限制。首先，它要求目标对象几乎是对称的，这严重限制了它对某些对象类的适用性。对于高度不对称的对象，该方法不起作用，并且对于几乎对称的对象，它将不保留不对称的细节。其次，在强对称约束的情况下，不正确的镜线估计将导致不切实际的3D重建。关于这些问题的一些示例和详细讨论可参见第2节。4.第一章第三，当训练数据集中的同一对象的多个图像可用时，LeSym不能相关并利用这些图像来提高重建的准确性和稳定性。这是一个缺点，因为有许多图像数据集包含每个对象的多个图像。例如，多视图立体数据集具有在不同视图处捕获的每个对象的照片。一些数据集反而具有相同视图的多个图片，但具有不同的照明条件或焦距。面部数据集通常具有针对每个人的多个图像，并且视频数据集具有覆盖每个视频中的相同对象的大量帧。在本文中，我们提出了一个更通用的框架，称为LeMul，有效地从多图像数据集学习，以实现更灵活，更可靠的3D重建网络的无监督训练。它采用松散的形状和纹理一致性损失的基础上组件交换-平跨视图。这是一种虽然它利用每个训练实例的多个图像，但这些图像是如此多样化，并且不能在传统方法中组合LeMul可以通过使用具有较少正则化结果的原始图像和翻转图像来覆盖LeSym中寻址的对称对象。更重要的是，它可以处理更广泛的训练数据集和对象类。此外，我们在LeMul中采用反照率损失，其准确地恢复3D形状的精细细节。这一损失[2019 - 03 -23][2019- 03 - 19] [2019 - 03]它大大提高了重建的三维模型的真实性，有时接近激光扫描质量，从一个低分辨率的单一图像输入。简而言之，我们的贡献是：（1）我们介绍了一个通用的框架，称为LeMul，它可以利用多图像数据集在没有对称约束的情况下从单个图像学习3D对象重建;（2）我们使用形状和纹理一致性损失来使非监督学习收敛;（3）引入反照率损失以提高重建结果的真实感;（4）LeMul在广泛的数据集上定性和定量地显示出最先进的性能。2. 相关工作在本节中，我们简要回顾了现有的基于图像的3D重建方法，从经典算法到基于深度学习的算法。多视图三维重建。该方法需要在不同视点处捕获的目标对象的多个图像。它由两个子任务组成：运动恢复结构（SfM）和多视图立体（MVS）。SfM从输入图像估计相机矩阵和稀疏3D重建点云[42，43]。SfM要求从每个输入视图提取的鲁棒关键点用于匹配和重建。MVS假设已知相机矩阵用于密集3D重建[17，16]。这些任务通常被组合以形成端到端系统：SfM提供相机矩阵估计作为MVS的输入[51]。这些方法在经典文献中得到了很好的研究，并且已经通过深度学习得到了进一步的改进[57，48，21]。然而，这些方法，是不适合我们的目标，从一个单一的图像在推理时间的三维重建。即使在训练时，它们也很难与低图像质量、不同捕获条件和自由非刚性变形的野外输入一起工作。来自X的形状是另一种常见的3D建模方法，其依赖于图像的特定方面，例如轮廓[27]，焦点[12]，对称性[31，14，45，41]，[55][56][57][58][59][59] 这些方法只有在因此不适用于野外数据。我们专注于后两个方向，因为它们适用于我们的问题。对称恢复形状假设12602∈R--目标对象是对称的，因此使用原始图像和翻转图像作为立体对用于3D重建。Shape-from-shading（SfS）依赖于一些shading模型，通常是Phong shading [36]或Spherical Harmonic Lighting [22]，并且解决了逆渲染问题以分解图像SfS方法通常要么细化初始3D [26，32]，要么用多个启发式约束解决优化问题[2]。我们特别感兴趣的是[32]，它采用类似双边的损失函数来获得初始原始深度图的细节。基于深度学习的3D建模。深度学习提供了一个强大的工具来处理具有挑战性的计算机视觉问题，包括从单个图像进行3D重建。一些研究设法通过对地面实况数据集的监督学习从单个图像解决了单眼深度估计[9，53，38，15一些其他研究使用诸如GAN或VAE的生成模型从3D数据集学习3D形状表示，并将其拟合到具有或不具有超视的输入图像中[5，20，58，58，28]。然而，这些方法需要用于监督的地面实况数据或用于先前学习的3D形状数据集。它们不是无监督的，并且不能处理没有可用3D数据的新对象类。类别特定的3D重建。一些研究集中在重建特定对象类的3D模型，例如人脸[3，40，59，46，39，44，47，13]，手[60，30，4，18]和机构[34，24]。3D建模过程通常严重依赖于明确定义的形状先验。例如，早期的3D面部建模研究使用从面部标志学习的简单PCA模型，例如主动外观模型（ AAM ） [6 ， 7] 和约束局部模型（CLM）[8，1]。后来，从3D面部扫描中学习的3D面部形状和反照率的统计模型，称为 3D 变形模型（3DMM）[35，19]，被用作3D面部建模算法中的有效先验[3，40，59，46，39，44]。最近，许多工作已经探索了其他3D人脸呈现，例如非线性3DMM[47]或基于GCN的特征[37，49]。不是学习-基于每个对象类的特性的特定模型，我们的目标是一个通用的框架，可以从野外图像中提取任何类的3D形状先验。LeSym[52]是第一个可以以通用和无监督方式处理单个图像的3D建模任务的工作。它遵循SfS方法来提取图像的内在成分，包括3D形状、纹理、视图和照明参数。该网络被训练以最小化重建损失，比较渲染图像和输入，在同类对象的大图像集上使用可区分的渲染器。优化问题是约束不足的，因此作者假设目标对象对称，并将翻转的图像，如在对称形状算法中。LeSym在人脸、猫脸和合成汽车上展示了令人印象深刻的重建结果然而，对称性假设强正则化估计的三维模型和限制LeSym的应用。此外，重建的3D模型仍然是原始的，缺少许多细节。3. 从多图像数据集3.1. 概述我们修改了LeSym中使用的机制，使LeMul成为一种更通用，更有效，更准确的无监督3D重建方法。我们的建议中的两个关键思想是：基于多图像的无监督训练和一种新的反照率损失。系统概述如图1所示。二、与LeSym不同，我们不要求建模目标是对称的。相反，我们假设训练数据中的每个对象有多个图像我们在每个图像上运行网络模块，并强制形状和反照率一致性。请注意，具有对称对象的单个图像是我们的特殊情况;我们可以简单地使用原始和翻转输入作为每个训练实例的两个图像，并且3D模型一致性将强制对象此外，该配置可以考虑许多其他常见场景，诸如多视图、多曝光、多帧数据集。多图像配置仅在训练中需要在推断期间，系统可以从单个输入图像输出3D模型。考虑一个训练示例，并且让Ii表示在不同条件下拍摄的对象的M个图像的集合。每个图像IiR H×W×3可以分解成四个分量。nents（di，ai，li，vi）.前两个组件代表对象的3D模型在独立于相机姿态的规范视图中，其中d i ∈ R H × W是深度图，a i ∈ R H × W × 3是反照率图。后一个分量对捕获条件进行建模，其中L是L个照明参数的向量，并且V^i∈R6是视图向量。图像由阴影函数R形成：Ii=R（di，ai，li，vi）+ηi.（一）其中ηi是针对诸如背景杂波和遮挡之类的因素的噪声项。着色模型是一个不同的渲染器[25]，它使用透视投影相机，Phong着色模型和Lambertian表面假设。存在L=4个照明参数，包括用于环境项k_s和漫射项k_d以及光方向（lx，ly）的加权系数。其他细节见[52]。我们的分解网络由四个模块组成，用于估计输入图像I i的四个本征分量（di，ai，li，vi）。我们将这些模分别记为Fd、Fa、Fl和Fv。Fd和Fa将输入转换为具有相同空间分辨率的输出映射。Fl12603FL= L+λL横FΣ−−//L=M我D我一我L 我v我我我我我aj）应该是几乎相似的和可互换的。这些准则可以用公式表示为两个损耗Lrec和LrecIJ图2：所提出的系统的概述。我们训练一个分解网络来优化不同的损耗分量。请注意，为了简单起见，我们省略了该图中的置信度图此外，我们使用漫射阴影图像来可视化深度图。和v是输出参数向量的回归网络。这些模块组件的输出（表示为（di，ai，li，vi））用于重建输入图像：Ir= R（F（I），F（I），F（I），F（I））= R（d，a，l，v）。有两个期望的标准：（1）重建的IM-我层特征f，并且λpe是加权超参数。假设高斯分布，所述损耗分量具有如下详细表达式：Ll1（I，I′，c）=1Σ √2|I（p）− I′（p）|1 + ln（c（p）），（3）年龄Ir应该类似于输入Ii;（2）对于任何一对对于来自相同训练样本Ii和Ij的图像，估计的典型深度和反照率图（d，a）和（d，pe（f，f′，c）=|Ω| p∈Ωc（p）f（p）−f（p）+ln（c（p）），⑷i i j横1 Σ′2|Ωk|p∈Ωk2（c（p））2分别此外，我们采用了新的损失函数，称为反照率损失，受[32]的启发，以进一步改善精细细节的重建这些损失遵循相同的-视图和交叉视图设置，并且我们将它们表示为Lal其中Ω和Ωk作为图像和特征空间中的像素集。3.3.跨视图一致性丢失单靠重建损失不足以限制al横.因此，总的训练损失将是：重建结果。因为我们有多个图像每个rec cross reccross+λal（Lal+λcrossLal）、（2）在训练实例中，我们可以经由跨视图一致性损失来强制重构的3D模型（d，a）是一致的其中λal和λcross是加权超参数。我们现在将讨论上面的每个损失分量。3.2.重构损失我们从LeSym那里继承了这种损失。它强制重建的图像与输入相似。为了丢弃噪声η的影响，使用称为c的另一个子网络来回归一对置信度图（cll，cpe），其在计算重建损失时对像素进行加权。总重建损失在所有输入视图上求和：recΣ。Ll1（Ii，Ir，cl1）+λpeLpe（g（Ii），g（Ir），cpe）Σ，理论上，我们可以简单地最小化距离i=j（didj+aiaj），但我们发现它在实践中是无效的相反，我们建议实现的一致性损失的基础上的组件交换机制。对于每对视图i = j，我们可以交换来自一个视图的估计的3D模型（dj，aj）到另一个以渲染跨模型图像：r=R（d，j，a，j，l，v，i）。（五）该图像应该与输入Ii几乎相同。与重建损失类似，我们采用一些置信图进行损失计算。然而，这些地图与我我i=1我我两个输入图像（Ii，Ij），需要另一个置信度网络-和L我L12604F其中，Ll1和Lpe是用于计算l1和感知损失分量的函数，g是用于提取第k个损失工作我们称这个网络为cc，它输入按通道堆叠的图像对（Ii，Ij），并返回一对置信度12605/Σ=（L横FFc2dF F FFKKKW横IJIJIJIJ|欧姆|p∈ΩKKΣK-2σ2-2σ2maps（cl1，cpe）.该图像对的交叉视图损失项与前面的损失项类似，我们计算ij ij可以计算如下：在相同视图和交叉视图设置中的反照率损失：rec（i，j）= Lll（li，Ir，cl1）+ λ peLpe（g（li），g（Ir），cpe）。我们可以计算所有对的交叉视图熵损失L=i=1，但是如果M是大. 为了计算效率，我们选择第一个视图al=Σ .La l（I1，av1，dv1）+La l（Ii，avi，dvi）Σ。并仅使用与第一视图相关的对横ii 11I=2接收交叉M接收交叉I=2（i，1）+L_rec（1，i））。（六）4. 实验4.1. 实验设置3.4.反照率损失尽管利用上述损失获得的3D重建形状已经相当准确，但是3D形状倾向于过平滑，其中3D表面的许多精细细节被不准确地转移到反照率图。为了更清晰的3D重建，我们在反照率图上应用正则化以避免过拟合像素强度。该正则化应保证反照率在非边缘像素处是平滑的，同时保留边缘。在[32]之后，我们通过反照率损失项来实现这种正则化。反照率损失需要三个对齐的输入，包括输入图像I以及深度d和反照率a的对应映射。它在以下对象上强制平滑：Lal（I，a，d）=1Σ¨ Σ ww（a（p）−a（p））¨.pk∈N（p）4.1.1实现细节我们在PyTorch中实现了我们的系统。网络d、a、l、v和c具有与LeSym1的官方发布代码相同的结构。交叉视图置信网络cc类似于c，除了具有六个输入通道而不是三个。在所有实验中，我们使用相同的输入图像大小H=W=64。超参数设置为λpe=1， λ cross=λal=0。五、 σ c=0。05和σd=2。网络与Adam optimizer在固定学习率0. 0001直到收敛。4.1.2数据集为了评估所提出的算法，我们在具有各种捕获设置和数据结构的数据集上进行了实验（单视图、多视图、图像采集或视频）：其中N（p）定义像素p的相邻像素，BFM是一个由200K人脸图像组成的合成数据集。强度加权项：由LeSym提出。每个图像都使用从Basel Face Modelwc= exp .I（p）− I（p k）C、（7）[35]，随机视图，以及从CelebA图像估计的球谐光之一[29]。除了RGB图像之外，还提供了地面实况3D深度图。并且w_d是深度加权项：我们使用这个数据集来定量评估我们的方法并将其与其他基线进行比较。wd= exp.d（p）− d（pk）D（八）CelebA [29]是一个流行的面部数据集，包含超过20万张名人图像。图像是在In-the-加权项抑制可能来自其他区域的相邻像素的影响，这是由于与当前像素相比强度/深度的大差距我们使用σc和σd来控制允许的强度和深度不连续性。请注意，反照率损失的三个输入需要逐像素对齐。我们保持原始输入I，其处于估计视图v。因此，我们不能直接使用规范映射（d，a），所以我们将它们转换为视图v。这个过程可以通过扭曲函数来完成。该函数首先根据标准深度d计算3D形状，然后将其投影并渲染在视图v处。的输出是变换的深度和反照率图：（d v，a v）= W（（d，a），d，v）。（九）LMLMLΣΣalalviviL （Ii，ai，di），（10）.12606野生条件它分为三个子集，分别用于162K，20K和20K图像的训练，验证和测试。我们使用这个数据集比较LeMul和LeSym下的“单视图”和“对称对象”的设置。我们为每个训练实例生成两个图像输入，包括原始图像和翻转图像。Cat Faces是一个11.2K图像的数据集，捕获了野外的猫脸。该数据集是在LeSym中通过组合之前的两个数据集构建的[56，33]。该集合被分成8930个训练实例和2256个测试实例。该数据集也处于“单视图”和“对称对象”设置下1https://github.com/elliottwu/unsup3d12607Multi-PIE [23]是在工作室设置中捕获的大型人脸数据集。它包含超过750K的图像，涉及337人，从一个到四个不同的记录sessions。在每个会话中，每个受试者具有在15个视点、19个照明下捕获的图像的集合，并且具有几个表情。我们排除了具有极端光线或过度表达的图像，并选择了对应于正面、15◦向左和15◦向右视图的三个视角的图像，以形成多视图图像集。每个训练实例是在所选视图处捕获的我们使用随机照明，导致三个输入视图完全不同，无法使用传统的多视图立体方法。CASIA-WebFace [54]从互联网上收集了10 K人的500K张人脸图像。每个人平均有50张条件截然不同的野外图像。我们保留最后200名受试者进行测试，其余的用于培训。在每个训练时期中，对于每个受试者，我们随机选择该人的M=3个图像，而不管姿势、表情和照明如何，以形成训练示例。YouTube Faces（YTF）[50]是一个视频数据集，由1595人的3425个视频视频具有低质量帧，其通过视频压缩而严重降级。许多视频也不利于3D人脸建模，目标人脸处于非正面视图并且几乎不移动。尽管如此，我们的目标是在这种极端条件下评估我们的方法。对于每个视频，我们提取帧并在目标面部周围裁剪它们。我们将视频分为训练（3299）和测试（126）。与CASIA类似，在每个训练时期和每个视频中，我们随机选择M=3帧来形成训练实例。定量指标。为了公平的比较结果，我们使用与LeSym相同的指标。第一个度量是尺度不变深度误差（SIDE）[10]，其计算输入视图处的估计深度图与对数尺度处的地面实况深度然而，我们认为，这个指标是不是一个强有力的指标重建质量。物距估计中的合理误差在不影响投影图像的同时可引起SIDE变化。相反，它在评价重建的表面质量方面是无效的我们可以平滑深度图或向其添加小的随机噪声，但引起SIDE值的最小变化。相反，我们关注第二个度量，即从估计深度图dv和地面真实深度图d*计算的法线图之间的平均角度偏差（MAD）[52]。它可以测量表面被捕获的程度，并且对表面噪声敏感。4.2. 定量实验在本节中，我们使用提供的地面实况数据对BFM数据集进行定量评估。无基线侧（x10−2）↓MAD（度）↓（1）监督0。410±0。10310. 78±1。01（二）常数空深度2. 723±0。37143. 34±2。25（三）平均G.T.深度 1 .一、990±0。55623. 26±2。85(4) LeSym0.793±0.14016. 51 ±1。56（5）LeMul（建议）0. 834± 0.15.49±1.50表1：BFM结果与基线的比较。(a)（b）第（1）款图3：定性分析。（a）LeMul vs. LeSym（SIDE）和（b）纹理细化。无方法侧（x10−2）↓MAD（deg.）↓（1）基线[52]0。793±0。1401651±1。56（2） +多视图0.728±0.13515. 73 ±1。54(3)+反照率损失0. 899±0。21716. 35±1。79（4）+ mul+al（满） 0的情况。834± 0.15.49±1.50表2：BFM数据集的消融研究BFM结果。我们在BFM数据集上训练和测试了我们的算法，结果报告在表1中，以及一些基线：（1）作为上限的监督3D重建网络，（2）返回恒定零深度的虚拟网络，（3）产生在地面实况上计算的恒定平均深度的虚拟网络，以及(4)勒西姆可以看出，LeMul的性能远远优于虚拟网络。与LeSym相比，它实现了更好的MAD数，减少了1◦，这意味着更好的重建3D表面，恢复了细节。至于SIDE，我们检查了错误映射，发现LeMul提供了更好的整体深度估计。然而，异常值，特别是在面部边界或外部部件（耳朵、颈部）上的异常值，更不稳定并且使平均分数偏斜。如果我们在由Dlib的68个界标界定图3a提供了一种常见的场景，其中LeMul在大多数面部区域上提供较低的误差，但在边界和耳朵上提供较高的误差。消融研究。我们运行消融实验，以评估每个建议的组件从LeSym作为基线，我们可以修改它，以遵循我们的多视图方案或整合反照率损失。如表2所示，我们的每一个建议都对MAD值产生了积极影响。当结合这两种技术时，我们实现了最佳的重建3D表面。12608FFF4.3. 定性实验我们定性地比较我们的方法与图1中提到的数据集上的LeSym基线。图1和图4。在所有实验中，LeSym使用每个图像作为训练实例，并应用对称约束。我们的方法还假设BFM，CelebA和Cat Faces上的对称性，使用成对的原始和翻转图像作为训练实例。然而，在Multi-PIE、CASIA-WebFace和Youtube Faces上，我们完全放弃了这种假设，并在训练中使用多图像示例。三个对称假设数据集。在BFM、CelebA和Cat Faces上，LeSym和LeMul都可以重建合理的3D模型。然而，由于反照率的损失，LeMul可以恢复更多的3D细节，如人类的头发，胡子和猫的毛皮。即使没有纹理，3D模型也可以很好地识别。多PIE结果。LeSym完全崩溃了，也许是由于姿势数量有限和光线不对称。相反，LeMul在这种数据配置上表现良好，具有高质量的3D模型。CASIA-WebFace结果。LeMul可以很好地学习3D人脸结构。这是令人印象深刻的，因为每个训练示例中使用的图像都非常不同;他们甚至是人类的挑战，以相互关联，如图所示。1（第二行）。在两个图。如图1和图4所示，LeMul可以捕捉不对称的细节，例如单侧发型和不对称的微笑。相比之下，LeSym过度调节具有对称约束的3D形状，产生不正确的3D。Youtube Faces结果。由于低质量的图像和每个视频中帧之间的有限变化，这个数据集对我们的训练尽管如此，LeMul还是设法收敛并在测试时产生合理的结果当输入图像不是太模糊时，LeMul可以重建比LeSym具有更多细节的3D模型，同时它不受对称假设的影响。4.4. 用户调查我们通过用户调查进一步比较了我们的方法与基线。我们跳过了对BFM和Multi-PIE的测试，BFM已经用于定量评估，而LeSym完全失败。对于每个剩余的数据集，我们创建了具有从相应测试集随机采样的30个测试图像的调查。我们为每个图像生成了两个由LeSym和LeMul估计的3D模型，并制作了相应的视频来从不同的视角说明每个测试者都被要求选择哪个模型更好。每次调查至少有40人参加，每个数据集至少有1200个答案。我们在表3中报告了每种方法的选择率。LeMul在CelebA和CASIA数据集上的表现远远优于LeSym，表明LeMul可以更好地恢复方法CelebA CatFacesCasia[52]第五十二话36.0147.0320.86 45.23我们的63.9952.9779.14 54.77表3：用户调查结果。对于每个数据集，我们报告了测试人员选择每种方法以提供更好的3D模型的比率（%）。良好训练条件下的3D模型。值得注意的是，在CASIA上选择了接近80%的时间，证明了多图像设置优于对称约束。它在 YTF 和 Cat Faces 数据集上也击败了LeSym，但差距较小。我们发现许多YTF帧太模糊，使得两个3D模型平滑且难以比较。LeMul超过LeSym的小差距来自清晰的框架，这仍然很有意义。最后，在Cat Faces上，虽然我们的模型更详细，但一些测试人员更喜欢LeSym的平滑3D，这降低了我们的选择率。这一现象表明，它并不总是好的，有很多细节，开辟了未来的研究，以改善我们的方法。4.5. 野外试验最后，我们运行在野外从互联网上收集的面部图像的评价。我们选择在CASIA数据集上训练的LeMul模型，因为它甚至可以捕获不对称的细节相比之下，在人脸的LeSym模型中，在CelebA数据集上训练的发布模型显示出最佳的重建质量。我们比较了这些模型在图中的一些野外图像。五、从LeSym生成的3D形状经常被对称性规则扭曲。相反，我们的结果看起来更自然和详细。特别地，LeMul可以从卡通绘图（第四行）创建看起来逼真的3D模型4.6. 纹理细化。我们观察到，在CASIA和YTF数据集上训练的模型的回归纹理有点模糊，可能是由于两个原因。首先，与CelebA相比，这些数据集的图像质量较低;许多图像具有模糊，噪声或JPEG伪影。其次，模型必须从截然不同的输入中学习主体我们提出了一个简单的解决方案来解决第二个问题。在获得训练模型后，我们可以微调a，l和c，同时在同一训练集的单个图像输入上冻结其他模块几个时期。如图在图3b中，所估计的纹理被显著改善。注意，该细化保留了在先前实验中评估的高质量3D形状。5. 讨论在本文中，我们提出了一种新的系统，显示了国家的最先进的3D建模质量的无监督学习，ING单视图3D对象重建。关键的观点是在训练中利用多图像数据集并12609输入LeSym Ours图4：比较基线方法LeSym模型LeSym [52]和我们的重建3D模型。数据集从上到下：[29][ 29对于每个3D模型，我们提供了两个无纹理视图，两个纹理视图，和规范的法线映射。输入LeSym（CelebA）Ours（CASIA）图5：从野外图像重建的3D模型我们比较了在CelebA数据集[29]上训练的基线模型LeSym [52]，以及在CASIA-WebFace [54]数据集上训练的方法对于每个3D模型，我们提供了两个无纹理视图，两个纹理视图，和规范的法线映射。使用反照率损失来改进详细的重建。我们的方法可以在各种训练数据集上工作，从单视图和多视图数据集到图像收集和视频数据。然而，我们目前的工作局限性是目标对象的图像需要与深度图表示兼容，主要是正面视图而没有自遮挡。我们计划在未来的工作中解决这一限制，以增加我们的方法的适用性。12610引用[1] Tadas Baltruv saitis，Peter Robinson，and Louis-PhilippeMorency.用于刚性和非刚性面部跟踪的3d约束局部模型。IEEE计算机视觉与模式识别会议论文集，2012年。三个[2] Jonathan T Barron和Jitendra Malik。形状、照明和着色的反射率 IEEE Transactions on Pattern Analysis andMachine Intelligence，第1670-1687页二、三[3] 诉 Blanz 和 T. 维特用于合成 3D 面的可变形模型在Proceedings of the ACM SIGGRAPH Conference onComputer Graphics，1999中。第1、3条[4] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3d手的形状和姿势从图像在野外。在IEEE计算机视觉和模式识别会议上，2019年。第1、3条[5] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在2016年欧洲计算机视觉会议上3[6] Timothy F Cootes，Gareth J Edwards，and Christopher JTay- lor.活动外观模型。欧洲计算机视觉会议论文集，1998年。三个[7] 蒂莫西·F作者：Gareth J. Cootes Edwards和Christopher J.Taylor. 活动外观模型。 IEEE Transactions on PatternAnalysis and Machine Intelligence，第681-685页，2001年。三个[8] 大卫·克里斯蒂娜和蒂姆·库茨。用受约束的局部模型进行自动特征Pattern Recognition，第3054-3067页，2008年。三个[9] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签。在2015年国际计算机视觉会议上。三个[10] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度图预测在 Z.Ghahramani ， M. 威灵角 Cortes ， N. Lawrence 和 K. Q.Weinberger，编辑，神经信息处理系统进展。CurranAssociates，Inc.2014. 六个[11] Olivier Faugeras ， Quang-Tuan Luong ， and Theo Pa-padopoulo. 多个图像的几何形状：控制一个场景的多个图像的形成的定律及其一些应用。2001. 一个[12] P. Favaro和S.索阿托从散焦恢复形状的几何方法IEEETransactionsonPatternAnalysisandMachineIntelligence，第406-417页，2005年。二个[13] Yao Feng，Fan Wu，Xiaohu Shao，Yafeng Wang，andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐在欧洲计算机视觉会议论文集，2018年。第1、3条[14] AlexandreRJFranccois，Ge'rardGMedioni，andRomanWaupotitsch.镜像对称双视图立体几何体。图像和视觉计算，第137-143页，2003。二个[15] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.深度有序回归网-用于单目深度估计。在IEEE计算机视觉和模式识别会议集，2018年。三个[16] Yasutaka Furukawa，Brian Curless，Steven M Seitz，andRichard Szeliski.走向互联网规模的多视角立体。IEEE计算机视觉与模式识别会议论文集，2010年。一、二[17] 古川康孝和让·庞塞。精确、密集和稳健的多视图立体视觉（pmvs）。在IEEE计算机视觉和模式识别会议集，2007年。一、二[18] Liuhao Ge ， Zhou Ren ， Yuncheng Li ， Zehao Xue ，Yingying Wang，Jianfei Cai，and Junsong Yuan.根据单个RGB图像的3D手的形状和姿态估计。在IEEE计算机视觉和模式识别会议论文集，2019。第1、3条[19] ThomasGerig ， AndreasMorel-Forster ， ClemensBlumer，BernhardEgger，MarcelLuthi，SandroSchönborn ，andThomas Vetter.可变形人脸模型-一个开放的框架。自动人脸和手势识别国际会议论文集，2018年。三个[20] Rohit Girdhar，David F Fouhey，Mikel Rodriguez，andAb-hinav Gupta.学习对象的可预测和生成矢量表示。2016年欧洲计算机视觉会议论文集。三个[21] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，2017年。一、二[22] 罗宾·格林球面谐波照明：坚韧不拔的细节。2003. 三个[23] R.格罗斯岛Matthews，J. Cohn，T. Kanade和S.贝克多派在自动人脸和手势识别国际会议上，2008年。一、六、八[24] Wen Jiang ， Nikos Kolotouros ， Georgios Pavlakos ，Xiaowei Zhou，and Kostas Daniilidis.从单个图像相干重建多个人。在IEEE计算机视觉和模式识别会议集，2020年。第1、3条[25] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。IEEE计算机视觉与模式识别会议论文集。三个[26] Ira Kemelmacher-Shlizerman和Ronen Basri。使用单个参考面部形状从单个图像进行 3D 面部重建。 IEEETransactionsonPatternAnalysisandMachineIntelligence，第394-405页，2010年。二、三[27] 简·J·科恩德林克。遮挡轮廓线告诉我们关于固体形状的什么？Perception，pages 321-330，1984. 二个[28] Abhijit Kundu，Yin Li，and James M Rehg. 3d-rcnn：通过渲染和比较进行实例级3d对象重建。在IEEE计算机视觉和模式识别会议论文集，2018年。三个[29] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。

下载后可阅读完整内容，剩余1页未读，立即下载