自我监督视点学习在图像集合中的应用

16 浏览量更新于2023-10-25 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1从图像集合中进行自监督视点学习Siva Karthik Mustikovela1，2万 Varun Jampani1 Shalini De Mello1Sifei Liu1 Umar Iqbal1 Carsten Rother2 Jan Kautz11NVIDIA2海德堡大学{siva.mustikovela，carsten.rother}@ iwr.uni-heidelberg.de; varunjampani@gmail.com;{shalinig，sifeil，uiqbal，jkautz}@ nvidia.com摘要训练深度神经网络来估计对象的视点需要大的标记训练数据集。然而，手动标记视点是出了名的困难、容易出错且耗时。另一方面，从互联网挖掘对象类别的许多未标记图像相对容易，例如，汽车或面孔。我们试图回答这样的未标记的收集在野外图像是否可以成功的研究问题-充分利用纯粹通过自我监督训练一般对象类别的视点估计网络这里的自我监督指的是这样一个事实，即网络所拥有的唯一真正的超级监视信号就是输入图像本身。我们提出了一种新的学习框架，它结合了一个分析合成范式，以一种具有生成网络的观点意识的方式重建图像，以及对称性和对抗性约束，以全面监督我们的观点估计网络。我们表明，我们的方法表现出竞争力的几个对象类别，如人类的面孔，汽车，公共汽车和火车的完全监督的方法我们的工作开辟了自我监督观点学习的进一步研究，并作为其强大的基线我们在https://github.com/NVlabs/SSV上开源我们的代码。1. 介绍从二维图像到三维物体的理解是计算机视觉的一个基本问题。对象视点（方位角、仰角和倾斜角）估计提供了2D图像和相应的3D几何理解之间的枢轴链接在这项工作中，我们解决的问题，从一个单一的图像对象的观点估计。鉴于其在3D几何理解中的核心作用，视点估计在几个视觉任务中是有用的，例如对象操作[66]，3D重建[33]，图像合成[8]等等。由于从2D图像理解3D的固有模糊性，从单个图像估计视点具有高度挑战性。学习型AP-Siva Karthik Mustikovela在该项目期间在NVIDIA实习图1. 自我监督的观点学习。我们只使用一组没有真实数据的图像来学习每个类别（人脸或汽车）的单个图像对象视点估计网络途径，例如，[36，16，75，38，55，62，17，68]，使用利用大量注释训练数据的神经网络，已经证明了令人印象深刻的视点估计精度。这种方法的一个关键要求是大规模人类注释数据集的可用性，这是非常难以获得的。注释视点的标准方法是手动查找并将粗略的可变形3D或CAD模型与图像对齐[12，77，65]，这是一个繁琐且缓慢的过程。这使得创建具有视点注释的大规模数据集具有挑战性。大多数现有的作品[16，14，55，36，77，17]要么依赖于人类注释的观点，要么用合成数据来增强真实世界的数据。一些作品[16]还在视点推断过程中利用CAD模型。在这项工作中，我们提出了一种用于一般对象的视点估计的自监督学习技术，该技术从对象图像集合中学习，而不需要任何视点注释（图1）。通过图像收集，我们指的是包含感兴趣类别的对象（例如，人脸或汽车）的一组图像。由于视点估计为sumes已知的对象边界框，我们还假设图像集合由紧密有界的对象im-bounded。39713972年龄在本质上是自我监督的，我们的方法提供了一个重要的进步，在视点估计，因为它消除了昂贵的视点注释的需要。它还支持对没有任何现有地面实况注释的对象类别进行视点学习在综合分析的范式下，我们利用一个视点感知的图像合成网络作为一种自我监督的形式来训练我们的视点估计网络。我们将视点网络与合成网络耦合，形成一个完整的循环，并将两者一起训练。为了自我监督视点估计，我们利用视点估计（分析）网络和视点感知生成（合成）网络之间的循环一致性损失，以及视点和外观解纠缠的损失，以及对象特定的对称先验。在推理过程中，只需要视点估计网络，而不需要综合网络，使得视点推理简单、快速，具有实用价值。据我们所知，我们是第一个自我监督的视点学习框架，它从野外的图像集合中学习一般对象的我们在人类头部姿态估计任务上经验性地验证了我们的方法，该方法本身在计算机视觉研究中引起了相当大的关注[77，4，56，69，32，6，17，68]。我们证明了我们的自我监督技术所获得的结果与完全监督方法的结果相当。此外，我们还展示了显着的性能改善相比，自我监督学习的关键点预测估计的观点。为了展示我们的技术的普遍性，我们分析了我们在对象类上的方法，例如来自Pascal3D+ [65]数据集的汽车、公共汽车和火车。我们相信这项工作为自我监督的观点学习开辟了进一步的研究，也将为未来的工作提供一个强大的基线。总结一下，我们的主要贡献是：我们提出了一种新的综合分析框架，通过利用视点估计和视点感知合成网络之间的周期一致性损失，以纯粹的据我们所知，这是探索一般对象的自监督视点学习问题的第一批工作之一。我们引入了生成，对称和对抗性约束，这些约束仅从对象图像集合中自我监督视点估计学习。我们在BIWI数据集[12]上进行头部姿势估计实验，并在具有挑战性的Pascal3D+上进行汽车，公共汽车和火车的[65]与完全监督的方法相比，数据集并表现出具有竞争力的准确性。2. 相关工作已经为一般对象类别开发了几种成功的基于学习的视点估计技术，这些技术可以直接回归方向[39，38，55，62，36，48];定位2D关键点并将其拟合到3D关键点[16，47，75];或预测3D形状和视点参数[33]。这些技术需要在训练期间以角度值的形式进行对象视点注释;或2D和3D关键点，并使用大型注释数据集，例如Pascal 3D + [65]和Object-Net 3D [64]分别有12和100个类别这些数据集通过将最佳匹配的3D模型与图像对齐的繁琐手动过程进行注释-该过程不容易扩展到更大数量的图像或类别。为了避免这个问题，现有的视点算法用合成图像来增强真实世界的数据[16，14，55，36];假设辅助监督并学习相关方面（例如，，3D关键点）以及视点[75，57];或者尝试从很少的标记的新类别示例中学习[61]。头部姿态估计与上述工作分开，基于学习的头部姿态估计技术也被广泛研究[77，4，56，69，32，6，17，68]。这些作品学习从具有不同监督级别的数据中预测面部标志，范围从完全[77，4，56，69，32]，部分[20]或无监督[22，74];或者学习以完全监督的方式直接回归头部方向[6，50，17，68]。后一种方法的表现优于预测面部点的方法[68]。为了避免头部姿势的手动注释，先前的工作也使用合成数据集[77，17]。另一方面，一些作品[58，13，60，52]提出了基于学习的方法，通过野外图像集合进行密集的3D面部重建，有些作品使用合成分析[58，60]。然而，它们不是纯粹的自我监督，而是使用面部标志[58]，密集的3D表面[13]或两者[60]作为监督。自监督对象属性发现几个最近的作品试图以自监督的方式发现2D对象属性，如地标[74，59，24]和部分分割[22，9]。这些作品与我们的作品正交，因为我们估计3D视点。其他作品如如[34，23，18]所述，利用可区分的渲染框架来从单个或多个视图图像集合中学习3D形状和/或相机视点。由于严重依赖微分渲染，这些作品主要是对合成图像进行操作。相比之下，我们的方法可以从野外的图像集合中学习视点。一些作品从野外图像集合中学习3D重建，但使用带注释的对象轮廓以及其他注释，例如2D语义关键点[26]，···3973V∈V- -SV||||| || |||||| |∈{−}SVSVSVVS类别级3D模板[30];或每个对象实例的多个视图[28，63，42]。相比之下，我们不使用广告监督以外的图像集合，包括独立的对象图像。据我们所知，没有先前的作品提出以纯粹的自我监督方式从野外图像集合中学习一般对象的视点3. 自我监督视点学习问题设置我们使用没有注释的特定对象类别的野外图像集合I来学习视点估计网络。由于视点估计假设紧密裁剪的对象图像，我们也假设我们的图像集合是由裁剪的对象图像。图1显示了人脸和汽车图像集合中的一些样本。在推理期间，视点网络将单个对象图像I作为输入并预测对象3Dvie wpointv.Viewpoint representation To represent an object view-point vˆ, we use three Euler angles, namely azimuth (aˆ), el-evation (eˆ) and in-plane rotation (tˆ) describing the rotations围绕固定的3D轴。为了便于视点回归，我们表示每个欧拉角，例如，a[0，2π]，作为具有2D坐标（cos（a），sin（a））的单位圆上的点。在[36]之后，我们不是预测360°圆周上的坐标，而是预测第一象限中的正单位向量，其中a=（cos（a），sin（a）），并且猫-sin（a）和cos（a）符号组合的例子表示为sign（a）=（sign（cos（a）），sign（sin（a）（+，+），（+，），（，+），（，）.根据预测，和sign（a），我们可以构造cos（a）=sign（ cos （ a）） cos （ a）而 sin （ a） =sign （ sin（a））sin（a）。预测的欧拉角αω最终可以计算为tanh（sin（αω）/cos（αω））。简而言之，视点网络既执行回归以预测正单位向量a，又执行分类以预测符号（a）的概率。方法概述和动机我们使用一组自监督损失来学习视点网络，如图2所示。为了公式化这些损失，我们使用三个不同的约束，即生成一致性，对称性约束和非对称性损失。生成约束形成了自我监督约束的核心，以训练我们的观点网络，并受到流行的综合分析学习范式的启发[33]。该框架试图通过模拟图像或特征合成的正向过程来解决逆问题（如视点估计）合成函数对从基本表示和一组参数生成对象的图像的过程进行分析函数的目标是推断可以最好地解释观察到的输入图像的形成的基本参数贝叶斯框架-图2. 方法概述。我们使用生成的一致性，对称性和冗余性来监督的观点网络与没有注释的图像的集合。诸如[71]和逆图形[33，28，70，37，25]的作品在我们的设置中，我们将视点网络V视为分析函数。我们模型的合成功能，与视点感知图像生成模型。在生成对抗网络（GAN）[7，27，41]的最新进展表明，有可能生成高质量的图像，对外观，风格，观点等。受这些工作的启发，我们的合成网络生成一个图像，给定一个输入v，它控制对象的视点和一个输入向量z，它控制合成图像中对象的风格。通过将analysis（）和synthesis（）网络耦合在一个循环中，我们使用3.1中描述的循环一致性约束以自我监督的方式学习这两个网络，如图3所示。由于合成网络可以基于可控输入生成高质量的图像，v和z，这些合成的图像又可以与作为伪地面实况的v，z一起另一方面，对于一个真实的世界，图像，如果预测正确的视点和风格，这些可以被用来产生类似的外观图像。这有效地用作基于图像重建的监视。除此之外，与[7，41]类似，分析网络也可以作为一个神经网络，评估合成图像是真的还是假的。使用一个广泛流行的观察，几个现实世界中的对象是对称的，我们还通过对称损失函数来训练视点网络强制执行先验约束对象对称性已在以前的监督技术中使用，例如[38]用于数据增强，但不是作为损失函数。在下文中，我们首先描述用于训练视点网络的各种损失约束，同时假设我们已经有一个训练的合成网络。在第4节中，我们描述了用于训练的损失约束。3974vL2VVVS- -⟨ ⟩FVVVLv1 2V|φ|符号（φ）symf2（ii）sign（a≠1）和sign（a≠2）的分类概率之间的交叉熵损失L sign（a）。viewpoint一致性损失v是所有三个欧拉角的交叉熵和余弦邻近损失的总和ΣLv（v<$1，v<$2）=Lv+Lv .（二）图3. 生成一致性。两个循环（a）图像一致性（Limc）和（b）风格和视点一致性（Lsv）损失弥补了生成一致性。每个循环的输入以黄色突出显示。图像一致性要求输入的真实图像在视点估计和合成后与其重建的合成图像相匹配。风格和视点一致性要求视点网络正确地再现为合成提供的输入风格和视点。合成网络S.3.1. 生成一致性如图3所示，我们将视点网络V与合成网络S一起创建循环流，φ∈a，e，t整体风格和视点损失之间的抽样（vs，zs），因此预测的（vs，zs）为：Lsv=<$zs−z<$s<$2+Lv（vs，v<$s）。（三）虽然视点一致性强制学习合成图像的正确视点，但图像一致性有助于确保V也很好地推广到真实图像，从而避免过度拟合到S合成的图像。3.2. 鉴别器损失还预测指示输入图像是真实的还是合成的分数c_n 因此，它起到了一种保护作用，一个典型的GAN [15]设置，帮助合成网络创建更逼真的图像。我们使用来自Wasserstein-GAN [1]的Loss来更新视点网络，使用：信息导致两个一致性损失：（a）形象一致性和（b）风格和观点的一致性。Ldis=−Exp房 [c]+Exxxpsynth[c]，（4）图像一致性给定从给定图像集合I采样的真实图像I，我们首先通过视点网络预测其视点v和样式码z。然后，我们将预测的v和z传递到合成网络中以创建合成图像I。为了训练我们的活力网络，我们使用输入图像I和具有感知损失的对应合成图像Is之间的图像一致性Limc=1−<$Φ（I），Φ（I<$s）<$，（1）其中Φ（. ）表示ImageNet训练的[10] VGG16分类器[53]的conv5特征，. 表示余弦距离。图3（a）示出了图像一致性周期。其中c= （x）和c= （x）分别是真实图像和合成图像的预测类得分3.3. 对称约束对称性是在许多常见的物体类别中观察到的强先验，例如。、脸、船、汽车、飞机等。对于具有对称性的范畴，我们提出了一个附加的对称性约束.给定具有视点（a，e，t）的对象的图像I，水平翻转的图像翻转（I）中的对象的GT视点由下式给出：（-a，e，-t）。我们对视点网络的输出（v_i，z_i）和（v_i，z_i）分别对一个givenimageI和它的水平翻转版本flip（I）施加一个对称约束. 设v=（a，e，t）且v=（a，e，t），并且我们将翻转图像的翻转视点表示为v=（-a，e，-t）。风格和视点一致性如图3（b）所示，我们用视点和合成网络创建了另一个循环信息流，但这次从一个随机视点vs和一个风格代码zs开始，两者都相同。从均匀分布中提取，并将其输入到同步器中。论文网络创建图像Is= S（vs，zs）。然后，我们将合成图像Is传递给视点网络，视点网络预测其视点vs和样式代码zs。我们将采样的它作为一个伪GT来训练视点网络。在[36]之后，两个点v1=（a1，e1，t1）和v2=（a2，e2，t2）之间的 v（v1，v 2）具有每个欧拉角的两个分量：（一）余弦近似在两个单位向量L之间，|一|=−|（a）|、|a|和对称性损失被给出为L=D （ v， v） +z−z2.（5）有效地，对于给定的水平翻转图像对，我们正则化网络预测类似的幅度，方位角和倾斜的所有角度和相反方向。此外，上述损失强制了翻转图像对的风格是一致的。我们训练视点网络的总体损失是上述损失函数的线性组合：LV=λ1Lsym+λ2Limc+λ3Lsv+λ4Ldis，（63975- -）其中参数λi确定不同损耗的相对重要性，我们使用网格搜索根据经验确定。39763D代码代码时尚内衣2D投影3D旋转SSVVVSSSSSSSSSS点查看视频合成图像图4. 综合网络概览。该网络采用视点vs和样式代码zs来生成视点感知图像。4. 视点感知合成网络GAN的最新进展，如InfoGAN [7]，Style-GAN [27]和HoloGAN [41]证明了条件图像合成的可能性，其中我们可以控制合成对象的属性，如对象类，视点，样式，几何形状等。我们在合成网络中使用的一个关键见解，也用于最近的GAN，如HoloGAN [41]和其他作品[76，31，54]，是人们可以通过执行显式几何变换（如旋转）将3D几何意义灌输到网络的潜在表示中。类似的想法也已成功用于其他生成模型，如自动编码器[19，49，45]。我们的视点感知合成网络具有与Holo-GAN类似的架构[41]，但针对视点估计的需求量身定制。HoloGAN是一个纯生成模型，具有GAN损失以确保真实性和身份损失以重现输入样式代码，但缺乏相应的视点预测网络。在这项工作中，由于我们专注于视点估计，因此我们引入了HoloGAN与视点预测网络的紧密耦合和几个新颖的损失函数，以有利于准确视点预测的方式对其进行训练合成网络概述图4说明了合成网络的设计。网络采用样式代码zs和视点vs来产生对应的对象图像Is。的目标是学习对象的解缠3D表示，可用于合成对象在各种观点和风格，从而有助于监督的观点网络。我们首先将一个可学习的规范3D潜在代码通过一个3D网络，该网络对其应用3D卷积。得到具有vs的3D表示，并通过附加的3D网络。我们将这种观点感知使用一个简单的正交投影单元将3D代码转换为2D代码。最后，我们将生成的2D表示通过StyleGAN [27]类2D网络来生成合成图像。IM的风格和外观年龄由采样的样式代码zs控制。遵循StyleGAN [27]，样式代码zs通过自适应实例归一化[21]影响结果图像的样式，3D和2D表示。为了稳定的训练，我们图5. 合成结果。由视点感知生成器S生成的（a）面部和（b）汽车的示例合成图像。对于每一行，样式向量z是恒定的，而视点沿着方位角（第一行）、仰角（第二行）和倾斜（第三行）维度单调损失函数与视点网络一样，我们使用几个约束来训练合成网络，这些约束旨在改善视点估计。一是Wasserstein-GAN训练中使用的标准对抗损失[1]：Ladv=−Expsynth[c]（7）其中c=（x）是针对合成图像预测的类别成员资格得分。第二个是样式和视点一致性损失的成对版本（等式10）。第三章如3.1节所述，我们建议使用多个成对的（zs，vs）样本来加强风格和观点的一致性，并更好地解开潜在的表征，. 第三是翻转图像一致性损失。请注意，与我们的工作相反，InfoGAN [7]和HoloGAN [41]只使用对抗性和风格一致性损失。风格和视点与成对样本的一致性由于我们用合成的图像训练视点网络，因此对输入的风格zs和视点vs参数敏感和响应是非常重要的。一个理想能完美地解开vs和zs的纠缠的这意味着，如果我们固定zs并改变vs，则所得到的对象图像应该具有相同的风格，但具有不同的视点。另一方面，如果我们固定vs并改变zs，则所得到的对象图像应该具有不同的风格，但具有固定的视点。我们通过样式和视点一致性的成对版本来强制执行此约束（等式10）。（3）我们抽样的损失3个不同的（zs，vs）值对，一次改变一个参数，如下：{（z0，v0），（z0，v1），（z1，v1）}。我们指在训练S时冻结V，反之亦然。这种成对的风格和观点损失为Lsv，pair。AB-二维Convnet3D Convnet3D Convnet3977SSL∗- -LLSLSS第5节中的lation研究表明，这种成对的风格和视点损失有助于为我们预期的视点估计任务我们还观察到定性的合成网络成功地disentangles的观点和风格生成的图像。图5显示了一些由人脸和汽车合成的示例图像。每一行都使用固定的样式代码并且我们通过改变跨列的a、e或t值之一来单调地改变输入视点Vs翻转图像一致性这类似于用于训练视点网络的对称约束，但适用于合成图像。翻转图像一致性迫使我们在输入适当翻转的视点时合成水平翻转的图像。对于对S（vs，zs）=Is和S（v，zs）=I，其中v的符号相反，方法方位角仰角LMDIS [74]+ PMDIS 16.8 26.1 5.616.1国际货币基金组织[24]+巴基斯坦14.8 22.4 5.5 14.2[22]第22条第1款[41] 2016年10月15日HoloGAN [41] withv7.0 15.1 5.1 9.0SSV w/oLsym +Limc6.8 13.0 5.2 8.3SSV w/oimc6.9 10.34.47.2SSV-Full6.0 9.8 4.4 6.73DDFA [77] 36.2 12.3 8.7 19.1KEPLER [32] 8.8 17.3 16.2 13.9DLib [29] 16.8 13.8 6.1 12.2风扇[4] 8.5 7.4 7.6 7.8[50]第五届全国人大代表a和t值，翻转一致性损失定义为：Lfc=Is−flip（Is）1（8）其中flip（I）是I的水平翻转版本。[68] 2016年12月28日表1. 头部姿势估计消融研究和SOTA比较。方位角、仰角和倾斜欧拉角（以度为单位）以及平均绝对值合成网络的总损耗由下式给出LS=λ5Ladv+λ 6Lsv，pair+λ 7Lfc（9）其中参数λi是损失的相对权重，我们使用网格搜索根据经验确定。5. 实验我们经验验证我们的方法与广泛的实验头姿势估计和观点估计上的其他对象类别的公共汽车，汽车和火车。我们将我们的方法称为实现和培训细节我们在Pytorch中实现了我们的框架[46]。我们提供所有的网络体系结构的细节，运行时和内存分析的补充材料。视点校准对于给定的图像I，SSV的输出是（a，e，t）。然而，由于SSV是自监督的，用于预测的坐标系统不需要对应于GT注释的实际规范坐标系统。对于定量评估，遵循特征[11，73，5]和地标[22，74，59]的自监督学习的标准实践，我们拟合了一个线性回归器，该线性回归器使用来自目标测试数据集的100个随机选择的图像将SSV的预测映射到GT视点。注意，使用线性回归器的这种校准仅将预测视点旋转到GT规范参考系在此步骤中，我们不会更新或学习我们的SSV网络5.1. 头部姿态估计人脸在用于视点估计的对象中具有特殊的位置，并且头部姿态估计吸引了相当多的研究关注[77，4，56，69，32，6，17，68]。大规模数据集的可用性[51，12]和充足的研究提供了一个独特的机会，[12 ][13][14][15][16][17][18][19]对我们的头部姿势估计技术进行广泛的实验分析。对于训练，我们使用300 W-LP [51]数据集，它结合了几个野外人脸数据集。它包含122，450张具有不同视点的人脸图像，通过将3D人脸变形模型[3]拟合到人脸图像并从不同视点渲染它们来创建。请注意，我们只使用来自该数据集的图像来训练SSV，而不是它们的GT视点注释。我们在BIWI [12]数据集上评估了我们的框架，该数据集包含20个主题的24组视频序列中的15，677张图像，具有各种各样的视角。我们使用MTCNN人脸检测器来检测所有人脸[72]。我们计算预测和GT之间的方位角、仰角和倾斜的平均绝对误差（AE）。我们还报告了这三个误差的平均绝对误差（MAE）。消融研究我们经验性地评估了用于训练视点网络的不同自我监督约束。表1显示，对于头部姿态估计，使用所有提出的约束（SSV-Full），我们的最佳MAE为6。七尺。删除映像一致性约束IMC会导致7人死亡二是进一步完善和完善制度，try constraint sym导致MAE为8。3◦.这些结果证明了生成图像consis的有用性。在我们的框架中的对称性和对称性约束。此外，我们评估了使用成对样式和视点损失Lsv，pair来训练视点感知合成网络S的效果。We observe thatwhen we train没有sv ， pair，我们的视点网络（SSV-full模型）导致AE值为7。方位角8度，11度。1升（el-evation），4. 2度（倾斜），MAE为7。七尺。这表示相对于相应的MAE值6增加了1%。7◦自监督监督3978监督自助SLGTp方位角仰角SSV非精炼6.9 9.44.26.8SSV在BIWI上进行了改进4.9 8.5 4.2 5.8英国金融服务局[68]2.8 3.63.6[40]第40话RNNFace [17] 3.94.0 3.0 3.6表2. 改进的头部姿态估计与微调。每个欧拉角的平均角度误差以及BIWI [12]数据集30%保留序列数据的平均平均误差（MAE），并在不使用其注释的情况下对剩余70%进行微调。所有值均以度为单位。对于 SSV-full ，其中使用 sv ， pair 训练（表 1 ， SSV-full）。这表明，我们的成对样式和视点丢失有助于更好地训练图像合成网络以执行视点估计任务。与自监督方法的比较由于SSV是一种自监督的视点估计工作，因此我们无法直接与现有的工作进行比较。人们还可以从预测的面部标志中获得头部姿势，我们将其与最近最先进的自监督标志估计（LMDIS [74]，IMM [24]）和部分细化技术（SCOPS [22]）进行比较。我们拟合了一个线性回归因子，该线性回归因子将来自SCOPS的自我监督学习的语义面部部分中心和来自LMDIS、IMM的地标映射到五个典型的面部地标（左眼中心、右眼中心、鼻尖和嘴角）。然后，我们使用Perspective-n-Point（Pestrian）算法[35]将平均3D人脸模型拟合到这些面部标志，以估计头部姿势。我们还量化了HoloGAN或者，我们用额外的视点输出和相应的额外损失来训练HoloGAN。对于后两种方法，我们还使用视点校准，类似于SSV。我们认为这些作品是我们最接近的基线，因为它们是自我监督的训练。表1中的MAE结果表明，SSV的性能明显优于所有竞争性自监督方法。与监督方法的比较作为参考，我们还报告了最近最先进的完全监督方法的度量。表1显示了基于关键点[77，32，29，4]和无关键点[50，68]到目前为止，报告的结果是在300 W-LP [51]数据集上进行训练的结果。根据最近的一些工作[68，40，17]，我们使用BIWI数据集中70%（16）的图像序列来微调我们的由于我们的方法是自我监督的，我们只使用来自BIWI的图像，而不带注释。我们使用剩余的30%（8）图像序列进行评估。我们的模型结果以及最先进的监督模型结果见表2。在对BIWI数据集的图像进行细化减少到5。八尺。这表明，SSV可以通过提供匹配的映像来提高其性能目标域，即使没有GT注释。我们还在图6（a）中示出了针对该细化的SSV-Full模型它对头部姿势、身份和表情的大变化表现出鲁棒性。5.2. 泛化到其他对象类别SSV不特定于面，并且可以用于学习其他对象类别的视点。为了证明其泛化能力，我们还对汽车，公共汽车和火车类别的SSV进行了训练和评估。由于SSV是完全自我监督的，因此训练图像集合必须足够大，以覆盖所有可能的对象视点，同时覆盖其他图像方面的多样性，例如外观，照明等。出于这个原因，我们利用来自现有数据集和互联网的大规模图像集合来训练我们的网络。对于汽车类别，我们使用CompCars [67]数据集，这是一个细粒度的汽车模型分类数据集，包含137，000个不同视角的汽车图像对于此外，我们从Google图像搜索中为每个类别挖掘了大约30，000张图像。上述数据集都没有视点注释。这也证明了SSV能够消费没有任何视点注释的大规模互联网图像集合。我们在具有挑战性的Pascal3D+ [65]数据集的测试集上评估了训练的SSV模型的性能。该数据集中的图像具有极端的形状，外观和视角变化。在[38，48，62，36]之后，我们估计给定GT对象位置的方位角，仰角和倾斜值。为了计算前-我们按照标准测地线的方法，方法. 后一种方法学习直接回归头部距离R（Rgt，Rp）=<$logRTR<$/F2之间网络的价值取向。结果表明‘SSV-Full’,此外，我们注意到，SSV-Full（使用MAE 6.7）优于所有基于关键点的监督方法[77，32，29，4]，其中FAN [4]的最佳MAE为7。八尺。使用视点构造的预测旋转矩阵Rp预测和Rgt使用GT观点构建[36]。使用这个距离度量，我们报告了中值测地误差（Med.错误）。此外，我们还计算了误差小于π/6（Acc@π/6）的内点预测的百分比。3979监督(a) 面孔（b）汽车（c）公共汽车（d）火车图6. 视点估计结果。我们直观地显示了（a）BIWI [12]数据集上的头部姿势估计结果以及PASCAL3D+[65]数据集上（b）汽车，（c）公共汽车和（d）火车类别测试集上的视点估计结果实线箭头指示预测的视点，而虚线箭头指示它们的GT值。我们的自我监督方法在各种头部姿势，身份和面部表情方面表现良好。它还成功地处理了汽车、公共汽车和火车类别的不同对象外观和照明条件。我们在补充材料中显示了其他结果。基线对于头部姿势估计，我们与自监督地标[74，22，24]发现技术进行了比较，通过将它们拟合到平均3D面部，使用Pestrian算法进行头部姿势估计。对于像汽车这样的具有完整360°方位角旋转的物体，我们注意到SCOPS [22]和LMDIS [74]产生的地标不能用于合理的视点估计。这是因为SCOPS主要是一个自我监督的部分分割框架，它不区分前面和后面的部分。方法汽车巴士火车VGG-View 34.2 19.0 9.4HoloGAN [41] withv16.3 14.2 9.7SSV-Full10.19.05.3Tulsiani等人[62] 9.1 5.8 8.7Mahendran等人[38] 8.1 4.3Liao等人[36] 5.2 3.46.1Grabner等人[16]5.1 3.3 6.7汽车的后部由于我们计算的关键点是零件段的中心，得到的关键点不能区分这些零件。另一方面，LMDIS仅为汽车的侧面轮廓生成关键点。因此，我们使用另一种基线技术来比较汽车，火车，表3.一般化到其他对象类别，中位数呃-误差我们显示了汽车、公共汽车和火车类别的测地线误差中位数（以度为单位）。方法汽车巴士火车和公共汽车。从[22，59]的观点来看，通过图像分类网络学习到的特征与对象旋转等变，我们学习了一个线性回归器，该线性回归器将预训练的VGG网络的Conv5特征映射到对象的视点。为了训练这个基线，我们使用Pascal3D+训练数据集中的VGG图像特征和GT视点注释[65]。我们使用相同的Pas-cal3D+注释来校准SSV我们认为这是一个自我监督的基线，因为我们没有使用GT注释进行特征学习，而只是将特征映射到视点预测。我们将此基线称为VGG-视图。作为额外的基线，我们用额外的视点输出和相应的损失来训练HoloGAN [ 41 ]。视点预测被校准，类似于SSV。比较我们将SSV与我们的基线进行比较，到几个最先进的监督视点估计Pascal3D+测试数据集。表3表明，SSV显著优于基线。关于监督方法， SSV 执行 Tulsianiet al. [62] 和Mahendranet al. [38]关于中位误差。有趣的是，对于“训练”类别，SSV的表现甚至比监督方法更好。这些结果证明了SSV在不同对象类别的视点学习中的普遍适用性我们展示了一些VGG-视图0.43 0.69 0.82HoloGAN [41]，v0.52 0.73 0.81SSV-Full0.82 0.96Tulsiani等人[62] 0.890.98 0.80 Mahendran等人[38]-Liaoet al.[36]0.93 0.970.84Grabner等人[16]0.930.97 0.8表4. 泛化到其他对象类别，内点计数。我们显示了汽车，公共汽车和火车类别的测地误差小于π/6的图像百分比这些类别的定性结果见图6（b）-（d）。6. 结论在这项工作中，我们调查了很大程度上未开发的问题，lem学习的观点估计在一个自我监督的方式从集合的未注释的对象图像。我们设计了一个视点学习框架，该框架从视点感知合成网络以及额外的对称性和对抗性约束中接收监督我们进一步用额外的损失来监督我们的合成网络，以更好地控制其图像合成过程。我们表明，我们的技术优于现有的自监督技术，并在几个对象类别（如人脸，汽车，公共汽车和火车）上与全监督技术竞争监督自助餐自助餐3980引用[1] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络ICML，2017。四、五[2] Rodrigo Benenson Stefan Popov和Vittorio Ferrari大规模的交互式对象分割与人类annotators。在CVPR，2019年。7[3] Volker Blanz，Thomas Vetter，et al.三维人脸合成的可变形模型。InSiggraph，1999. 6[4] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？在CVPR，2017年。二六七[5] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在ECCV，2018。6[6] Feng-Ju Chang，Anh Tuan Tran，Tal Hassner，IacopoMasi，Ram Nevatia，and Gerard Medioni. Faceposenet：为无标志的面部对齐做一个案例。在CVPR，2017年。二、六[7] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。InNeurIPS，2016. 三、五[8] Xu Chen，Jie Song，and Otmar Hilliges.具有连续视图控制的基于单目神经图像的渲染。在ICCV，2019年。1[9] Edo Collins Radhakrishna Achanta和Sabine Susstrunk。用于概念发现的深度特征分解。在ECCV，2018。2[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。4[11] Je f fDonahue，PhilippK raühenbuühl，和Tr ev或Darrell。对抗性特征学习。ICLR，2017年。6[12] Gabriele Fanelli ， Matthias Dantone ， Juergen Gall ，Andrea Fossati，and Luc Van Gool.用于实时3d人脸分析的随机森林。IJCV，2013年。一二六七八[13] Yao Feng，Fan Wu，Xiaohu Shao，Yafeng Wang，andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐在ECCV，2018。2[14] 雷诺·马莱·弗朗西斯科·马萨和马修·奥布里。制作一个多任务cnn的观点估计。在BMVC，2016年。一、二[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014。4[16] Alexander Grabner、Peter M Roth和Vincent Lepetit。野外物体的三维姿态估计和三维模型检索。在CVPR，2018年。一、二、八[17] Jinwei Gu，Xiaodong Yang，Shalini De Mello，and JanKautz.动态面部分析：从贝叶斯滤波到递归神经网络。在CVPR，2017年

下载后可阅读完整内容，剩余1页未读，立即下载