无监督视点估计的自我监督学习方法ViewNet的论述总结

99 浏览量更新于2023-10-13 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10418ViewNet：基于条件生成的无监督视点估计Octave Mariotti Oisin Mac Aodha Hakan Bilen爱丁堡groups.inf.ed.ac.uk/vico/ViewNet摘要在没有监督的情况下理解3D世界目前是计算机视觉中的一个主要挑战，因为在这种情况下监督深层网络任务所需的图像对循环一致性ViewNet大规模获得域是昂贵在这论文中，我们解决了无监督的视点估计问题。我们将其制定为一个自我监督的学习任务，其中图像重建提供了预测相机视点所需的监督。我们特别在训练时间利用来自未知视点的同一对象的成对图像，通过将来自一个图像的视点信息与来自另一个图像的外观信息相我们证明，使用透视空间Transformer可以进行有效的视点学习，在合成数据上优于现有的非监督方法，并在具有挑战性的PASCAL3D+数据集上获得有竞争力的结果。1. 介绍对象视点估计是使自主系统能够理解3D世界所需早期的方法[20，21，4]已成功证明在受控环境中工作。虽然受益于现代可学习表示[55，17，32]的最新工作已被证明有助于其他视觉任务，如物体检测和3D重建[31]，并已部署在各种应用中[46，16，33]。在本文中，我们专注于恢复的3D姿态的对象相对于相机查看它从一个单一的图像。这需要准确理解图像中描绘的对象的3D结构，并且可能由于诸如对象对称性的挑战而复杂化。而用语义监督标注的大规模图像数据集（例如，[11，34]）已经是现代深度网络的关键使能器例如，常用的对象视点基准PASCAL3D+[59]的注释程序要求注释者从一个池中手动选择适当的3D CAD模型。图1：ViewNet通过对图像对集合进行自监督训练来学习提取相机视点。在推理时，它可以从单个图像估计视点。模型，并点击每个对象实例的一组预定义地标的2D位置。类似地，创建诸如[63]的3D面部姿态估计数据集涉及将可变形的3D面部模型拟合到2D面部图像的耗时步骤因此，使用现有的注释流水线为不同的对象集创建大规模视点数据集，特别是当3DCAD模型不可用时，是具有挑战性的为了克服这个问题，我们提出了一种自监督的对象视点估计方法，ViewNet，它从一个未标记的（即。没有地面真实姿态）从给定对象类别收集图像对（见图1）。我们的方法利用多视图的一致性，不需要任何手动视点注释。我们的工作受到综合分析和条件生成范式[61，54，35，37]的启发，在这些范式中，我们学习分解对象的视点和3D外观，并基于这些分解的因素重建图像。为此，我们利用包含在同一对象的图像对不同的观点的信息。这样的对可以合成地生成或从视频获得。给定这样的图像对，我们的方法从第一图像中提取3D外观，从第二图像中提取视点，并基于该因子化重建第二图像。在测试时，我们的方法可以用来预测的观点相对于相机的物体从单一的im，ViewNet观点单个图像观点培训10419年龄与以前的工作[56，23]不同，我们能够直接从像素值中利用监督，从而实现更有效的监督，并能够从新的视角生成图像。我们的主要贡献是：（i）一个新的条件生成方法估计的观点，从单一的图像通过自我监督。我们的模型编码了强大的几何一致性，使其能够准确地生成新的视图，可用于改进自己的预测。（ii）在ShapeNet和PASCAL3D+上对我们的方法进行了详细评估，我们的性能优于相关方法。（iii）我们强调了当前评估程序的局限性，表明在某些类别中的对象实例的很大一部分是从类似的观点捕获的，从而使其评估有偏差。我们还表明，校准步骤通常用于调整估计的无监督的观点与地面实况引入额外的偏见。2. 相关工作监督姿态估计。有效的图像姿态估计有许多实际应用，例如：在机器人或自主车辆中，并且因此已经被广泛地研究。虽然早期的工作通过匹配低级图像描述符[20，21，4]来执行姿态估计，但最近的方法采用深度网络来预测3D边界框[45，53，17]或直接对视点进行分类[55，28]。关键点预测是一项密切相关的任务，并且两者联合学习的多任务设置已被证明是成功的[55，62]。或者，一个可以用于学习另一个，因为可以通过对齐关键点[43]来恢复姿势，或者通过强制对象的姿势感知稀疏表示[52]来最近的工作已经提出了通过量化的不确定性建模的视点空间的拓扑结构von Misses分布[44]，学习与3D姿态等变的2D图像嵌入[13]，在回归输出处采用球面指数映射[32]，或引入圆柱卷积[27]。然而，所有这些方法都是受监督的，并且需要来自数据集（如PASCAL3D+ [59]或LINEMOD [21]）的姿势注释。第一个是手动注释的，第二个是在受控实验室设置中创建的，其中每个图像都收集了姿势或者，可以在没有手动注释的情况下使用视频上的运动结构算法来获得粗略的视点估计[48，40]。获取地面实况姿态注释是一项挑战，并且最近的基准测试仍然需要人为干预，以便为每个实例设置坐标系并校正自动姿态误差[1]。3D感知表示。平行工作线学习感知来自图像的对象的底层3D结构的表示。早期的作品采用自动编码器来解开姿势和对象外观，与[58]或无[30]姿势监督。最近的作品通过制作使用球面表示推理的模型[10，12]，在嵌入上应用3D旋转以从不同的视点重建图像[47]，使用去噪自动编码器以更好地提取视点信息[51]，或者通过将变分自动编码器推广到球面函数[14]，将这种从平面内旋转到全3D姿势的分解姿势学习扩展].空间变换器[24]首先针对2D特征图提出，提供了一种使用空间重采样将平面内变换应用于任何表示的方法，后来扩展到3D卷积[61]。这些采样操作可用于表示来自多个视图的完整3d场景[50]。在相关的综合分析方法中，[8]还通过基于外观的重建损失来学习姿势表示在推理时，它们迭代地优化使合成视图和输入图像之间的外观损失最小化的视点。然而，除了一些不切实际的简化实验之外，所有这些方法都需要3D注释以便学习有意义的嵌入。与平面内旋转不同，平面内旋转足够简单，可以以无监督的方式学习，3D旋转可能会导致剧烈的外观变化，这些变化对于网络来说往往过于复杂，无法在没有姿势注释的情况下学习[35]。视点条件生成。学习可解释表示的一种日益流行的方法是使用以相关信息为条件的生成过程。构建这种表示的两种主要方式要么依赖于编码器-解码器方法，使用共享语义的图像对[57，25，35]，要么依赖于对抗模型以可控的方式生成新样本[9，38]。这两种技术都被证明可以在没有标签的情况下估计视点[54，23，37]。编码器-解码器方法与无监督3D重建领域密切相关[19，39，41，42]。与同时进行3D重建和姿态估计的[54，23]相比，我们提出了一种更简单的完全自我监督的方法，该方法能够将年龄外观匹配作为监督，允许新颖的视图合成，可用于进一步改进预测。SSV [37]使用对抗模型来生成具有随机旋转的对象，同时学习回归视点。相比之下，我们提出的方法，确保在图像生成过程中的几何一致性此外，GAN培训可能不稳定[36，3]，这一问题通常反映在指导培训所需的辅助目标中。相比之下，我们的方法通过单独的图像重建操作，并且可以容易地从新的视点生成图像还提出了几种非对抗性生成方法[35，8]，它们重建特定的对象实例，以利用像素级监督。然而，与我们的方法不同，这些方法至少需要部分标记的训练集。10420∈IV不I→ V不∼∼i=1MM∈∈××T3. 方法给定一组未标记的图像，在训练时，我们的目标是学习一个函数fv：，它可以从图像空间映射到姿势空间。在测试时，我们可以将该函数应用于包含感兴趣对象的单个图像I，以便估计其相对于相机的3D视点v。3D视点可以以不同的方式表示，包括欧拉角（方位角、仰角和倾斜角），或者用旋转矩阵RSO3表示，并且我们可互换地使用这两种表示。由于中的对象的地面实况观点是难以获得的，我们将我们的问题制定为一个自我监督的任务，该任务使用条件生成和分析合成的为此，我们建议通过两个函数fv和fa来分解对象的视点和外观。给定图像I，fa输出包含在其中的对象的外观特征a。给定对象v的姿态及其外观a，解码器fd可以重构图像I。fv，fa和fd分别被构造为θv，θa和θd参数化的神经网络显然，如果没有对fv和fa的某些约束，就不能保证这样的因式分解。为了克服这种模糊性，我们在训练时使用不同视点的刚性对象的图像对这样的对可以从视频序列中提取，通过扰动静止图像生成，或者从3DCAD模型中渲染所以我们-假设可以描述未标记图像集合T图像不包含平面内旋转。然而，在更一般的情况下，u可以与v联合学习，有效地描述3D旋转的全范围。无监督视点估计的主要缺陷是对称性导致的预测崩溃。当前的方法在简单对象上工作得很好每个面颜色不同的立方体。然而，现实世界对象倾向于具有至少一个（如果不是多个）对称视点对。我们说两个视点v，v′形成对称对vv′，如果从v观察物体产生的图像接近于从v ′产生的图像。例如，在大多数汽车中，（a，e，t）（a+π，e，t）对于任何方位角a、仰角e和摄像机倾斜t形成对称对。因此，基于重构的无监督方法通常等同于这两种观点，导致预测的崩溃。已经提出了不同的解决方案来减轻这一点，例如使用对抗性损失来强制姿势分布的先验[54]，使用多个预测头[54，23]，或者使用图像的翻转版本强制预测中的一些对称一致性[37]。最后一种方法的主要缺点是它只对左右平面对称有效，并且在上述汽车示例中可能会失败为了克服这个问题，我们使用多个预测头用于我们的姿势估计器，从而导致v的多个假设。每个头部可以学习专门化视点的子集，并且在不同的视点中，每个头部可以学习专门化视点的子集。在对称对vv′的情况下，两者可以同时进行-作为N个图像对=（I i，I i′）N，其中每一对包含来自两个不同视点（Vi，Vi′）的相同对象实例的图像，其中实际的视点信息（相对的或绝对的）不可用。给定一个图像对（I i，I i′），我们提出从Ii中提取姿态特征v，从I i ′中提取外观特征a′，并用它们来重建I i。我们的模型的概述如图2所示。我们可能是由两个不同的头预测的。在实践中，每个预测器头fv输出视点预测，并且与最低重构误差相关联的视点预测被选择为训练时间处的预测v=f v （ I ） s.t.m= argmin||f d （ f a （ I′ ）， f v（I））−I||、学习任务包括解决以下目标：m∈MM（二）minΣ||Fd（fa（I′），fv（I））− I||.（一）其中表示第m个视点预测器，并且M是θv，θa，θd（I，I′）∈T头的数量。梯度将只通过m*传播，确保对称对被分离。3.1. 位姿估计网络我们设计的姿态估计网络输出的三维单位球上的一个点（即）。fv（I）=vS2），并将球体上的每个点唯一地映射到视点。为此，我们通过以下步骤对fv的输出应用正交化操作首先我们定义一个表示向上方向的任意向量uS2，然后我们应用两个连续的叉积w=vu和u′=wv，并将结果归一化以获得正交向量。最后，我们将旋转矩阵R定义为[v，w，u′]。该矩阵然后用于在生成阶段期间旋转对象表示，稍后描述这种方法使用任意选择的向上方向，这意味着我们假设在测试时，ViewNet只需要姿态预测网络fv，而不需要fa或fd，一个预言为了实现这一点，我们联合训练了一个选择头，其任务是在给定选项范围的情况下为每个输入图像选择最佳预测。任务是最小化选择预测和表示m*的独热分布之间的交叉熵，通过公式计算。二、虽然m*不能保证是最接近地面真实姿态的预测，但我们观察到它足以区分对称视点对。与[23]相比，这允许我们在测试时有效地维护多个假设，这转化为更稳健的预测，并且我们不需要复杂的解决方案，如[54]中的强化学习。10421∈∈我fv（v1，v）透视投影模块3分割模块旋转透视投影我Fazfd||、||Adain图2：ViewNet概述fv是视点预测网络。在训练时间，fa对来自图像I’的对象外观嵌入进行编码，图像I’由fd解码为3D表示，并由估计的视点使用投影模块变换为与I相同姿态的图像然后将可以被分割的该重建与I进行比较以指导训练。黄色块表示学习的参数，而绿色块表示固定或分析模块。3.2. 外观编码网络框架在输入图像中表示的对象的外观fa（I′）=a′Rn在标准的编码器-解码器架构中，a’将被用作f_d的输入以产生重构。然而，这并不能保证视点v′和外观a′嵌入被正确地因式分解。特别地，关于v’的信息可以被编码在a’中。这意味着v′的变化会导致重构外观的变化。在极端情况下，网络甚至可以忽略v，通过记忆（I，I′）对来重构I为了缓解这一点，我们使用了一个对象条件生成过程，该过程利用了自适应实例规范化（AdaIN）[22]。这种方法最初是为风格转移而开发的，由于其能够适应不同尺度的生成过程，因此在GAN中很受欢迎 [5，38，37]我们的生成流水线通过将随机静态代码zRm通过解码器网络细化到最后的渲染阶段z在训练过程开始时从正态分布中随机选取，并保持恒定。其目的是以规范姿势对平均对象进行编码。对象的外观由AdaIN层逐渐编码（见图2），AdaIN层将仿射变换应用于由参数化的特征。由于它们均匀地应用于每个特征通道，因此它们不可能改变特征的局部信息。另外，标准编码器-解码器架构将仅使用a作为解码器的输入，这意味着对象的精细细节可能在复杂解码过程期间丢失。相比之下，跨不同层应用变换意味着它们可以影响所有级别的重建，从而实现更忠实的重建。3.3. 解码器网络fd为了确保准确的视点预测，我们的目标是严格执行几何一致性期间生成过程为此，使用3D卷积层对fd进行建模，并使用具有透视的3D空间Transformer进行图像渲染，类似于[61]中使用的那些，并与受[56]启发的伪射线跟踪操作相结合。将旋转放置在网络的最后一级，尽可能接近重建损失，确保梯度有效地传播到fv。fv和目标图像之间不存在参数变换，这保证了卷积层无法补偿视点误差，这可能发生在基于GAN的模型中。我们的渲染模块由三个主要步骤组成，并且与[61，56，54，23]中使用的步骤相关，但是我们的管道也使用纹理信息。具体地，步骤涉及：（i）旋转。给定3D体积V，可以使用空间Transformer来使用旋转矩阵R旋转它。通过沿旋转轴重新采样数据来获得新体积。(ii)Perspective.类似地，透视可以用空间Transformer来模拟。针孔相机的单点透视将具有与距离成比例地减小物体的表观尺寸的效果因此，我们可以通过扩张近点和收缩远点来重新采样体积。(iii)基于投影的光线跟踪。最后，将体积投影到二维图像平面。由于对象的部分将受到自遮挡，我们使用伪射线跟踪操作来计算哪些体素将出现在输出图像中，从而确保几何一致性。对于3D体积V中的每个条目，前三个通道C表示图像的RGB通道，而第四个通道Q是包含关于对象的形状的信息的占用图。每个单元格的值被解释为对象占据相应空间位置的概率。为了计算投影，我们必须估计每条光线可能在哪里停止。由于我们已经考虑了透视，所有的光线都是平行的，只剩下每个停止点的深度为10422Y×nY˜~L ||−||˜计算。与文献[56]相比，我们不必计算每一条光线的路径.它嵌入张量的形状中这意味着我们可以使用有效的并行操作同时计算所有光路，其方式类似于[15]中使用的正交投影。在像素坐标i，j处的光线在深度k处停止的概率由下式给出：这些新生成的样本可以是训练集中存在的潜在有限的姿态集合，并且这些新生成的样本有助于正则化视点估计网络。4. 实验在这里，我们提出了合成和真实图像数据集上的3D姿态估计结果Q′i，j，k =Qi，j，kk−1？（1−Ql=0i，j，l）、（3）4.1. 实现细节ViewNet由三个子网络组成：fv、fa和fd。fv和fa都包含七个卷积层按照惯例，空积等于1。第一项表示坐标（i，j，k）处的体素被占用的概率，第二项是所有先前体素不可见的概率。因此，坐标i，j处的最终像素值为分别保留批处理归一化和ReLU激活函数。 fv取64 ×64 RGB图像I作为输入，并输出M=3个视点假设。fa对描绘从另一视点捕获的相同对象实例的第二RGB图像I’进行编码，并且输出256维外观向量。f d的输入是一个1024 dimen-Ii，j=kΣ=1ΣCi，j，k×Qi，j，k×k−1l=0（1 −Qi，j，l）Σ.（四）永久固定的规范码向量。规范代码通过七个3D转置卷积，每个转置卷积后面都有一个ReLU，并且特征图被进一步条件化。这类似于[56，54]中的公式，尽管在我们的情况下，光线跟踪是并行的并用于采样RGB值，而不是计算深度或光线终止。我们的方法的一个失败的情况下，包括ViewNet使用的体积V作为画布和“绘画”的对象在不同的姿势的两侧。更一般地，这导致对象的预测形状中的误差，因为我们不知道哪些像素属于它。为了解决这个问题，而不是试图直接估计占用率Q，我们学习Q’，使得Q=S+Q’，其中S是以V为中心的三维高斯分布。Q’可以被解释为使形状在S之前变形的残差，使得其匹配所观察到的对象的形状。S对对象的形状和位置的先验进行编码，同时阻止网络使用远离体积中心的体素3.4.周期一致性监督使用外观监督，而不是像[61，54，23]中那样仅使用对象轮廓，使ViewNet也能够表示外观信息。这有两个关键优势。首先，我们的方法可以从新的视图生成对象的图像其次，我们可以使用这些新的视图在训练过程中通过加强生成的图像与其已知视点之间的一致性来正则化我们的模型给定随机采样的vip_i（V），我们可以使用从图像I’中提取的a’中的外观信息来渲染非图像I=f_ d（v~，a’ ）。通过将其馈送到vi，我们可以计算采样的vi_pointv~与其估计的vi_pointv（I）之间的距离，即e.cycle=f v（I）验证并将此误差反向传播到视点估计器。假设重建具有足够的质量，这允许我们概括超出经由自适应实例归一化（AdaIN）层在fa的输出上进行。所得到的3D特征图基于所预测的姿态被投影到图像，并且用于计算重建误差w.r.t. I.我们使用感知损失[26]，因为与标准像素级重建损失相比，它提供了更多的信息梯度。补充材料提供了更多细节。在所有实验中，我们将小批量大小设置为64，并使用Adam优化器[29]。对于每个实验，我们为每个类别训练一个单独的模型，并选择在验证集上表现最好的模型，如果在30个epoch内没有观察到任何改善，则停止训练。由于我们的方法是无监督的，所有视点都被预测为随机旋转。为了评估我们的模型，我们必须将其预测与地面事实对齐。由[54，23]执行的标准对准技术涉及计算将预测视点与地面实况最佳对准的旋转。这是从一小批验证图像中获得的，使用正交Pro-crustes算法。在[37]中使用的替代对准过程学习更灵活的仿射变换的参数，与应用单个3D旋转来平移预测视点估计相比，这可以缩小和/或扩展预测视点估计。我们将在4.3节讨论这种方法的潜在问题。我们报告标准视点估计措施的性能：30 °的精度和中值角误差。4.2. ShapeNet结果在[54，23]之后，我们在ShapeNet数据集[6]上评估ViewNet，其中分别包含7.5k，6.8k和4k汽车，椅子和飞机的3D CAD模型。10423预测方位角预测方位角−↑↓∼−∼90 90 900 0 090 90 9090 0 90地面实况方位角(a) 飞机90 0 90地面实况方位角(b) 车90 0 90地面实况方位角(c) （d）重建建议图3：（a）-（c）在三个ShapeNet类别上地面实况与预测方位的比较。一个完美的预测值将显示为一条对角线。(d)每个头部的候选重建。左边的图像是姿态估计器的输入，并且下面的三个图像是每个头部的渲染，通过增加重建误差来排名准确度（%）中位误差（o）飞机座椅飞机座椅MVC [54]69878114.35.27.8云计算[23]7586868.25.08.1ViewNet8289898.66.77.3ViewNet +循环8691927.76.77.0表1：无监督方法的ShapeNet结果。粗体条目是每个类别中表现最好的模型。训练，验证和测试集创建的分裂成（0.7，0.1，0.2）的分数分别丁CAD模型。为了渲染图像对，我们在[0°，360°）方位角范围和[ 20°，40°]仰角范围上均匀地随机选择视点和光源。我们报告的结果为标准设置，其中每个CAD模型是从五个随机的观点在训练和测试时间呈现。表1中的结果表明，ViewNet优于现有的无监督方法，除了汽车上的中值误差。ViewNet除了学习重构形状之外还学习重构纹理，并且与仅二进制遮罩相比，这种监督更具信息性，因为我们可以利用纹理线索来有效地解开对称视点。例如，汽车上的红色尾灯可以指示后方。这惩罚了一个模型，该模型将在其位置重建白色前灯我们在消融研究中对此进行了进一步研究。我们观察到视点循环一致性提供了准确性的进一步提升（“ViewNet+循环”）。在这里，新颖的视图与常规重构目标同时被渲染，然后被反馈到视点估计器。这表明我们的模型可以为给定的视点生成新颖而准确的图像，并学会以自学习的方式改进其输出。我们在图3中分析了ViewNet的视点预测，并绘制了预测的方位角与地面实况的对比图。强对角线表示准确的预测，而非对角线点是错误的。结果表明，大多数的错误是由对称性。为例如，汽车类别示出了移动了180°的第二预测线。这对应于（a，e，t）（a + π，e，t）对称性在第3.1节中提到。其他猫-egories展示了不同的对称性引起的问题，其中飞机和椅子具有逆行对称性（a，e，t）（π a，e，t）。图3（d）中示出了针对每个提议的视点的样本。可以看出，全局输入形状在不同的预处理上相对良好地匹配口述意见。有趣的是，重建误差不一定与视点误差直接相关，因为第二个提出的汽车视点具有比第三个更低的重建误差，尽管是从完全不同的视点渲染的消融研究。在表2中，我们研究了管道中每个拟议组件的影响。首先，我们减少了头的数量的观点估计，观察到一个大的整体下降的观点的准确性。对于汽车类别，单头估计器不能处理前/后对称性，导致较大的性能损失。其次，我们修改ViewNet以重建类似于[54，23]的二元分割掩码，而不是像素值。使用分割掩模作为目标实现了与表1中的先前基于分割的方法相当的结果。这表明ViewNet可以利用纹理信息来实现更好的预测。第三，我们事先删除高斯形状，直接估计占用网格Q，而不是Q’，并观察到这对飞机和汽车没有任何显著影响，但当网络试图在体积的面上“绘制”对象时，会导致椅子的急剧下降接下来，我们通过移除AdaIN层并在fd的第一层中馈送fa的输出来评估调节策略，类似于传统的编码器-解码器对。虽然这不会导致严重的性能问题，但重建不太准确，限制了该模型使用它们进行自我训练的能力。最后，我们将解析预测方位角10424↑↓准确度（%）中位误差（o）飞机座椅飞机座椅ViewNet8289898.66.77.3单头72516618.127.116.3分割目标71858812.98.08.1之前没有形状7889739.66.631.3编解码器8289888.76.87.8HoloGAN解码器66527219.627.614.5恒定20221961.765.258.1表2：消融研究结果。在这里，我们比较了ShapeNet上ViewNet的不同变体。使用来自[38]的解卷积架构的具有可学习解码器的渲染器除了导致所有消融的最大性能下降之外，该模型的重建不表现出几何一致性，因为生成的补充资料中提供了定性样品4.3. PASCAL3D+结果接下来，我们在具有挑战性的现实世界PASCAL3D+ [59]数据集上评估ViewNet它包含来自PASCAL VOC和ImageNet数据集的真实图像以及注释的视点，包括方位角和仰角。由于该数据集不提供包含具有不同视点的相同对象实例的图像对，因此我们使用在ShapeNet上训练的每个CAD模型的10个视图来由于PASCAL3D+图像具有背景，因此我们在训练期间将SUN397 [60]中的随机背景图像合成添加到ShapeNet渲染视图中。这些背景仅添加到输入训练对中，以使ViewNet在测试时对背景具有鲁棒性然而，ViewNet被训练为仅重建对象，因为它需要额外的逻辑来重建背景。我们在表3中报告了我们的结果。我们观察到，对于某些类别，例如瓶子、公共汽车、沙发、火车和电视监视器，其包含的视点范围是极其有限的，并且集中在特定视点周围。我们的理由是，用于非监督方法的视点对齐程序是非常有效的，在这些类达到强大为了验证这一假设，我们建立了一个简单的视点预测器，一个恒定的预测器，输出的平均视点从验证集的每个对象类别。这模仿了未训练的视点估计器的行为，该视点估计器没有学习任何有用的东西并且在验证数据上得到校准。我们看到，这种方法表现得非常好，甚至超过了[17]，这是一种对某些类别的监督方法相比之下，ShapeNet上的相同预测器实现的性能要低得多（请参见表2），因为数据集是专门设计的，不会有偏见。为了减轻偏见的评价集，我们提出了一个不同的评价策略，包括分裂成离散箱的视点空间，然后平均perfor-曼斯在每个箱。这样做可以防止有偏见的预测器达到近乎完美的性能。补充材料介绍了这一计划的结果作为额外的基线，我们重现了SSV [37]中使用的设置，并将线性回归器拟合到VGG 16 [49] Conv 5特征，并使用我们用于对齐预测的相同少量PASCAL 3D+图像对其进行训练以回归姿势-参见表3中的我们直接在PASCAL 3D+图像上评估ShapeNet训练的ViewNet模型。我们提供了两种对齐方法的结果，使用正交Procrustes的最佳旋转和SSV [37]中使用的线性回归，其采用预测的观点并应用线性回归器来修改其预测。根据类别，可以确定两种行为：两个对准过程提供相似的结果（例如，自行车，瓶子），或者线性回归方法显著优于最优旋转。我们观察到，第二个行为与PASCAL3D+包含高度偏见观点的类别相关，即。其中大多数视点围绕单个视点聚集。我们认为线性回归方法可以通过将观点预测向共同观点折叠来人为地提高这些类别的性能。这可以通过学习预测视角的零权重并将平均视点编码为偏置项来实现。与我们的ShapeNet实验类似，我们还使用基于循环的生成视图评估训练的影响根据类别，它通常以较高的中值误差为代价提供小该中值误差增加可能是由于所生成的视图与真实世界图像之间的较高域间隙。4.4. 其他数据集结果到目前为止，我们只在合成ShapeNet数据集上训练了ViewNet，并在合成或真实数据上对其进行了评估。我们的方法也可以在真实数据上进行训练，这些数据由同一对象的图像对组成，这些图像对的视点不同。为此，我们使用最近提出的Objectron数据集[1]和Freiburg汽车数据集[48]。对于Objectron，我们在椅子类别上进行训练，因为它存在于ShapeNet中，并且包含足够多样化的高质量图像，而其他类别的图像模糊或视频太少。虽然ViewNet在测试时不需要分割遮罩，但它需要分割的对象作为训练目标。Objectron 我们首先对每个视频随机采样十帧，并使用两种不同的语义分割方法获得前景掩模：DeepLabV3 [7]，在10425飞机自行车船瓶子公共汽车汽车椅子桌子mbike沙发火车电视固定45 23 28 96 79 29 58 48 32 81 9589VGG视图 * 64 63 25 96 78 56 76 48 46 869685SSV*[37]视网72 81389775 87 82 54 75 86 85 86ViewNet +循环 * 67 70 23 96 77 87 83 50 748995 87ViewNet+循环71 804796 8088 8357 78 88 88 82廖[32]88 886196 97 9393 74 93 988495电话：+86（0）2182649597 94 80 71 88 879386固定值32.6 56.6 61.6 8.2 16.7 55.0 25.2 31.9 53.9 13.6 8.8 14.0VGG视图 * 20.8 22.2 55.8 7.9 9.7 25.8 14.4 29.6 33.0 10.0 8.611.3[37]浏览器14.013.4 38.47.216.2 5.910.1 24.4 14.29.27.4 13.8ViewNet + cycle * 18.2 17.1 61.3 8.0 16.3 6.7 11.7 28.8 14.79.29.3 14.0ViewNet + cycle 14.412.2 20.6 7.214.95.611.5 25.011.611.5 15.6 15.8廖[32]9.2 11.620.67.33.44.8 8.2 8.5 12.1 8.7 6.1 10.1格拉布纳[17] 10.0 15.619.18.63.35.1 13.7 11.8 12.2 13.5 6.8 11.0表3：PASCAL3D+结果。粗体条目表示每个类别中性能最佳的型号。后面有星号（*）的条目使用线性回归比对程序，而没有星号的条目使用单个全局刚性比对。COCO [34]地面实况分割掩码和弱监督方法[2]，仅使用图像级标签在Objectron帧上训练。我们从一个在ShapeNet 上预训练的模型开始，以防止在来自Objectron的相对少量的实例上过度拟合。ViewNet（无cy）-VGG视图VpDR-Net+ FrC [40]ViewNet ViewNet+周期cles在PASCAL3D+汽车上分别获得了91%和89%的准确度，其中位误差为8.8o和10.1o，与仅使用ShapeNet训练模型获得的83%准确率相比，这是一个显著的改进。弗莱堡汽车公司由于数据集只包含48个视频，我们使用所有帧，即在120到130之间。我们还使用从预训练的监督Mask R-CNN模型中获得的分割掩码[18]。结果示于表4中。ViewNet获得了比[40]的非监督方法更强的结果添加我们的循环损耗并不能提高性能，因为真实的汽车表现出ViewNet无法再现的镜面由于[40]未报告准确度，我们估计其为50%，对应于30°的中位误差。4.5. 限制ViewNet在训练时需要前景遮罩，因为模型无法从外观图像中提取背景信息在对真实数据的实验中，我们使用预先训练的分割模型[7，2，18]来估计这些掩码。然而，重要的是要注意，视点估计器可以在测试时应用于未分割的图像。我们的方法还依赖于在训练期间具有图像对，以便理清视点和对象外观，这限制了其在视频中的实际应用表4：在Freiburg Cars上训练的模型和在PASCAL3D+上评估的模型的比较。数据集。最后，我们假设物体的外观是独立于视点的，但是这个假设经常被非朗伯曲面所违背，例如。汽车在补充资料中，我们定性地分析了我们的方法的一些失败案例。5. 结论我们提出了ViewNet，这是一种用于从图像对中学习对象视点估计的自监督方法。通过确保生成过程中的几何一致性，我们可以准确地从对象中合成新视图，并使用它们来改进我们的网络预测，在合成和真实数据集上都优于当前的最后，我们强调了常用的PAS-CAL 3D+数据集的评估问题。我们证明了数据集中存在显着的偏差，即使是简单的基线方法也可以表现良好，这表明需要具有更多样化的3D姿势的新基准。致谢。OM由Toyota Motor Europe支持，HB由EPSRCVisual AI授权EP/T028572/1支持。中位误差（o）无监督准确度（%）无监督辅辅累积（%）56∼506159中误差（o）25.829.616.119.110426引用[1] Adel Ahmadyan，Liangkai Zhang，Artsiom Ablavatski，Jian-ing Wei，and Matthias Grundmann.Objectron：一个大规模的以对象为中心的视频数据集，带有姿势注释。在2021年的计算机视觉和模式识别（CVPR）会议二、七[2] 尼基塔·阿拉斯拉诺夫和斯特凡·罗斯图像标签的单阶段语义分割在计算机视觉和模式识别（CVPR）会议上，第4253-4262页8[3] 马丁·阿乔对k y和Le'onBottou。这是训练生成对抗网络的原则性方法。国际学习表征会议（ICLR），2017年。2[4] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3d对象坐标学习6d对象姿态估计。在欧洲计算机视觉会议（ECCV），第536- 551页一、二[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。在2019年国际学习代表会议（ICLR）上。4[6] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。5[7] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 七、八[8] Xu Chen，Zijian Dong，Jie Song，Andreas Geiger，andOtmar Hilliges.通过神经合成分析的类别级对象姿态估计。欧洲计算机视觉会议，2020年。2[9] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成式对抗网络进行可解释的表示学习神经信息处理系统进展，第2172-2180页，2016年2[10] TacoSCohen， MarioGeiger ， JonasK？hler ，andMaxWelling. 球形 cnns 。在国际会议上学习表示（ICLR），2018年。2[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别（CVPR）会议上，第248-255页1[12] Carlos Esteves ， Christine Allen-Blanchette ， AmeeshMaka- dia，还有科斯塔斯·丹尼利迪斯3d对象分类以及用球形 CNN 进行检索。 arXiv 预印本 arXiv ：1711.06721，2017。2[13] Carlos Esteves ， Avneesh Sud ， Zhengyi Luo ， KostasDani- ilidis，and Ameesh Makadia.跨域三维等变图像嵌入。2019年国际机器学习会议。2[14] LucaFalorsi，Pim de Haan，Tim R Davidson，Nicola DeCao，MauriceWeile r，PatrickFor re'，andTacoSCohen. 同胚变分自动编码的探索。 arXiv 预印本 arXiv ：1807.04689，2018。2[15] Matheus Gadelha，Subhransu Maji和Rui Wang。从多个对象的 2D 视图的 3D 形状归纳在 3D 视觉国际会议（3DV），第402-411页5[16] Liuhao Ge ， Hui Liang ，

下载后可阅读完整内容，剩余1页未读，立即下载