没有合适的资源?快使用搜索试试~ 我知道了~
3113一种新的基于重建对齐的Mohamed El Banani Jason J.大卫街密歇根大学{mbanani,jjcorso,fouhey}@ umich.edu摘要本文的目的是估计的观点,一个新奇的物体。标准的视点估计方法通常无法完成这项任务,因为它们依赖于用于对齐的3D模型或大量的类特定训练数据及其相应的规范姿势。我们通过学习重建和对齐方法来克服这些限制。我们的关键见解是,尽管我们没有明确的3D模型或预定义的规范姿势,但我们仍然可以学习估计对象在观看者框架中的形状,然后使用图像来提供我们的参考模型或规范姿势。特别是,我们提出学习两个网络:第一个将图像映射到3D几何感知特征瓶颈,并通过图像到图像的平移损失进行训练;第二个学习特征的两个实例是否对齐。在测试时,我们的模型会找到最能将测试图像的瓶颈特征与参考图像对齐的相对变换。我们通过在不同的数据集上进行推广,分析我们不同模块的影响,并提供对所学习的特征的定性分析,以确定正在学习哪些表示以进行对齐,来评估我们在新对象视点估计上的方法。1. 介绍考虑图1中猫头鹰的两个视图。它们之间有什么关系?作为人类,我们可以很容易地想象如何从视图1移动到视图2,即使我们以前从未见过理解物体姿态和视角的问题长期以来一直吸引着计算机视觉(从第一篇关于计算机视觉的博士论文开始[21])和心理学[23,27]的研究人员。在计算机视觉中,已经提出了许多方法来估计图像尽管这些方法在已知类上取得了成功,但由于3D模型及其规范姿态都是未知的,因此在这项工作中,我们学会了预测一个新的对象使用一个单一的参考视图的相对观点。Rr#$%i(#图1.人类会情不自禁地看到这两个视图中的3D结构,这使得对齐他们的视点变得非常容易。本文提出了一种新的对象的视点估计学习的重建和对齐方法从历史上看,有两种一般的方法来估计视点。首先,3D模型对准方法找到将图像对准到已知3D模型的变换[9,20,39]。尽管这些方法有效,但它们仅限于具有可用3D模型的对象。第二,端到端判别方法学习直接估计图像相对于规范姿态的视点(例如,[24,29,30,33].虽然这些方法不依赖于显式的3D模型,但它们的预测是关于隐式定义的、规范导向的模型的。由于它们依赖于显式或隐式定义的3D模型,这些方法难以处理既不知道模型也不知道其规范方向的我们如何评价一个新事物的视角?视点是相对于类特定坐标系或规范姿态(例如,一辆汽车的正面)。对于小泛化(例如,从自行车到摩托车),可以利用火车测试3114[15]但这种情况很少发生。受心理旋转研究的启发[23],我们观察到图像(而不是3D模型)可以作为参考姿势。因此,我们发现同一对象的两个视图之间的相对变换,而不是对齐到3D模型。在这项工作中,我们结合了3D对齐和端到端学习的见解。我们不使用3D模型,而是学习将输入图像映射到3D特征网格。我们的关键见解是,尽管我们没有明确的3D模型,但我们仍然可以学习一个深度网络,将每个对象实例映射到3D参考框架。这是通过将学习的2D层与约束为遵循投影几何的投影层相结合来完成的,类似于[13]。然后,我们学习对齐这些3D特征网格,以识别将使联合3D特征网格中的未对齐最小化的相对变换。我们通过2D监督(但不是通过体素的直接3D监督)学习3D特征网格,同时结合受3D形状雕刻启发的物理约束[14]。我们假设,强制表示通过几何感知瓶颈提供了一个有用的归纳偏差。此外,未学习的投影层使网络更容易学习可以检查的隐式3D形状表示,其中非结构化层可能会导致泛化更差的纯记忆[28]。然后,我们训练一个对齐网络来估计两个视图是否会通过训练类似于[3,16]的随机未对齐示例来产生对齐的3D形状表示我们通过不同数据集的泛化来评估新颖性。例如,我们表明我们的模型可以很好地从ShapeNet [4]到Thingi10K [45]模型,尽管它们看起来非常不同,如图1和补充材料所示。这就避免了使用对象类作为nov的代理所涉及的困难[15,44,38]:类区分可以是任意的,有些类(如摩托车和自行车)共享许多视图特定的外观。我们在第5节中证明了我们提出的方法的有效性,并表明虽然标准方法受到新对象的挑战,但我们的方法可以优雅地通用于新数据集。具体来说,我们的模型在从ShapeNet到Thingi10K的通用化过程中实现了40%的视点估计准确度,而标准方法的准确度为我们进行了几个分析实验来理解学习的表示,发现我们的模型在视图预测和体素预测上也表现出良好的跨数据集 泛 化 能 力 ; 尽 管 接 受 过 Thingi 10 K 培 训 , 但 在ShapeNet飞机上的IoU得分为0.43。总的来说,我们的实验表明,重建和对齐方法比判别方法更好地推广到新的对象,我们希望我们的工作将在这个方向上激发更多的兴趣。2. 相关工作在3D空间中准确定位物体的能力是计算机视觉中最古老的问题之一[21]。早期的工作提出了一个对齐问题,具体来说,估计这个公式是强大的,因为它是任务不可知的,只要一个人访问3D模型。早期的方法集中在寻找图像和特定模型实例之间的对应关系[2,10,17]。最近的方法集中于通过使用类特定的3D关键点[31,37,39,46]或可变形部件模型[1,20]来生成对象类内的所有实例。虽然我们受到对齐方法的启发,但我们假设无法访问3D模型,并通过学习重建3D模型并将图像与其对齐来生成新的对象类。受大规模图像分类成功的启发,最近的一系列工作集中在学习姿势估计,除了图像姿势对之外很少或没有监督[8,18,24,29,30,33,40]。这些方法用完全 学 习 的 基 于 2D 特 征 的 模 型 ( 如 卷 积 神 经 网 络(CNN))取代了对齐方法尽管这种方法在合成到真实的泛化[24,29]和类内泛化[8,33]方面取得了成功,但尚不清楚它在泛化到新类方面的成功 虽然我们也不能像以前那样访问3D模型;与此不同的是,我们训练我们的模型对对象类是不可知的,学习3D对象表示,并推广到新的类。最近的一系列工作将其他损失或任务与姿态估计相结合,例如对象分类[15,19,20,24],关键点检测[31,33,46]和对象重建。结构[12,32,42]。与我们的方法最接近的是[12,32],他们从未注释的图像中联合学习3D重建和姿势预测。虽然我们的工作源于同样的观察,姿势和形状是密切相关的,但我们的目标是不同的。虽然[12,32]对从非常弱的监督中学习特定类的形状和姿势感兴趣,但我们的重点是通过从标准视点监督中学习来推广到新的对象独立于这项工作,人们对通过表征瓶颈学习更结构化或更有意义的中间表征的兴趣不断增加[20,33,35,36,43,46]。代表性瓶颈被解释为提供了一个良好的归纳偏见的学习过程。与我们更相关的是以体素网格的形式强制3D表示瓶颈的方法[13,32,35,41,42]。虽然一些方法使用3D监督,但其他方法利用3D表示瓶颈来学习仅使用2D监督的3D重建。我们要强调的是,虽然我们受到这一工作的启发,但我们的目标是不同的;虽然这些方法3115(b)学习一致性(c)推理时间Δ”Δ”Δ”#Δ”#θ相对+Δ”??最大限度地减少错位掩模掩模(a) 学习形状深度学习的权重冷冻重量凸出层特征图2. 方法概述。 我们的方法包括两个学习阶段和一个推理阶段。(a)我们首先学习从物体的两个视图及其相对姿态来预测物体我们训练我们的形状网络来从第三个视角估计物体的外观。(b)使用经过训练的形状网络,我们训练了一个预测器来预测两个视图之间的错位程度(c)在推理时,我们找到最佳对齐两个输入的相对姿势注:为清晰起见,已删除输入图像背景专注于执行已知类别的对象的精确的单视图或多视图3D重建,我们的目标不是重建对象,而是使用3D瓶颈来允许我们估计新对象的相对视点最后,我们的目标是推广到看不见的类。虽然这个问题已经在图像分类的范围内得到了广泛的研究(参见[38]的调查),但对于3D任务(如姿态估计),它还没有得到很多关注。据我们所知,以前只有两种方法解决了类似的问题。库兹涅佐娃等[15]提出了一种度量学习方法,该方法执行联合分类和姿势估计,并且它们利用学习空间进行零拍摄姿势估计。然而,他们的方法只有在新物体与以前看到的物体相似时才有效(例如,汽车到公共汽车和自行车到摩托车),这限制了他们的方法的普遍性。Tseng等人[31]提出了一种关键点对齐方法,该方法学习预测3D关键点以对齐新类。然而,他们期望在测试时对新对象的参考图像进行3D关键点注释,而我们仅假设单个未注释的参考图像。年龄3. 一种新的目标视点估计方法我们的首要目标是建立一个系统,利用尽可能少的关于物体的信息来理解以前看不见的物体的观点,理想情况下,在完全不相关的对象之间进行泛化,例如斑马到叉子而不是汽车到公共汽车。困难在于视点是相对于坐标框架或规范姿态(例如,汽车的正面):没有它,问题根本上是不确定的,并且任何视点都可以是原始视点。因此,过去的工作已经使用关键点定义了坐标框架[31],或者在语义相似的对象上进行了概括[15](例如,汽车到公共汽车)。我们建议使用单个图像作为参考,而不是通过关键点或语义相似性使用预定义的坐标框架。然后,我们的目标是,给定具有视点v1的参考图像I1和我们想要估计其视点v2的图像I2,我们想要预测相对旋转Rrelative,使得v2=Rrelativev1。该公式保持了视点估计的本质,同时规避了由要求规范姿势所带来的限制。应当注意,给定两个图像之间的相对姿态和一个图像中的对象的规范化姿态,计算第二图像中的规范化姿态是微不足道的在训练过程中,我们假设我们可以从任意数量的类中访问图像-视点对。在测试时,我们会看到来自一个新类的两张图像,并负责预测第二张图像相对于第一张图像的相对视点。型网络θ恒等式3D UNetθ不可见θ相对θ相对鉴别器型网络鉴别器型网络2D解码器Concatenate2D编码器31164. 方法这项工作的目标是建立一个系统,可以预测它以前从未见过的对象的两个视图之间的相对视点。如图2所示,我们的方法从姿态估计的早期公式中获得灵感,如对齐[9]。然而,我们学习从每个可以对齐的视图预测3D表示,而不是使用3D模型。在更详细地解释每个阶段之前,我们首先介绍了我们方法的高级结构详情见附录A.1。我们在第5.3节中分析了设计选择的有效性。接近草图。在第一阶段,我们通过在视图预测任务上训练我们的模型来学习形状给定两个图像和它们之间的相对视点,我们训练我们的模型从每个图像中提取2D特征,并将它们反向投影到联合3D特征张量中。在反投影过程中,我们利用物体在每个视图中的深度来在观察者和物体之间留出空间。对于任意的第三个视图,我们将3D特征张量投影到2D中,并预测该视图中的对象遮罩或深度。在第二阶段,我们通过训练一个预测器来预测提取的3D特征张量是否对齐。在测试时,我们通过找到最小化预测未对准的转换来找到相对视点。4.1. 学习形状给定两个图像和一个相对姿态{I1,I2,Rrelative},我们 训 练 一 个 形 状 网 络 来 生 成 一 个 3D 特 征 网 格 ,Fobject∈RF×N×N×N,它可以捕获对象由于我们假设观看者直视第一幅图像的对象,因此第二个视点是R相对的。形状网络由2D CNN编码器,可微分反投影层和3DUNet组成 [22,5]。我们用柔软的材料来提供具体的建筑细节。2D编码器为每个图像提取2D特征图,然后使用视点和深度图将其反投影到维度为N(N=32)的3D体素网格中。反投影基于来自Kar等人的可区分投影层。[13 ]第10段。我们通过使用适当的视点将2D特征图中每个像素位置的射线投影到3D网格中来反向投影特征,然后通过双线性采样设置每个体素的值。受早期空间雕刻工作的启发[14],我们利用已知或估计的物体深度,通过设置这些体素中的特征为0。经过空间切割后,我们有两个特征网格张量,Fv1,Fv2,它们捕获了同一参考系中每个对象的外观和视图来自每个视图的两个特征网格张量看不到对象的相同部分,并且本质上是hallu-隐藏看不见的部分。因此,我们将它们融合在一起,目标是预测物体的一致3D表示。我们通过沿着特征维度连接两个特征网格来实现这一点,以产生一个张量R2F×N×N×N,并将其传递到3D UNet中。3D UNet我们在第三个视图中对对象的遮罩或深度的2D视图预测上训练形状网络这通过使用第三视图的相对视点将3D特征投影到2D来由于我们不知道对象ray. 我们使用1×1卷积来聚合给定像素位置的所有采样深度值的特征这是一个--中间有两个卷积层和一个上采样层,以匹配深度或掩码输出大小。我们训练网络以最小化掩码预测的二进制交叉熵,以及深度预测的L14.2. 学习一致性一旦我们训练了形状网络来估计对象我们通过冻结形状网络的权重并通过随机旋转扰动其输入相对视点来生成然后,我们训练一个预测器来预测扰动的大小。我们的直觉是,虽然确定两个对象之间的相对视点可能很困难,但未对准更容易检测,因为它会产生不一致的对象形状,不一致的程度是图像未对准程度的度量。我们将CNN实现为3D CNN。我们的网络架构由两个3D初始模块和两个完全连接的层组成我们通过沿着深度维度扩展内核来将接收模块[26]调整为3D。我们使用inception模块,因为它允许网络在多个尺度上检测特征,这在检测不一致性时很有用。我们训练了预测扰动方向(欧拉角)和大小(测地距离)的神经网络我们随机地将三分之二实例的相对视点扰动至少10度。我们对所有4个输出使用L2损失来训练4.3. 相对视点估计给定一个训练好的形状网络和一个视点,相对视点是将最小化预测的未对准的视点。这个问题可以作为优化问题或通过贪婪搜索来解决。在这项工作中,我们统一采样的观点和输出的观点,最大限度地减少了预测的扰动幅度。3117输入图像第三视图蒙版输入图像第三视图蒙版图3. 在Thingi10k上进行掩码预测。给定两个图像,我们的模型学习预测第三个视图的掩模。前两列表示两个输入视图,而第三列是要为其预测掩码的视图。 所示的掩模由下式预测:在不同数据集上训练的模型; ShapeNet。我们可以从一个新的视角准确地预测3D模型5. 实验我们现在经验性地评估我们的模型我们的实验旨在回答两个问题:(1)我们提出的方法的效果如何,特别是在对新对象进行泛化的情况下;以及(2)该方法如何工作,以及它是否确实学会了通过使用3D表示来解决任务。我们通过评估模型在视点估计(第5.1节)和视图预测(第5.2节)两个数据集上的泛化能力来解决第一个问题跨数据集泛化为我们提供了一个很好的代理,可以让我们了解模型在新对象上的表现,因为ShapeNet和Thingi10K模型看起来截然不同。我们通过评估模型通过视图预测(第5.2节)和体素预测(第5.4节)学习形状的能力来解决第二个问题我们还进行了几次消融,以更好地理解不同模型组件的重要性(第5.3节)。数据集。我们使用三个数据集:ShapeNet、Pix3D和Thingi10K。虽然ShapeNet和Pix3D在模型的类型和外观方面相当一致,但Thingi10K模型在大小,外观和几何属性方面差异很Thingi10K [45]包括为3D打印创建的10KThingi10K缺乏强有力的模式或原型形状,姿态估计和重建方法都很好,并且为我们的任务提供了一个很好的测试数据集或者,ShapeNet最后,Pix3D [25]是一个较小的数据集,由9类家具的395个Pix3D的较少数量的模型和领域特异性提供了一个有趣的比较,与ShapeNet中的对象类别和Thingi10K中的对象形状的较大差异进行比较。数据采样。我们选择我们的姿势通过均匀采样周围的观察球。对于以原点为中心的模型,姿态变换只是视点变换的逆变换。这偏离了先前的工作,该工作根据消费者pho- tos的分布进行采样在排除3D模型文件丢失或损坏的模型后,我们最终得到55,281个ShapeNet模型,390个Pix3D模型和9994个Thingi10K模型。对于ShapeNet和Thingi10K,我们对每个对象采样20个不同的姿势,而Pix3D采样200个视图我们这样做是为了减轻这些数据集中模型数量之间的巨大差异我们通过模型随机分割数据集,以确保每 个 分 割 都 有 一 组 不 相 交 的 模 型 。 我 们 使 用80%/10%/10%的数据作为我们的训练,验证和测试分割。3118PR表1. 相对视点估计性能。我们评估了我们的模型在数据集内和跨数据集泛化的能力。字母代表每个数据集的首字母:ShapeNet、P ix3D和T hingi10k。每列代表不同的训练/测试设置S → T在ShapeNet上训练,在Thingi 10 k上测试。我们发现,我们的模型能够在数据集之间进行泛化,而以前的方法对它们的训练分布表现出明显的偏见。S → SP → P不 → TS → PS → TP → T加速π/6MedErr加速π/6MedErr加速π/6MedErr加速π/6MedErr加速π/6MedErr加速π/6MedErrStat. 之前4.15114.714.13115.014.33114.414.13115.014.33114.414.33114.41RPNet60.2344.3268.9332.6120.8291.4366.4246.0725.0091.8514.43111.80ConvAE50.4952.6551.9656.3615.35100.5648.6346.788.65116.113.55129.29我们47.5766.0458.0846.0241.2561.9660.6743.4740.1270.0833.0096.825.1. 视点估计我们首先评估我们的系统在视点估计上的表现我们的目标是评估系统的性能,特别是在从一个数据集到另一个数据集进行泛化时。实验设置。我们基于预测和地面实况姿态之间的测地线距离评估姿态估计性能,如在以前的工作中所做的那样[24,33]。给定两个旋转矩阵,测地线距离提供这两个旋转矩阵之间的变换的幅度。在[11]之后,我们称-计算测地距离为D(R gt,R pr)= ||log RgtR||. 在[24,33]之后,我们报告了中值测地线距离以及阈值π/6以下的视点的百分比。基线。我们将我们的模型性能与几个基线进行比较。对于我们所有的基线,我们使用面元化的欧拉角来表示旋转,并使用交叉熵损失来训练模型统计优先。我们找到验证的模式姿势,并将其用于测试。由于我们对视点进行了均匀采样,我们发现该基线非常弱,并且对应于随机基线。RPNet. En等人,[7]提出了一种Siamese网络来进行相对摄像机位姿估计。正如作者所报告的那样,我们发现对于更困难的数据集,最好在绝对视点上单独训练每个网络,然后显式计算相对视点我们使用binned欧拉角而不是四元数,因为我们发现它们表现得更好。此外,我们提供了他们的网络与RGB-D输入,以提供一个公平的比较,我们的方法卷积自动编码器(ConvAE)。鉴于我们的模型同时学习重建和姿态估计,我们在这两项任务上训练了卷积自动编码器。我们最初使用UNets [22],因为它们在图像翻译任务中取得了成功,但发现删除跳过连接提高了视点估计性能。使用3层CNN在编码特征上估计视点。与RPNet一样,我们发现绝对视点训练提高了性能。结果我们发现直接估计视点尺度对像Thingi10K这样的数据集效果不佳。如图3所示,Thingi10K模型表现出非常高的可变性,这使得它们对于将2D图案直接映射到姿势的模型具有挑战性,如表1所示。相比之下,我们的模型能够利用数据中的这种高度可变性,因为它允许它学习更好的重建特征。我们的模型在Thingi 10K上获得了很大的性能增益;无论是在训练和测试它时,还是从另一个数据集转移到它时。另一方面,我们发现,如果训练和测试之间的差异有限(例如,在ShapeNet上训练和有趣的是,我们发现在这个领域中,在具有更高方差的更多数据上进行训练可以提高性能,正如在ShapeNet上进行训练和在Pix3D上进行评估所看到的那样,特别是因为Pix3D的所有类都存在于ShapeNet中。这种模式既适用于直接姿势模型,也适用于我们的方法。另一个有趣的发现是,联合重建和姿态估计并不能解释我们的模型性能,如卷积自动编码器基线所示看起来额外的重建任务加重了网络的负担,而不是为其提供自适应学习信号。我们注意到,RPNet代表了当前的端到端判别视点估计模型,因为它们通常遵循CNN骨干和FC层的结构来预测视点[18,24,30,33,40]。因此,与RPNet的比较代表了对将视点估计框定为判别任务的问题的更一般的比较。此外,最近的方法提出了联合学习重建和姿态估计,其中网络学习预测紧急坐标系中的姿态[12,32]。虽然这些模型经过训练以最大限度地减少重建误差,但它们仍然使用CNN来直接估计特定于类的紧急规范姿势的姿势。因此,它们面临着与RPNet相同的挑战。此外,这些方法在给定我们提供给RPNet的地面实况姿态时可以表现得3119y表2. 2D重建跨数据集泛化实验。行显示训练数据集,而列显示测试数据集。我们发现,我们的模型可以很容易地在数据集之间进行泛化,性能下降非常小这支持了我们的说法,即我们的模型正在学习形状的一般化表示,而不是记住每个数据集中可用的形状ShapeNetPix3DThingi10k掩模IoU F1深度LogRMSEδ1。25掩模IoU F1深度LogRMSEδ1。25掩模IoU F1深度LogRMSEδ1。25ShapeNetPix3DThingi10k0.830.780.760.900.870.850.530.530.690.660.740.700.800.790.730.880.880.840.630.590.810.600.740.630.820.790.850.900.870.910.350.340.300.840.900.885.2. 2D重建我们现在分析形状网络表示形状的能力,以及这种能力如何推广到新的具体来说,我们评估形状网络的能力,预测对象的面具或深度从一个看不见的请注意,我们的模型是在深度或掩码预测上训练的。因此,显示了在相应任务上训练的模型的深度和掩码结果。与前面的实验类似,我们感兴趣的是模型泛化到看不见的类的能力。我们强调,我们有一组不相交的训练和测试模型,因此,在同一数据集上的测试性能评估了特定于类的泛化,而跨数据集的测试评估了对未知类的泛化。实验设置。我们训练和测试表演ShapeNet、Pix3D和Thingi10K的9个成对数据集对。我们使用IoU以0.5的阈值以及像素级F1得分来评估掩模重建根据[6],我们使用对数均方根误差和阈值精度δ 1来评估深度估计。二十五对于深度预测y,阈值准确度计算为yygt表3. 消融研究。我们通过去除3D中的两个关键组件来消除我们的模型,并分析对2D重建和相对视点估计的影响。S → SS → T加速π/6MedErrIOU 加速π/6MedErrIOU我们47.5766.040.8340.1270.080.82- 雕刻6.38134.23 0.644.21130.14 0.63- 精炼47.5759.760.6342.1654.030.64当然,像任何学习方法一样,我们的模型仍然受到训练数据质量的我们观察到,一般来说,数据集上性能最好的模型是在该数据集上训练的模型,但有两个有 趣 的 例 外 。 第 一 个 例 外 是 , 对 于 蒙 版 预 测 ,ShapeNet在Pix3D上做得很好这可能是由于ShapeNet和Pix3D之间的类重叠程度第二个例外是Pix3D训练模型在深度预测方面往往做得更好。虽然目前还不清楚为什么会发生这种情况,但一个可能的解释是,大多数家具的平面性可能为网络提供了一个很好的脚手架,以学习更好的深度,而其他数据集为网络提供了太多的方差,以学习良好的表示。像素的年龄,y,s.t. (i,i,i<)二十五igty我结果我们发现,我们的模型在所有数据集上都实现了高性能的掩码预测,如表2所示。更重要的是,我们发现模型在数据集之间的性能差异很这证明了我们的模型能够学习以可推广的方式表示3D形状。这与最近的重建发现形成鲜明对比,这些发现发现3D重建方法通常会记住一些训练模型[28]。我们假设我们的模型不太容易记忆,因为(a)几何感知瓶颈和(b)缺乏跨类实例的共享规范姿势几何感知瓶颈迫使模型学习在3D中表示其输入。此外,通过去除规范姿态假设,模型可以不再依赖于张量中具有一致表示的特定位置(例如,飞机的机翼总是在一边)。因此,模型被迫表示特定的输入,而不仅仅是对其进行分类。5.3. 消融我们进行了消融研究,以更好地了解模型的性能和失效模式。 特别是,我们切除了我们模型的两个核心元素:3D精细化和空间雕刻。我们训练消融模型并在ShapeNet和Thingi10K上进行评估。我们遵循与以前相同的训练程序。结果示于表3中。空间雕刻。我们发现去除空间雕刻对模型是极其有害的模型空间雕刻通过提供类和模型不可知的好处来大大提高我们的性能给定两个投影视图,空间雕刻为模型提供了关于哪些体素可以被忽略的高度确定性,并且因此极大地改进了对齐。对象范围的不确定性我3120图4. 特征到体素。我们的模型可以准确地预测占用,而无需使用体素或体素预测进行训练我们展示了我们模型的3个成功案例(IoU> 0.7;蓝色)和3个失败案例(IoU0.1;红色),左边是我们的预测,右边是地面实况。<我们发现我们的失败这种情况往往是由于未能完成被遮挡的部分或在不正确的位置处配准该部分而引起的,这将是从以前从未见过平面的模型中所预期的。3D优化。我们观察到,删除3D细化网络也大大降低了重建性能。然而,与空间雕刻不同,删除它实际上提高了视点性能。这可能是由特征的网络幻觉(为了完成对象)引起的,其又与非幻觉特征混合,这可能妨碍对准。5.4. 特征到体素考虑到模型学习投影到体素网格和从体素网格投影,我们预计该网格的特征可以捕获事件,尽管从未接受过3D信息的训练。虽然我们在训练过程中不会直接提取占用网格,但我们发现我们可以调整网络中的一个层来生成它。具体来说,在训练形状网络时,我们 添 加 了 多 视 图 一 致 性 损 失 [32 , 34]。 特 别 地 ,Tulsianiet al.[32]提出了一种损失,它沿着投影射线对不同点进行采样,以检测射线终止事件。我们通过定义一个线性层将射线采样特征映射到渗透性得分,将其公式扩展到特征网格。由于渗透性层将每个特征向量映射到射线终止概率,因此它与占用可能性相关因此,我们将其应用于Shape Network输出的特征张量,以生成占用网格。我们注意到,去除这种损失并没有显著改变我们的视点估计或2D重建性能。我们在Thingi10K上训练我们的模型,并在ShapeNet的 飞 机 类 上 对 其 进 行 评 估 。 我 们 想 强 调 的 是 ,Thingi10K不包括飞机类,所以我们正在评估看不见的物体。我们使用体素网格但是我们将它们居中并调整大小以适合尺寸为32的体素网格我们通过计算占用网格的交集(IoU)来评估渲染的质量我们根据验证集选择阈值。由于我们的嵌入是在以查看者为中心的参考框架中,因此我们在计算IoU之前将其旋转回规范框架。我们的模型实现了0.43的平均IoU,98%的样本的IoU至少为0.25。我们注意到,这是在直接嵌入维度上计算的 , 而 不 执 行 任 何 配 准 或 缩 放 , 以 更 好 地 匹 配ShapeNet 3D模型。我们在图4中可视化了几个成功和失败的案例。6. 结论在本文中,我们提出了一种新的物体视点预测的重建和对齐方法。我们观察到,以前的观点预测方法要么依赖于大量的类特定的,规范导向的数据,或具有3D模型的对齐。然而,这两个假设并不适用于处理一个新的对象。我们的关键见解是,虽然我们可能无法访问3D模型,但我们可以学习一个深度网络,该网络估计对象在观看者的参考系中的形状,并使用参考视图来确定相对于对象的其他视图的视点。为此,我们建议学习两个网络:第一个网络使用3D特征瓶颈来表示3D中的对象;第二个网络学习两个视图是否对齐。我们在几个数据集上评估了我们的方法。我们发现,当训练模型和测试模型之间存在较大的域偏移时,或者当训练模型本身具有高方差时,我们的方法显着优于标准的视点估计方法。此外,我们发现,尽管没有使用3D监督进行训练,我们仍然可以提取3D占用网格。这提供了充分的证据,我们的模型可以推广到看不见的对象。我们目前的模型在很大程度上依赖于深度输入来准确地重建对象。虽然可能需要2.5D输入来理解新物体的3D结构,但我们希望在未来的工作中探索最大限度地减少这种依赖的方法。此外,我们希望探索优化方法,使我们能够收敛到最佳视点,而不是搜索一组预定的视点。致谢我们要感谢评审员和区域主席的宝贵意见和建议,以及UM AI实验室的成员进行了许多有益的讨论。丰田研究所(3121引用[1] Alexander C Berg,Tamara L Berg,and Jitendra Malik.使用低失真对应的形状匹配和对象识别。在CVPR,2005年。[2] 罗德尼·布鲁克斯。三维模型与二维图像间的符号推理。人工智能,1981年,第17期。[3] Joao Carreira ,Pulkit Agrawal,Katerina Fragkiadaki,and Ji- tendra Malik.迭代误差反馈人体位姿估计。在CVPR,2016年。[4] 天使XChang,Thomas Funkhouser,Leonidas Guibas,Pat Hanrahan , Qixing Huang , Zimo Li , SilvioSavarese , Mano-lis Savva , Shuran Song , Hao Su ,Jianxiong Xiao,Li Yi,and Fisher Yu.ShapeNet:一个信息 丰 富 的 3D 模 型 库 。 技 术 报 告 arXiv : 1512.03012[cs.GR],斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所,2015年。[5] O¨zgu¨ nC¨ic¨ ek , AhmedAbdulkadir , SoerenSLienkamp ,Thomas Brox,and Olaf Ronneberger.3d u-net:从稀疏注释学习密集体积分割。医学影像计算和计算机辅助干预国际会议论文集,2016年。[6] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度NeurIPS,2014。[7] S ov annEn , Al exisLechervy , andFre 'd e 'ricJurie.Rpnet:一个端到端的摄像机相对姿态估计网络。在ECCV,2018。[8] Amir Ghodrati,Marco Pedersoli,and Tinne Tuytelaars.2d信息对于视点估计是否足够?InBMVC,2014.[9] 威廉·埃里克·莱弗尔·格里姆森和丹尼尔·P·胡滕洛彻。计算机识别物体:几何约束的作用。MIT Press,1990.[10] 丹尼尔·P·赫滕洛彻和西蒙·厄尔曼。通过与图像对齐来识别固体对象。国际计算机视觉杂志,5(2),1990年。[11] 杜 庆 辉 3D 旋 转 的 度 量 : 比 较 分 析 。 Journal ofMathematical Imaging and Vision,35(2):155[12] Eldar Insafutdinov和Alexey Dosovitsky使用可微分点云进行形状和姿态的无监督学习。NeurIPS,2018。[13] Abhish e kKa r,ChristianHaíne,andJitendraMalik. 学习多视角立体机。NeurIPS,2017。[14] Kiriakos N Kutulakos和Steven M Seitz。空间雕刻造型理论国际计算机视觉杂志,2000年。[15] Alina Kuznetsova、Sung Ju Hwang、Bodo Rosenhahn和Leonid Sigal。利用跨类的视图特定外观相似性进行零拍摄姿势预测:一种度量学习方法在AAAI,2016。[16] Ke Li,Bharath Hariharan,and Jitendra Malik.迭代实例分割。在CVPR,2016年。[17] 大卫·G·洛从单个二维图像识别三维物体。人工智能,1987年。[18] Siddharth Mahendran,Haider Ali和Rene 'Vidal。使用卷积神经网络的3DInICCV,2017.[19] Xingchao Peng , Baochen Sun , Karim Ali , and KateSaenko.从3d模型中学习深度对象检测器。在ICCV,2015年。[20] Bojan Pepik ,Peter Gehler ,Michael Stark ,and BerntSchiele.3d 2pm-3d可变形零件模型。ECCV,2012年。[21] 劳伦斯·罗伯茨。3D实体的机器感知。麻省理工学院博士论文,1965年。[22] Olaf Ronneberger,Philipp Fischer,and Thomas Brox.U-网:用于生物医学图像分割的卷积网络2015年医学图像计算和计算机辅助干预国际会议[23] 罗杰·谢泼德和杰奎琳·梅茨勒三维物体的心理旋转科学,1971年。[24] 作 者 : Hao Su , Charles R.Qi , Yangyan Li , andLeonidas J.Guibas为cnn渲染:使用用渲染的3d模型视图训练的cnn的图像中的视点估计。在ICCV,2015年。[25] Xingyuan Sun,Jiajun Wu,Xiuming Zhang,ZhoutongZhang , Chengkai Zhang , Tianfan Xue , Joshua BTenenbaum,and William T Freeman.Pix3d:单图像3D形状建模的数据集和方法。在CVPR,2018年。[26] Christian Szegedy , Wei Liu , Yangqing Jia , PierreSermanet , Scott Reed , Dragomir Anguelov , DumitruErhan,Vincent Vanhoucke,and Andrew Rabinovich.更深的回旋。CVPR,2015。[27] MichaelJ.T.和HeinrichH.Bülthof f. 人、猴和机器中基于图像的物体认知,67,1998年。[28] Maxim Tatarchenko,Stephan R Richter,Rene 'Ranftl,Zhuwen Li,Vladlen Koltun,and Thomas Brox.单视图三维重建网络能学到什么?在CVPR,2019年。[29] Jonathan Tremblay Thang To和Stan Birchfield坠落物:用于三维物体检测和姿态估计的合成数据集。在CVPR研讨会,2018年。[30] JonathanTremblay、ThangTo、BalakumarSundaralingam 、 YuXiang 、 DieterFox 和 StanBirchfield。用于语义机器人抓取家用物体的深度物体InCoRL,2018.[31] Hong-Yu Tseng,Shalini De Mello,Jonathan Tremblay,Sifei Liu,Stan Birchfield,Ming-Hsuan Yang,and JanKautz.少拍视点估计。在BMVC,2019。[32] 放大图片作者:A.埃弗罗斯和吉坦德拉·马利克多视图一致 性作 为学 习形 状和 姿态预 测的 监督 信号 。在CVPR,20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功