没有合适的资源?快使用搜索试试~ 我知道了~
基于先验知识的单视图3D重建模型可用于新类别无须再训练,提高多视图重建能力
1基于先验知识的康奈尔大学bw462@cornell.edu康奈尔大学bharathh@cs.cornell.edu摘要最近的单视图三维重建工作显示了令人印象深刻的结果,但已被限制在几个固定的类别,其中广泛的训练数据是可用的。将这些模型推广到具有有限训练数据的新类的问题在很大程度上是开放的。为了解决这个问题,我们提出了一种新的模型架构,重新构建单视图3D重建作为学习,类别不可知的细化提供的,类别特定的先验。为新类别提供的先验形状可以从来自该类别的少至一个3D形状获得。我们的模型可以使用此先验知识从新类开始重建对象,而无需看到该类的任何训练图像,也无需进行任何再训练。我们的模型优于与类别无关的基线,并且与更复杂的基线保持竞争力,这些基线对新类别进行微调。此外,我们的网络能够提高多视图的重建,尽管没有经过多视图重建任务的训练。1. 介绍视觉理解的一个关键方面是恢复场景的3D结构。虽然传统上3D结构的这种恢复使用场景的多个视图,但是最近已经有了使用机器学习技术从单个图像然而,从单个图像重新覆盖3D结构是一个挑战学习问题首先,输出空间不仅非常大(例如,表示为体素,100×100×100网格已经是百万维空间),但也非常结构化:在所有可能的3D形状中,一张椅子的图像,一个非常小的数字是有效的椅子形状。为了表现良好,机器学习算法需要捕获可能的椅子形状的先验。当提供足够的椅子进行训练时,大型的深度网络确实可以捕获这种先验知识,这一直是先前工作所采用的主要方法这就引出了第二个挑战:获取训练数据的成本。用于单视图3D重建的训练数据需要图1.我们在7个基本类别上进行训练,并在6个新类别上测试模型的少镜头迁移能力。我们的模型需要重建对象的图像以及类别特定的先验形状,这可以像单个新类示例一样简单。然后,它可选地在产生重建之前迭代地对此进行细化。3D形状[5]或至少是同一物理对象的多个视图[33]。这样的训练数据可以为少量的类别获得,但是对于我们可能想要重建的每个单个对象类来说,获得这样的训练数据太昂贵了先前的工作试图通过训练类别不可知模型来规避这个问题[32,33],但由于忽略了输出空间中的类别特定结构,这种模型可能表现不佳。因此,我们要求:是否有可能从非常有限的训练数据中捕获用于单图像3D重建的类别特定形状先验?在本文中,我们表明,答案是肯定的。我们提出了一个简单的几次迁移学习方法,可以非常38183819快速学习使用非常少的训练数据重建新的对象类。我们不是训练从RGB图像到3D形状的直接映射,而是训练一个使用图像输入来细化输入先验形状的模型。这种简单的重新参数化允许我们在运行时将新的先验值交换为新的类,从而实现新对象类的单视图重建,而无需额外的训练。我们表明,这大大提高了重建精度超过类别不可知模型。我们发现以这种方式实现先验的额外好处:我们模型的输出可以用作新的先验并反馈到模型中以迭代地改进预测。虽然在[19,15,2]之前已经提出了迭代预测以获得更好的准确性的概念,但在这种情况下,与少次学习的联系是新的。我们证明,这种迭代策略也可以用于开箱即用的竞争性多视图重建,而无需任何多视图训练。我们的方法如图1所示。总结本文的贡献,我们:1. 提出了一种增强的网络架构和训练协议,可以在运行时2. 展示该网络在少量学习上的能力3. 证明该网络2. 相关工作传统上,3D重建的问题已经使用多个视图和几何或光度约束来解决[6,13]。然而,最近卷积网络在识别任务上的成功促使人们研究使用机器学习进行单视图3D重建。这种模式的早期成功由R2N2显示[5]。R2 N2基于多个视图迭代地细化3D再现;这在精神上类似于我们改进先前形状的方法,但重点是多视图重建而不是泛化。后来的工作改进了3D形状的基本表示[7,9,34,23,17,24],用每个训练对象的多个校准视图替换3D训练数据[20,32,33],结合几何学的见解以提高性能[10,36],或对学习过程进行其他改进[26,22]。然而,推广到具有有限训练数据的新类的问题尚未得到充分探讨。在3D recruitment的上下文中,关于泛化的工作是有限的。最近Tatarchenko et al.证明了单视图3D重建模型倾向于从训练集中记忆和检索相似的形状;一个过度拟合的迹象[18]。这表明,更普遍的-有能力的模特是必要的。Yang等人是最早尝试将迁移学习用于3D重建的公司之一,并找到了使用类不可知模型和微调的最佳解决方案[33 ]第33段。我们表明,我们的方法优于这两种解决方案时,训练数据的新类是有限的。类不可知模型如果包含几何约束[36]或利用姿态信息[11],则可能更具通用性。这种使用几何学的想法与我们分离出特定类别先验的洞察力是正交的,实际上是互补的。使用或学习先验知识的概念以前也曾被探讨过。使用先验知识的一种方法是使用对手来实施现实的重建[28,12]。Cher- abier等人使用形状先验从相对较少的数据中学习,但专注于使用语义标记的深度图作为输入的场景重建[3]。3D-VAE-GAN类似于我们利用分类知识的工作[27]。与我们的工作精神更接近的是使用网格作为其底层表示的单视图重建方法,其通常通过使先前的网格变形来起作用[23,9]然而,在所有这些方法中,重点是提高类别内性能,而不是泛化或转移;而这往往是不被评估的。在当代工作中,Wang et al.建议变形源网格以匹配目标形状,但他们的重点是点云配准,而不是单视图重建[25]。我们提出的方法也与在结构化预测问题中使用迭代推理的模型有关这个想法最初是为基于图形模型的更经典的方法提出的[19,15],但最近已被应用于深度网络[2]。单视图重建的迭代方法是Zou等人,他们通过形状基元的顺序连接来构建重建[37]。虽然形状基元有时对复杂形状缺乏表现力,但它们也捕获了一些关于形状的先验信息。我们的工作也与少量迁移学习有关。大多数关于少数学习问题的先前工作集中在分类任务上。该领域的大量近期工作使用了元学习的思想,其中模型使用模拟的少量学习场景进行训练,它将在部署中遇到[21,16,30]。我们的训练过程在这方面是类似的,但侧重于结构化预测,而不是分类。一些关于少数学习的早期工作也有从分类问题的类不可知方面分离出类特定平均形状的概念[14],但本文的关键区别再次在于结构化预测问题。3. 问题设置我们有兴趣从非常有限的训练数据中学习新颖类的单视图3D我们通过少数镜头来处理这个广泛的问题3820学习和迁移学习。我们假设我们有一个大型的3D形状数据集,其中包含一些类的对应图像,我们称之为基类[8]。我们将在这些基类上训练我们的模型。训练后,模型将遇到新的类,我们有非常有限的地面真实3D形状信息。一般来说,我们将假设每个类可以访问1到请注意,我们并不假设这些3D模型配备了相应的图像;我们下面提出的模型仅使用3D模型本身来构造类别特定先验。模型必须使用这些示例3D模型来重建每个类的测试示例的3D形状。最终的性能指标将是其在这些测试示例上的重建特别是,我们遵循先前的工作,并查看预测的形状和地面实况之间的交集。4. 方法4.1. 模型架构我们首先创建一个类别特定的形状之前,在一个体素网格的形式,通过平均的体素表示为一小部分的3D形状可用于新的类。请注意,在此网格中,各个体素可以采用浮点值然后,我们设计了一个类别不可知的神经网络,该网络基于图像输入来细化该神经网络使用两个编码器将图像和类别先验编码到一个公共的嵌入空间中。图像的嵌入和分类先验被加在一起,并被馈送到产生细化形状的解码器中。这种用于少炮预测的方案提供了几个主要优点:1. 只需要很少的运行时间就可以合并少量的信息.形状必须简单地加载和平均,与网络的前向传递相比,这是一个可以忽略的操作2. 不执行网络的再训练。3. 新类别和旧类别的预测方法没有差异4. 可以以这种方式并入多种类型的先验。5. 迁移学习不需要对应的图像,只需要形状。这些可以从设计师创建的CAD模型中获得。迭代预测:因为我们的模型细化了输入形状,所以它的输出可以再次反馈回来,以进一步细化形状。这种迭代细化已被证明是有用的结构化预测问题[19,15,2]。我们在实验中评估了迭代和非迭代版本。实施详情:精确的架构如图2所示。图像编码器将127×127RGB 图 像 作 为 输 入 , 并 通 过 一 系 列 卷 积(3×3,除了初始的7×7)与最大池化层交替进行,并以全连接层结束形状编码器将类别prior作为输入。形状编码器是一系列3维卷积,后面是两个密集层。图像编码器与R2N2使用的相同,形状编码器和解码器与Yang等人[33]采用的架构相似。这两个编码器的输出是长度为128的特征向量,它们在被馈送到发生器之前被求和。LeakyRelu用于两个编码器,α=0。01,α=0。三是“三个半”。形状生成器采用传统的Relu语言在形状生成器的最后一步应用S形激活4.2. 培训对于每个训练数据点,我们从一个基类中采样一个图像,并将相应的地面真实3D形状作为目标。我们的第二个输入,先验形状,由训练集中一些其他同类形状的平均值 对于某些模型,此先验形状是“完全先验”:对训练数据集中的所有形状进行平均。当使用“k-shot”先验时“Full Prior”模型在一个类别内始终具有相同的初始输入形状,而“k-shot”先验网络为每个图像-目标对使用不同的随机生成的先验。我们在图3中显示了每个类别的这个损失就是二进制交叉熵损失.训练迭代模型:为了在迭代设置中训练模型,我们多次重复每个训练批次,其中一次迭代的模型输出作为下一次迭代的输入。对于来自生成器的每个批次,每次使用相同的输入图像和目标形状,并且输入形状在第一步之后改变,作为前一个前向传递的输出(算法1)。实施详情:所有实验都是使用Keras和Tensorflow后端完成的[4,1]。训练是使用Adadelta优化器以32个为一批进行的[35]。使用早期停止,我们的准确性度量是基类上的每个类别平均交集(IoU),输出阈值为0。4.第一章这个阈值在文献中是标准的,在我们的例子中也提供了良好的性能。模型的相对性能保持在不同的阈值。3821图2.我们的模型是双输入的。 第一个输入是使用与3D-R2 N2 [5]完全相同的架构编码的图像。 第二是通过3D卷积编码的体素化先验形状,类似于Yang等人。[33 ]第33段。该发生器类似于Yang等人的发生器。对编码器的128维输出求和。每个Conv2D层之后是2x2 MaxPooling和LeakyRelu,α= 0。01,每个Conv3D层后面都是α= 0的LeakyRelu。3 .第三章。ReLu激活用于发生器。图3.每个类别的整个训练数据集的平均形状。颜色表示给定网格点被占用的模型的频率。红色表示90- 100%,黄色60-90%,蓝色30- 60%。我们看到,飞机、汽车和步枪具有极其一致的形状,而其他类别(如灯和桌子)的先验相对较弱,没有可见的非蓝色网格点。算法1训练迭代细化。1:forepoch in epochsdo2:对于批量做批量3:加载输入图像、输入形状、目标形状从发生器4:对于iter iin 1.. #itersdo5:训练输入图像,输入形状,目标带支撑的6:将输入形状设置为等于模型7:结束8:结束第九章: 端5. 结果5.1. 实验装置我们使用ShapeNet数据集进行实验。13个类别中有7个是指定的基类,并在培训期间使用:飞机、汽车、椅子、显示器、电话、扬声器和桌子(与杨的工作相匹配等[33])。我们使用127×127RGB渲染的模型图像和32×32×32体素化表示。图1中显示了作为输入-目标对的数据示例和5.每个模型都有24个来自随机视点的相关图像。我们使用与R2 N2相同的训练-测试分割,即80-20分割。我们进一步将其分为75- 5-20分割以获得验证集。当在基类上测试时,除非另有说明,否则我们使用完整的先验.对于新类别测试,我们总是报告被平均到先验中的形状的数量。我们考虑迭代和非迭代模型。基线:我们与多个基线进行比较。第一个基线是从图像到3D形状的类别不可知映射。该模型使用相同的图像编码器和形状解码器架构,但不使用任何类别特定的先验作为输入或完全采用新类别数据。这种类别不可知模型在先前的工作中表现非常好[5,33],因此是一个强基线。第二个基线对新类上的仅图像模型进行微调。从多达24个视点呈现K个形状,从而产生在K和24K之间的图像对(取决于模型),然后对图像对进行微调。请注意,此基线使用成对的图像,这对我们的方法是不可用的。我们使用SGD以0.005的学习率微调了200次迭代的模型5.2. 主要结果我们首先在表1中展示了在少数学习设置下的最佳模型变体的结果以及多个基线。我们改变小说类例子的数量3822# Novel类Examples(k)仅图像基线Finetune1渲染Finetune5渲染Finetune24渲染1-迭代1-快照单次拍摄0.360.380.380.390.382-拍摄0.360.380.390.400.39三发0.360.380.390.410.394-拍摄0.360.390.400.420.395次射击0.360.390.400.420.4010杆0.360.390.420.440.40前全额0.360.40表1.新类的学习结果很少。仅图像基线根本不包含新类别信息。“1-Iteration 1-shot”模型是使用1-shot先验训练的非迭代模型,并使用由来自训练类别的k个平均形状组成的先验进行我们看到,尽管没有图像监督或再培训,我们的模型提供了有竞争力的性能,特别是在非常低的拍摄制度。报告的分数是类别平均IoU。当同时对所有类进行训练时,相同的仅图像基线架构实现了0.55 IoU。每个实验我们运行3-5次,σIoU为<0。01.形状可用,并评估所有新类别的平均IoU模型。图4绘制了包含不同信息量的先验模型的性能。我们观察到,我们最好的模型变体(在1次先验上训练的1次迭代)在新类别上的表现明显优于类别无关基线,这表明类别先验的有用性与基于微调的方法相比,我们的方法优于每个模型看到一个渲染的变体,并且与每个模型看到五个图像的变体具有竞争力。请注意,微调方法比我们的方法看到的信息要多得多,我们的方法根本得不到新颖类的图像。此外,与微调方法不同,我们的模型根本不需要对目标类进行再培训。因此,任何新的类都可以简单地通过添加相应的先验知识来添加到我们的模型此外─图4. 1次迭代1次训练的模型对每个模型1个视图调整的各种基线的性能。我们看到,大部分的改善(60%)来自前1到3个镜头。图5.地面实况和图像预测形状的示例。 请注意,类别lamp不在我们的训练集中,我们使用先验来实现对这个先前看不见的类别的泛化。# Novel类示例1-迭代完全先验2-迭代完全先验3-迭代完全先验2-迭代1-Shot先验单次拍摄0.340.36/0.370.34/0.37/0.380.38/0.382-拍摄0.360.38/0.380.37/0.39/0.380.39/0.38三发0.360.38/0.380.38/0.39/0.390.39/0.384-拍摄0.360.39/0.380.39/0.39/0.390.39/0.385次射击0.370.39/0.380.39/0.39/0.390.39/0.3810杆0.370.39/0.390.40/0.40/0.390.39/0.3825发0.370.40/0.390.40/0.40/0.390.40/0.38前全额0.370.40/0.390.41/0.40/0.390.40/0.38表2.对新类的少量学习结果用于其他模型变体。模型的训练和测试迭代次数相同设置如表1所示。每个模型的最佳性能迭代都有下划线。此外,如图4所示,我们发现,很少有新的类形状需要这个先验:在只有5个形状的情况下,我们的模型在类别不可知的基线上获得了4个点的增益。图5显示了示例预测。我们在表2中包括了我们模型的其他变体的结果。我们注意到,在不同的模型变量中,执行迭代推理的模型并不比1-迭代1-shot模型更好。此外,对于信息量更大的先验,迭代不会带来任何收益,有时甚至会损害新的类。尽管有这些缺点,我们确实发现它们在多视图设置中证明是有用的(第二节)。5.3)。在表3中,我们看到新类的改进我们还包括原始工作中提出的R2N2网络的平均性能,以表明我们在所有13个类别上训练时的基线略好,因此可以使用非常强大的控制架构。5.3. 多视图重建在实践中,通常情况下,我们想要重建的对象有不止神经网络3823方法浏览次数=12345基类R2N2 [5]0.580.620.640.640.65LSM [11]0.600.710.750.77-3-迭代0.610.630.630.630.64一次迭代一次激发0.620.620.620.620.62新颖类3-迭代0.340.380.400.400.41一次迭代一次激发0.390.390.390.390.39表3.培训类别结果汇总。模型在训练类别的测试数据集上进行测试。使用的先验与训练期间相同。我们的模型对训练类别上拟合的仅图像基线进行这个基线大大优于R2N2,我们认为这主要是由于分类负荷减少。从未校准视图进行多视图重建的方法通常使用如R2N2中的递归神经网络。然而,由于我们的模型被构建为细化先验,我们可以迭代地使用它,在每一步都输入新的图像表4显示了我们的两个最好的变种,蚂蚁在多视图设置的基础和小说类的性能。我们展示了在1次先验上训练的非迭代模型(表1中的最佳表现)以及在完整先验上训练的3次迭代模型。对于基类,我们使用完整的类别先验并与R2N2进行比较对于小说类,我们使用1杆先验。我们发现,在基类上,我们的3次迭代模型显着提高了其单视图精度,并在没有任何多视图训练的情况下实现了与R2N2竞争的性能。访问多个视图对于新类更有好处,性能提高了近7个点。这也是尽管没有在多视图任务上进行训练,并且只给出了1个示例形状来学习。有趣的是,非迭代模型无法从额外的图像中受益。这表明,当目标任务需要迭代细化时,迭代细化的训练可能是必要的,即使它只是单视图训练。5.4. 分析如上所示,我们的方法在训练数据非常有限的情况下,对单视图和多视图重建都我们现在对我们的结果进行全面分析,包括以下问题:1. 性能改进如何在类别和示例上分解?表4.基础类别(顶部)和新类别(底部)的多视图性能(IoU)。对于基类,我们将其与R2N2(我们的架构是其增强版本)和学习立体机器(一种使用提供的姿势信息将像素反向投影到规范的共享参考帧中的方法)进行比较。一个完整的先验被用于基本类和1杆先验被用于新的类。该模型迭代方案可以适应多视图重建,尽管没有在任务上训练,但仍显示出图6.在这里,我们按照每个模型-类别对的递增顺序绘制IoU我们看到,我们的两种新型号在步枪和船只上的表现都大大优于基准。使用了10次注射。请注意,这与图7中所示的数据相同。2. 先验知识有多重要3. 这种方法可以用于真实世界的图像吗?5.4.1分析性能分布虽然我们已经提出了迁移学习任务的平均IoU,但这并没有解决这些统计结果是如何实现的问题(例如,翻译的差异或一些特别强的重建)。为了确定原因,我们首先通过在图6中绘制三个类别和模型的IoU来查看错误分布。这里使用10次射击先验。我们看到,准确度的提高主要不是来自于大幅增加高准确度重建形状的数量,而是减少了训练过程培训班基础级性能R2N2所有0.581次迭代之前没有所有0.591次迭代之前没有基地0.621次迭代完全先验基地0.632迭代完全先验基地0.62/0.623次迭代完全先验基地0.61/0.61/0.611次迭代1次拍摄之前基地0.622次迭代1次优先基地0.61/0.613824重建的形状很差例如,在步枪中,超过一半的情况下基线的IoU小于0.1,而对于我们的模型,这个数字小于17%。在分析了性能的分布之后,我们现在在图7中绘制了相同输入下模型性能之间的关系。我们看到,我们的模型在绝大多数数据点的基线性能上有所改进。我们证实,我们的新模型减轻了许多糟糕的预测,这一点可以从基线IoU约为0.2的集群中得到证明,而我们的模型实现了两倍或更多。图7还显示了一个重构发生显著变化的示例实例,并演示了这种性能差异的原因。船舶是非常细长的,在训练集中唯一细长的类别是飞机. 然而,飞机有翅膀,船只也有翅膀。没有基线依赖于它在飞机上学习的先验知识,错误地将机翼包括在再现中。相比之下,我们的模型使用提供的先验来避免这个错误。值得注意的是,我们的模型在没有任何重新训练的情况下做到了这一点,仅仅是凭借将先验与重建问题的其他方面分离开来。图7. 血管模型性能与彼此的散点图。请注意,单位线上的一个点在两个模型上具有相等的基线和3迭代模型对红色数据点的预测显示在底行中。使用了10次注射前面的讨论还表明,对不同类别的改进应该根据类在形状分布方面与基本类别集的距离而有所不同。为了验证这一点,我们在表5中给出了基线、3次迭代全先验和1次迭代1次模型的每类别准确度。我们看到,这两种新型号在步枪和船只上的表现令人印象深刻,而在橱柜上的表现则很差。回到图3所示的平均形状,我们注意到,船只和步枪,我们的模型表现最好的两个类别,都非常细长。训练集中唯一拉长的类别是飞机。与此同时,橱柜网有一个简单的块状先验。我们假设,这使得先验知识对学习的用处不大,因为这种基本的从图像中推断形状是非常简单的。5.4.2先验的重要性在为模型实现先验时,需要问的一个必要问题人们可以假设,我们看到的改进结果可能是由于模型简单地简化了输入先验。为了测试这一点,我们用一个简单的基线进行了实验,该基线简单地输出先验,而根本不考虑图像在表5的最右侧列中,我们使用1次先验显示了这种基线的平均IoU。我们看到,虽然这种天真猜测的性能与我们的模型在其与基线性能的差异方面相关,但它的性能明显比我们的两个模型差我们还测试了最多25个镜头先验的朴素先验猜测的性能,从未观察到类别方面的IoU大于0.30。这表明我们的模型确实提供了有价值的推断,并且正是先验与此推断的组合产生了性能。在先验质量的另一个极端,我们尝试使用目标形状作为输入先验,其中1次迭代1次模型在训练类别上实现了0.64的IoU,在新类别上实现了0.41的IoU。这可能是因为网络将提供的先验与图像信息以及从其他类别学习的一般形状先验相结合,这确实是预期的行为。最后,我们注意到,在同一图像-目标对上使用不同的1- shot形状会导致得分分布,σ= 0。05.不准确先验的性能我们的框架的一个假设是在运行时的分类知识,允许- ING选择一个先验的形状。 正如我们所展示的,这种假设能够提高新类别的性能。在图8中,我们通过实验来观察当这个假设被打破时会发生什么。我们在新类别上运行我们的模型,类别基线3-迭代1-迭代1-快照1-Shot猜测长椅0.370.39(5.4%)0.37(0.0%)0.13(-64%)柜0.660.62(-6.5%)0.66(0.0%)0.29(-56%)灯0.180.19(5.6%)0.19(5.6%)0.11(-40%)沙发0.500.51(2.0%)0.52(4.0%)0.33(-35%)船只0.330.37(12%)0.38(15%)0.22(-34%)步枪0.120.16(33%)0.19(58%)0.27(120%)是说0.360.370.390.23表5.按类别转移性能。两个模型均使用1次先验最右边的一列是从训练集中天真地猜测随机形状的结果我们的模型的准确性与1次猜测的准确性相关,但在1次猜测非常差时避免大的错误。3825模型培训类别(验证)小说类别仅图像0.400.26单次单次迭代0.500.37图8.在迭代中的性能,模型从随机训练/测试类别中获得1次先验。绿线是0.36的转移基线。我们看到,模型从来没有达到基线性能,确认的必要性,分类知识时,实现所提出的框架。其他随机选择的类别。我们看到模型从未达到基线性能,这意味着分类信息对于获得我们所看到的改进是必要的。这可能被解释为所提出的框架的缺点在实践中,给定图像分类的高级状态,在测试时的类别的知识是有效的假设。实际上,这种解释在先前的单视图重建工作中是常见的[33,7]。值得注意的是,当给定不正确的先验时,使用1次先验训练的1次迭代模型的性能在传输任务上比其他模型受到的影响要小我们假设,鉴于1-shot输入先验的高可变性,该模型比其他模型更少依赖于先验。5.4.3应用于野外图像我们在PASCAL 3D+ [29]上微调1次1次迭代模型。我们 训 练 所 有 13 个 ShapeNet 类 别 和 10 个 不 可 变 形PASCAL 3D+类别中的7个。我们提供自行车、摩托车和火车,因为ShapeNet数据集中没有这些类别。如表6所示,我们的模型在训练和测试类别上都远远优于仅图像架构。 由于PASCAL模型的变化极低,因此应谨慎考虑这些结果,如原始PASCAL 3D+论文[29]所述正如Tatarchenko等人所观察到的,检索技术在PASCAL上工作得非常好,解释了为什么表6.在PASCAL 3D+的常见类别上微调ShapeNet训练模型的结果。这是一个很好的例子[18]。6. 今后工作所提出的分离出类别特定先验作为额外输入的想法也可以应用于使用其他形状表示的其他单视图重建方法。先验可以从其他来源获得,例如CAD模型或基于几何的推理。Tatarchenko et al.也表明,一个简单的基于类别的方法可以产生国家的最先进的结果重建,这意味着我们的技术和他们的可能交叉。这种分离出类别特定先验和学习的类别不可知细化的观点也可以应用于许多计算机视觉回归问题(例如,分割或形状完成),其具有相对较少的镜头转移工作。7. 结论总之,我们提出了一个新的3D重建框架,它显著提高了对训练数据有限的新类的泛化能力,并免费提供我们的模型有两个输入:要与形状先验一起重建的对象的典型图像。通过输入平均值作为先验,可以使用由形状模型组成的少镜头知识。然后,这样的模型可以通过使用自己的输出作为先验来进行迭代预测。我们的模型不需要新的阶级形象,也不需要重新训练。我们发现,我们的模型提供了远低于基线的极差重建。我们发现,该框架表现良好的多视图重建任务。这一发现特别令人惊讶,因为该模型从未在多视图上训练过。这里的结果表明,明确的分类信息和先验知识可以是一个强大的工具,在三维重建。引用[1] Mart´ın Abadi,Ashish Agarwal,Paul Barham,EugeneBrevdo,Zhifeng Chen,Craig Citro,Greg S. Corrado,Andy Davis , Jeffrey Dean , Matthieu Devin , SanjayGhemawat , IanGoodfellow , Andrew Harp , GeoffreyIrving , MichaelIsard , YangqingJia , RafalJozefowicz,Lukasz Kaiser,Man-junathKudlu r,JoshLev enbe r g,DanMan e´,RajatMon g a,Sherry Moore,Derek Murray , Chris Olah , Mike Schuster , JonathonShlens,Benoit Steiner,Ilya Sutskever,Kunal Tal war,Paul Tucker , Vincent Vanhoucke , Vijay Vasudevan ,Fer-3826nandaVie‘g as,OriolV in yals,PeteW arden,MartinWatten-[18]马克西姆·塔塔哈尔琴科, Stephan R Richter,Rene´兰夫特尔berg,Martin Wicke,Yuan Yu,and Xiaoqiang Zheng.张量-流量:异构系统上的大规模机器学习,2015年。软件可从tensorflow.org获得。3[2] Joao Carreira ,Pulkit Agrawal,Katerina Fragkiadaki,and Ji- tendra Malik.迭代误差反馈人体位姿估计。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月。二、三[3] Ian Cherabier , Johannes L Schonberger , Martin ROswald,Marc Pollefeys,and Andreas Geiger.学习三维重建的先验知识。在欧洲计算机视觉会议(ECCV)的会议记录中,第314-330页,2018年。2[4] Francois Chollet et al.K 时 代 https://keras.io ,2015年。3[5] Christopher B Choy , Danfei Xu , JunYoung Gwak ,Kevin Chen,and Silvio Savarese. 3d-r2 n2:用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上,第628-644页施普林格,2016年。一、二、四、六[6] 古川康孝和让·庞塞。准确、密集、坚固的多视图立体视觉。TPAMI,32(8):1362-1376,2010. 2[7] 放 大 图 片 作 者 : David G. Kim , Bryan Russell ,andMathieuAubry. AtlasNet:一个学习3D表面生成的方法。在CVPR,2018年。二、八[8] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低 镜头 视觉识 别。 在IEEE国际 计算 机视觉 会议(ICCV)上,2017年10月。3[9] 放大图片作者:Angjoo Kanazawa,Shubham Tulsiani,Alexei A.埃弗罗斯和吉坦德拉·马利克从图像集合学习特定类别的网格在ECCV,2018。2[10] Abhish e kKa r,ChristianHaíne,andJitendraMalik. 学习多视角立体机。神经信息处理系统的进展,第365-376页,2017年。2[11] Abhish e kKa r,ChristianHaíne,andJitendraMalik. 学习多视角立体机。2017. 二、六[12] 加藤博治和原田达也。单视图三维重建的视图先验学习。CoRR,abs/1811.10719,2018。2[13] Kiriakos N Kutulakos和Steven M Seitz。空间雕刻造型理论国际计算机视觉杂志,38(3):199-218,2000。2[14] Erik G Miller,Nicholas E Matsakis,and Paul A Viola.通过变换上的共享密度从一个示例中学习。在CVPR,2000年。2[15] Stephane Ross,Daniel Munoz,Martial Hebert,and J.安德鲁·巴内尔。学习用于结构化预测的消息传递推理机。CVPR,2011。二、三[16] Jake Snell,Kevin Swersky,and Richard S Zemel.用于少量学习的原型网络。在NIPS,2017年。2[17] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。八叉树生成网络:用于高分辨率3d输出的高效卷积架构。在IEEE计算机视觉国际会议论文集,第2088-2096页2Zhuwen Li,Vladlen Koltun,and Thomas Brox.单视图三维重建网络能学到什么?在IEEE计算机视觉和模式识别会议论文集,第3405-3414页,2019年。二、八[19] 涂卓文。自动上下文及其在高级视觉任务中的应用。在CVPR,第1-8页,2008中。二、三[20] 放大图片作者:A.埃弗罗斯和吉坦德拉·马利克多视图一致 性作 为学 习形 状和 姿态预 测的 监督 信号 。在CVPR,2018年。2[21] 作者:George,Charles Blundell,Timothy Lillicrap,Daan Wierstra,et al.匹配网络进行一次性学习。在神经信息处理系统的进展,第3630-3638页,2016年。2[22] 王梦,王灵静,方毅。3densinet:一个从2D图像预测3D体对象的鲁棒神经网络架构。第25届ACM国际多媒体会议论文集,第961- 969页。ACM,2017。2[23] Nanyang Wang , Yinda Zhang , Zhuwen Li , YanweiFu,Wei Liu,and Yu-Gang Jiang. Pixel2mesh:从单个rgb图像生成3d网格模型。在欧洲计算机视觉会议(ECCV)的会议记录中,第522[24] Peng-Shuai Wang,Yang Liu,Yu-Xiao Guo,Chun-YuSun,and Xin Tong. O-cnn:用于3D形状分析的基于八叉树的卷积神经网络。ACM Transactions on Graphics(TOG),36(4):72,2017。2[25] Weiyue Wang , Duygu Ceylan , Radomir Mech , andUlrich Neumann. 3dn:三维变形网络。 在IEEE计算机视觉和模式识别会议论文集,第1038-1046页,2019年。2[26] Jiajun Wu,Yifan Wang,Tianfan Xue,Xingyuan Sun,Bill Freeman,and Josh Tenenbaum. Marrnet:通过2.5D草图进行3D形状重建。神经信息处理系统的进展,第540-550页,2017年。2[27] Jiajun Wu , Chengkai Zhang , Tianfan Xue , BillFreeman,and Josh Tenenbaum.通过3d生成对抗建模学习物体形状神经信息处理系统的进展,第82- 90页,2016年2[28] 吴 嘉 俊 , 张 承 凯 , 张 秀 明 , 张 周 通 , William T.Freeman和Joshua B.特南鲍姆学习形状先验的单视图三维完成和重建。在欧洲计算机视觉会议(ECCV),2018年9月。2[29] Yu Xiang,Roozbeh Mottaghi,and Silvio Savarese.超越Pascal : 野 外 三 维 物 体 检 测 基 准 。 IEEEWinterConferenceonApplicationsofComputerVision(WACV),第75-82页,2014年。8[30] Yu xiong Wang,Ross Girshick,Martial Herbert,andBharath Hariharan.从假想数据中进行低拍摄学习。在CVPR,2018年。2[31] 徐冰,王乃妍,陈天启,慕丽。卷积网络中校正激活的经验评估。arXiv预印本arXiv:1505.00853,2015。33827[32] Xinchen Yan,Jimei Yang,Ersin Yumer,Yijie Guo,and Honglak Lee.透视Transformer网络:学习单视图三维物体重建,无需三维监督。在NeurIPS,第1696-1704页,2016年。一、二[33] 杨冠道、崔银、塞尔日·贝隆吉和巴拉斯·哈里哈兰。学习单视图三维重建与有限的姿态监督。在欧洲计算机视觉会议论文集(ECCV)中,第86-101页,2018年。一二三四八[34] 杨耀青、陈锋、沈一如、冬天。折叠- ingnet:通过深度网格变形的点云自动编码器。在CVPR,2018年。2[35] 马修·D·泽勒Adadelta:一种自适应学习率方法。arXiv预印本arXiv:1212.5701,2012。3[36] Xiu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功