没有合适的资源?快使用搜索试试~ 我知道了~
2690Pix2Vox:从单视图和多视图图像进行上下文感知的3D重建谢浩哲 洪勋 Xiaoshuai Su n<$ 上臣周宇 张升平g <$$><$哈尔滨工业大学感知时间研究所<$鹏程实验室<${谢晓,姚海,张晓帅}@hit.edu.cnhttps://haozhexie.com/project/pix2voxzhoushangchen@sensetime.com摘要通过深度神经网络从单视图或多视图RGB图像恢复对象的3D表示在过去几年中引起了越来越多的关注。几个主流作品(例如,3D-R2 N2)使用递归神经网络(RNN)来融合从输入图像顺序提取的多个特征图。然而,当给定相同的输入图像集合具有不同的或-der时,基于RNN的方法无法产生一致的重建结果。此外,由于长期记忆丧失,RNN无法充分利用输入图像来细化重建结果。为了解决这些问题,我们提出了一个新的框架,单视图和多视图的三维重建,命名为Pix2Vox。通过使用设计良好的编码器-解码器,它从每个输入图像生成粗略的3D体积。然后,上下文感知融合模块,0.660.640.620.600.580.560.5410 20 30 40 50 60 70 80 90前向推理时间(ms)被引入以自适应地为每个部分选择高质量的重建(例如,桌腿),以获得融合的3D体积。最后,细化器进一步细化融合的3D体积以生成最终输出。ShapeNet和Pix3D基准测试的实验结果表明,所提出的Pix2Vox的性能大大优于最先进的技术。此外,所提出的方法在向后推理时间方面比3D-R2 N2快24倍。在ShapeNet不可见3D类别上的实验表明,该方法具有较好的泛化1. 介绍三维重建是机器人、CAD、虚拟现实和增强现实等领域的一个重要问题。传统的方法,如运动恢复结构(SfM)[14]和同步定位和映射(SLAM)[6],跨视图匹配图像特征。然而,当多个视点由于局部外观变化或自遮挡而被大幅度分离时,建立特征对应变得极其困难[12]。为了克服这些局限性,几种基于深度学习的 方 法 , 包 括 3D-R2 N2 [2] , LSM [9] 和 3DensiNet[27],已经图1:前向推理时间、模型大小和最先进的技术和我们在ShapeNet测试集上进行单视图3D重建的方法每个圆的半径表示相应模型的大小Pix2Vox在前向推理时间方面优于最先进的技术,并在准确性和模型大小之间达到了最佳平衡。提出了一种三维形状恢复方法,并取得了良好的效果。为了生成3D体积,3D-R2 N2 [2]和LSM [9]将多视图3D重建模拟为序列学习问题,并使用递归神经网络(RNN)融合由共享编码器从输入图像中提取的多个特征图。当一个对象的更多视图可用时,特征图会逐渐细化然而,基于RNN的方法受到三个限制。首先,当给定具有不同顺序的同一组图像时,由于置换方差,RNN无法一致地估计对象的3D形状[26]。其次,由于RNN的长期记忆丧失,无法充分利用输入图像来优化重建结果[15]。最后但同样重要的是,基于RNN的方法非常耗时,因为输入图像是按顺序处理的Pix2Vox-Aters阿拉姆#P5 M10米M50M1002R2n3D-NOGPSGNVox-FPix2并集上的交集(IoU)2691细化剂vrv&融合体积最终体积输入图像特征图粗粒化图2:建议的Pix2Vox概述该网络从任意(未校准)单个或多个图像中恢复3D对象的形状当有更多的输入图像可用时,可以改进重建结果。注意,编码器和解码器的权重在所有视图之间共享。没有并行化[8]。为了解决上述问题,我们提出了Pix2Vox,这是一种用于单视图和多视图3D重建的新框架,包含四个模块:编码器、解码器、上下文感知融合和细化器。编码器和解码器并行地从多个输入图像生成粗略的3D体,这消除了输入图像的顺序的影响,并且加速了计算。然后,上下文感知融合模块从所有粗略的3D体积中选择高质量的重建,并生成融合的最后,细化器进一步校正融合的3D体积的错误恢复部分为了在准确性和模型大小之间实现良好的平衡,我们实现了所提出的框架的两个版本:Pix 2 Vox-F和Pix 2 Vox-A(图1)。这些捐款可归纳如下:• 我们提出了一个统一的框架,单视图和多视图的三维重建,即Pix2Vox。我们为Pix2Vox配备了精心设计的编码器,解码器和细化器,这表明它具有强大的处理合成和真实世界图像中3D重建的能力。• 我们提出了一个上下文感知的融合模块,以自适应地选择高质量的重建,为每个部分从不同的粗糙的3D体积并行产生的整个对象的融合重建。据我们所知,这是第一次利用跨多个视图的上下文进行3D重建。• ShapeNet [33]和Pix3D[22]数据集表明,所提出的方法在准确性和效率方面优于最先进的方法。另外的实验也显示了它在重建不可见的3D物体方面的强大泛化能力。2. 相关工作单视点三维重建从理论上讲,从单视点图像恢复三维形状是一个不适定问题。为了解决这个问题,已经进行了许多尝试,例如ShapeFromX [1,18],其中X可以表示轮廓[4],阴影[16]和纹理[30]。然而,这些方法几乎不适用于现实世界的场景,因为它们都需要强大的假设和丰富的自然图像专业知识[35]。随着生成对抗网络(GAN)[7]和变分自动编码器(VAE)[11]的成功,3D-VAE-GAN [32]采用GAN和VAE通过将单视图图像作为输入来生成3D对象。然而,3D-VAE-GAN需要用于重建的类标签。MarrNet [31]通过估计2D图像的深度、表面法线和轮廓来重建3D对象,这具有挑战性,通常会导致严重失真[24]。OGN [23]和O-CNN [29]使用八叉树来表示具有有限内存预算的更高分辨率体积3D对象。然而,由于八叉树表示的复杂性,OGN表示是复杂的并且消耗更多的计算资源PSGN [5]和3D-LMNet [13]从单视图图像生成点云然而,由于点之间的有限连接,点在点云表示中具有很大的自由度。因此,这些方法不能准确地恢复3D体积[28]。多视图3D重建SfM [14]和SLAM [6]方法在处理许多场景中是成功的。这些方法匹配图像之间的特征,并估计每个图像的相机姿态。然而,匹配过程变得困难时,多个视点是由一个大的利润率分离。此外,在重建之前扫描物体的所有表面有时是不可能的,这导致具有遮挡或挖空区域的不完整3D形状[34]。由3D CAD模 型 的 大 规 模 数 据 集 提 供 支 持 ( 例 如 , ShapeNet[33]),深度学习-编码器解码器vc1编码器解码器vc$编码器解码器vcn上下文感知融合2692输入图层输出图层卷积层转置卷积层编码器解码器细化剂图3:(上)Pix 2 Vox-F和(下)Pix 2 Vox-A的网络架构。EDLoss和RSoss如公式3所定义。为了减小模型大小,Pix 2 Vox-F中删除了细化器。已经提出了用于3D重建的基于的方法。3D-R2 N2 [2]和LSM [9]都使用RNN从单个或多个输入图像中推断3D形状,并取得了令人印象深刻的结果。然而,RNN是耗时的和置换可变的,这产生不一致的重建结果。3DensiNet [27]使用最大池来聚合来自多个图像的特征。然而,最大池化仅从特征提取最大值,这可能忽略对3D重建有用的其他有价值的特征3. 述的方法3.1. 概述Pix2Vox的目标是从单个或多个RGB图像重建物体的3D对象的3D形状由3D体素网格表示,其中0表示空单元,1表示占用单元。Pix2Vox的关键组件如图二、首先,编码器从输入图像产生特征图。其次,解码器将每个特征图作为输入,并相应地生成粗略的3D体积。第三,单个或多个3D体积被转发到上下文感知融合模块,该上下文感知融合模块从粗略3D体积中自适应地选择最后,具有跳过连接的细化器进一步细化融合的3D体积以生成最终的重建结果。3.2. 网络架构图3显示了Pix 2 Vox-F和Pix 2 Vox-A的详细架构。前者涉及的参数较少,计算复杂度较低;后者涉及的参数较多,可以构造出更精确的三维形状,但计算复杂度较高。3.2.1编码器编码器用于计算一组特征,以供解码器恢复对象的3D形状。前九个卷积层,以及相应的批量归一化层和在ImageNet [3]上预训练的VGG16 [20]的ReLU激活,用于从224×224×3图像中提取512×28×28该特征提取之后是三组2D卷积层、批归一化层和ELU层,以将语义信息嵌入到特征向量中。在Pix 2 Vox-F中,第一个卷积层的内核大小为12,而其他两个卷积层的内核大小为32。卷积层的输出通道的数量从512开始,并且对于后续层减少一半,并且以128结束。在Pix 2 Vox-A中,三个卷积层的核大小分别为3.2、3.2和1.2三个卷积层的输出通道分别为512、512和256在第二个卷积层之后,有一个最大池化层,其内核大小为32,42分别在Pix 2Vox-F和Pix 2 Vox-A中。Pix 2 Vox-F和Pix 2 Vox-A产生的特征向量的大小分别为2048和163843.2.2解码器解码器负责将2D特征图的信息转换为3D体积。在Pix 2Vox-F和Pix 2 Vox中都有五个3D转置卷积层A.具体地,前四个转置卷积层的内核大小为4× 3,步幅为2,填充为1。有一个额外的转置卷积层,具有一组13滤波器。每个转置卷积层后面是一个批处理归一化层和一个ReLU活动层。除了最后一层,后面跟着一个S形函数。在Pix 2 Vox-F中,转置卷积层的输出通道的数量是128、64、32、8和1,因此,预训练VGG16EDLossRSoss预训练VGG16EDLoss224×224×3图片224×224×3图片32 ×64conv2D32 ×64conv2D32 ×64conv2D22MaxPool32 ×128conv2D32 ×64conv2D22MaxPool32 ×128conv2D32 ×128conv2D22MaxPool32 ×256conv2D32 ×128conv2D22MaxPool32 ×256conv2D32 ×256conv2D32 ×256conv2D32 ×256conv2D22MaxPool32 ×512conv2D32 ×256conv2D22MaxPool32 ×512conv2D32 ×512conv2D12 ×512conv2D32 ×512conv2D32MaxPool12 ×256conv2D重塑为2048x2*32 ×256conv2D42MaxPool32 ×128conv2D重塑为256x2*4* ×512dconv3D4* ×128dconv3D4* ×128dconv3D4* ×64dconv3D4* ×32dconv3D4* ×32dconv3D4* ×8dconv3D4* ×8dconv3D1* ×1dconv3D乙状1* ×1dconv3D乙状32*容量32*容量4* ×32conv3D2*墨尔本美居酒店4* ×64conv3D2*墨尔本美居酒店4* ×128conv3D2*墨尔本美居酒店FC层(dim=2048)FC层(dim=8192)重塑为128x4*4* ×64dconv3D4* ×32dconv3D4* ×1dconv3D乙状32*容量2693RRRn输入图像粗粒化分数图融合体积1.00.80.60.40.20.0整个对象(图4)。如图5所示,给定粗略3D体积和相应的上下文,上下文感知融合模块为每个粗略体积生成分数图,然后根据其分数图通过所有粗略体积的加权求和将它们融合成一个体积。在上下文感知融合模块中保留了体素的空间信息,因此Pix2Vox可以利用多视图信息更好地恢复物体的结构。具体地,上下文感知融合模块通过级联解码器中的最后两个层的输出来生成第r个粗体积v然后,上下文评分网络为第r个粗体素的上下文生成分数mr。上下文评分网络由五组3D卷积层组成,每组它的内核大小为33,填充为1,然后是批量归一化和泄漏ReLU激活。的图4:在上下文中的分数图的可视化感知融合模块上下文感知融合模块为高质量的重建生成更高的分数,这可以消除丢失或错误恢复的部分的影响。卷积层的输出信道的数目分别是9、16、8、4和1上下文cr的学习得分mr在所有学习得分上被归一化 我们选择softmax作为归一化函数。因此,第r个体素的位置(i,j,k)的分数s(特征图上下文分数图.expΣ(i,j,k)Rs(i,j,k)=.Σ(1)伦p=1 exp(i,j,k)p其中n表示视图的数量最后,通过将粗体素与对应分数的乘积相加来产生融合的vo x elvf。Σn图5:上下文感知融合模块的概述它旨在为每个部分选择高质量的重建来构建最终结果。边界框中的对象描述了粗略的3.2.4精磨机vf=r=1sr vc(二)卷vc.其他分数按照相同的程序计算。注意,上下文评分网络的权重在不同视图之间共享。分别为。在Pix 2 Vox-A中,五个转置卷积层的输出通道的数量分别为512、128、32、8和1解码器在对象的规范视图中输出32× 33.2.3上下文感知融合从不同的视角,我们可以看到物体的不同可见可见部分的重建质量远高于不可见部分的重建质量。受此观察的启发,我们提出了一个上下文感知融合模块,用于自适应地为每个部分选择高质量的重建(例如,表腿)从不同的粗略3D体积。融合所选重建以生成3D体积精炼器可以被看作是一个剩余网络,其目的是纠正3D体积的错误恢复部分。它遵循具有U-网连接的3D编码器-解码器的思想[17]。在编码器和解码器之间的U-网连接的帮助下,融合卷中的局部结构具体来说,编码器有三个3D卷积层,每个层都有一个填充为2的4× 3滤波器组,后面是一个批处理归一化层,一个泄漏ReLU激活层和一个内核大小为2× 3的最大池化层。卷积层的输出通道的数量分别为32、64和128编码器最后是两个完全连接的层,尺寸为2048和8192。解码器由三个转置卷积层组成,每个转置卷积层都有一组4个3滤波器,填充为2,步长为1。除了最后一个转置卷积层后面是sigmoid函数之外,其他层后面是批量归一化层和ReLU激活。地面实况C+nC2nCn上下文评分/ n*nconcatn粗略容积v$C++C2+上下文c+Sc或ing/+*+concatv………………………………4 ×8dconv3D评分规范化1 ×1dconv3D乙状MM2694表1:ShapeNet上的单视图重建,使用Intersection-over-Union(IoU)进行比较。每个类别的最佳数字以粗体突出显示。请注意,DRC [25]是按类别训练/测试的,PSGN [5]将对象掩码作为额外的输入。此外,PSGN在训练过程中使用220k 3D CAD模型,而其余方法仅使用44k 3D CAD模型。类别3D-R2N2 [2]OGN [23]刚果民主共和国[25]PSGN [5]Pix2Vox-FPix2Vox-A飞机0.5130.5870.5710.6010.6000.684板凳0.4210.4810.4530.5500.5380.616内阁0.7160.7290.6350.7710.7650.792车0.7980.8280.7550.8310.8370.854椅子0.4660.4830.4690.5440.5350.567显示0.4680.5020.4190.5520.5110.537灯0.3810.3980.4150.4620.4350.443扬声器0.6620.6370.6090.7370.7070.714步枪0.5440.5930.6080.6040.5980.615沙发0.6280.6460.6060.7080.6870.709表0.5130.5360.4240.6060.5870.601电话0.6610.7020.4130.7490.7700.776船只0.5130.6320.5560.6110.5820.594整体0.5600.5960.5450.6400.6340.661表2:使用Intersection-over-Union(IoU)比较ShapeNet上的多视图重建不同视图数的最佳结果标记丨指示上下文感知融合被平均融合替换。方法1视图2个视图3个视图4个视图5查看次数8次浏览12次浏览16浏览次数20次浏览3D-R2N2 [2]0.5600.6030.6170.6250.6340.6350.6360.6360.636Pix2Vox-F †0.6340.6530.6610.6660.6680.6720.6740.6750.676Pix2Vox-F0.6340.6600.6680.6730.6760.6800.6820.6840.684Pix2Vox-A†0.6610.6780.6840.6870.6890.6920.6940.6950.695Pix2Vox-A0.6610.6860.6930.6970.6990.7020.7040.7050.7063.2.5损失函数网络的损失函数被定义为重建对象和地面实况之间的逐体素二进制交叉熵的平均值。更正式地说,它可以被定义为1ΣNShapeNet [33]数据集和Pix3D [22]数据集的真实图像更具体地说,我们使用ShapeNet的一个子集,该子集由13个主要类别和43,783个3D模型组成,遵循[2]的设置。至于Pix3D,我们使用2,894个未截断和未遮挡的椅子图像,遵循[22]的设置评估产出从所提出的方法,我们二进制化的概率=Ni=1[gtilog(pi)+(1−gti)log(1−pi)](3)以0.3的固定阈值,并使用交集作为相似性度量。更正式地说其中N表示地面实况中的体素的数量。Pi和Gti 表示预测的占用率和相应的基本事实。该值越小,预测就越接近真实情况。IoU=ΣΣi,j,kI(p(i,j,k)>t)I(gt(i,j,k))i,j,kI I(p(i,j,k)> t)+I(gt(i,j,k))中国(4)4. 实验4.1. 数据集和指标数据集我们评估了建议的Pix 2 Vox-F和Pix 2 Vox-A的对象的两个合成图像从2695其中p(i,j,k)和gt(i,j,k)分 别 表示预测的发生概率和(i,j,k)处的基础真值。I(·)是指示函数,并且t表示体素化阈值。较高的IoU值指示较好的重建结果。2696输入GT3D-R2 N2OGNDRCPix 2 Vox-FPix 2 Vox-A多视图输入(3views)GT3D-R2 N2Pix2Vox-A图6:ShapeNet测试集上的单视图(左)和多视图(右)重建。GT表示3D对象的地面实况。请注意,DRC [25]是按类别训练/测试的。4.2. 实现细节我们使用224 ×224RGB图像作为输入来训练亲,表3:使用Intersection-over-Union(IoU)比较Pix 3D上的单视图重建最好的数字用粗体突出显示提出的方法,形状批量大小为64。输出体素化重建的大小为323我们在PyTorch中实现了我们的网络,并使用β 1为0的Adam优化器[ 10 ]训练Pix 2Vox-F和Pix 2 Vox-A。9和0的β2。999初始学习率设置为0。001,在150个时期后下降了2。首先,我们训练两个网络,除了上下文感知融合喂养与单视图250个时期的图像。然后,我们用随机数的输入图像训练整个网络100个epoch。4.3. 合成图像为了评估所提出的方法在处理合成图像方面的性能,我们将我们的方法与ShapeNet测试集上的几种最先进的方法进行了为了进行公平的比较,除了PSGN [5]之外,所有方法都与所有实验的相同输入图像进行比较。尽管PSGN在训练过程中使用了更多的数据,但Pix 2 Vox-A在恢复物体的3D形状方面仍然表现得更好表1显示了单视图重建的性能,而表2显示了具有不同视图数量的多视图重建的平均IoU分数Pix 2 Vox-F和Pix 2 Vox-A的单视图重建结果显著优于其他方法(表1)。Pix 2 Vox-A比3D-R2 N2增加了18%的IoU。在多视图重建中,Pix 2 Vox-A在所有视图数量上始终优于3D-R2 N2(表2)。借据Pix 2 Vox-A比3D-R2 N2高13%图6显示了ShapeNet测试集的几个重建示例。Pix 2Vox-F和Pix 2 Vox-A都能够恢复物体的薄部分,如灯和桌腿。与Pix 2 Vox-F相比,我们还观察到Pix 2 Vox-A中的高维特征图确实有助于3D重建。此外,在多视图重建中,Pix 2 Vox-A和Pix 2 Vox-F都产生比3D-R2N2更好的结果。4.4. 真实世界图像的重建为了评估所提出的方法在真实图像上的性能,我们在Pix3D数据集上测试了我们的单视图重建方法。我们使用RenderForCNN [21]的管道为ShapeNet数据集中的每个3D CAD模型生成60张图像我们使用Pix3D数据集对真实世界的RGB图像进行定量评估。此外,我们通过随机颜色来增加训练数据,方法IOU3D-R2N2 [2]0.136刚果民主共和国[25]0.265Pix3D(不含姿态)[22]0.267[22]第二十二话0.282Pix2Vox-F0.271Pix2Vox-A0.2882697F输入GT Pix 3D Pix 2 Vox-F Pix 2 Vox-A 输入GT 3D-R2 N2 Pix 2 Vox-F Pix 2 Vox-A图7:Pix3D测试集上的单视图图像重建。GT表示3D对象的地面实况。光抖动。首先,根据图像内对象的边界框裁剪图像。然后,这些裁剪的图像被重新缩放为每个重建网络所需要的。Pix3D数据集的平均IoU见表3 .第三章。实验结果表明,Pix 2 Vox-A优于Pix 3D测试集上的竞争方法,而无需估计对象的姿态。定性分析如图7所示,这表明所提出的方法在处理真实世界场景时更有效。4.5. 重建看不见的物体为了测试我们的方法能在多大程度上 对于看不见的物体,我们进行了额外的实验,图8:从5视图图像重建ShapeNet的不可见对象。GT表示3D对象的地面实况。是0。120,而Pix 2 Vox-F和Pix 2 Vox-A为0。209和0。227、分别实验结果表明,3D-R2 N2很难恢复看不见的物体的形状相比之下,Pix 2 Vox-F和Pix 2 Vox-A对看不见的物体显示出令人满意的4.6. 消融研究在本节中,我们通过消融研究来验证上下文感知融合和细化器。为了定量评估上下文感知融合,我们用平均融合替换Pix 2 Vox-A中的上下文感知融合,其中融合的voxelvf可以计算为1Σn[33]第三十三话 我们使用Mitsuba1渲染对象,来自24个随机视图的ShapeNetCore的其余44个类别以及体素表示。所有预训练(i,j,k)=nr=1R(i,j,k)(五)模型以前从未“见过”这些类别中的对象或对象的标签。更具体地说,所有模型都是在[2]提供的13个主要类别的ShapeNet渲染上训练的,并在具有相同输入图像的ShapeNetCore的其余44个类别上进行测试。使用发布的预训练模型获得3D-R2 N2的重建结果。几个重建结果如图8. 3D-R2 N2在不可见物体上的重建IoU1https://www.mitsuba-rendererwww.example.com.org表2显示了上下文感知融合的性能更好在从不同的粗体积中为每个部分选择高质量重建方面,为了与基于RNN的融合进行进一步比较,我们删除了上下文感知融合,并在编码器后添加了3D卷积LSTM [2]。为了适应3D卷积LSTM的输入,我们添加了一个额外的全-如图9a所示,平均融合和上下文感知融合在所有数量的视图中始终优于基于RNN的融合。vv26980.7100.7050.7000.6950.6900.6850.6800.6750.6700.6650.6601 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20视图数(一)0.710.700.690.680.670.660.65带精炼机不含精制机1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20视图数(b)第(1)款4.8. 讨论为了详细分析上下文感知融合模块,我们在从3视图图像重建桌子的3D形状时可视化了三个粗略体积的分数图,如图4所示。右侧桌面的重建质量明显较低,相应部分的评分低于其他两个粗卷。通过组合所选择的高质量重建部分来获得融合的3D体积,其中可以通过以下步骤图9:ShapeNet测试集上的IoU(a)影响上下文感知融合和关于评估IoU的视图的数量。(b)细化网络和视图数量对评估IoU的影响。表4:ShapeNet数据集的内存使用和运行时间。请注意,向后时间是在批次大小为1的单视图重建中测量的方法3D-R2N2OGNPix2Vox-FPix2Vox-A#参数(M)35.9712.467.41114.24内存(MB)14077936732729培训(小时)1691921225向后(ms)312.50312.2512.9372.01前向,1视图(ms)73.3537.909.259.90前向,2视图(ms)108.11N/A12.0513.69前向,4视图(ms)112.36N/A23.2626.31前向,8视图(ms)117.64N/A52.6355.56RefinerPix 2 Vox-A使用细化器进一步细化融合的3D体积。对于ShapeNet上的单视图重建,Pix 2 Vox-A的IoU为0。661号相比之下,没有细化器的Pix 2 Vox-A的IoU降低到0。六百三十六拆卸式精磨机对重构精度影响较大。如图9b所示,随着视图数量的增加,细化器的效果变得更弱。消融研究表明,无论是上下文感知融合和细化发挥重要作用,在我们的框架,对以前的国家的最先进的方法的性能改进。4.7. 空间和时间复杂度表4和图1显示了不同方法的参数数量与3D-R2 N2相比,Pix 2 Vox-F的参数减少了80%运行时间是在具有NVIDIA GTX 1080 Ti GPU的同一台PC上获得的。为了更精确的计时,我们在评估向前和向后推理时间时排除了阅读和写作时间。Pix 2Vox-F和Pix 2 Vox-A在单视图重建中的前向推理比3D-R2 N2快约8倍在后向推理中,Pix 2 Vox-F和Pix 2 Vox-A分别比3D-R2 N2快24倍和4我们的计分计划Pix2Vox在不知道相机参数的情况下恢复物体的3D形状。为了进一步证明多视图立体(MVS)系统中上下文感知融合的优越能力[19],我们用LSM中的上下文感知融合替换RNN [9]。具体来说,我们删除了经常性的融合,并添加上下文感知的融合,结合每个视图的3D体积重建实验结果表明,在ShapeNet测试集上的IoU提高了约2%,表明上下文感知融合也有助于MVS系统获得更好的重构效果。虽然我们的方法优于国家的最先进的,我们的方法的重建结果仍然具有较低的分辨率。我们可以在未来的工作中通过引入GANs [7]进一步提高重建5. 结论和未来工作在本文中,我们提出了一个统一的框架,单视图和多视图的三维重建,命名为Pix2Vox。与现有的融合由共享编码器生成的深度特征的方法相比,所提出的方法融合由解码器产生的多个粗体积,并且更好地保留多视图空间约束。在ShapeNet和Pix3D基准上对单视图和多视图重建的定量和定性评估表明,所提出的方法大大优于最先进的方法。Pix 2 Vox在计算上是高效的,在反向推理时间方面比3D-R2 N2快24倍。在未来的工作中,我们将致力于提高重建的3D对象的分辨率。此外,我们还计划扩展Pix 2 Vox以从RGB-D图像重建3D对象。致 谢 本 工 作 得 到 了 国 家 自 然 科 学 基 金 项 目 No.61772158、61702136、61872112和U1711265。我们感谢教授。李俊宝和刘环宇为这项研究提供了额外的GPU小时 我们也要感谢教授。感谢王梦左、汤佳鹏、陆秀生和匿名审稿人在本研究中提供的宝贵意见和帮助。基于RNN的融合平均融合上下文感知融合并集上的交集(IoU)并集上的交集(IoU)2699引用[1] 乔纳森·T.巴伦和吉坦德拉·马利克形状、照明和着色的反射率。TPAMI,37(8):1670-1687,2015。[2] Christopher Bongsoo Choy , Danfei Xu , JunYoungGwak,Kevin Chen,and Silvio Savarese. 3D-R2 N2:用于单视图和多视图3D对象重建的统一方法。在ECCV2016中。[3] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Fei-Fei Li. Imagenet:一个大规模的分层图像数据库。在CVPR 2009中。[4] EndriDibra , HimanshuJain , A.CengizOüztireli ,RemoZiegler,and Markus H.恶心使用生成HKS描述符和交叉模态神经网络从剪影中提取人体形状在CVPR2017。[5] Haoqiang Fan,Hao Su,and Leonidas J. Guibas一个点集生成网络从一个单一的图像三维物体重建。在CVPR2017。[6] 豪尔赫·富恩特斯-帕切科,何塞·鲁泽·阿森西奥和胡安·曼努埃尔·伦·昂·曼查。视觉同时定位和映射:调查。第内特尔Rev. ,43(1):55[7] Ian J. Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron C.Courville 和Yoshua Bengio 。生 成性 对抗网 。在NIPS2014中。[8] Kyuyeon Hwang和Wonyong Sung。GPU上的广义LSTM类RNN的单流并行化。在ICASSP 2015中。[9] AbhishekKa r,ChristianHaene,andJitendraMalik. 学习多视角立体机。在NIPS 2017。[10] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。ICLR 2015。[11] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。arXiv,abs/1312.6114,2013年。[12] David G.洛从尺度不变关键点中提取独特的图像特征。IJCV,60(2):91[13] Priyanka Mandikal,Navaneet K. L.,Mayank Agarwal和Venkatesh Babu Radhakrishnan。3D-LMNet:潜在的嵌入匹配,用于从单个图像重建准确和多样化的3D点云。在BMVC 2018。[14] OnurOüzyesil , Vladisla vVoroninski , RonenBasri ,andAmitSinger.从运动看结构。《数值学报》,26:305-364。[15] Razvan Pascanu,Tomas Mikolov和Yoshua Bengio。关于训练递归神经网络的困难。在ICML 2013中。[16] 斯蒂芬河里希特和斯特凡·罗斯。在未校准照明下区分形状与阴影。在CVPR 2015。[17] Olaf Ronneberger,Philipp Fischer,and Thomas Brox.U-网:用于生物医学图像分割的卷积网络在MICCAI2015。[18] 放大图片作者:Marco Andreetto,Holly E. Rushmeier,Fausto Bernardini,and Pietro Perona. 通过阴影雕刻进行3D重建:理论和实践评估。IJCV,71(3):305[19] Steven M. Seitz,Brian Curless,James Diebel,DanielScharstein,and Richard Szeliski.多视点立体重建算法的比较与评价在CVPR 2006中。[20] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络ICLR 2015。[21] Hao Su , Charles Ruizhongtai Qi , Yangyan Li , andLeonidas J. Guibas为CNN渲染:使用用渲染的3D模型视图训练的CNN的图像中的视点估计。在ICCV 2015中。[22] Xingyuan Sun,Jiajun Wu,Xiuming Zhang,ZhoutongZhang , Chengkai Zhang , Tianfan Xue , Joshua B.Tenen-baum和William T.弗里曼。Pix3d:单图像3D形状建模的数据集和在CVPR 2018中。[23] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。八叉树生成网络:用于高分辨率3D输出的高效卷积架构。在ICCV 2017。[24] Shubham Tulsiani学习物体和场景的单视图3D。博士论文,加州大学伯克利分校,2018年。[25] 放 大 图 片 作 者 : Shubham Tulsiani , Tinghui Zhou ,Alexei A.埃弗罗斯和吉坦德拉·马利克。通过可微分光线一致性进行单视图重建的多视图监督在CVPR 2017。[26] Oriol Vinyals、Samy Bengio和Manjunath Kudlur。订单事项:序列到集合的序列。ICLR 2016。[27] 王梦,王灵静,方毅。3DensiNet:一个从2D图像预测3D体积对象的鲁棒神经网络架构。在ACM MM 2017中。[28] Nanyang Wang , Yinda Zhang , Zhuwen Li , YanweiFu,Wei Liu,and Yu-Gang Jiang. Pixel2Mesh:从单个RGB图像生成3D网格模型。在ECCV 2018。[29] Peng-Shuai Wang,Yang Liu,Yu-Xiao Guo,Chun-YuSun,and Xin Tong. O-CNN:用于3D形状分析的基于八叉树的卷积神经网络。ACM事务处理图表,36(4):72:1[30] Andrew P.维特金从纹理中恢复表面形状和第内特尔,17(1-3):17[31] Jiajun Wu,Yifan Wang,Tianfan Xue,Xingyuan Sun,Bill Freeman,and Josh Tenenbaum. MarrNet:通过2.5D草图进行3D形状重建。在NIPS 2017。[32] Jiajun Wu , Chengkai Zhang , Tianfan Xue , BillFreeman,and Josh Tenenbaum.通过3D生成对抗建模学习对象形状的概率潜在空间在NIPS 2016。[33] 吴 志 荣 , 宋 舒 然 , Aditya Khosla , Fisher Yu , Lin-guang Zhang , Xiaoou Tang , and Jianxiong Xiao. 3DShapeNet:体积形状的深度表示。在CVPR 2015。[34] Bo Yang , Stefano Rosa , Andrew Markham , NikiTrigoni,and Hongkai Wen.从单个深度视图进行密集3D对象重建TPAMI,DOI:10.1109/TPAMI.2018.2868195,2018.[35] 张阳,刘震,刘天鹏,彭波,李翔. RealPoint3D:一种从单 幅图 像重建 三维 物体的 高效 生成网
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功