没有合适的资源?快使用搜索试试~ 我知道了~
1逃离柏拉图菲利普·亨茨勒p. cs.ucl.ac.ukNiloy J. Mitran. cs.ucl.ac.uk伦敦大学学院托拜厄斯·里切尔t. ucl.ac.uk摘要我们引入P LATONIC GAN从非结构化的2D图像集合中发现对象类的3D结构,即。例如,其中照片之间的关系是未知的,除了它们显示相同类别的实例其关键思想是训练一个深度神经网络来生成3D形状,当渲染到图像时,这些形状在各种相机姿态下与地面真实图像(对于相机)无法区分。区分2D图像而不是3D形状允许利用非结构化的2D照片集,而不是依赖于策划(例如,例如,在一个实施例中,对齐、注释等)3D数据集。为了建立2D图像观察和他们的3D解释之间的约束,我们建议一个家庭的渲染层,有效区分。该系列包括可视外壳、仅吸收(类似于X射线)和发射-吸收。 我们可以成功地从非结构化的2D图像重建3D形状,并在一 系 列 合 成 和 真 实 数 据 集 上广 泛评估 PLATON- ICGAN,从而实现与基线方法相比的一致改进。 我们进一步表明,P LATONIC GAN可以与3D监督相结合,以提高甚至在某些情况下超过3D监督方法的质量。1. 介绍当前生成模型[37,36,12,24,32,31]的一个关键限制例如,在一个实施例中,3D体积、特征点注释、模板网格、变形先验、结构化图像集等)进行监督。虽然存在学习对象类的3D结构的方法,但它们通常需要3D数据作为输入。遗憾的是,这种3D数据很难获得,特别是对于奇异类的“长尾”:ShapeNet可能有椅子,但它没有鸡油菌为了解决这个问题,我们提出了一种仅从2D图像中学习3D结构的方法(图1)。①的人。如图所示,从2D观察结果推断3D结构而不假设它们的关系是具有挑战性的柏拉图的洞穴寓言[ 34 ]:我们怎么能希望从只看到投影来理解更高的维度?如果同一对象的多个视图(可能只有两个[40,13])可用,则无需3D监督的多视图分析已经成功。令人遗憾的是,大多数照片集没有以这种形式出现,而是现在并且将保持非结构化:它们显示随机姿态下的随机实例,未知关系中的未校准照明,并且同一对象的多个视图不可用。我们的第一个主要贡献(第二。3)是使用具有鉴别器的3D生成器的对抗训练,该鉴别器专门在广泛可用的非结构化2D图像集合上操作,我们称之为柏拉图式鉴别器。这里,在训练期间,生成器产生3D形状,该3D形状被投影(渲染)到2D并呈现给2D柏拉图鉴别器。我们的第二个关键贡献是在3D生成器和2D渲染器之间建立联系,这是通过一系列可以考虑遮挡和颜色的渲染层4).这些层不需要任何可学习的参数,并允许反向传播[26]。从这两个关键模块我们构建了一个学习系统图1. PLATONIC GAN允许将罕见类别的非结构化2D图像集合(顶部显示的子集)转换为生成3D模型(下面是随机样本)。99849985鉴别器查看采样发生器2D输入图像3D体积成像模型(VH、AO、EA)2D渲染图像真/假?二维非结构化样本图2.概述:我们使用编码器E将2D输入图像编码为潜在代码z,并将其馈送到生成器G以产生3D体积。该3D体积被插入到渲染层R中以产生呈现给RHD的2D渲染图像。渲染层由图像形成模型控制:视觉外壳(VH),仅吸收(AO)或发射吸收(EA)和视图采样。鉴别器D被训练以将这样的渲染图像与非结构化2D照片集合区分开,即。例如,相同类别的对象的图像带注释的特征点、视图规范)。3D形状的常见类,如椅子和汽车,但也从非结构化的2D照片集异国情调的类。我们将从单个2D图像进行3D重建作为关键应用(第二节)。(五)。虽然最近的工作集中在尽可能少地使用显式监督[17,19,8,29,28,11],但它们都依赖于训练期间的注释,3D模板,已知相机姿势,特定视图或多视图图像。我们的方法通过不接收这样的监督而更进一步,参见Tbl。1.一、表1.学习3D形状的不同方法的分类,没有明确的3D监督。我们比较金泽等人。[17],Kato et al.[19],Eslami et al.[8],Tulsiani et al.[29],Tulsiani et al.[28],PrGan [11]与我们的方法在监督程度方面。培训时无注释C CC C C C C3D模板-免费CCC C C C未知相机姿势CC C C无预定义相机姿势CC C CCCC仅需单个视图C C C颜色C C C C C C C2. 相关工作几篇论文建议使用3D体素表示进行(对抗)学习[37,36,12,24,11,32,31,35,39,30,20]或点云输入[1,10]。 总体设计这种网络的基础是一个编码器,它生成一个潜在的代码,然后被馈送到一个生成器,以产生一个3D表示(即。例如,体素网格)。3D建模器现在分析来自生成器和地面实况分布的样本请注意,此程序需要3D监督,即。例如,受3D数据集(如ShapeNet [5])的类型和大小限制。Girdhar等人[12]致力于3D体素和2D图像的联合嵌入,但仍然需要3D体素化作为输入。Fan等人。[9]从2D图像生成点,但类似地使用3D数据作为训练输入。Gadelhan等人[11]使用2D视觉外壳图像来训练生成3D模型。Cho等人'的递归设计将多个图像作为输入[6],同时也在3D数据上进行训练。 Kar等人[18]提出了一个简单的Cashman和Fitzgills [4]以及后来的Carreira等人。[3]第一章或Kanazawa et al.[17]使用与跨分段或对应标记的2D图像数据集的3D模板的对应这些呈现出令人惊叹的结果,例如在动物身上,但在人工人类监督范围的另一端,我们的方法没有接受这样的监督。与我们的方法更接近的是Rezaldet et al.[25]它也从单个图像中学习3D表示。然而,它们使用了一个部分可微的渲染器[22],该渲染器仅限于表面方向和阴影,而我们的公式可以解决来自相机和外观的遮挡。此外,它们对3D体积的表示是潜在的,也就是说,它没有实践中所需的直接物理例如,在一个实施例中,用于测量、运行渲染或3D打印等模拟。Eslami等人也选择了深度表示3D世界。[8]的一项建议。Tulsiani等人[29]在学习时利用已知的视图变换重建由相同对象的多个2D图像监督的3D形状。Tulsiani等人[28]更进一步,不需要关于相机姿态的知识他们研究了将图像形成建模为体素占用的总和以预测终止深度。我们使用GAN来训练照片集合,这些照片集合通常只显示每个实例的一个视图。最接近我们的工作是Gadelha等人。[11]它对一组非结构化的视觉外壳图像进行操作,但接受三个监督来源:视图信息被显式地编码为潜在向量中的维度;视图来自手动选择的1D子空间(圆圈);并且只有8个离散视图。我们采取的图像形成更进一步,以支持吸收只有和发射吸收编码器呈现层[17个][19个][八]《中国日报》9986图像形成,允许从真实照片中学习,并在没有视图监督的情况下对来自野外的非结构化集合进行学习。虽然存在如何将可微渲染器扩展到多边形网格的早期建议,但它们仅限于预定义模板的变形[19]。我们使用体素,它可以表示任意的拓扑结构。例如,在一个实施例中,我们可以生成布局完全不同的椅子,这不仅仅是基础形状的类似地,视图间约束可以用于使用重投影约束来学习深度图[40,13]:如果深度标签是正确的,将一个图像重新投影到另一个视图中必须产生另一个图像。我们的方法不学习单个深度图,而是学习完整的体素网格,并允许有原则地处理遮挡。Yan等人讨论了从视觉外壳映射到全3D场景的泛化。[38]第30段。代替3D损失,它们采用沿主轴的简单投影,允许使用2D损失。然而,需要同一对象的多个2D图像在实践中,这是通过从多个视图将3D形状渲染成2D图像来实现的 这有两个假设:我们有多个图像在一个已知的关系和可用的参考外观(即。例如,光、材料)。我们的方法放宽了这两个要求:我们使用一种鉴别器,其可以在没有已知参考的情况下对任意投影和任意自然输入图像进行工作。3. 从2D照片集生成现在我们介绍PLATONIC GAN(图2)。这里使用的渲染层将在第二节中介绍。4.第一章我们的方法是一种经典的(生成式)对抗设计[14],有两个主要区别:判别器D在2D中操作,而3D发生器G产生3D输出。这两者通过一个固定函数的投影算子联系在一起例如,不可学习(参见第二节)。4).让我们回想一下3D形状的经典对抗学习[36],这是一个最小-最大游戏其中,GΘ是具有参数Θ的生成器,其将潜在码映射到数据域。PLATONICGAN计算的渲染成本与普通GAN相同,唯一的区别是输入样本是带有生成成本的cGen(Θ)=EpGen ( z) EpView ( ω ) [10g(1-DΨ(R(ω,GΘ(z)))],(四)其中R将生成器结果GΘ(z)沿着采样视图方向ω从3D投影到2D。参见第3.1详情虽然视图的许多参数化是可能的,但我们选择具有固定直立方向的正交相机,该正交相机从单位球面上的欧几里德位置ω ∈ S2指向原点。EpView(ω)是跨分布ωp视图的视图PLATONIC GAN 3D重建除了我们的柏拉图概念之外,还需要两个组件来允许3D重建,从而产生(Ψ)+cGen(Θ,Φ)+λcRec(Θ,Φ),(5)ΨΘ、Φ其中cGen包括编码步骤,并且cRec促使编码的生成和投影结果类似于λ=100的编码器输入。我们将在以下段落中详细介绍这两个生成器G0不直接作用于潜码z,而是允许具有参数Φ的编码器EΦ将2D输入图像I编码为潜码z=EΦ(I)。成本变成了,cGen(Θ,Φ)=E pDat(I)E pView(ω)[l〇 g(1-DΨ(R(ω,GΘ(EΦ(I)]。(六)我们鼓励编码器EΦ和生成器GΘ在 L2意义上再现输入:按照惯例,输入视图是ω0=(0,0),minmaxcDis(Ψ)+cGen′(Θ)(1)cRec(Θ,Φ)=y−R(ω0,GΘ(EΦ(I)2(七)Θ Ψ2分别为cDis和cGen′。成本是cDis ( x ) =EpData ( x ) [log ( Dis(x))](2)其中Di s是具有学习参数i的i s其用来自真实3D形状xpData 的 分布 的 样本 x 来 呈现。这里Ep表示分布p的期望值。发电机成本为cGen′(Θ)=EpGen(z)[log(1-D(GΘ(z))](3)9987其中y表示地面实况图像。虽然生成时不需要此步骤,但重建时必须执行此步骤此外,它增加了优化的稳定性,因为在细化3D结构之前,很3.1. 优化两个关键属性对于成功优化我们的PLATONIC GAN是必不可少的:首先,最大化视图pView分布上的期望值,其次,通过投影算子R进行反向传播。我们在Alg中扩展了经典的GAN优化过程1.一、9988ppp.算法1PLATONIC GAN重建更新步骤1:IDat←SAMPLEIMAGE(pDat)第二章: ω←SAMPLEV IEW(pView)3:z←E(IDat)第四章: v←G(z)5:IView←R(ω,v)a)3D生成器结果b) 转型不6:IFront←R(ω0,v)7:cDis←logD(IDat)+log(1−D(IView))8:cGen←log(1 −D(IView))9:cRec←L2(IDat−IFront)10:cRec←MAXMIZE(cDis)十一: Θ,Φ←MINIMIZE(cGen+λcRec)投影我们集中在一个规则的体素网格vnc×n3上的三维生成器和一个规则的体素网格v n c × n 3上的二维生成器的情况下,图3.渲染层(请参阅文本)。图4.不同的图像形成模型视觉外壳(VH)、仅吸收(AO)和发射-吸收(EA)。1表示完全占用,i.例如,vi∈[0,1].输出是指示是否有任何体素阻挡了射线的二进制值是最大图像I2其中,nc表示通道数近似为且np=64对应于分辨率。在第4节中,我们讨论了三种不同的投影算子。 我们使用R(ω,v)将视图方向ω∈S2下的3D体素网格v映射到Σ(1)A =0(我−v i)。(八)2D图像I.我们进一步定义R(ω,v):=ρ(T(ω)v),其中旋转矩阵T(ω)根据视图方向ω和与视图无关的图像形成函数ρ(v)。所有实现都共享相同的转换因此,我们将在下文中仅讨论ρ的关键差异。 注意,旋转和线性重采样是可反向传播的,并且通常在深度学习框架中提供。例如,在一个实施例中, 作为注意,求和运算符既可以反向传播,也可以使用并行扫描在GPU上高效地计算我们可以将其应用于从二进制2D数据(例如分割的2D图像)学习3D结构仅吸收(AO)仅吸收模型是视觉外壳的渐进变体这允许光线的其设计为:YPyTorch中的torch.nn.functional.grid示例[23]。当我们在正交空间中工作时,ρ也可以ρAO(v)=1−(1− v i)。(九)我建立一个透视变换模型。视图采样我们假设统一的视图采样。4. 渲染层渲染层(图3)将3D信息映射到2D图像,以便它们可以呈现给用户。我们首先假设3D体积被旋转(图1)。图3,a)从视图方向ω(图3,a)进入相机空间。 3,b),使得像素值p将从所有体素值vi计算,并且仅从那些体素值v i计算像素值p(图3,b)。3,c)。渲染层映射一个序列如 果 vi 是 分 数 的 , 结 果 类 似 于 x 射 线 , i 。 例 如 ,vi∈[0,1].这种图像形成允许从X射线或其他透明2D图像中学习。通常情况下,这些是单通道图像,但彩色变体(例如,例如,在一个实施例中,不同波长的X射线或彩色透明的RGB图像技术上可以做到。发射-吸收(EA)发射-吸收允许体素不仅吸收朝向观察者的光这种发射和吸收的相互作用可以对遮挡进行建模,我们将看到这对于使3D世界具有3D意义非常有用图3关于NZ体素到像素值ρ(v)∈Rnc×n3→Rnc×n2利用高吸收的发射-吸收,有效地合成完整的图像I只相当于执行ρfor每个像素p, 所有体素v = v1,. . . ,v nz。注意,渲染层没有任何可学习的参数。现在我们将讨论ρ的几种变体,实现不同形式的体绘制[7]。图4从而实现具有可见性的不透明表面。典型的选择是具有单色的吸收和彩色的发射。完整的发射-吸收方程为显示了我们目前支持的图像形成模型。Visualhull(VH)Visual hull [21]是最简单c)、呈现层nc×n9989的变体(图10)。4). 它将标量密度体素转换为二进制不透明度图像。体素值为0意味着空白空间和值ρEA(v)=ΣnzYi(1−(1−va,j))ve,i(10)i=1j=1联系我们传输ti到体素i9990我虽然这样的方程通常使用射线行进[7]来求解,但是它们可以被重写以在实践中变得可微:首先,我们注意到,来自体素i的透射ti是1减去1减去i之前的所有体素的密度的乘积。类似于和,这样的累积乘积可以使用并行扫描有效地反向传播和计算,例如,例如,在一个实施例中,使用火炬。在我们的实验中执行类似的数 值 替 代 方 案 是 在 log 域 中 工 作 并 使 用torch.cumsum。5. 评价我们的评估包括一个定量(第二节)。5.4)和定性分析(第二节)。5.5),将不同的先前技术和消融与我们的工作进行比较(第5.5节)。5.2)。5.1. 数据集合成我们 评价 对 两 合成 数据集:(a)ShapeNet [5]和(b)哺乳动物头骨[16]。为我们在定量分析中,我们使用ShapeNet模型作为3D地面实况,但严格来说仅用于评估,从未用于我们的训练。针对三个图像形成模型VH、AO、EA绘制3D形状的2D图像。每个形状都是从随机视图(每个对象50个)中渲染的,具有随机的自然照明。ShapeNet仅提供3D密度体积,不足以进行EA分析。为此,我们使用体积投影纹理来将来自如由ShapeNet的纹理定义的薄3D表面地壳的外观信息传播我们使用飞机、汽车、椅子、步枪和灯等类的形状。采用与[5]提出的相同的训练/验证/测试划分我们还训练了一个由466,200个哺乳动物头骨x射线组成的合成x射线数据集[16]。我们使用了该数据集的猴头骨子集(130kx射线)。房我们使用两数据集的罕见 类别:(a)鸡油菌(60张图片)和(b)树(37张图片)(严格来说并不罕见,但难以进行3D建模)。这些图像是RGBA,掩蔽,白色背景。请注意,这些输入数据的结果必须保持定性,因为我们缺乏3D信息进行比较,甚至发射-吸收(以亮度的形式)图像被用作测试时的输入图像。请注意,PrGAN允许对象空间视图重建,因为潜在空间中的视图信息,而我们的方法在视图空间中执行由于输入图像中可能存在模糊性(多个图像可能属于同一个3D体积),因此使用跨所有旋转的网格搜索找到对象空间的最佳变换。3D监督3D监督的第一个基线是MULTI-VIEW,它可以在训练时访问已知空间关系中同一对象的多个图像[38]。请注意,这是一个比在对抗示例中不需要任何结构的PLATONIC - GAN更强的要求:几何体、视图、灯光-全部改变,而在该方法中,仅视图以规定的方式改变。第 二 个 竞 争 者 是 经 典 的 3DGAN [36] , 使 用Wasserstein损失[2]和梯度惩罚[15]进行训练。为了将PLATONIC GAN与能够访问3D信息的方法进行比较,我们还通过将PLATONIC GAN对抗性损失项(针对所有图像和形状)添加到3DGAN框架来提出变体PLATONIC5.3. 评估指标由于将2D信息提升到3D可能是模糊的,因此绝对的3D测量可能不是评估我们任务的最佳合适测量。例如,在正交相机假设下对象的深度偏移将导致3D中的度量的更高误差,但偏移不会对渲染图像产生任何影响因此,我们从相同的10个随机视图渲染重建体积和参考体积,并使用SSIM/DSSIM [33]和VGG 16 [27]特征比较它们的图像 对于这种重新渲染,我们进一步采用四种不 同的 渲染 方法 :原 (i 。 例如 ,ρ) 图像 形成(IF)、体绘制(VOL)、具有等值的等值面绘制。1(ISO)和体素渲染(VOX),全部在随机自然照明下。3D评估措施我们报告均方根误差(RMSE)、交并(IoU)和倒角距离(CD)。对于倒角距离,我们计算加权方向距离:拥有同一物体的第二个视图,甚至可以执行图像比较1dCD(T,O)Σminwjpi−pj2,5.2. 基线和比较首先,我们将PrGAN [11]的公开实现与我们的柏拉图方法进行比较。PrGAN在明确创建的数据集上进行训练,这些数据集遵循其视图限制(沿单个轴的8个视图)。与我们的方法相比,它只在视觉船体图像上进行训练,但是出于评估目的,Np∈Tpj∈O其中,T和O对应于输出体积和目标体积,并且表示位置p j处的体积x el的密度值。加权具有直观的意义,因为我们的结果具有标量值而不是二进制值,即。例如,密度越高,受到的惩罚越多,N是体积中我们优先考虑这样的加权,而不是找到一个阈值进行二值化。29991表2.不同方法的执行情况,不同程度的监督(监督)(行)上的不同度量(列)的类别飞机。对所有三种图像形成(IF)执行评估:视觉外壳(VH)、仅吸收(AO)和发射-吸收(EA)。注意,DSSIM和VGG值乘以10,RMSE乘以102,CD乘以103。更低的是更好的除了lou。2D 3DDSSIMVGGDSSIMVGGDSSIMVGGDSSIMVGGDSSIM VGGRMSEIOUCDPrGAN [11]C功能1.55 6.571.37 4.851.41 4.631.68 5.411.836.157.46 0.113.59207我们HC功能1.14 5.37 1.16 4.93 1.12 4.681.33 5.221.285.969.16 0.2011.7755多。-查看[38]VC功能0.87 4.890.80 4.310.90 4.071.38 4.831.215.565.37 0.369.311553DGAN [36]C功能0.83 5.01 0.75 4.020.86 3.831.30 4.731.175.824.97 0.4614.60 111我们的3DC功能0.81 4.820.77 3.98 0.83 3.831.18 4.591.09五块五5.20 0.4412.3398PrGAN [11]C功能1.41 6.401.27 4.801.27 4.521.53 5.321.63六点7.11 0.092.78190我们OC功能0.94 5.35 0.93 4.46 0.91 4.261.11 4.961.095.755.70 0.276.9890多。-查看[38]一C功能0.95 4.990.78 4.230.91 4.011.51 4.921.295.394.89 0.349.471653DGAN [36]C功能0.67 4.370.69 3.770.72 3.570.99 4.250.97四点九二5.08 0.4314.9258我们的3DC功能0.66 4.36 0.66 3.73 0.70 3.520.98 4.280.964.945.17 0.3715.43 64PrGAN [11]C功能1.31 6.22 1.15 4.77 1.16 5.371.36 6.711.47七点零七分6.80 0.082.36196我们一C功能2.18 6.531.99 5.381.89 6.002.21 7.432.36七点九二14.13 0.1310.53181多。-查看[38]EC功能1.62 6.211.53 4.581.63 5.481.95 6.971.947.4115.05 0.1232.07 1723DGAN [36]C功能0.89 5.28 0.78 3.930.98 4.791.29 6.761.30七点零九分5.24 0.4613.66110我们的3DC功能0.82 4.710.82 3.96 0.97 4.771.12 6.121.16六点四十七7.43 0.0418.82735.4. 定量评价TBL. 2总结了我们对飞机类的主要结果。关于图像形成模型,我们看到总体值最适合AO,这是预期的:VH要求标量密度,但只有二值图像; AO提供内部结构,但只需要产生标量密度; EA是最难的,因为它需要解决密度和颜色。尽管如此,我们和竞争者之间的差异在图像形成模型中是相似的。班步枪表现最好:该方法从2D中快速获知枪具有作为旋转结构的外部3D形状。椅子表现最差,可能是由于它的高类内变化。表3.我们的方法对不同类别(行)上不同图像形成模型(列)的重建性能。错误度量是SSIM(越高越好)。VH型AO EAVOL ISO VOX VOL ISO VOX VOL ISO VOX产生RGBA卷的其他方法将我们的2D监督方法与3D监督方法进行比较,我们看到总体上我们的方法产生了有竞争力的结果。关于多视图,我们有时甚至表现得更好.3D监督将我们的PLATONIC 3D变体与3D基线进行比较,我们观察到我们的方法在2D指标方面大多优于它们。毫不奇怪,我们的方法在3D指标上表现较差,因为我们的方法只在2D中运行。表中。3我们研究了不同的性能方法如果主管2D图像再合成3D体积FIDVHAO EA VOXISOEA二维监控 我们看到,总体而言,我们的2D监督平面0.93 0.92 0.93 0.94 0.93 0.93 0.85 0.76 0.77方法对于VH和AO优于PrGAN。即使步枪0.95 0.94 0.95 0.95 0.94 0.95 0.90 0.78 0.80PrGAN未在EA上进行培训,它在所有指标上都获胜椅子0.86 0.85 0.85 0.86 0.85 0.86 0.80 0.61 0.63我们的2D监督方法然而,它甚至优于车点八四一点八四六.851 点八四四点八四六.850 0.8000.731.7433D监督方法3DGAN和MULTI-VIEW,灯0.920.915 .920 点九二六点九一四.920 0.883.790 .803这说明了任务本身的复杂性然而,在这方面,9992表中。4我们比较了仅在3D形状上训练的vanilla 3DGAN的平均VGG误差,仅访问2D图像的柏拉图方法,以及访问两者的PLATONIC3D。我们保持2D图像的数量不变,并增加可用的3D形状的数量; Tbl中的水平轴。4.第一章在不使用3D监控的情况下,PLATONICGAN的误差保持恒定,与3D模型的数量无关。像这样,我们看到PLA-TONICGAN(红线)可以击败其他两种方法,3D数据很少可用的情况(左)。当9993图5.从多个视图对三类(飞机、椅子、步枪)进行3D重建的视觉结果表4.3D形状和2D图像的数量对学习不同方法的平均DSSIM误差的影响越低越好。2D图像70k 70k 七万七万仅3D和混合2D-3D训练可以在图中看到。六、我们尝试用X光重建头骨-.14.10更多3D动画3D形状550 2501.5k二维-三维比 14k 1.4k 280 47• 3D.135.108.106.101• 我们的.125.125.125.125• 我们的3D0.134.108 .102.099雷(i.例如,AO IF模型)图像[16]。我们找到了恢复外部和内部结构的方法。真正罕见的结果为罕见类见图。图1和图2。7 .第一次会议。我们看到,即使在这种困难的情况下,我们的方法也能从多个视图中产生合理的细节,同时尊重输入图像由于没有3D体积可用于在3D或重新投影中进行比较,因此无法对这些数据应用任何指标如果有更多的3D数据可用,则PLATONIC GAN(绿线)胜过纯3D GAN(蓝线)。我们的结论是,将2D图像信息添加到3D语料库中有所帮助,并且当语料库足够小时,甚至比仅3D的监督方法表现得更好。5.5. 定性合成图5示出了重建任务的典型结果。我们看到,我们的重建可以产生飞机,椅子和步枪的3D模型代表输入的2D图像。最重要的是,这些3D模型看起来似乎适用于多个视图,而不仅仅是输入视图。椅子类别的结果还表明,该模型捕捉到相关的变化,从直椅俱乐部椅扶手椅。对于枪,结果几乎是完美的,与以前报道的数字一致。总之,我们的质量与具有3D监督的GAN相当。2D与3D与2D +3D仅2D的定性比较,6. 讨论为什么没有一个多视角的摄像头?这是诱人的建议,不只是看一个单一的图像,但在多个视图在同一时间来判断,如果生成器的结果是合理的整体。 但是,虽然我们可以从多个视图生成“fak e”图像,但“真实”自然图像的集合并不以这种形式出现。作为一个关键的优势,我们的方法只需要非结构化数据:在线存储库保存未知相机,3D几何或照明的图像。故障情况如图所示。8.我们的方法很难重建正确的姿势,因为将2D图像提升到3D形状对于视图空间重建是模糊的。更多分析、视频、训练数据和网络定义可在https://geometry上获取。cs.ucl.ac.uk/projects/2019/platonicgan/.DSSIM9994图6.使用类平面在两个不同输入视图(行)的不同监督形式(列)之间的3D重建结果的比较。第二列的PLATONICGAN可以重建一架看似合理的飞机,但存在错误,例如发动机数量错误。第三列中的3D GAN修复了这个错误,但代价是轻微的模式崩溃,其中实例看起来相似并且有点如在第四行中将3D GAN与对抗性渲染组合,最接近于第五行中的参考图7.使用发射-吸收图像形成模型从不同视图(列)看到的不同树的3D重建。这些小图像被用作输入。我们看到PLATONICGAN已经理解了3D结构,包括一个独特的彩色茎,分形几何和结构化的叶子纹理。图8.椅子(顶部)和飞机(底部)的故障案例。由于输入图像中的视图模糊性和形状中的对称性,然后,生成器尝试满足多个不同的相机姿势。7. 结论在本文中,我们提出了PLATONIC GAN,一种从非结构化的2D图像集合中学习3D形状的新方法。我们的“逃生计划”的关键我们已经展示了一系列渲染运算符,它们可以通过GPU高效地反向传播,并考虑遮挡和颜色。这些支持一系列输入模式,图9.在2D X射线上训练的PlatonicGAN(i.例如,AO IF)的哺乳动物头骨(a)。所得到的3D体积可以使用X射线(b)从新视图渲染,并且在不同外观的新视图下渲染,这里使用基于图像的照明(c)。从二进制蒙版,通过不透明度贴图到具有透明度的RGB图像。我们的3D重建应用程序是建立在这个想法的基础上,从2D图像中捕获各种各样的详细的3D形状,包括颜色。训练仅在2D图像上执行,使2D照片集有助于生成3D形状。未来的工作可能包括着色,这与经典的体绘制密度相关[7]。因此,任何类型的可微渲染算子ρ都可以被添加。设计这样的算子是未来的一个关键挑战。其他对抗性应用,如3D形状的2D启用对象空间而不是视图空间重建将有助于防止故障情况,如图所示。8.虽然我们将2D观察与3D解释相结合,但类似的关系可能存在于更高维度中,在3D观察与4D(运动中的3D形状)之间,但也存在于更低维度中,例如对于机器人中的1D行扫描器或3D数据的2D切片,例如在断层扫描中。鸣谢本工作得到了ERC Starting Grant SmartGeometry、NVIDIA公司的GPU捐赠以及Google AR/VR研究奖的支持。9995引用[1] Panos Achlioptas,Olga Diamanti,Ioannis Mitliagkas,and Leonidas Guibas.三维点云的学习表示与生成模型。2018. 2[2] 马丁·阿乔对ky,苏米特·钦塔拉和Le'onBottou。我们走吧。arXiv预印本arXiv:1701.07875,2017。5[3] Joao Carreira,Sara Vicente,Lourdes Agapito,and JorgeBatista. 将物体检测数据集提升到3d。IEEE PAMI,38(7):1342-55,2016年。2[4] Thomas J Cashman和Andrew W Fitzgibbon。海豚是什么形状的从2D图像构建3D可变形模型PAMI,35(1):232-44,2013. 2[5] 天使XChang,Thomas Funkhouser,Leonidas Guibas,Pat Hanrahan , Qixing Huang , Zimo Li , SilvioSavarese , Manolis Savva , Shuran Song , Hao Su ,Jianxiong Xiao,Li Yi,and Fisher Yu.ShapeNet:一个信息丰富的3D模型存储库。arXiv:1512.03012,2015。二、五[6] Christopher B Choy , Danfei Xu , JunYoung Gwak ,Kevin Chen,and Silvio Savarese. 3D-R2 N2:用于单视图和多视图3D对象重建的统一方法。在ECCV,第628-44页2[7] Robert A Drebin,Loren Carpenter,Pat Hanrahan.体绘制。在Siggraph Computer Graphics,第22卷,第65-74页四五八[8] SM Ali Eslami , Danilo Jimenez Rezende , FredericBesse , Fabio Viola , Ari S Morcos , Marta Garnelo ,Avraham Ru- derman,Andrei A Rusu,Ivo Danihelka,Karol Gregor,et al.神经场景表示和渲染。Science,360(6394):1204-10,2018. 2[9] Haoqiang Fan,Hao Su,and Leonidas Guibas.一个点集生成网 络从一个单一 的图像三维 物体重建 arXiv:1612.00603,2016。2[10] Haoqiang Fan,Hao Su,and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在CVPR,第2卷,第6页,2017年。2[11] Matheus Gadelha,Subhransu Maji和Rui Wang。从多个对象的2D视图的3D形状归纳。在3DV,2016年。二、五、六[12] Rohit Girdhar,David F Fouhey,Mikel Rodriguez,andAb-hinav Gupta.学习对象的可预测和生成矢量表示。在ECCV,第484-99页,2016中。一、二[13] Cl e´mentGodard,OisinMacAodha,andGabrielJBrost ow.具有左右一致性的无监督单目深度估计在CVPR中,第6602-6611页,2017年。第1、3条[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NIPS,第2672-80页,2014年。3[15] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。在NIPS中,第5767-5777页,2017年。5[16] Philipp Henzler , Volker Rasche , Timo Ropinski , andTobias Ritschel.单图像断层扫描:来自2D颅骨X射线的3D图像。计算机图形学论坛(Proc.欧洲-图形),2018年。五、七9996[17] 放 大 图 片 作 者 : Angjoo Kanazawa , ShubhamTulsiani,Alexei A.埃弗罗斯和吉坦德拉·马利克。从图像集合学习特定类别的网格在ECCV,2018。2[18] AbhishekKa r,ChristianHaene,andJitendraMalik. 学习多视角立体机。在NIPS,第365-376页2[19] Hiroharu Kato 、 Yoshitaka Ushiku 和 Tatsuya Harada 。Neu- ral 3D网格渲染器。 在CVPR中,第3907-16页,2018年。 二、三[20] Michael Kazhdan和Hugues Hoppe屏蔽泊松曲面重建。ACM Transactions on Graphics(ToG),32(3):29,2013. 2[21] 奥尔多·劳伦蒂尼基于轮廓的图像理解的视觉外壳概念AMI,16(2):150-62,1994. 4[22] 马修·M作者声明:Michael J.黑色. OpenDR:近似可微分渲染器。在ECCV,第8695卷,第154-69页,2014中。2[23] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan 、 Edward Yang 、 Zachary DeVito 、 ZemingLin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017. 4[24] Charles R Qi , Hao Su , Matthias Nießner , AngelaDai,Mengyuan Yan,and Leonidas J Guibas.用于3D数据对象分类的体积和多视图cnns在CVPR中,第5648-5656页一、二[25] Danilo Jimenez Rezende 、 SM Ali Eslami 、 ShakirMohamed 、 Peter Battaglia 、 Max Jaderberg 和 NicolasHeess。从图像中无监督地学习3D结构。在NIPS,第4996-5004页,2016年。2[26] David E Rumelhart , Geoffrey E Hinton
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功