没有合适的资源?快使用搜索试试~ 我知道了~
7949C-Flow:图像和3D点云的条件生成流模型Albert Pumarola1,Stefan Popov2Francesc Moreno-Noguer1VittorioFerrari21InstitutdeRobo` ticaiInforma` ticaIndustrial,CSIC-UPC,Barcelona,Spain2GoogleResearch,苏黎世,瑞士图1:我们提出了C-Flow,这是一种适用于许多不同领域的基于流的生成模型的调节方案。该图显示了对条件分布图像Particip3D点云建模的结果。在顶行中,我们将此模型应用于3D重建(图像→点云),在底行中用于渲染新图像(点云→图像)。我们的模型允许从这个条件分布中多次采样,以生成同一点云的多个渲染。摘要基于流的生成模型具有非常理想的特性,如精确的对数似然估计和精确的潜变量推断,但是它们仍然处于幻想中,并且没有像替代生成模型那样受到关注在本文中,我们介绍了C-Flow,一种新的条件化方案,使规范化流程的一个全新的场景,具有很大的可能性,多模态数据建模。C-Flow基于可逆映射的并行序列,其中源流在每一步引导目标流,从而实现对生成过程的细粒度控制。我们还设计了一种新的策略来建模无序的3D点云,与条件化方案相结合,使得有可能解决从单个图像的3D重建及其逆问题,给出了一个点云渲染图像。我们证明了我们的调节方法是非常适应,也适用于图像处理,风格转移和多模态图像到图像映射在不同的领域,包括RGB图像,分割图和边缘掩模。1. 介绍生成模型在机器学习和计算机视觉社区中非常流行。目前在这种情况下,两个主要参与者占主导地位,可变自动编码器(VAE)[26]和特别是生成在Google实习时完成的工作对抗网络(GANs)[17]。在本文中,我们关注一个不同的家族,即所谓的基于流的生成模型[13],尽管提供了非常吸引人的属性,但仍然处于VAE和GAN与其他生成方法相比,基于流的模型建立在输入和潜在空间之间的一系列可逆映射之上,这些映射允许(1)精确的潜在变量推断和对数似然评估,(2)高效且可并行的推断和合成,以及(3)通过直接在潜在空间上操作而进行的有用且简单的数据操作。本文的主要贡献是一种新的方法,条件规范化流,使之有可能执行形式的多模态转移任务,迄今尚未探索的保护伞下的流为基础的生成模型。为此,我们引入了C-Flow,这是一个由两个并行流分支组成的框架,使用条件耦合层将其可逆函数相互连接,并使用可逆循环连接进行训练。该方案允许将源域引导到目标域,保证满足基于流的模型的上述属性。然后,通过将源样本(精确地)嵌入到其潜在空间中,从高斯先验中采样一个点,然后通过学习的归一化流传播它们,以简单的方式实现条件推理例如,对于在给定语义分割掩码的情况下合成多个合理照片的应用,通过跨学习流联合传播分割嵌入和从先验分布中提取的随机点来生成每个图像。渲染三维重建7950i=1θ我们的第二个贡献是一个策略,使基于流的方法来建模无序的三维点云。具体而言,我们引入(1)根据Hilbert排序方案对3D数据点进行重新排序,(2)与可逆方案兼容的全局特征操作,以及(3)惩罚倒角距离的可逆循环一致性。将此策略与所提出的连接方案相结合,我们就可以解决形状插值、从图像重建3D对象以及在给定3D点云的情况下渲染图像等任务(图1)。1)。重要的是,我们的新调节方案能够实现3D点云建模之外的广泛任务。特别是,我们是第一个基于流的模型,以显示大量的域之间的映射,包括图像到图像,点云到图像,边缘到图像分割到图像和它们的逆映射。此外,我们是第一个展示图像内容处理和风格转换任务的应用程序我们相信,我们的条件反射方案及其处理各种领域的能力,为构建通用且易于培训的解决方案打开了大门。我们希望所有这些都能促进基于流的生成模型领域的未来研究。2. 相关工作基于流的生成模型。变分自动编码器(VAE)[26]和生成对抗网络(GAN)[17]是迄今为止研究最多的深度生成模型。VAE使用深度网络作为函数逼近器,并最大化数据对数似然的下限,以模拟具有难以处理的后验分布的连续潜在变量[42,47,28]。 另一方面,GAN通过利用对抗策略来规避处理可能性估计的需要。虽然GAN与GAN和VAE相比,基于流的生成模型[13,43]受到了很少的关注,尽管它提供了非常有吸引力的特性,例如估计精确对数似然的能力,有效的合成和精确的潜变量推理。在RealNVP [14]中,通过引入仿射耦合层和Glow [25],通过具有用于图像生成和编辑的1x1可逆卷积的架构,提出了进一步的进展这些作品后来被应用于音频生成[36,24,56,45],图像建模[49,19,8]和视频预测[27]。最近的一些工作已经提出了将它们与其他生成模型相结合来调节规范化流的策略。例如,[29,19]将流与GAN结合起来。然而,这些模型更难训练,因为对抗性损失往往会引入不稳定性。类似地,对于视频预测的具体应用,[27]对过去的潜在变量实施自回归模型,以预测它们在未来的变化。Dual-Glow [49]通过将源图像的先验分布与目标图像的潜变量连接起来,使用MRI到PET脑扫描映射的调节方案在本文中,我们引入了一种新的机制,以条件流为基础的生成模型,强制源到目标的耦合,而不是只馈送源信息到目标的先验分布,在每一个转换步骤。正如我们在实验中所展示的,这使得对建模过程的细粒度控制成为可能(第二节)。(七).三维物体的建模与重建。 深度学习的成功激发了大量用于3D重建的判别方法[9,38,51,46,18,58]。然而,这些技术仅学习输出形状和输入图像之间的直接映射。相反,生成模型从训练集中捕获实际形状分布,不仅能够重建新的测试图像,而且还能够从学习的分布中采样新的形状。沿着这条路线有几部作品。例如,GAN已经在Wu等人中使用。[54]在体素表示中对物体建模;Hamu等人。[4]用它们来建模身体部位;和Pumarola等人。[39]学习表示穿着衣服的3D身体的几何图像的方法。自动编码器[12,48]和VAE [15,3,30,20]也已应用于3D数据建模最近,Joon Parketal.[32]使用自动解码器[5,16]来表示具有连续体积场的形状。所有以前的技术都不是双射的,因此,不直接适用于我们的模型。PointFlow [57]是唯一一种使用规范化流来建模3D数据的方法。他们通过首先对对象形状的分布进行建模,然后应用归一化流来对每个形状的点云分布进行建模,从而学习点云的生成模型。然而,这种策略不能调节形状,从而阻止PointFlow用于3D重建和渲染等应用。此外,它的推理时间非常长,因为点云是一次生成一个点,而我们生成整个点云都在一次向前传递中。3. 基于流的生成模型基于流的生成模型旨在从有限的观测集{ x(i)}N中近似未知的真实数据分布x <$p<$(x)。 数据通过学习将具有易处理密度的潜在空间pθ(z)映射到x的不可变变换g θ(·)来建模:z<$p<$(z),x =gθ(z),(1)其中z是潜在变量,并且p(z)通常是高斯分布N(z;0,I)。函数gθ,通常称为归一化流[43],是双射的,这意味着给定一个数据点x,其潜变量z计算为:z = g−1(x),(2)7951KφθB一其中,g−1由K个可逆反式序列组成θ−1−1 −1 −1地层g=g1g2···gK 定义映射在x和z之间,使得:x,h0g−1←1→hg−1←2→hg−1···←→hK ,z,(3)生成模型的目标是找到参数θ,使得pθ(x)最接近pθ(x)。显式建模这样的概率密度函数通常是棘手的,但使用方程的归一化流映射(1)在变量变换定理下,我们可以计算给定数据点x的精确对数似然:logpθ(x)=logpθ(z)+log|det(z/x)|(四)ΣK= logp(z)+i=1洛戈|det(hi/hi−1)|(五)其中,h/hi−1是g−1在hi−1我我雅可比行列式测量log的变化当hi−1变换为h时,g−1得到的密度。以来我我我们现在可以计算精确的对数似然,基于流的生成模型的标准直接是观测值的负对数似然。请注意,对观测值图2:C-Flow模型由两个并行流分支组成,它们通过条件耦合层相互连接。比在VAE的对数似然的下限上进行更稳定和信息量更大,或者最小化GAN中的对抗损失。这是基于流程的方法的主要优点之一。4. 基于条件流的生成模型给定一个真实的数据分布(xA,xB)<$p<$(xA,xB)。 我们的目标是学习xBp(xB)的模型|xA)以将采样点从域A映射到域B。例如,对于3D重建的应用,xA将是图像,xB是3D点云。为此,我们提议基于条件流的生成模型扩展[14,25]。我们的L-水平模型通过两个双射变换gθ和fφ来学习这两个分布。2):zAp(zA),zBp(zB)(6)xA= gθ(zA),xB= fφ(zB|zA)(7)呃。该方案允许以x A为条件对xB进行采样。有关灰色函数的详细说明,请参阅[25]。在下面的小节中,我们将描述如何实现此配置框架。秒4.1讨论了我们提出的使用可逆函数将源数据映射到目标数据的条件耦合层的基础,以及如何计算其雅可比矩阵。秒4.2描述了我们为耦合层的实际实现定义的秒4.3提出了一个可逆循环consideration损失,以进一步稳定训练过程。最后,在第4.4我们定义了总训练损失。4.1. 条件耦合层在设计条件耦合层时,我们需要满足每个转换必须是双射和易处理的约束。如[13,14]所示,这两个问题都可以通过选择具有z = g−1(x),zB= f−1(x|xA)(8)三角雅可比矩阵 在这种情况下,他们的决定因素是计算,作为对角项的乘积,使计算-其中zA和zB是潜变量,p(zA)和p(zB)是具有可学习均值和方差的易处理的球面多元高斯分布注意,zA或xA上的条件是等价的,因为它们通过双射变换相关。然后,我们定义映射M到样本xB条件,在xA上,作为三步操作:易于处理并确保可逆性。出于这些工作,我们提出了一个扩展的耦合层,以考虑跨域条件。所提出的层的示意图如图所示。3.第三章。 形式上,让我们定义y,hi和x,hi−1。然后我们写可逆函数f−1基于xA变换数据点xB,如下所示:.1:cB=x1:c. - 是的ΣΣΣzA= gθ(xA)yc+1:C=xc+1:C=exps x1:c,x1:c +t x1:c,x1:c,B B A B A B挤压齐步走actnormreorder 1x1挤压cond. 流动步骤行为规范重新订购分裂分裂挤压式阶梯劈裂机挤压齐步走挤压条件齐步走分裂挤压条件齐步走y12B一−1编码条件xA(九)zBp(zB)样本潜变量zB(十)7952其中,C是两个数据点中的通道维数,m表示逐元素乘法,并且s和t7953gi-1fi-1Gifi(a) 前向传播(b)后向传播图3:前向和后向传播的条件耦合层。给定两个输入张量x A和x B,所提出的条件耦合层以x A和x B的前半部分为条件来变换xB的后半部分。所有张量的前半部分都不会更新。通过顺序连接这些双射运算,我们可以将数据点x转换为它们的潜在表示y(前向传播),反之亦然(后向传播)。是尺度函数和平移函数(Rc,Rc)<$→Rc−c。我们在所有实验中设定c=C/2。对于f,不一定要分裂xA来确保双射性。然而,通过这样做,我们大大降低了计算要求。The inverse f of the conditional coupling layer is:.与actnorm,使它们在同一范围内运行最后的3×3卷积回归条件耦合层算子log(sB)和tB。4.3.可逆循环一致性我们训练我们的模型,以最大限度地提高1:cB=y1:c. B.Σ Σ- 是的训练数据集。然而,同样在GAN中学习-回顾 [34,22],我们发现增加一个令人鼓舞的损失是有益的xc+1:C=yc+1:C−t y1:c,y1:cexp%sx1:c,x1:c,B B A BA B(十二)生成的和真实的样本在L1中是相似为此我们利用了这样一个事实,即我们的模型是由双射反式构成的其Jacobian:ΣB.I.C形成,并引入我们所谓的可逆循环0倍的一致性。这一操作可以总结如下:=0.0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000.. -是的1:c1:c,−1−1xB值diagexps x,xg,ff(x1:c)A B{xA,xB}−→{zA,zB}→{zA,z<$B}−→x<$B。(十三)其中Ic∈Rc×c是恒等矩阵。由于雅可比矩阵是一个三角矩阵,其行列式可以计算如下:有效地作为对角元素的乘积。注意,不需要计算函数s和t的雅可比矩阵,使它们能够任意复杂。在实践中,我们使用卷积神经网络来实现这些功能。具体地说,数据点观测值(xA,xB)最初被映射到它们的隐变量(zA,zB)中,其中每个变量由一个L级堆栈组成.如[14]所示,第一个级别编码数据中的高频(细节),最后一个级别编码低频。然后,我们对zB的第一个L−1维重新采样,返回log(s)和t的网络工作表。高斯分布,即,zB=[z1,. . .,zL] →zB=4.2. 耦合网络架构本文描述了分别用于回归在每个gi和fi处的每个连续耦合层上应用的仿射变换的<$θ(·)和<$φ(·)的结构。我们建立在[25]提出的三个2D卷积层的堆栈上。前两层的滤波器大小分别为3×3和1×1,输出通道为512个,后面是act-[25]第二十五话,一个人的幸福。第三层回归X7954我我B一一通过应用滤波器大小为3×3的2D卷积层进行最终缩放和平移,初始化为零,使得训练[N(0,I)1,. -是的-是的 ,N(0,I)L−1,zL]. 通过这样做,zB仅保持原始zB的最低频率。作 为 最 后 一 步 , 我 们 将 f−1 转 化 为 erx<$B=f(z<$B|zA),并惩罚其L1相对于原始xB的差异。实际上,我们所做的是强制模型使用来自条件xA的信息,以便在样本xB上的重建尽可能与原始xB相似。请注意,如果基于整个潜在变量重构zB,则重构的样本将与原始xB相同,因为f是双射的,并且这种损失将是无意义的。4.4. 全损形式上,将观测的训练对表示为等价于一个恒等函数。{x(i),x(i)}N模型参数的学习是通过mini-对于变换g−1(x),我们精确地使用这个ar-ABi=1−1iA最小化以下损失函数:建筑,但对于fi(xB)|xA)我们将其扩展到AC-计算条件反射x。 具体来说,在f−1中,x是一个1ΣNΣ-logp(一)(一)¨(i)¨Σ(i)通过两个卷积层进行基本变换,如第一个Nθ,φ(xA,xB)+λ¨xB−xB¨1(十四)两个G-1。然后x采用通道仿射i=1通过1×1卷积实现的变换。最后,其输出被加到变换后的xB上。 为了确保类似它们的激活被归一化第一项使数据意见通过我们的设计,它还最大化了x B的一致性可能性|xA,从而迫使模型7955图4:排序3D点云。点云对应三把不同的椅子。彩色线根据点的顺序连接所有点上:无序。下图:应用提出的排序策略.请注意,即使对于具有不同拓扑的点云,样本之间的着色也是一致的。学习所需的映射。为了证明这一点,我们应用全概率定律,并将其分解为:图5:在点云中近似全局特征。 处理点云时(重新排序和重塑为H×W×3大小,使用c=C/2),我们近似了耦合层中的全局特征,同时仍然是可逆的。仿射变换是仿射变换,其中前C/2输入通道是缩放,另一半是平移。希尔伯特为每个ΣNΣN- logpθ(x(i))−logpφ(x(i))|(i)(15)训练样本,我们将其点投影到3D Hilbert曲线中并根据它们沿曲线的顺序重新排序i=1A B Ai=1(图4)。请注意,我们不仅可以建立一个近邻关系,而且还可以建立一个语义稳定的顺序-由于雅可比矩阵的对角结构x A的似然仅取决于θ(第一和),而x B的条件|xA,仅在φ上。最大化联合似然性从而独立地最大化两个似然性。(14)中的第二项使循环一致性损失最小化。λ是平衡这些项的超参数。这种损失是完全可微的,我们在第二节中提供了如何优化它的详细信息。六、5. 无序三维点云到目前为止描述的模型可以处理表示在规则网格上的输入数据,但它不能对无序的3D点云进行建模,其缺乏空间邻域排序阻止了卷积的应用。为了处理具有深度网络的点云,常见的做法是应用对称操作[40],该操作创建描述整个点云样本的全局特征的固定大小张量。这些操作需要提取点独立的特征,然后是最大池,这是不可逆的,不适用于规范化流。另一种替代方案是图卷积网络[55],尽管它们的高计算成本使它们不适合我们的多耦合层方案我们提出了一个三步机制,使建模三维点云:(i) 近似排序与空间填充曲线。 C-Flow基于卷积层,卷积层要求输入数据在样本之间具有一致的局部邻域。为了满足无序点云的这一条件,我们提出了基于邻近度的排序方法。正如在[40]中所讨论的,对于高维空间,不可能产生一个完美的有序稳定的点扰动。因此,在本文中,我们考虑使用提供的近似值ing(例如,在图4中,椅子的右腿总是蓝色的)。据我们所知,没有以前的工作使用这样的点云预处理。(ii) 近似全局特征。希尔伯特排序不足以对3D数据建模,因为有一个主要问题:它将空间分成大小相等的象限,希尔伯特曲线将覆盖象限中的所有点,然后再移动到下一个象限。因此,两个原本在空间中很近,但位于两个不同象限边界附近的点,在最终排序中将远离为了mit-igate这种效果,我们扩展了所提出的耦合网络架构(Sec.4.2)与[40]中提出的描述整个点云的全局特征 具体地说,我们首先重新采样,对重新排序后的点云进行整形,形成H×W×3矩阵(实际上我们使用与图像相同的大小)。然后,我们通过1×1卷积来近似[40]的全局描述符,以提取点独立特征,然后仅在点云特征的前半部分x1:c上应用最大池(图5)。耦合层保持双射,因为在反向传播期间,近似的全局特征可以使用与等式2中类似的策略来恢复。(十二)、(iii) 循环一致性的对称倒角距离。对于点云的特定情况,我们观察到,当用L1惩罚可逆循环一致性时,模型收敛到平均希尔伯特曲线。因此,对于点云,我们用对称Cham- fer距离代替L1,它计算地面实况点云xB和恢复的xB之间的平均欧几里得距离。7956θ图6:嵌入3D点云。 上图:部分嵌入的重建。下图:使用部分嵌入的反向传播的三次迭代的重建。6. 实现细节由于内存限制,我们使用64×64分辨率的对于3D点云,为了保持与图像中相同的架构,我们将每个点云样本(64个2点的列表)重塑为64×64。在测试时,我们也回归6423D点每向前通过。我们的实现建立在Glow的 基 础 上 [25] 。 我 们 使 用 亚 当 , 学 习 率 为 1e−6 ,β1=0。85,β2=0。007和批量4。多尺度架构由L=4个级别组成,每个级别具有12个流动步骤(在等式中K=4×12)。(3)每一个和2次挤压操作。对于有条件的山姆-我们发现additiv ecoupling(s(·)=1)比在训练期间比仿射变换稳定。 现有分布p(zA)和p(zB)初始化为均值0和方差1。其余权重从均值为0且标准值为0的正态分布中随机初始化。05. λ=10,等式(14)。与之前基于似然性的生成模型[33,25]一样,我们观察到从降低温度的先验中进行采样可以改善结果。要做到这一点,我们将p(zB)的方差乘以T=0。9 .第九条。该模型使用4个GPU P-100训练10天。7. 实验评价接下来,我们在不同的任务上评估我们的系统:( 1 ) 模 型 化 点 云 ( 第 ( 2 ) 3D 重 建 和 渲 染 ( 第7.17.2),(3)各种域和数据集中的图像到图像映射(第7.2节)。7.3),和(4)图像处理和风格转移(第7.3节)。7.4)。7.1. 3D点云我们评估了我们的方法在ShapeNet上建模3D点云的潜力[7]。对于这个任务,我们不考虑完整的条件化方案,而仅使用图1中的C-Flow2,我们表示为C-Flow*。在我们的第一个实验中,我们研究了未知形状的表征能力,正式定义为能力,图7:插值。在学习的潜在空间中插入两个3D点云x1和x2的结果。方法百分百百分之五十百分之二十五12个。百分之五[25]第二十五话0.000.390.390.39C-Flow* +排序0.000.190.210.22C-Flow*+ Sort + GF耦合0.000.140.180.31PunchasNet-Sph. [18个国家]0.75[18]第十八话0.37DeepSDF [32]0.20表1:表示3D点云。恢复具有部分嵌入的点云时的倒角距离。对于所有C-Flow*,我们在测试时更改嵌入大小,无需进一步训练。百分比是相对于输入维度(4096)而言的。对于EkasNet和DeepSDF,我们提供了来自[32]的结果。通过用来自高斯分布的样本dr a wn替换它们的最左边的l分量, z=[N(0,I)1,. - 是的- 是的 ,N(0,I)l,zl+1,. - 是的- 是的 ,zL]。请注意,嵌入大小L− l可以在测试时设置,无需重新训练,从而使点云压缩等任务变得直接。性新最后,我们将此嵌入映射回原始点云空间x∈=gθ(z)并与x进行比较。选项卡. 1报告不同嵌入尺寸的倒角距离(CD)。CD是通过密集重新排列输入网格与多达107顶点计算。普通版本的C-Flow*(无条件、无排序、无全局功能)[25]这是一个很好的例子。这个版本在引入排序和全局 特 征 策 略 时 得 到 了 持 续 的 改 进 ( 第 二 节 ) 。(五)。当我们增加嵌入大小时,误差会优雅地减小,重要的是,当使用完整大小的嵌入时,我们获得了完美的恢复(图1)。6- top)。 这是双射模型的一个优点,微不足道的财产选项卡. 1还报告了At-lasNet [18]和DeepSDF [32]的数量,表明我们的方法取得了有竞争力的结果。这种比较只是指示性的,因为所使用的表示方法本质上是不同的([18]参数和[32]连续表面)。回想一下,z中最左边的分量编码了形状的高细节。我们利用这一属性生成点云与任意大量的点,在映射转发后保留信息的能力,执行多个反向传播(x=gθ(zθ))在原始空间和潜在空间之间向后移动。为此,我们首先将真实点云x映射到潜在空间z=g−1(x).全尺寸嵌入z=[z1,. . .,zL]具有与输入(HWC)一样多的维度。然后我们逐步移除信息的部分嵌入z(图。 6-底部)。每一次我们传播,我们恢复一组新的3D点,逐步提高重建的密度。C-Flow可以解决的另一个任务是潜在空间中的形状7957插值(图7)。7958One-to-ManyOne-to-One图8:图像到图像。 结果来自各种域上的64× 64图像到图像映射。 xA:源图像;xB:目标域中生成的图像。左侧的示例对应于具有高可变性的目标域,当多次采样时,这些目标域生成不同的图像。在右侧的示例中,目标域具有小的可变性,并且采样变得确定性。图像→PC图像←PC方法CD↓ BPD↓ IS↑3D-R2N2 [9] 0.27--PSGN [15] 0.26--[51]第51话[18]第十八话ONet [30] 0.23--C-Flow 0.86 4.38一点八C-Flow+排序0.522.772.41C-Flow + Sort + GF耦合0.492.872.61C-Flow + Sort + GF耦合+CD0.26--方法分割→街景分割←街景结构→立面结构←立面地图→航拍图←航拍边→鞋边←鞋C-FlowBPD↓SSIM↑C-Flow +循环3.213.253.553.553.653.651.701.650.370.330.240.310.190.540.660.64IS↑1.802.191.922.051.521.952.401.61BPD↓SSIM↑3.173.053.543.553.653.651.681.650.420.360.260.300.170.570.670.65IS↑1.942.231.692.011.621.972.431.69表2:3D重建和渲染。↓:越低越好,↑:越高越好。C-Flow是第一种能够从点云渲染图像的方法同样的模型可以用于从图像进行3D重建。所有其他方法的结果都是从他们的原始论文中获得的。7.2. 3D重建渲染接下来,我们评估C-Flow对连续分布建模的能力(1)图像→点云,这使得能够从单个图像执行3D重建;以及(2) 点云→图像,这是它的逆问题,即在给定3D点云的情况下渲染图像图1示出ShapeNetChair类的定性结果在顶行中,我们的模型即使在强自遮挡下也能够生成未知物体的合理3D反射(右上示例)。第二行描述了渲染的结果,这突出了我们模型的另一个优点:它允许从条件分布中多次采样,以产生表现出不同属性的同一对象的多个图像(例如,视点或纹理)。在表2中,我们将C-Flow与其他单图像3D重建方法3D-R2 N2 [9] 、 PSGN [15] 、 Pix 2 Mesh [51] 、ProsperasNet [18]和ONet [30]进行了比较。我们评估表3:条件图像到图像生成。图像-图像标测中C-Flow(平面)和C-Flow +循环一致性损失的评价。根据倒角距离(CD)和地面真实形状进行3D重建。我们的方法(最后一行)与[9,15,51]表现相当,并且略低于专门为3D重建设计的最先进技术[18,30]。使用相同的模型,我们也可以从点云渲染图像。据我们所知,没有以前的工作可以执行这样的映射。虽然一些方法确实渲染点云[31,2,35],但它们坚持强假设,即知道每个点的RGB颜色和相机校准,以将点云投影到图像平面上。表2还报告了关于我们设计用于处理3D点云的不同操作的消融研究,即对点云进行排序(排序)、近似全局特征(GF耦合)和与倒角距离(CD)的逆循环一致性。在这种情况下,使用初始分数(IS)[44]和每维位数(BPD)报告评估,这相当于通常用于报告基于流的方法性能的负log 2-似然。结果显示,使用这些组件中的每一个时,尤其是将它们组合在一起时,性能都会得到提升7959BφBAB一(a) 图像内容处理(b) 风格迁移图9:其他应用程序。64×64图像处理和风格转换的示例结果。该模型没有针对这些任务进行重新训练,我们使用相同的训练权重来执行图中的图像到图像。8.7.3. 图像到图像映射我们评估C-Flow执行多域图像到图像映射的能力:分段参与[10 ]第10话, 结构参与立面通过三个操作实现:z1=f−1(x1|x1)编码原始图像x1z2= g−1(x2)编码所需结构x2(十六)(十七)AθA A[50]在CMP立面上接受培训,地图x2=fφ(z1|z2)合成新图像x2(十八)[22][23][24][25][26][27][28][29]图8-左示出了其中目标域具有宽方差和多重采样产生不同的结果(例如,语义分割图可以映射到几个灰度图像)。图8-右侧示例具有方差较窄的目标区域,并且尽管多次采样,但生成的图像非常相似(例如,给定图像,其分割被很好地定义)。表3报告了使用结构BBAB请注意,我们不再像在第二节中那样仅基于A进行条件反射。7.3,现在合成图像联合地以A(用于结构)和B(用于纹理)为条件。要执行样式转换,我们首先将内容图像转换为它的结构x2。例如,在图。9-bottom,shoe的内容最初被映射到其边结构上,其中shoe→edges权重。然后,我们应用与图像处理相同的过程,边→鞋重,设x1为结构相似性(SSIM)[53],以及BPD和IS。当引入-1A减少可逆循环一致性损失(第二节)。4.3)该模型没有 提 高 其 压 缩 能 力 ( BPD ) , 但 在 结 构 相 似 性(SSIM)和语义内容(IS)方面有所提高。值得一提的是,虽然GAN已经显示出令人印象深刻的图像到图像映射结果,即使在高分辨率下[52],但我们的工作是第一个可以使用规范化流来解决这些任务的工作7.4. 其他应用最后,我们展示了C-Flow的多功能性,使用能够执行风格转移和图像内容操纵的第一基于流的方法(图10)。第9段)。重要的是,模型没有针对这些特定任务进行重新训练,我们使用相同的参数来执行图像到图像的映射(第二节)。7.3)。 对于图像处理,使用分割→街道视图的权重,并使用边缘Particeshoes的权重进行样式转换。形式上,让域A是结构(例如,分割掩码)和域B是图像(例如,街景)。 然后,图像操作-内容图像和xB样式图像。8. 结论我们提出了C-Flow,一种新的规范化流程的调节这种调节,结合一种新的策略来建模无序的3D点云,使得有可能解决3D重建和渲染图像从点云,到目前为止,不能解决的问题与规范化流。此外,我们证明了C-Flow是一个通用的模型,也适用于许多多模态的问题,如图像到图像的翻译,风格转移和图像内容编辑。据我们所知,以前的模型都没有表现出这样的适应性。确认这个项目是在谷歌实习期间完成的。 它还得到了欧盟项目TER- RINET的部分支持:欧洲机器人研究基础设施网络H2020-INFRAIA-2017-1-730994。原始内容风格版7960引用[1] EirikurAgustsson , MichaelTschannen , FabianMentzer,Radu Timofte,and Luc Van Gool.用于极端学习图像压缩的生成对抗网络。在ICCV,2019年。2[2] Kara-Ali Aliev,Dmitry Ulyanov,and Victor S.莱姆-皮茨 基 。 基 于 神 经 点 的 图 形 。 arXiv 预 印 本 arXiv :1906.08240,2019。7[3] Timur Bagautdinov 、 Chenglei Wu 、 Jason Saragih 、Pascal Fua和Yaser Sheikh。使用合成vae建立面部几何模型在CVPR,2018年。2[4] Heli Ben-Hamu 、 Haggai Maron 、 Itay Kezurer 、 GalAvineri和Yaron Lipman。多图生成式曲面造型。SIGGRAPHAsia,2018. 2[5] Piotr Bojanowski,Armand Joulin,David Lopez-Paz,and Arthur Szlam.优化生成网络的潜在空间PMLR,2017年。2[6] Sergi Caelles , Albert Pumarola , Francesc Moreno-Noguer,Alberto Sanfeliu,and Luc Van Gool.基于时空gans 的 快 速 视 频 对 象 分 割 。 arXiv 预 印 本 arXiv :1903.12161,2019。2[7] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。6[8] 陈宏仁、许家明、王思宇、曹立武、帅宏汉、程文煌。Beautyglow:按需化妆转移框架与可逆发电网络.在CVPR,2019年。2[9] Christopher B Choy , Danfei Xu , JunYoung Gwak ,Kevin Chen,and Silvio Savarese. 3d-r2 n2:用于单视图和多视图3D对象重建的统一方法。在ECCV,2016年。二、七[10] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。8[11] EnricCorona , AlbertPumarola , GuillemAlenya` ,FrancescMoreno-Noguer 和 Gregory Rogez 。 Ganhand :Predictinghumangraspaffordancesinmulti-objectscenarios.在CVPR,2020年。2[12] Angela Dai , Charles Ruzhongtai Qi , and MatthiasNießner.使用3d编码器预测器cnns和形状合成的形状完成。在CVPR,2017年。2[13] Laurent Dinh , David Krueger , and Yoshua Bengio.Nice:非线性独立分量估计。见ICLR,2014年。一、二、三[14] Laurent Dinh,Jascha Sohl-Dickstein,and Samy Bengio.使用实nvp的密度估计。ICLR,2017年。二、三、四[15] Haoqiang Fan,Hao Su,and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在CVPR,2017年。二、七[16] 范继聪和程解宇。用深度矩阵分解完成矩阵。神经网络,2018。2[17] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS,2014。一、二[18] Thibault Groueix、Matthew Fisher、Vladimir G Kim、Bryan C Russell和Mathieu Aubry。Atlasnet:A papier-m? ch ?approachtolearning3dsurf acegeneration. CVPR,2018年。二六七[19] 放 大 图 片 作 者 : Christopher D. Chute , Rui Shu ,Zhangjie Cao,and Stefano Ermon. Alignflow:通过规范化流程从多个域循环一致的学习。arXiv预印本arXiv:1905.12892,2019。2[20] 保罗·亨德森和维托里奥·法拉利。通过形状、姿态和阴影的生成建模学习单图像3D重建。IJCV,2019年。2[21] Da vid Hilbert. U¨ ber die stetige Abbildung einer Linie aufein Fla¨chenstu¨ck. 一九三五年5[22] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。arXiv预印本arXiv:1611.07004,2016。四、八[23] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR,2017年。2[24] Sungwon Kim , Sang-gil Lee , Jongyoon Song , andSungroh Yoon. Flowavenet : 原 始 音 频 的 生 成 流 。ICML,2018。2[25] D
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功