基于多尺度对抗相关匹配的结构保持立体视图合成

118 浏览量更新于2023-10-18 收藏 2.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5860基于多尺度对抗相关匹配的结构保持立体视图合成张宇1，2，邹冬青1，Jimmy S.任1，浙江1，陈晓浩11商汤科技2清华大学{张宇1，邹冬青，任思杰，江哲，陈晓豪}@ sensetime.com摘要本文讨论了从一个单一的图像的立体视图合成各种最近的作品解决了这个任务，通过重新组织像素从输入视图中重建的目标一个立体设置。然而，纯粹依赖于这种基于光度的重建过程，网络可能会产生结构上不一致的结果。针对这一问题，本文提出了多尺度自适应相关匹配（MS-ACM），一种新的结构感知视图合成的学习框架所提出的框架不假设任何昂贵的监督信号的场景结构，如深度。相反，它将结构建模为从变换空间中的多尺度特征映射中提取的自相关系数在训练中，特征空间试图将合成图像和目标图像之间的相关距离推得很远，从而放大了不一致的结构。与此同时，视图合成网络通过修复它所犯的错误来最小化这种相关距离。通过这种对抗性训练，可以迭代地发现和减少不同尺度和级别的结构错误，同时保留全局布局和细粒度细节。在KITTI基准测试上的大量实验表明，MS-ACM在插入到最近的视图合成架构中时，比现有方法提高了视觉质量和度量。1. 介绍如今，3D显示已经变得越来越普遍。将丰富的2D图像和视频自动转换为3D现在是一种可以使各种工业领域受益的需求。为了满足这一需求，双目视图被渲染以形成用于输入场景的立体格式，而其中只有一个是预先已知的。然而，这种基于单图像的视图合成问题仍然具有挑战性。在其早期研究中，视图合成通常基于至少两个已知视图（或连续视频序列），电子邮件应发送至zoudonqging@sensetime.com图1.视图合成的结构保持。现有方法通常采用光计量损失（例如，Xie等人[39]，Niklauset al. [21]和Godardet al. [9])通常导致模糊和扭曲的结构，这对于薄的、不突出的物体更为严重提出的MS-ACM通过一种新的对抗性训练过程解决了这一限制，该过程同时考虑了大粒度和细粒度结构。最佳的彩色观看与缩放。因此，3D场景几何形状是明确定义的[30，38，14]。对于单个输入视图，深度学习强大的统计建模能力最近填补了在这些方法中，3D视图变换被公式化为2D翘曲场（例如，像素流[42，13，23]、空间变化内核[39，21]或全息图[15]），其引导目标视图训练中通常采用跨视图的光度重建然而，这样的损失函数优化地面实况MS-ACMGodard等人Niklaus等人Xie等人5861颜色一致性在平均统计中，结构退化经常发生为模糊、扭曲的细节。它特别损害来自“少数人”的对象图1所示的小而薄的磁极，其外观模糊不清1.一、为了在视图合成期间保持结构一致性，除了光度一致性之外，各种方法还利用来自3D世界的显式监督它发现场景深度/法线[15，43]，多视图输入[7，13，33]和CAD模型[32，23，27]的3D对应关系的尽管有丰富的3D信息，但其中任何一种都是昂贵且难以获得的。此外，3D超视仅限于少量场景/物体类型，限制了模型在本文中，我们提出了多尺度对抗相关匹配（MS-ACM），一种新的学习立体视图合成的方法。MS-ACM直接从数据中学习结构先验，而不是假设任何昂贵的3D监督形式。该方法在视图合成网络的基础上增加了一个结构评价网络每个特征位置计算其周围窗口内的归一化相关性，其响应用作局部结构配置的替代物。通过训练评论家网络来最大化合成视图和目标视图之间的相关系数的距离，它学会放大它看到的任何结构错误。这反过来又引导视图合成网络通过要求它最小化相同的距离来纠正它的错误。这种对抗性训练是在多尺度特征图上执行的，以便同时了解粗粒度和细粒度结构。为了避免陷入坏的最小值，提出了新的策略，使批评网络适应高层结构和鲁棒性的微妙的噪音。我们通过将MSACM插入到两个最近的代表性视图合成架构[39，21]中来展示MSACM的有效性具有挑战性的KITTI基准测试[8]的广泛结果表明，MS-ACM提高了视觉质量和定量指标。本文的主要贡献如下：1) 我们提出了一种新的对抗性训练框架结构保持立体视图合成。该模型对现有的各种视图合成模型都是友好的，提高了视图合成模型的性能和通用性。2) 提出了一种基于相关性的结构表示方法，用于对抗训练，有效地捕获不同尺度下的场景结构。各种策略，以避免坏的局部极小值。2. 相关作品二十多年来，多视点几何一直是解决给定场景的新视点绘制问题的一个重要方法每-然而，用单个图像形成该任务是相对较新的。本节简要回顾这些相关的办法。基于多视点的合成假设输入场景是从多个已知视点给出的以这种方式提供丰富的物理3D场景结构，使得可以明确地建立跨视图这一观点是从90年代开始出现的[19，30，1]。后来的作品通过提出更强的3D场景表示[35，24]，更好的遮挡处理模型[17，5]和更强大的纹理传输技术[25，37]改进了这个管道。除了静态场景建模，视频中的视图合成也被广泛探索，以促进稳定任务[14，3]。最近的深度学习方法提出学习直接的多到新视图合成函数[7，33，22，20]。虽然多视图输入提供了对3D结构的更全面的理解，但它不适合许多应用，特别是基于单个视图的应用。另一方面，基于单视图的合成仅基于单个图像生成新颖的视图。各种方法首先推断场景几何形状（例如，深度和法线[15，43]，然后用几何图形为基础的视图变换合成目标视图。CAD模型作为对象级新视图合成的另一种形式的几何信号[27，23，32，41]。然而，虽然场景深度/法线的收集成本很高，但CAD模型仅限于对象类别，并且对场景理解提供的知识很少另一方面，一些作品提倡自学过程，直接从输入图像中重组像素以匹配目标图像[42，39，34]，而不依赖于明确的几何监督。背后的原因是大量训练数据的集体力量提供了对学习到的视图转换的正则化。类似的想法也被用于其他任务，包括深度估计[9]和视觉跟踪[36]。然而，通常仅有的训练信号是平均光度误差。这种错误集中于保留大多数情况下的结构，但可能忽略不常见的场景，导致过度平滑的细节失真。结构正则化与对抗性培训最近在图像分割方面进行了探索[18，40，11]。在这些工作中，网络输出和地面实况分割被馈送到共享结构分析网络中，该网络被反向训练以夸大预测误差。提出的想法是从这条线的启发作品，但有两个新的方面。首先，我们处理高维信号（即.合成图像），而不是低维分割图。引入新的策略来稳定训练和摆脱坏的局部最优。其次，我们建议采用特征相关性作为结构代理，而不是在特征空间的距离上进行训练。以这种方式，鼓励网络发现场景中的高级边缘，从而允许更容易地学习结构相关的中级表示。5862|P|p∈P13. 所提出的方法3.1. 对抗相关匹配在深入研究我们的视图合成框架之前，我们首先介绍对抗相关匹配（ACM），这是一种用于结构感知学习的新型对抗训练过程ing. 该框架由一个结构预测器P和一个评价网络S组成。预测器接受输入x并生成结构化输出y，即，y=P（x;wP），由模型参数控制w .例如在在相同位置周围具有更大的搜索区域以这种方式，每图像纹理被过滤掉，并且仅保留结构配置，使得匹配过程鲁棒。我们的结构表示（1）符合这个想法，可以被认为是大小为1的模板和搜索窗口之间的归一化相关性。直觉在正确的距离后面。以前的工作ad-vocate使用特征向量 1d i的adversarial结构学习[40，11]，即。1<$f（p）−fg（p）<$。Intu-P立体视图合成输入是左视图图像，输出是它的右视图。结构评价网络S负责将y转化为结构分析的潜在特征空间，即：f=S（y; wS）.我们假设f采用保留空间信息的卷积特征映射的形式对于空间位置p，其特征由f（p）访问。在这个学习的特征空间中，ACM模型结构为不同空间位置之间的相互关联更具体地，对于每个位置p，其局部结构配置由与其空间邻居计算的特征余弦距离表示：。ΣCorr-1损失明确地模拟了局部结构模式，这应该可以减轻将结构直接编码为特征的难度。通过计算特征之间的余弦相似性，仅保留特征级这将在学习纹理、亮度等方面节省大量的网络容量，与场景结构无关的东西当应用于对抗训练时，101损失的另一个不足是它对特征的大小的敏感性它说，当S最大化特征距离时，它往往会扩大特征幅度，使训练不稳定，[40]和[11]中的确认。为了防止这个问题，采用了权重裁剪，这给参数调整带来了困难，并限制了模型的容量。相反地，f（p）Tf（q）c（p）= vec（1）corr-1是有界的、幅度不敏感的损失。因此f（p）q∈Nk（p）网络不需要扩展功能来符合培养目标最近的调查结果也支持这一说法其中，Nk（p）是p在k大小的空间窗口内的相邻位置的集合，并且Nk·N2表示N2范数。vec（·）操作将输入值重新生成为向量。并对合成的异丙氧基苯甲酸甲酯进行了结构表征。年龄c，我们现在可以排除错误与地面实况。为此，y的真值，用yg表示，被馈送到相同的S中，并产生结构表示cg。因此，结构误差通过以下方式测量：并显示其对稳定训练的积极作用[16]。3.2. 摆脱坏的最小值对抗网络中的鉴别器在高维信号上训练时很容易陷入糟糕的局部极小值[26]。ACM也不例外，因为在视图合成等任务中，结构评论家网络运行在.Σdsy， yg1为|P|Σc（p）−cg（p）<$1，（2）p∈P彩色图像我们对这个问题的处理如下。引入噪声鲁棒性。预测y和地面实况y0通常具有固有的分布差距，I.E.在所有特征位置P上的平均距离。为简单起见，我们将（2）称为相关距离。在对抗训练中，结构批评网络S通过最大化（2）来提供最佳区分y和yg的特征空间。同时，预测网络P试图产生可以使其最小化的结构化输出y。在这种情况下，任何结构性的差异可以在训练期间被放大，这反过来又提供了足够的信号来监督预测器训练。在下文中，我们提供了一些关于ACM的评论链接到自相似性。所提出的方法与十年前建立的视觉匹配的自相似性概念相关[31]。自相似性为每个图像位置分配一个描述符，该描述符表征其局部布局模式，通过比较模板窗口来计算等待预测器P的生成过程。为例如，预测视图的合成像素是由于视图合成期间的插值或扭曲操作，它们也可能因相机镜头设置和数据捕获环境而在照明和纹理方面有所不同。如果评论家网络注意到它们，它会将预测和事实推到特征空间中的糟糕模式，并且对学习没有任何贡献。在训练GAN时，这种分布间隙问题被积极研究，一个工作技巧是实例噪声[2]。我们将这个想法应用到ACM中，如下所示。当训练S时，我们将随机噪声添加到地面真值yg中以生成yn，并将其馈送到S中以获得结构表示cn。我们要求S学习抗噪声特征，通过将cn约束为5863图2.立体视图合成的建议框架。视图合成网络预测输入图像的合成视图，该合成视图与其地面实况一起被馈送到结构评论网络以产生多尺度特征图。与此同时，地面实况图像的噪声版本也经历了同样的过程。在训练期间，视图合成网络最小化合成图像与地面实况之间的像素距离、提取的特征图的距离和相关距离。结构批评网络最大化相同的相关距离，同时最小化地面实况和其噪声变换之间的相关距离。同时，提取的特征图用与评论家联合训练的正则化网络重建输入。最好用彩色观看接近CG。它等于最小化总而言之，C语言的ACM培训目标是.dnyg，ynΣ1为|P|ΣPklcg（p）−cn（p）2001年.（三）maxLCwC， wR.y，yg， ynΣ=−λn ds.Σyn， ygp∈P以这种方式，预测器/特定于网络的特性被-λrd2R.Σy，yg+ds.Σy， yg，被噪声打破，迫使S意识到真实的图像内容。使特征内容对齐。虽然在 Princi- pleS发现两个图像之间的任何差异，最好使学习的特征与输入对齐这个想法（六）其中λn和λr是正权重。对于P，训练目标定义为：最初由Hwang等人提出。[11]，使网络更有效地学习好的结构基为此，结构正则化网络R是最小LPWP.Σy，yg=ds.Σy，yg+df.Σy，yg.（七）附加在S之后，S消耗其输出特征，重建输入图像。网络R和S联合训练，最大限度地减少了101重建损失在本节的其余部分，我们将展示ACM是如何即时-解决了立体视觉合成问题。3.3. 基于多尺度ACM的.Σ¨ ¨dry，yg=？y− R（c; wR）？1+？yg − R（cg;wR）？1。（四）立体视觉缩小特征缩放的差距。由于corr-1对特征量不敏感，因此存在过拟合的潜在风险。想象一下，S将预测和地面实况推入不同的特征空间，规模的大小，但相关值仍然是相同的如果发生这种情况，在两个不同的特征空间中优化结构距离可能会产生不可预测的结果。为了防止这种情况发生，我们训练预测器P，追求groundtruth的特征空间：合成总结于图1B中。2. 在此框架中，视图合成网络将左视图作为输入并重新组织其像素以生成预测的右视图。预测的视图、地面实况和地面实况的噪声版本被馈送到批评者网络中以进行结构分析。在测试过程中，只保留视图合成网络，其他部分被丢弃。视图合成网络可以用各种现有架构来实现[42，39，21]。它是训练与.Σdfy，yg1 为 |P|Σ5864p∈P<$f（p）−f g（p）<$1。（五）1991年的光度重建损失以及ACM损失（7）。结构评价网络S和正则化网络R来自编码器-解码器结构，对此，我们5865n采用U-Net [28]。它由三个下采样阶段和三个上采样阶段组成每个下采样阶段都有两个卷积层，与LeakyReLU非线性交织。在每个阶段之后应用平均池化。因此，结构关键网络实际上提供了三种尺度的特征图。我们在每个尺度上执行ACM以捕获不同粒度的结构。我们将这种扩展版本的ACM称为多尺度ACM（MS-ACM）。训练算法。根据火车的实践-在GAN [10]中，我们交替更新P和S，直到转换。gence. 在每个训练步骤中，地面实况都被转换为由三种类型的噪音：加性高斯噪声、高斯模糊和随机像素移位，以及它们的组合。对于随机像素移位，我们在所有像素位置生成一个小的局部随机偏移场，并应用双线性扭曲，ing [12，44]. 噪音的强度随着时间的推移而衰减。以这种方式，我们期望S首先关注高级粗糙结构并忽略其他细节以避免坏的最小图像。我们总结了Alg中的训练算法。1.一、算法1用于立体视图合成的MS-ACM训练算法。要求：训练集：左视图X和右视图Y g这两个分割将分别被称为KITTI-Raw和KITTI-Eigen。我们遵循先前关于视图合成的工作[15，42]，并采用均方根偏差（RMSE），峰值信噪比（PSNR）和结构相似性指数（SSIM）作为评估指标。由于这项工作旨在提高结构的质量，我们还在梯度空间中进行评估。具体来说，就是Metrics Grad。x和梯度。Y分别测量水平和垂直方向上合成图像和地面实况图像的梯度之间的均方误差。基线。 We integrate MSACM into two recent rep-resentative architectures, Deep3D [39] and SepConv [22].SepConv最初是为视频帧插值而设计的，它需要两个帧作为输入。我们通过删除一个图像输入并保持其他层固定来定制它用于立体视图合成。我们选择这两个基线是因为它们的设计简洁，性能强大。然而，应该注意的是，所提出的方法是通用的，并且不限于某些架构。除了Deep3D和SepConv，我们还与LRDepth进行了比较[9]。所有这些方法都不假定诸如场景深度或多视图图像的附加输入重复1. 抽样一批.Σmx（i）∈X，，，my（i）∈Y;因此是直接可比的。对于LRDepth，我们使用作者发布的模型作为Deep 3D和Sep-i =1。Ggi=12. 得到预测y（i）=Px（i）;wPΣ，并生成Conv不报告KITTI结果或发布培训脚本，我们通过整合作者的源代码来重新训练它们，噪声背景真值y（i），i∈ {1，2，···，m};3. 通过（1）计算特征相关性c（i），c（i），c（i）代码到我们的训练框架中，如下所述。我们确保我们的集成保持其原始细节，G n4. 将S、R更新为c。结束他们的一个聚会：模型定义，可以重现其发布的结果。100μmLy（i），y（i），y（i）;实作详细数据。在训练中，高-WS，WRmi=1Cg n分辨率KITTI图像首先被下采样一半5. 更新Pb y。降序的。nts：中国分辨率为188×621。尺寸为128×256的补丁运行-101 米<$y（i）−y（i）<$+L（i），（ii）;WPmi=1？g？g在下采样的图像上进行domly裁剪，6. （可选地）衰减学习率和噪声;直到达到最大训练迭代4. 实验4.1. 实验设置数据集和评估指标。为了对现有的立体视图合成方法进行基准测试，我们在具有挑战性的KITTI数据集上进行了实验[8]。原始形式的KITTI包含从61个场景中捕获的42382我们在KITTI 2015年挑战赛中提供的400对官方训练集上对模型进行了基准测试这些图像跨越28个场景，这些场景被排除，其余33个被保留用于训练，总共产生34071个训练对。本征分裂[6]也包括在评估中。它提供了一个测试分裂，涵盖697对从29个场景，并建议训练与23488对采样从其余32个场景。发现了这本小批量的8张图片。我们应用Adam优化器，一阶和二阶矩衰减等于0。5和0。999，回复。训练持续50个epoch，学习率为10−4，每20个epoch以指数方式衰减一半在训练MS-ACM时，噪声在每个时期衰减，指数因子0。九十五在测试过程中，图像被下采样到188×621的大小，从左上角裁剪出160×608的区域，以满足宽高比基线要求在整个评估过程中，如果没有具体说明，则（6）中的权重λr和λn被设置为10，而用于计算权重的窗口大小被设置为34.2. 与现有方法的比较KITTI的基准测试结果。结果总结于表1中。除了使用201像素重建损失训练的基线外，我们还将其与使用多尺度SSIM（一种广泛采用的结构感知损失）训练的变量进行了比较。如表所示，拟议的ap-5866表1.KITTI-Raw（左）和KITTI-Eigen（右）数据集的基准测试结果箭头↑（↓）表示数字越大（越小）粗体突出显示第一个位置，而下划线显示第二个位置。模型RMSE↓PSNR↑毕业。x↓毕业。y↓SSIM↑RMSE↓PSNR↑毕业。x↓毕业。y↓SSIM↑LRDepth28.05219.590205.124131.6210.75129.86819.103203.210138.8950.737Deep3D19.46622.854137.80381.9600.82922.69421.400162.112111.9350.775+MS-SSIM19.52022.790135.49482.2560.83323.01721.295156.849110.0520.782+MS-ACM18.06223.577120.62675.2480.84422.15921.624158.053110.5840.787SepConv19.55622.861141.46783.5200.82723.79621.010174.754119.0610.764+MS-SSIM19.82522.709142.55793.2040.83223.80120.987171.366119.8580.766+MS-ACM18.37023.467128.21479.4150.83523.51921.120170.658119.5430.768SepConv+MS-ACMGT+MS-ACMDeep3DLRDepth图3.KITTI数据集上的定性结果在每个示例中，红色矩形标记了用于比较的区域该方案在几乎所有衡量标准上都一致地优于基线方法。在KITTI-raw数据集上，在特定于梯度的措施上实现了很大的改进，说明所提出的方法使模型训练对场景边界敏感。除了结果比较，表1还提出了一些值得讨论的观察结果。首先，尽管MS-ACM不将SSIM应用为训练损失，但它甚至比直接用SSIM训练获得更好的SSIM数乍一看，这似乎很奇怪，因为模型应该降低其优化此特定指标的能力，并且在训练过程中确实得到了较低的SSIM损失我们将这种改进归因于MS-ACM更强的泛化能力，从而导致更好的测试行为。在下一节中，我们将进一步论证这一点。第二，尽管所提出的方法在KITTI-Eigen上仍然取得了最好的结果，但差距比KITTI-Raw更近。我们怀疑这是由数据集抽样的偏差造成的。由于KITTI-Raw的训练数据和测试数据的分布相反，对于KITTI-Eigen，训练和测试分布重叠很多，并且改进相对较小。定性结果。在图3中，我们显示了不同方法产生的代表性结果。在对抗训练中，MS-ACM会注意任何明显的结构差异。正如我们所看到的，它更好地保留了对象的形状，恢复了过度平滑的细节，并成功地处理了由遮挡引起的变形在…5867L1 MS-SSIM MS-ACM图4. MS-ACM和MS-SSIM之间的视觉比较。详情见正文表2.分析KITTI-Raw数据集上的不同窗口参数。箭头↑（↓）表示数字越大（越小），结果越好。粗体突出显示第一个位置，而下划线显示第二个位置。多尺度？赢了大小RMSE↓ PSNR↑ SSIM ↑20.870 22.257 0.81322.124 21.6602019年12月20日✓318.370 23.467✓23.371 0.829✓11 18.848 23.167相反，基线或者牺牲小而薄的细节以获得更好的平均质量（例如，Deep 3D和Sep- Conv），或者由于视差估计中的误差而表现出大的失真（例如，LRDepth）。与SSIM标准的比较。SSIM是一种可区分的结构感知准则，因此被广泛用于训练。从本质上讲，SSIM优化了多尺度下一阶和二阶矩计算预测图像和地面实况图像之间的窗口然而，这种统计匹配使其对局部变形和小细节不敏感[29]。如图所示在图4中，虽然SSIM修复了粗结构错误，但未解决细粒度错误。因此，模糊的边界和过度平滑的细节仍然会发生。相反，MS-ACM没有这样的限制。差异的可视化。Deep3D或SepConv架构估计每个输出像素在几个固定水平偏移处等于输入像素的可能性。因此，差异可能是由总的-计算由学习的似然加权的偏移，如图所示。5.可以看出，使用SSIM训练的视差在视觉上更平滑，但沿对象边界不准确相反，对于MS-ACM，图5.比较学习的差异。对于每个示例，我们分别显示了使用MS-SSIM和MS-ACM训练的视差和合成视图表3.λn和λr的参数研究。λn/λr0.1/0.1 0.1/1 1/0.1 1/10 10/110/10PSNR 22.9623.06 22.97 23.59 23.6223.92SSIM 0.83 0.83 0.84 0.84 0.85适应于场景边缘并呈现出清晰的深度边界。然而，在无纹理区域（例如，路），他们不是那么准确和顺利。添加平滑度约束解决了这个问题，但对于视图合成来说并不理想，因为它可能会使对象边界平滑并导致失真。4.3. 性能分析在本节中，我们进行了大量的实验，以了解所提出的方法在各种情况下如何工作所有实验均基于SepConv基线。参数分析首先，我们研究不同的窗口大小如何影响所提出的方法。我们还考虑sider一个单尺度的变体，其中只有最深的规模是结构匹配。从表2中的结果，我们得出结论，多尺度匹配始终是有益的，因为学习不同的特征尺度可以修复局部和全局结构错误。但是，较大的窗口大小并不一定有助于改善结果。我们怀疑，由于深层表征已经捕获足够的局部上下文，因此一个小窗口就足够了。在表3中，我们评估了方程中参数λn和λr的不同组合（六）、我们发现，它们都改善了它们都改善了结果作为一个稳定的行为：只要它们足够大（即，λr，λn≥1），最终结果对它们不太敏感。设计选择的消融研究。在第二个实验中，我们经验性地证明了几个重要因素的必要性，5868表4.KITTI 2015分体式设计选择的消融研究箭头↑（↓）表示数字越大（越小），结果越好粗体突出显示第一个位置，而下划线显示第二个位置。损失噪音？壮举. 雷吉自我侦察RMSE↓PSNR↑毕业。x↓毕业。y↓SSIM↑Corr-1✗✗✗44.66215.272386.909338.5040.491Corr-1✓✗✗19.55822.841141.22787.5180.819Corr-1✓✓✗19.28022.961137.66686.3530.825Corr-1✓✓✓18.37023.461128.21479.4150.835ℓ1✓✓✓18.92123.111132.57885.0430.819图7.特征由结构评判网络学习，通过PCA投影可视化.图6.通过视觉比较研究所提出的方法的不同组成部分详情见正文设计选择。表4中报告了这些数字，图4中提供了视觉比较。6.如果不强制抗噪性（w/o noise），模型就不会学到很多东西。结构评论网络注意到合成输入和真实输入之间的固有分布差异，因此视图合成网络倾向于复制输入以使其看起来真实。添加噪音后（w/o feat.reg.），培训成功，但缺少细节。特征正则化（无自重构）改善了细节，但没有解决整体失真。通过学习与场景的空间背景紧密相关的特征，增强自我重构（corr-1我们还用对抗训练的标准特征损失代替了相关损失我们认为，在MS-ACM中的结构的显式建模减轻了编码的困难与特征学习。如图6、2011年亏损不学习薄结构虽然配备了相同的其他策略。对未知数据集的泛化能力。如前所述，我们相信MS-ACM的一个优势是它比经典度量更好的泛化能力直觉是，对抗训练提供了从简单到困难的动态训练信号，这可能会防止模型不断优化固定目标并过度拟合。为了说明这一点，我们将在KITTI原始数据集上训练的模型将输入图像调整为分辨率192×384，与训练模型的规模相在表5中，它表明，虽然MS-SSIM显然不MS-ACM显著提高了表5. Cityscapes测试集上的模型泛化能力。箭头↑（↓）表示数字越大（越小），结果越好。粗体突出显示第一个位置，而下划线显示第二个位置。型号SepConv +MS-SSIM +MS-ACMRMSE↓19.547 19.58617.731PSNR↑22.620 22.60323.465SSIM↑ 0.6500.6610.693几乎所有指标的表现。学习特征的可视化。最后，我们通过PCA投影将结构批评网络中的学习特征可视化，并在图中显示。7.正如预期的那样，第一个尺度学习局部边缘来表示精细级别的信息。从第二个比例来看，模型似乎过滤掉了低级颜色，并更多地强调区域形状（参见标记的区域）。如图所示，第三个比例捕捉模型认为最能代表场景全局布局的更复杂的结构模式。5. 结论本文提出了多尺度对抗相关匹配的立体视图合成。MS-ACM将合成结果和真值转换为多尺度特征空间，在多尺度特征空间中计算特征相关性作为结构表示。通过对这些表示的距离进行对抗性训练，发现并减少了不同尺度的错误，从而能够在各种粒度下保持结构。在未来的工作中，我们有兴趣引入高层次的线索（例如：语义、对象轮廓），以结合场景级知识，从而更好地进行结构学习。Corr-P无特征Reg.壮举. P无噪声无自我侦察。GT5869引用[1] S.贝克河Szeliski和P.阿南丹立体重建的分层方法。IEEE计算机视觉与模式识别会议（CVPR），1998年。[2] C. Kaae Sønderby，J.卡瓦列罗湖 Theis，W. 诗以及F.Hus za'r.图像超分辨率的摊销 MAP 推断 ArXiv1610.04490 [cs.CV]，2016。[3] C.- H. 楚用于 3d 移动设备上的立体 3d 视频稳定。IEEEInternational Conference on Multi- Media and Expo（ICME），2014。[4] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议，2016年。[5] A. Criminisi 、黑腹拟步行虫 A. 布莱克角 Rother ， J.Shotton，and P. H. S.乇有效的密集立体与闭塞的新的看法 - 合成四状态动态规划。 International Journal ofComputer Vision（IJCV），71（1）：89[6] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统进展（NIPS），2014年。[7] J. Flynn，I. Neulander，J. Philbin和N.很聪明深立体声：学习从世界的图像中预测新的观点。在IEEE计算机视觉和模式识别会议（CVPR），2016年。[8] A. Geiger ， P. Lenz ， Christoph Stiller ， and RaquelUrtasun.视觉与机器人技术的结合：Kitti数据集。国际机器人研究杂志（IJRR），2013年。[9] C. 戈达尔湖，澳-地Mac Aodha和G.J. 布罗斯托具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议，2017年。[10] I. Goodfellow，J.普热-阿巴迪米尔扎湾，澳-地Xu，L.沃德-法利，S。奥扎尔A. Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展（NIPS），2014年。[11] J. - J. Hwang，T.- W. Ke，J. Shi，and S. X. Yu.图像分割的对抗性结构匹配损失。ArXiv 1805.07457 [cs.CV]，2018。[12] M. Jaderberg ， K. Simonyan 、 A. Zisserman 和 K.Kavukcuoglu空间Transformer网络。神经信息处理系统（NIPS），2017- 2025页，2015年[13] D. Ji，J. Kwon，M. McFarland和S. Savarese深度视图变形。在IEEE计算机视觉和模式识别会议，2017年。[14] F. Liu，M. Gleicher，H. Jin和A.阿加瓦拉三维视频稳定的内容保持扭曲。 ACM Transactions on Graphics（TOG），28（3），2009.[15] M. Liu，X.他和M。萨尔茨曼几何感知深度网络用于单图像新颖视图合成。在IEEE计算机视觉和模式识别会议（CVPR），2018年。[16] C. Luo，J. Zhan，L. Wang和Q.杨余弦归一化：余弦相似性代替点积在神经网络中的应用。ArXiv 1702.05870[cs.ML]，2017。[17] G. Luo，Y.Zhu，Z.Li和L.张某基于背景重建的三维视频视点合成空洞填充在IEEE计算机视觉和模式识别会议（CVPR），2016年。[18] G. M'ttyus和R. 乌塔松匹配的广告网络工作。在IEEE计算机视觉和模式识别会议，2018年。[19] L. McMillan和G.主教全光建模：基于图像的渲染系统。计算机图形与交互技术年会，1995年。[20] S. Niklaus和F.刘某用于视频帧内插的上下文感知合成。在IEEE计算机视觉和模式识别会议，2018。[21] S.尼克劳斯湖Mai和F.刘某基于自适应可分离卷积的视频帧内插。IEEEInternational Conference on ComputerVision（ICCV），2017年。[22] S.尼克劳斯湖Mai和F.刘某基于自适应可分离卷积的视频帧内插。IEEEInternational Conference on ComputerVision（ICCV），2017年。[23] E. Park，J. Yang，E. Yumer，D. Ceylan和A. C. 伯格。基于变换的新型三维视图合成图像生成网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年。[24] E. Penner和L.张某用于视景合成的软三维重建ACMTransactions on Graphics（TOG），36（6）：235：1[25] S. Pujades，F. Devernay，和B.戈德卢克贝叶斯视图合成和基于图像的绘制原理。在IEEE计算机视觉和模式识别会议（CVPR），2014年。[26] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成广告网络进行无监督表示学习 ArXiv 1511.06434[cs.ML]，2015年。[27] K.雷马塔斯角H.阮氏T. Ritschel，M. Fritz和T. Tuytelaars从单个图像获得对象的新颖视图。IEEE Transactions onPattern Analysis and Machine Inteligence（TPAMI），39（8）：1576[28] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络医学图像计算和计算机辅助干预（MICCAI），2015年。[29] M. P. Sampat，Z. Wang，S.古普塔A。C. Bovik和M. K.马基复小波结构相似性：一种新的图像相似性指数.IEEE图像处理学报（TIP），18（11）：2385[30] D.沙尔斯坦用于视图合成的立体视觉。IEEE计算机视觉与模式识别会议（CVPR），1996年。[31] E. Shechtman和M.伊拉尼匹配图像和视频中的局部自相似性。IEEE计算机视觉与模式识别会议，2007年。[32] H. Su，F. Wang，中国山核桃E. Yi和L.吉巴斯用于对象的新视图的 3d 辅助特征合成 IEEEInternationalConference on Computer Vision（ICCV），2015年。5870[33] S.- H.孙，M。哈Y H. Liao，N. zhang和J. J. Lim.多视图到新视图：用自学的自信综合各种观点.在欧洲计算机视觉会议（ECCV），2018。[34] S.图尔西亚尼河Tucker和N.很聪明基于视图合成的分层结构三维场景推理在欧洲计算机视觉会议（ECCV），2018。[35] G. Vogiatzis，P.H. S. Torr和R.西波拉通过体积图形切割的多视图IEEE计算机视觉与模式识别会议，2005年。[36] C. Vondrick，A.什里瓦斯塔瓦A.Fathi，S.Guadarrama和K.墨菲通过对视频进行着色来实现跟踪。在欧洲计算机视觉会议（ECCV），2018年。[37] O.伍德福德岛D. Reid和A. W.菲茨吉本使用成对字典先验的有效新视图合成在IEEE计算机视觉和模式识别会议，2007年。[38] O. J. 伍德福德岛D. Reid，P.H. S. Torr和A.W. 菲茨吉。基于多视点立体的新视点合成。英国机器视觉会议（BMVC），2007年。[39] J. Xie，R. B. Girshick和A.法哈迪。Deep3d：完全自动化的2D到3D视频转换，具有深度卷积神经网络。欧洲计算机视觉会议（ECCV），2016年。[40] Y. 薛，T.Xu，H.张丽R. Long和X.煌Segan：用于医学图像分割的具有多尺度l1损失的对抗网络神经信息学，16（3）：383[41] J. Yang，S. E.里德，M.- H. Yang和H.李你用于三维视图合成的递归变换弱监督解缠。神经信息处理系统进展（NIPS），2015年。[42] T. Zhou，S.Tulsiani，W.孙，J.Malik和A.A. 埃夫罗斯按外观流查看合成。欧洲计算机视觉会议（ECCV），2016。[43]

下载后可阅读完整内容，剩余1页未读，立即下载