SC-GAN：单目视频深度估计的端到端训练方法

12 浏览量更新于2023-10-16 收藏 2.56MB PDF 举报

生成对抗网络

相机姿态估计

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7494生成对抗网络的空间对应：从单眼视频学习深度Zhenyao Wu1， Xiao Wu1， Xiao Zhang2，Song Wang1， 3，<$，Lili Ju1， 3，<$1美国南卡罗来纳大学2中国武汉大学3中国远视科技有限公司{zhenyao，xinyiw}@ email.sc.edu，xpzhang. whu.edu.cn，songwang@cec.sc.eduju@math.sc.edu摘要单目视频深度估计在自动驾驶、机器人导航等领域有着重要的这是一个非常具有挑战性的问题，不知道相机姿态，因为相机姿态估计中的错误可以显着影响基于视频的深度估计精度。在本文中，我们提出了一种新的SC-GAN网络，具有端到端的对抗训练，用于从单目视频中进行深度估计，而无需估计相机姿态和姿态随时间的变化。为了开发跨帧关系，SC-GAN包括空间对应模块，其使用Scorpak稀疏网格来有效地匹配相邻帧之间的特征，以及注意力机制来学习不同方向上的特征的重要性。此外，SC-GAN中的生成器学习从输入帧中估计深度，而SVM学习区分参考帧的地面实况和估计深度图。在KITTI和Cityscapes数据集上的实验表明，所提出的SC-GAN可以在单目视频上实现比许多现有的最先进方法更准确的深度图。1. 介绍从2D图像或视频中进行深度估计对于许多计算机视觉应用至关重要，包括机器人[4]，自动驾驶[9，23]，3D重建[58]和增强现实[11]。与许多其他计算机视觉任务一样，卷积神经网络（CNN）近年来已被广泛应用于深度估计，并取得了显著的成功，例如从单幅图像[18，19，20，40，2，57]，立体图像[8，38]，多幅图像[10，11]估计深度。查看图像[32，49，51，54]和单眼视频[37，60、59、48、42、55]。其中，单目视频深度估计技术由于1）它只需要一台单目摄像机，同等贡献，合作通讯作者。（一）（b）第（1）款（c）第（1）款图1.相邻帧之间的空间关系和深度估计的说明。(a)参考框架;（b）两个相邻帧之间的对应特征;（c）由所提出的SC-GAN估计的深度图。如在许多真实场景中那样，以及2）相邻帧之间的空间关系为深度估计提供重要信息我们工作的目标是开发新的CNN模型，用于从单目视频中进行深度估计。与立体匹配不同，在立体匹配中，输入对的立体图像是由两个相对姿态固定的摄像机拍摄的，视频中相邻帧之间的摄像机姿态变化是时变的，并且是事先未知的，这使得单目视频的深度估计成为一个非常具有挑战性的问题。大多数可用的方法通过首先估计相机姿态和姿态随时间的变化来解决这个问题，通常通7495过训练相应的CNN [46，50，60]。对于这些方法，相机姿态估计中的误差可以显著影响最终深度估计的准确性[51]。在本文中，我们开发了一种新的网络SC-GAN（空间对应与生成对抗网络），以利用单目视频相邻帧之间的潜在信息我们首先提出了一个空间对应（SC）模块来匹配相邻帧之间的特征，7496如图1所示。受到简单观察的启发，即沿着不同方向的空间特征在估计深度图时做出不同的贡献，我们在SC模块中引入了基于方向的注意力（DBA）机制来学习沿着不同方向的特征的重要性。在两个帧之间建立特征关系的一个关键问题在于计算和存储的复杂性。由于帧之间的大相机姿态变化和高图像分辨率（这两者在自动驾驶和虚拟现实中是常见的），两帧之间的对应特征的搜索空间非常大。为了解决这个问题，我们使用Scarlak稀疏网格方法[47]对相邻帧中的感兴趣的块进行下采样，这为我们构建跨帧空间关系带来了效率和准确性。一般来说，我们对SC-GAN采用端到端对抗训练，其中生成器学习从输入帧估计深度，而训练器学习区分参考帧的地面实况和估计在实验中，我们对KITTI和Cityscapes基准数据集进行了一系列的消融和比较研究，发现所提出的SC-GAN可以实现比许多现有的最先进的单目深度估计方法更好的性能。本文的主要贡献概述如下：• 我们开发了SC-GAN网络，具有新设计的空间对应模块，用于端到端方式的单目视频深度估计。• 我们使用了Scorpak稀疏网格，大大降低了相邻帧空间对应的相关计算的复杂度。据我们所知，这是第一次使用这种方法来解决计算机视觉问题。• SC-GAN显著提升了KITTI和Cityscapes数据集上单目深度估计的2. 相关工作深度学习的使用提高了单个图像[18，19，20，40，25，52，41]和立体图像[8，38]的深度估计精度这些方法不是非常适合于解决从单目视频进行深度估计的问题，因为1）在不考虑跨帧关系的情况下，单图像深度估计方法通常表现出有限的准确度，以及2）立体匹配假定两个输入图像之间的固定相对姿态，这对于视频中的相邻帧不保持。从单目视频的深度估计，近年来引起了很大的兴趣。在[37]中，在帧之间匹配手工特征以进行深度估计，并且还使用光流来提高深度估计精度。Zhou等[60]训练网络以估计相邻帧之间的相对相机姿态，然后将其馈送到另一个网络以进行深度估计。DeepV2D [48]估计关键帧和一组附近帧之间的相对相机姿势，并最终在关键帧上生成融合深度图。DeepTAM [59]估计相对相机姿态，并使用它将关键帧的已知深度图传播到其他帧。Mahjourian等人[42]通过加强3D几何一致性在单个网络中组合相机姿态估计和深度估计Yin等[55]考虑了统一网络中的相机姿态估计、深度可以看出，所有这些方法都需要估计帧间的相机姿态变化。因此，在本文中，我们直接利用相邻帧之间的空间关系，而不需要估计摄像机的姿态和姿态沿视频的变化。还相关的是关于从多视图立体声学习深度的另一行工作[32，49，51，54]。如果将多个相邻帧视为多视点图像，则这些方法然而，这些方法中的许多方法需要给定相机姿态[33，35，54]，而其他方法需要估计相机姿态[49，32]，就像上面提到的基于视频的深度估计方法一样。所提出的SC-GAN不估计相机的姿势，我们通过各种实验表明，它可以从单目视频中获得更好的深度估计。所提出的SC-GAN是一种生成对抗网络（GAN）[26]，它在风格转移[16，36]，图像到图像翻译[34，62]，im-gun [34，62]，年龄编辑[61]和跨域图像生成[5，15]。在[45]中，提出了一种GAN网络来细化基于图像的立体匹配中的估计视差图。在[12，14，1]中，经典的GAN适用于从单个图像估计深度在[44]中，循环生成网络被部署为以无监督的方式从立体声对中估计深度与这些工作不同的是，本文开发了一种新的GAN网络来解决基于视频的深度估计问题，它利用了广告帧中的信息稀疏网格技术是多维空间中函数表示、插值和积分的一种有效的数值方法，具有很高的计算效率，最早是由Serryak基于稀疏张量积在[47]中提出的。从那时起，它已被广泛应用于近似理论[3]，不确定性量化和高维积分[6]，全局优化[43]，数据压缩[24]等。在本文中，我们使用Sjerak稀疏网格进行下采样，7497图2.所提出的SC-GAN的体系结构由一个生成器和一个子节点组成促进SC-GAN的空间对应模块中的跨帧特征对应。3. 该方法建议的SC-GAN网络由一个发电机和一个相互竞争的发电机组成。图2呈现了SC-GAN的详细架构输入是视频中的三个相邻帧-1.其中，帧0是我们寻求从其估计深度图的参考帧。虽然这种架构可以扩展到考虑更多或更少的相邻帧，但为了简单起见，本文中我们专注于三帧输入3.1. 网络架构SC-GAN的生成器网络包括空间对应模块、基于方向的注意机制和深度图细化模块，深度图细化模块以三重相邻帧组为输入，以端到端的方式输出深度图。首先，它首先使用ResNet-50 [29]从输入帧（所有帧都具有相同的大小W×H）中提取特征，然后对于每一帧，使用无空间金字塔池化（ASPP）[10]模块通过具有扩张率的扩张卷积运算从多个大接收域中提取特征（6，12，18）。每个的输出要素图则框架是W×H×C张量，其中C表示并且将参考帧的批量归一化特征一起馈送到权重共享细化子网络中，以获得每对的相应初始深度图最后，来自所有对的所有初始深度图的级联是3×3卷积层的输入，以预测参考帧的最终深度图。在训练阶段，我们使用马尔可夫识别器（PatchGAN[34]），它由4×4卷积-实例规范-泄漏ReLU层组成。区分器用于区分预测深度图和参考帧的对与预测深度图和参考帧的对。地面实况深度图和参考系，然后向生成器提供反馈。3.2. 空间对应受Flownet [17]的启发，它引入了一个空间对应关系的图示如图3所示设k是当对应参考帧的特征图fr与其相邻帧之一的特征图fa之间的特征时的最大位移对于fr中每个位置（i，j）上的特征，其在fa中对应特征位置的搜索空间是一个以（i，j）为中心的（2k+1）×（2k+1）正方形面片. 一种常用的方法是将它们的空间相关特征定义为W× H× C张量4 424 4频道的数量请注意，ResNet-50和ASPPV，C=（2k+1）它的每一个条目都由下式给出：模块是所有三个分支之间的权重共享。其次，结合基于方向的注意机制的空间对应模块用于形成每对参考帧及其相邻帧之一的相关特征第三，相关性特征V（i，j，c）=C（fr（i，j），fa（i+o1，j+o2））（1）对于o1，o2∈[−k，k]，其中c=（o1+k）（2k+1）+（o2+k），函数C表示1 × 1卷积（在这种情况下相当于点积运算）。因此，空间7498参考帧相邻帧frfaCRΘXyα相关特征V输出参考fr的每个位置（i，j）的C值，当最大位移k大时，C值可能相当大，特别是对于高分辨率输入图像。(a) 均匀采样r= 5r = 4r = 3r = 2(b) 均匀型稀疏网格图3.空间对应模块的架构。灰色正方形分别表示来自参考帧及其相邻帧中的一个的特征图，并且右侧的体积指示获得的在等式（1）中定义的相关特征V。（一）.缩小搜索空间的一种典型方法是对（2k+1）×（2k+1）正方形块进行下采样，只从稀疏的位置集中搜索相应的特征。均匀采样当然是一种选择-通道的数目）可以通过均匀采样减少到C=1/2k+1/2k。在本文中，我们建议使用Scarlak稀疏网格[47]进行非均匀采样，该网格已成功用于许多其他应用。在二维中的正方形域中的一组Schwarak稀疏网格S被定义为：l= 1l = 2l = 3l = 4l=5l=6l= 7l =8(c) Chebyshev型的Schwarzak稀疏网格l= 1l = 2l = 3l = 4l=5l=6l= 7l =8[Sl=α1+α 2≤lOα1α2），（二）图4.在49×49的正方形面片上用不同的下采样方法采样点(a)均匀抽样;（b）均匀型的Scarlak稀疏网格;（c）Scarlak稀疏网格其中l表示稀疏网格的水平，α1和α2是非整数，Θj是一维插值矩阵，它可以是2α+1个均匀分布的点（均匀型）或（2α-1）阶切比雪夫多项式{cos（（n−1/2）π）}2α−1加上两端Chebyshev型的图4-（b）和图4-（c）分别显示了49×49正方形斑块上不同水平的Scorpak稀疏网格在后面的实验中，我们将进行烧蚀研究。点（Chebyshev型）。2α−1n=1是为了比较使用均匀羽绒的性能取样，和 Smolyak 稀疏网格制服型的由于分布的斯诺克稀疏网格点（es-特别是Chebyshev型）是高度不均匀的，我们将所有网格点投影到它们在框架中最近的整数坐标点上，然后删除所有重复的网格点，以避免实际中额外的插值开销这样的一套近似--在每一层l处的配对的Scoreak稀疏网格点被表示为Score1。因此，特征量V的第三维度变为C=|Sl|使用Sl作为采样点，其可以比（2k +1）2小得多，并且显著减少了计算量，仍然保持相关信息的良好近似精度。通过使用两种类型的和用于下采样的Chebyshev型的Scarlak稀疏网格。3.3. 基于方向的注意机制为了使空间对应模块能够选择性地利用沿着不同方向聚集的空间相关性特征，我们提出了一种基于方向的注意力机制（DBA），其灵感来自DSC方法[31]和挤压和激励块[30]。DBA机制的示例如图5所示，它由一个自适应平均池化层、两个（Θ7499从Conv0参考坐标系解卷积提取特征ASPP模块ConcatConvtConcaConv全连接（FC）层和ReLU层，并为参考帧及其相邻帧之一的每对特征图（fr和fa）生成方向注意力向量DBA机制从计算向量开始仅使用本地信息。挤压和激励块[30]从单个图像中学习通道之间的相互依赖性，而提出的DBA机制学习一个向量来表示权重，以反映每个方向的重要性。w∈R2C框架：从参考和相邻的3.4. 深度图细化w=16高×宽高/4宽/4i=1j =1fr（i，j），fa（i，j），（3）为了提供高分辨率的密集深度预测精化子网络的输入是连续的，其中，表示级联。方向是-基向量wDBA∈RC定义为：Vfinal和Vbn的连接，其中Vfinal是在等式（1）中定义的最终相关特征图。（5）Vbn是结果关于DBA =W2 ·R（W1·w），⑷的批量归一化。细化子网络如图6所示，其中R代表ReLU函数，W代表∈RC×2C<$其包括一系列的去卷积，级联，和w2∈RC×C1是两个完全一致的权重矩阵和卷积运算，如[56，17]。遵循这些我们可以同时利用高层和低层结层最终的基于方向的相关特征张量Vfinal定义为：Vfinal（i，j，c）=V（i，j，c）·wDBA（c），（5）对于c = 0，1···，C − 1。图5.基于方向的注意力（DBA）机制。请注意，我们的DBA机制与来自三个部分的信息，包括从ASPP模块生成的特征，在ResNet中Conv0层之后获得的特征，以及原始参考帧。卷积块中的内核大小为3×3，每个反卷积层将结果的分辨率加倍。最后，获得具有与原始帧相同分辨率的深度图的初始估计。3.5. 损失函数SC-GAN包含用于如上所述地估计参考帧R的深度图G（R）的生成器G，以及用于区分参考帧的地面实况深度图M_d和预测深度图G（R）的ARID在[34，12]之后，使用每像素损失项LL1和对抗损失项minGmaxDLGAN训练SC-GAN：L=LL1+λmin maxLGAN，（6）G D先前的DSC方法[31]和压缩和激发块[30]。通过包括池化层，DBA机制使用全局信息来学习权重所有可能的方向，而DSC方法[31]）其中λ是平衡因子。由于地面实况深度图通常是稀疏的，因此我们将深度图定义为将估计的深度图转换为相应深度图的掩码操作7500图6.细化子网的体系结构。7501稀疏的。每像素损失项LL1定义为：批量大小为1的数据集，并保持相同的学习-LL1 =EMd，G（R）[2000年d]-N（G（R））N1]。（七）压缩速率（lr = 0. 0002）用于发电机和稳压器。我们对整个数据集进行了颜色归一化，对抗性损失表示为：min maxLGAN（G，D）=ER，Md[logD（R，Md）]+G DER，G（R）[log（1−D（R，n（G（R）]，（八）数据预处理，在训练过程中，所有图像都被随机裁剪为256×512的大小，并使用随机（翻转和颜色）变换进行增强，如[19]所述。我们设置通道数C=256进行特征提取，然后每个得到的特征图其中G试图最小化对抗D的损失试图将其最大化。使用adversarial损失的目的是将参考帧和深度片的重叠对分类为真实的或假的。4. 实验4.1. 数据集和评价指标以下两个数据集用于性能评估和比较所提出的SC-GAN与许多现有的最先进的网络对单目视频的深度KITTI[22]：KITTI数据集是先前工作中最常用的基准，用于评估深度，视差和自我运动精度[21，60]，其中包括一整套数据源，如立体视频和稀疏激光雷达的深度图对于我们的实验，我们仅使用单眼视频流和相应的稀疏深度图进行训练，并且测试分割中的参考帧与KITTI Raw Eigen测试分割相同[19，60]。Cityscapes[13]：Cityscapes数据集由来自50个不同城市的街道上记录的大量立体视频序列组成，具有地面真实差异。由于专注于单眼视频，我们选择图像序列，每个图像序列都是来自训练集、验证集和测试集（150，000张图像）的左8位图像周围的30帧片段（17Hz）。对于每个序列，我们将其左侧的8位图像作为参考帧，连同其相邻的两个帧一起作为网络的输入每个参考帧的地面实况深度图是从其视差推断的我们的评估基于先前工作中的几个指标[19]-误差指标：绝对相对差（Abs Rel），平方相对差（Sq Rel），均方根误差（RMSE），log RMSE（RMSE log）;和准确度度量：具有阈值δ={1. 25，1。25 21 253}分别。对于所有误差度量，越低越好，而对于准确性度量，则越高越好。4.2. 模型规格提出的SC-GAN基于Py- Torch实现，所有训练都在两个Nvidia 1080 GPU上完成，具有minibatch SGD和Adam求解器（动量参数β1=0。5，β2=0。999）。遵循[34]的标准方法，我们对递归执行一个梯度下降步骤，然后对生成器执行一个步骤。我们从头开始训练模型，张量的大小为64×128×256。对于两个数据集，在空间对应模块中将最大位移k设置为24，并且将最大深度设置为80。对于所有实验，平衡因子λ=0。1在Eq中使用。（六）、我们在KITTI数据集上训练了10个epoch的 SC-GAN ，而在 Cityscapes 数据集上训练了 12 个epoch。表1.在KITTI上选择SC-GAN中特征对应的下采样方法的消融研究。最右边的一列是训练中处理一组三帧的计算时间（以秒为单位）。方法水平C绝对相对值平方相对RMSE时间均匀采样R= 4R= 3R= 21692896250.0710.0680.0640.2270.2070.1812.4442.2632.1160.240.260.39SmolyakL= 51450.0730.2282.3160.23稀疏L= 62890.0690.2092.3120.26网格-L= 74810.0660.2012.2700.32均匀L= 87370.0630.1812.0840.41SmolyakL= 51290.0740.2202.3190.23稀疏L= 62610.0690.2122.4640.26网格-L= 74410.0630.1782.1290.32ChebyshevL= 86690.0620.1742.0820.39(a)（b）第（1）款（c）（d）(e)（f）第（1）款图7.由SC-GAN的不同模型变体产生的深度图：（a）参照系;（c）在没有基于方向的注意力模块的情况下估计的深度图;（d）在没有细化子网络的情况下估计的深度图;（e）在没有对抗性损失的情况下估计的深度图;（f）通过SC-GAN的完整版本估计的深度图。7502表2.在KITTI上比较SC-GAN的许多不同型号变体方法绝对相对值平方相对RMSERMSE日志δ1。25δ <1.一、252δ <1.一、253无空间对应0.0790.2222.3010.1110.9490.9810.994无DBA机制0.0650.1742.1820.0940.9560.9910.997无细化0.1030.4093.3540.1500.8950.9790.991无对抗性损失0.0690.2342.6530.1200.9340.9900.995完整版SC-GAN0.0630.1782.1290.0970.9610.9930.998表3. SC-GAN和KITTI上一些现有最先进网络的性能比较。请注意，该标记表示该方法处于半监督或无监督的方式。方法输入绝对相对值平方相对RMSERMSE日志δ1。25δ <1.一、252δ <1.一、253Eigen等人[19个]单个图像0.2031.5486.3070.2820.7020.8900.958Liu等[第四十届]单个图像0.2021.6146.5230.2750.6780.8950.965[20]第二十话单个图像0.0720.3072.7270.1200.9320.9840.994DfUSMC [28]立体声0.3465.9848.8790.4540.6170.7960.874Godard等人[25]第二十五话立体声0.1481.3445.9270.2470.8030.9220.964Kuznietsov等人[39]第三十九届立体声0.1130.7414.6210.1890.8620.9600.986Guo等[27日]立体声0.0970.6534.1700.1700.8890.9670.986Zhou等[60]第六十话视频0.2081.7686.8560.2830.6780.8850.957Yin等[55]第五十五话视频0.1551.2965.8570.2330.7930.9310.973Yang等[五十三]视频0.0970.7344.4420.1870.8880.9580.980Teed等人[48个]视频0.0910.5823.6440.1540.9230.9700.987SC-GAN视频0.0630.1782.1290.0970.9610.9930.998参考框架Ground-truth SC-GAN DORN图8.KITTI的三个测试结果的可视化从左到右：参考帧，地面实况深度图，SC-GAN预测的深度图和DORN预测的深度图。4.3. 消融研究我们首先进行了一项研究，以选择下采样方法和参数的特征对应建议的SC-GAN。在没有下采样的情况下，我们需要在补丁中搜索所有C=49×49=2，401个不同比率（r=4，3，2）的均匀抽样和在KITTI数据集上对不同层（l = 5，6，7，8）的近似均匀型和Chebyshev型的Schwarzak稀疏网格S_l进行了测试和比较。结果在Ta-表1示出：1）与均匀采样相比，当C变得更大时，由于均匀采样，因此Scorak稀疏网格倾向于更有效地进行空间相关。表格抽样可能包含大量冗余信息;2)通过在时间效率（和存储器成本）和深度估计精度之间寻求折衷，我们选择了级别 7 的 Chebyshev 型Sparkak稀疏网格，其明显优于具有类似数量的采样点的其他两种下采样方法，即，r=2的均匀采样和7级的均匀类型的Scorpak稀疏网格。在所有剩余的实验中，切比雪夫型S7（441个点，约为原始2，401个点的18.37%）被用作SC-GAN中的下采样方法在这在这种情况下，SC-GAN在KITTI数据集上花了大约50个小时的训练，在Cityscapes数据集上花了40个小时。7503表4. SC-GAN和一些最先进的网络在Cityscapes上训练，然后在KITTI上测试时的性能比较。方法输入绝对相对值平方相对RMSERMSE日志δ1。25δ <1.一、252δ <1.一、253Eigen等人[19个]单个图像0.4234.3738.4870.3560.6550.8710.951Godard等人[25日]立体声0.2333.5337.4120.2920.7000.8920.953Caser等人[七]《中国日报》视频0.1531.1095.5570.2270.7960.9340.975SC-GAN视频0.1490.9214.8120.1920.8180.9540.987参考框架Groundtruth在Cityscapes上训练在KITTI图9.三个样本的结果测试了SC-GAN的泛化能力。第一行是来自KITTI的示例，下面两行是来自Cityscapes的示例。从左到右是参考帧，地面实况深度图，在Cityscapes上训练的SC-GAN预测的深度图，在KITTI上训练的SC-GAN预测的深度图。接下来，我们在KITTI数据集上进行消融研究以证明SC-GAN的不同模块，包括1）空间对应模块; 2）基于方向的注意机制; 3）细化子网络;以及4）对抗损失。表2中报告了定量结果，图7中示出了深度图的样本结果。我们可以看到，所有这四个模块都可以帮助改善深度估计。4.4. 与现有网络的比较首先，我们评估并比较了SC-GAN与11个现有的最先进的网络[19，40，20，28，25，39，27，60，55，53，48]在KITTI数据集上进行深度估计的性能所有这些网络都是在KITTI数据集上训练的，表3报告了评估结果。很容易看出，SC-GAN在所有误差和精度指标下都实现了最佳性能（具有显著更好的结果）。图8给出了由SC-GAN和DORN [20]估计的深度图的三个示例。我们还评估了SC-GAN的泛化能力在这种情况下，SC-GAN仅在Cityscapes数据集上进行训练，然后在KITTI数据集上进行测试。表4报告了相应的性能评估结果，从中我们可以看出，SC-GAN再次显著优于三种比较方法[19，25，7]。本文对其它比较方法进行了推广检验，其结果与文献[1]的结果一致。文献中没有ODS。我们还注意到，在KITTI数据集上进行测试时，在City-paces上训练的SC-GAN甚至可以获得与在KITTI上训练的几个监督和半监督模型相当的性能[25，55，39]（见表3和表4）。图9直观地示出了由SC-GAN产生的在不同数据集上训练的三个示例的估计深度图。所有这些结果都清楚地表明了所提出的SC-GAN的优秀的泛化能力。5. 结论在本文中，我们开发了一种新的端到端SC-GAN网络，用于单目视频的深度估计。SC-GAN由一个发生器和一个控制器组成.在生成器中，设计了一个空间对应模块来匹配参考框架和相邻框架之间的特征我们建议使用近似的Sjerak稀疏网格进行补丁下采样，可以显着加快特征对应。我们进一步开发了一个基于方向的注意力机制来学习不同方向上特征的重要性，并包括一个细化子网络来细化最初估计的深度图。在KITTI和Cityscapes数据集上的大量实验表明，所提出的SC-GAN显着提高了单目视频深度估计的最新性能。7504引用[1] 菲利波·阿莱奥蒂，法比奥·托西，马特奥·波吉，斯特凡诺·马特托西亚.用于无监督单目深度预测的生成对抗网络。在欧洲计算机视觉会议（ECCV）中，第0-0页[2] Amir Atapour-Abarghouei和Toby P Brecket。使用合成数据的实时单目深度估计，通过图像风格转换进行局部自适应。在IEEE计算机视觉和模式识别会议（CVPR）中，第2800-2810页[3] Volker Barthelmann，Erich Novak，and Klaus Ritter.稀疏网格上的高维多项式插值。 Advances inComputational Mathematics，12（4）：273-288，2000.[4] Joydeep Biswas和Manuela Veloso基于深度相机的室内移动机器人定位与导航。在RSS的RGB-D研讨会，2011年第21卷，2011年。[5] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在IEEE计算机视觉和模式识别会议上，2017年7月。[6] 汉斯-约阿希姆·邦加茨和迈克尔·格里贝尔。稀疏网格。Acta Numerica，13：147[7] Vincent Casser、Soeren Pik、Reza Mahjourian和AneliaAngelova。没有传感器的深度预测arXiv预印本arXiv：1811.06152，2018。[8] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议上，2018年6月。[9] Chenyi Chen ， Ari Seff ， Alain Kornhauser ， andJianxiong Xiao.深度驾驶：自动驾驶中直接感知的学习启示。在IEEE计算机视觉和模式识别会议（CVPR）中，第2722- 2730页[10] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[11] Qiuyu Chen，Ryoma Bise，Lin Gu，Yinqiang Zheng，Imari Sato ， Jenq-Neng Hwang ， Sadakazu Aiso ， andNobuaki Iman- ishi.利用立体x射线图像实现复杂背景下的血管虚拟。在IEEE计算机视觉研讨会国际会议上，第99-106页[12] Richard Chen ， Faisal Mahmood ， Alan Yuille ， andNicholas J Durr.用对抗训练重新思考单眼深度估计arXiv预印本arXiv：1808.07528，2018。[13] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele. Cityscapes数据集用于语义城市场景理解。在IEEE计算机视觉和模式识别会议（CVPR），第3213-3223页[14] Arun CS Kumar，Suchendra M Bhandarkar，and MuktaPrasad.使用生成式adver进行sarial 网络在 IEEE 计算机视觉和模式识别会议（CVPR），第300-308页[15] Weijian Deng ， Liang Zheng ， Qixiang Ye ， GuoliangKang，Yi Yang，and Jiabin Jiao.具有保留的自相似性和域不相似性的图像-图像域自适应用于人重新识别。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。[16] 董宣仪、严妍、欧阳万里、杨毅。用于人脸标志点检测的风格聚合网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。[17] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在 IEEE InternationalConference on Computer Vision（ICCV），第2758-2766页[18] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签 IEEEInternationalConference on Computer Vision（ICCV），第2650-2658页[19] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统进展，第2366-2374页，2014年[20] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别会议（CVPR），2002-2011，2018页[21] Ravi Garg ， Vijay Kumar BG，Gustavo Carneiro ，andIan Reid.用于单视图深度估计的无监督CNN：几何学拯救了我们。在欧洲计算机视觉会议（ECCV），第740-756页。施普林格，2016年。[22] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：KITTI数据集。国际机器人研究杂志，32（11）：1231[23] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准套件。在IEEE计算机视觉和模式识别会议（CVPR）中，第3354-3361页。IEEE，2012。[24] 托马斯·郭士纳。全球地形数据的多分辨率可视化与压缩。GeoInformatica，7（1）：7[25] Clement Godard，Oisin Mac Aodha，and Gabriel J.兄弟-拖。具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。[26] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展，第2672-2680页，2014年。[27] Xiaoyang Guo，Hongsheng Li，Shuai Yi，Jimmy Ren，and Xiaogang Wang.通过提取跨域立体网络学习单眼深度。在欧洲计算机视觉会议（ECCV），第484-500页7505[28] Hyowon Ha ， Sunghoon Im ， Jaesik Park ， Hae-GonJeon，and In So Kweon.高品质的深度从未校准的小动作剪辑。在IEEE计算机视觉和模式识别会议（CVPR）中，第5413-5421页[29] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页[30] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议，第7132-7141页[31] Xiaowei Hu ， Lei Zhu ，Chi-Wing Fu ，Jing Qin ， andPheng-Ann Heng.用于阴影检测的方向感知空间上下文特征。在IEEE计算机视觉和模式识别会议（CVPR），2018。[32] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. Deepmvs：学习多视图立体视觉。在IEEE计算机视觉和模式识别会议上，2018年6月。[33] Sunghoon Im，Hae-Gon Jeon，Stephen Lin，and In SoKweon. DPSNet：端到端深度平面扫描立体声。2019年国际学习表征会议[34] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议（CVPR）中，第5967-5976页。IEEE，2017年。[35] Mengqi Ji，Juergen Gall，Haitian Zheng，Yebin Liu，and Lu Fang. Surfacenet ： An end-to-end 3d neuralnetworkformulti-viewstereopsis.IEEEInternationalConference on Computer Vision （ ICCV ）， 2017 年 10月。[36] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议（ECCV）中，第694-711页施普林格，2016年。[37] Kevin Karsch，Ce Liu，and S

下载后可阅读完整内容，剩余1页未读，立即下载