没有合适的资源?快使用搜索试试~ 我知道了~
基于金字塔代价体积的立体匹配网络SSPCV-Net的效果分析
7484基于金字塔代价体积的Zhenyao Wu1,Xinyi Wu1,Xiaoping Zhang2,Song Wang1,3,Zhang,Lili Ju1,3,Zhang1美国南卡罗来纳大学2中国武汉大学3中国远视科技有限公司{zhenyao,xinyiw}@ email.sc.edu,xpzhang. whu.edu.cn,songwang@cec.sc.eduju@math.sc.edu摘要通过使用卷积神经网络的深度学习,立体匹配的准确性得到了极大的提高。为了进一步捕捉视差图的细节,本文提出了一种新的语义立体网络SSPCV-Net,它包括新设计的金字塔成本卷,用于在多个层次上描述语义和空间信息。语义特征通过语义分割子网络进行推理,而空间特征则通过分层空间池进行推导最后,我们设计了一个3D多成本聚合模块来整合所提取的多级特征,并进行回归以获得精确的视差图。我们在Scene Flow、KITTI 2015和2012以及Cityscapes基准数据集上与一些最新的立体匹配网络进行了对比实验,结果表明所提出的SSPCV-Net显著提高了最先进的立体匹配性能。1. 介绍立体匹配对于许多计算机视觉应用是必不可少的,例如自动驾驶[5]、3D重建[42]、增强现实[8]和机器人导航[1]。通过寻找两幅图像之间的像素级对应关系,立体算法的目标是从一对校正的立体图像中构建视差图。在传统方法中,手工制作的可靠特征用于识别跨图像匹配像素或补丁以计算视差图[3,33]。最近,与许 多 其 他 计 算 机 视 觉 任 务 一 样 , 卷 积 神 经 网 络(CNN)已被应用于立体匹配,并取得了重大成功。当将CNN应用于立体匹配时,许多现有的工作通过遍历一组可能的视差值来构建用于计算每个位置处的对应成本的成本量。然后,回归层用于基于成本量来推断最佳视差图。而早期的作品在原始图像中计算成本*共同通讯作者。(a)(b)第(1)款(c)(d)其他事项(e)(f)第(1)款图1.(a)&(b)来自KITTI数据集的输入立体对(左图像和右图像);(c)语义分割;(d)建议的SSPCV网络预测的差异;(e)视差估计的地面实况;(f)SSPCV-Net预测的3 px误差图。域[17,18,37],最近的工作使用由相应的网络[22,30,35,4]提取的深度特征来对于这些现有的工作,成本体积被构造在一个单一的水平,而不考虑多尺度空间信息,分别潜在的立体图像对。然而,对于所考虑的特征图,单尺度成本体积可能不足以捕获立体图像之间的空间关系。本文的主要思想之一是开发一种新的CNN网络,它具有多级成本体积,我们称之为金字塔成本体积,以更好地捕捉立体匹配中的视差细节。我们的工作也部分受到最近工作的启发SegStereo[38]通过联合学习将语义信息集成到立体匹配中。如图1所示,语义分割捕获图像中的不同对象及其边界,并显示与视差图的空间和强度相关性。特别是,准确的语义分割可以帮助纠正沿对象边界的disparity值,这通常更容易在立体匹配中出错[2,15]。因此,我们的网络也将在多个层次上整合语义和空间信息,以构建金字塔7485我们发现,这种方法可以提高立体匹配的精度显着。更具体地说,我们设计了一个新的语义立体网络命名为SSPCV-Net的立体匹配。在这个网络中,在几个初始卷积层之后,我们将提取的深度特征作为两个单独分支的输入。其中一个执行传统的空间池,但与分层多级处理。另一个分支是语义分割子网络。然后,我们建立金字塔- mid成本量相结合的输出,这两个分支从输入立体对,使这些新的金字塔- mid成本量很好地代表语义和空间信息在多个层次。接下来,我们设计了一个三维多成本聚合模块来整合提取的多层次特征,并进行回归预测视差图。我们采用两步策略来训练SSPCV-Net:1)语义分割子网络的监督训练;以及2)整个网络的联合训练,同时监督语义分割和视差估计。在Scene Flow、KITTI 2015和KITTI 2012基准数据集上进行了SSPCV-Net与现有最先进方法的一系列消融研究和对比测试,并在Cityscapes数据集上进行了测试,以比较它们的泛化能力。据观察,所提出的SSPCV-Net明显优于许多现有的最先进的立体匹配方法。本文的主要贡献是:• 我们提出了一个新的语义立体网络SSPCV- Net,在该网络中,我们构建了金字塔成本卷,同时捕获语义和多尺度空间信息。• 我们提出了一个三维多成本聚合模块SSPCV-Net集成提取的多级fea,tures和执行回归以获得精确的视差图预测。• SSPCV-Net显著提升了Scene Flow、KITTI 2015和2012基准数据集上立体匹配的最新性能,城市景观。2. 相关工作几乎所有最近的立体匹配的最先进的性能是通过使用基于CNN的方法来实现的。例如,在[27,13]中,视差值被离散化,视差估计被简化为使用CNN的分类。 在[28]中,CNN用于同时计算视差图和光流。该结果可以基于误差图迭代地细化[30]。在[34]中,视差通过补丁匹配来估计在[23]中,低分辨率成本体积的使用导致子像素匹配精度和实时速度。在[10]中,一个新的3D卷积模块,以及作为稀疏深度图,用于改进立体匹配。所有这些方法都构建了单一规模的成本量。在本文中,我们建立多级成本卷更好的差距估计。与我们的工作更相关的是EdgeStereo [35],GC- Net[22]和PSMNet [4]。在EdgeStereo [35]中,结合了边缘检测来准确估计对象边界上的深度变化,而在本文中,我们结合了语义分割来实现这一目标。在GC-Net[22]中,成本体积在用于视差估计之前通过3D卷积进行正则化。基于GC-Net,PSMNet [4]提取多尺度图像信息构造单个代价体,然后将其用于正则化和视差估计。在GC-Net和PSMNet的一般框架下,我们在这里构建多级成本卷,以及3D多成本聚合模块,以更好地捕获全局上下文信息进行视差估计。语义信息被发现是有用的,当集成到解决许多重要的计算机视觉问题。例如,在[9]中,开发了一个集成的SegFlow模型来同时解决光流和视频分割问题,从而实现双赢。在[20,43,21]中,通过使用权重共享子网络或联合CNN学习同时解决了单目深度估计和语义分割两个任务。本文的主要目标之一是将语义分割集成到立体匹配中。与我们的工作相关的是SegStereo[38],它将语义和图像特征结合到一个单一的视差估计成本中。与Seg- Stereo算法不同的是,本文提出了将语义特征和图像特征分别构造代价体,并采用图像特征的多级代价体实验结果表明,该方法能显著提高图像的识别精度。多尺度信息已被用于许多基于CNN的计算机视觉应用中。例如,PSP-Net [44]和DeepLab [7,6]嵌入场景的多尺度特征以改进语义分割。SPyNet [32]通过在多个尺度上扭曲图像来计算光流。PWC-Net [36]使用多尺度特征来计算具有单个分支的光流。与这些工作不同的是,我们在这里引入多尺度信息的立体匹配,如在PSMNet [4]。但如上所述,PSMNet使用多尺度特征构建单个成本卷,而我们直接构建多级成本卷,从而获得更好的差异估计。3. 我们的方法拟议SSPCV网络的架构如图2所示。我们可以看到,新的金字塔成本卷被构建为包含语义信息和多级空间上下文信息。此外,3D多成本74864x合并8x池化16xC损失边界...4x空间共享权重4x损失处置...4x8x8x16x16x回归3D多成本聚合网络塞曼蒂语义分段子网输入立体声对(a)(b)金字塔成本模型(c)第(1)款(d)其他事项图2.用于视差估计的所提出的语义立体网络(SSPCV-Net)的架构。主要管道包括:(a)特征提取:使用ResNet 50 [6];(b)空间合并:使用平均池化,并将得到的多级特征图馈送到语义分割网络中;(c)多项费用合计:融合金字塔成本量,该模块的细节如图4所示;(d)差异回归:使用3D卷积从成本体积估计视差图。增加了汇总模块,用于成本-数量汇总和规范化。3.1. 网络架构我们首先使用ResNet-50 [16]和扩张网络策略[6,40]从输入图像对中提取特征,然后采用自适应平均池将特征压缩到三个尺度,然后使用1×1卷积层来改变特征图的维度的所得到的空间特征被同时馈送到网络的两个分支中一个分支直接产生空间金字塔成本量,而另一个所获得的语义成本体积和空间成本体积构成金字塔成本体积。然后将所有这些成本量馈送到3D多成本聚合模块中以进行聚合和正则化。最后,回归层产生最终的视差图。金字塔成本量和三维多成本汇总模块将在以下各节中详细阐述。3.2. 金字塔成本量我们设计了两个分支来生成成本量:空间分支生成空间金字塔成本量,语义分支生成一个语义成本量,如图2中金字塔成本量的框所3.2.1空间金字塔成本量我们建议使用金字塔成本体积的想法来学习对象与空间 中 的 邻 居 之 间 的 关 系 。 与 PSMNet 不 同 的 是 ,PSMNet仅通过先到先得从金字塔要素中生成单个成本量,左图像特征空间金字塔成本图右图像特征图3.空间金字塔的构建过程通过空间池化从左图像特征和右图像特征中消耗串联,我们反而使用多级空间特征来构建空间金字塔成本卷。在特征提取中,我们使用不同的自适应平均池化层之后的空间特征的层次尺度来形成成本卷的级别。遵循GC-Net [22]的思想,对于空间特征图的每个级别,我们通过连接来自左图像特征和右图像特征的相应一元数然后将它们打包到4D体积中来形成成本体积,该4D体积包含用于从该级别推断视差的所有空间上下文信息。如图2和图3所示,在我们的SSPCV网络中特别使用了三个层次的特征图,以形成空间金字塔成本量来表示不同级别的信息,空间金字塔成本量的大小为C×αW×αH×αD,其中α∈{1,1,1}48 16将它们采样到相同的维度,然后在每个级别执行,其中C是通道数,W和H是4x池化8x池化16x7487语义分支4x空间分支4x8x16xFFM3D特征融合模块(FFM)mulFFMFFM金字塔成本模型沙漏上采样转换双线性沙漏模块3D转换3D convstride 23D解卷积图4.详细介绍了3D多成本聚合模块与沙漏和3D特征融合。分别为原始图像的宽度和高度,是最大的差距。3.2.2语义成本量对于语义分支,语义分割子网络遵循PSPNet [44]。利用提取的特征图,子网络将低维特征图上采样到相同的大小,并连接所有特征图。最后,接着是卷积层以生成语义分割图的最终预测。为了形成单个语义成本体积,我们使用分类层之前的语义代价体积的使用旨在以简单的方式捕获上下文线索,并从左右语义分割特征中学习对象像素的相似性通过跨每个视差水平将每个一元语义特征与来自相反立体图像的它们对应的一元相连接,并且将它们打包到4D体积中,我们获得语义成本体积为C×1W×1H×1D,多成本汇总模块。我们使用至于策略,受MSCI(多尺度上下文交织)方案[25]和RefineNet [26]的启发,我们以递归方式将4D空间成本量从最低级别融合到较高级别:我们首先将较低级别体积上采样到与其紧接的较高级别体积相同的大小,并将它们馈送到FFM中,然后在沙漏模块之后将融合的成本体积进一步与下一较高级别成本体积融合。最后,将最后一级融合的空间成本体积与然后通过双线性插值将结果上采样到原始图像尺寸1×W×H×D我们开发了一个3D特征融合模块,专门用于融合两个成本量,而不是像BiSeNet [39]中那样连接特征,其中包括一个2D特征融合模块来帮助上下文信息融合:首先,按照[16]中的残差块结构对两个3D成本体积进行求和,然后,4 4 4与最大空间成本体积的大小相同。3.3. 3D多成本聚合模块如图4所示,空间金字塔成本体积和语义成本体积都被馈送到3D用于将级联特征变换为特征向量,然后通过fc-ReLU-fc-sigmoid结构计算权重向量[19],最后,将两个成本量中的上采样的一个乘以权重向量并与另一个成本量相加以形成输出上采样上采样添加3D自适应池FC层ReLUFC层乙状ConvConv双线性添加7488实况调查模块。3.4. 差异回归和损失函数我们采用[22,4]中提出的视差回归来估计连续视差图。首先使用softmax操作σ(·)对最终融合代价进行输出每个视差的概率P(dD,这被认为是一种软注意力机制,并且比基于分类的方法更鲁棒。然后,预测的视差d被计算为通过其概率加权的每个视差d的总和,DΣmaxd=d×P(d)(1)d=0其中Dmax表示最大视差。为了训练所提出的架构,我们依赖于以下多任务损失函数。L=αLdisp+(1−α)Lbdry(2)它由视差损失(Ldisp)和边界损失(Lbdry)两项的加权和(0≤α≤1为权值)组成我们使用平滑的L1作为基本损失函数来训练我们提出的SSPCV网络,该网络已广泛用于许多回归任务[14,22]。定义了视差损失用于评估光流和立体匹配性能。该数据集具有密集和精细的视差图作为训练的基础事实。[29,12]第一次见面,是在1999年。真实世界的数据集。KITTI 2015包含200个培训具有稀疏地面实况差异的立体图像对和另外200个没有地面实况差异的测试图像对。立体图像对的左(参考)图像具有语义标签。KITTI 2012包含194个训练-ING立体图像对稀疏地面实况差异和另外195个测试图像对没有地面实况差异。所有这些图像都没有语义标签。Cityscapes[11]:这是一个大型的立体图像对数据集,专注于城市街道场景。它包含1,525个立体图像对,用于使用SGM预先计算的地面真实差异进行测试。一些指标被用来评估立体匹配的性能。平均终点误差(EPE) 定义为EPE(d− d)= ||d− d||二、的像素当其视差误差大于T个像素时,被认为是错误像素,并且计算非遮挡区域和所有区域中的分别测量在背景前景区域和所有地面实况像素上平均的错误像素的百分比对于所有误差指标,越低越好。4.2.模型规格作为Ldisp(d,d)=1Σ 光滑L(d)(3)我们基于Py- Torch实现了所提出的SSPCV-Net,并在两个Nvidia 1080 GPU上进行了训练N(i,j)1i、j亚当(动量参数β1= 0。9和β2=其中N是所有标记像素的数量,d是视差地面实况。由于视差不连续点总是在语义边界上[31],因此我们符合-将以下边界损失函数部署为0的情况。999)。在训练阶段之前,将立体图像对随机裁剪成两种尺寸(256×512,256×792)对于场景流 , 最 大 视 差 D max 被 设 置 为 256 , 对 于 KITTI20152012,最大视差Dmax被设置为对于Scene Flow数据集,我们从1Σ。L=|ϕ(SEM))|e−|(d)|使用具有恒定学习率布德里Nx(i,j)i、jxi,j(四)0.001,批量为2,α = 0。9 .第九条。 这个...在SSPCV-Net中,+|扫描电镜(SEM))|e−|y(d|Σ首先训练了40个时期,其中分割标签是y i,j其中,SEM是语义分割基础事实标签,并且分别是沿x和y方向的相邻像素之间的强度梯度4. 实验4.1. 数据集和评价指标在本节中,我们使用以下立体数据集用于性能评估和比较SSPCV- Net与几个最近的最先进的立体匹配网络:场景流[28]:这是一个合成数据集,由35,454个训练和4,370个测试图像对组成,可以然后对整个网络进行了40个epoch的联合训练。对于KITTI 2015 2012,使用Scene- Flow训练的模型(作为预训练)用于KITTI训练数据集的进一步微调。两个KITTI数据集训练的学习率从0.01开始,每100个epoch以50%的速度降低。首先使用KITTI 2015数据集对语义分割子网络进行300个epoch的训练。然后,我们对整个网络进行了400个epoch的联合训练,α= 0。KITTI 2015年为9,但α= 1(即,边界损失项Lbdry被从损失函数中排除),因为没有语义基础事实可用于KITTI 2012数据集。7489表1.在SceneFlow验证数据集(20个时期)和KITTI 2015验证数据集上比较用于SSPCV-Net合理性的多种不同模型变体误差像素的百分比用于KITTI 2015评估,平均端点误差用于场景流评估。语义分支金字塔成本量扩张型对流场景流验证KITTI 2015验证单一空间成本量2.122.63+语义分支C1.762.42+语义分支(联合列车)C1.782.37+空间金字塔成本量C1.212.11+3D多成本卷CC1.041.99SSPCV-Net(不包括实况调查团)CCC1.072.10SSPCV-Net(不包括联合训练中的边界损失CCC1.011.93SSPCV-NetCCC0.981.85Scene Flow数据集的整个训练过程花费了大约120个小时在我们的实验中,Cityscapes数据集仅用于评估网络的泛化能力4.3. 消融研究我们首先进行了消融研究,以分别比较Scene Flow数据集和KITTI 2015数据集(未从Scene Flow进行预训练 ) 上SSPCV-Net 的 许多 不同 模型 变体 对于 KITTI2015,我们将原始训练集分为训练分割(80%)和验证分割(20%),因为原始测试集没有提供差异地面实况对SSPCV-Net中3个关键思想的重要性进行了评价:1)添加语义分支,2)使用金字塔代价体积和3)在特征提取中的扩张卷积。结果如表1所示,清楚地证明了我们对SSPCV- Net的设计选择:金字塔代价体积和语义信息的引入提高了视差估计的准确性,并在网络中采用扩张卷积策略,改善了特征提取的效果。通过排除不同分支或级别的某些成本量,从SSPCV-Net回归的一些差异图如图5所示。最低层的空间代价体有助于提高小目标区域的准确率,最高层的空间代价体包含更多的上下文信息,有助于检测更多的场景。语义成本量有助于产生更好的边缘和更好的形状线索。最后,SSPCV-Net具有语义代价体积和空间金字塔代价体积的所有优点4.4. 与现有网络的我们比较了SSPCV-Net与一些最先进的立体匹配网络 的 性 能 , 包 括 MC-CNN [41] , DispNet v2 [15] ,iResNet-i2 [24],GC-[22]、CRL [30]、PSMNet [4]、EdgeStereo [35]和Seg-立体声[38]。现场流量-(一)(b)第(1)款(c)第(1)款(d)其他事项图5.通过排除不同分支或级别的某些成本量,由SSPCV-Net产生的差异图(a)没有最低水平的空间成本量;(b)没有最高级别的空间成本量;(c)没有语义成本量;(d)来自完整版SSPCV-Net。获得了最好的平均EPE(0.87)和3像素误差在所有区域(3.1)的所有像素(D1-all)中,并且在准确性方面显著优于所有比较方法。图6中示出了SSPCV-Net的两个示例的预测视差图和对应误差以及PSMNet的视差图,这在视觉上证明了SSPCV-Net可以达到更准确的视差图,特别是在对象的边缘处。在KITTI 2015上-显然,在所有比较方法中,SSPCV-Net在除了NOC D1-fg度量之外的几乎所有误差度量方面实现了最佳性能。排行榜基于ALL D1-all指标对整体性能进行排名,SSPCV-Net获得2.11%,远优于7490表2.场景流数据集上的性能比较结果方法MC-CNNGC-NetiResNet-i2CRLPSMNet边缘立体声SegStereoSSPCV-Net平均EPE3.791.841.401.321.091.111.450.87D1-所有-9.75.06.74.2-3.53.1SSPCV-Net PSMNet的立体对地面实况SSPCV-Net误差图图6.来自场景流数据集的两个测试结果。从左至右:立体图像对的左输入图像、地面真实视差、SSPCV-Net预测视差图、SSPCV-Net预测误差图和PSMNet预测视差图。表3.KITTI 2015数据集的性能比较结果方法D1-est所有D1-bg D1-fgD1-所有D1-estNOCD1-bg D1-fgD1-所有MC-CNN [41]3.882.898.883.893.332.487.643.33[15]第十五话3.433.005.563.433.092.734.953.09GC-Net [22]2.872.216.162.872.612.025.582.61[24]第二十四话2.672.483.592.672.452.323.122.45[35]第三十五话2.592.274.182.592.402.123.852.40PSMNet [4]2.321.864.622.322.141.714.312.14SegStereo [38]2.251.884.072.252.081.763.702.08SSPCV-Net2.111.753.892.111.911.613.401.91SSPCV-Net PSMNet GC-Net立体声对1立体声对2图7.来自KITTI 2015数据集的两个测试结果。左面板示出了输入立体图像对的左图像,并且对于每个输入图像对,呈现了通过SSPCV-Net、PSMNet和GC-Net获得的预测视差和对应的误差图7491其他立体匹配网络。此外,我们在KITTI 2015上对语义子网络进行了评估,每个类的平均IoU为56.43%,每个类别为82.21%为了直观说明,图7呈现了由SSPCV-Net、PSMNet和GC-Net估计的视差图的三个示例以及相应的误差图。7492表4.KITTI 2012数据集的性能比较结果方法2px外Noc所有产品3px外Noc所有产品4px外Noc所有产品5px外Noc所有产品MC-CNN [41]3.905.452.433.631.902.851.642.39GC-Net [22]2.713.461.772.301.361.771.121.46PSMNet [4]2.443.011.491.891.121.420.901.15[35]第三十五话2.792.431.732.181.301.641.041.32SegStereo [38]2.663.191.682.031.251.521.041.32SSPCV-Net2.473.091.471.901.081.410.871.14立体声对SSPCV-Net图8.来自KITTI 2012数据集的两个测试结果。左面板示出了输入立体图像对的左图像,并且对于每个输入图像对,呈现了通过SSPCV-Net、PSMNet和GCNet获得的视差图。立体声对地面实况SSPCV-Net图9.用SSPCV-Net、PSMNet和GC-Net对Cityscapes数据集的泛化能力进行了测试在KITTI 2012上-尽管边界损失项被排除在联合训练的损失函数之外,但在这种情况下,SSPCV-Net仍然在所有比较方法中总共八个错误度量中的五个错误度量中实现了最佳性能,并且在两个错误度量中比PSMNet略差,在其余三个错误度量中的一个错误度量中比EdgeStereo略差。图8以视觉方式示出了由SSPCV-Net、PSMNet和GC-Net产生的预测视差图的两个示例,并且它再次显示SSPCV-Net可以给出更可靠和准确的结果,特别是在模糊区域上。为了评估泛化能力,我们使用Cityscapes请注意,所有比较方法的成本量通道均设置为16在实验中图9示出了由SSPCV-Net、PSMNet和GC-Net估计的视差图所提出的SSPCVT-Net的预测能够很好地捕捉全局布局和对象细节(形状边缘)。5. 结论本文提出了一种新的语义立体网络SSPCV-Net,该网络构造了金字塔代价体来描述多层次的语义和空间在Scene Flow、KITTI 2015和2012以及Cityscapes立体数据集上的综合实验表明,与现有的许多最先进的神经网络相比,所提出的SSPCV-Net可以显著提高立体匹配的准确性和泛化能力。7493引用[1] Joydeep Biswas和Manuela Veloso基于深度相机的室内移动机器人定位与导航。在RSS的RGB-D研讨会,2011年第21卷,2011年。[2] Michael Bleyer , Carsten Rother , Pushmeet Kohli ,Daniel Scharstein,and Sudipta Sinha.目标立体联合立体匹配和目标分割。在IEEE计算机视觉和模式识别会议(CVPR),2011年。[3] 马修·布朗,华刚,西蒙·温德。局部图像描述符的判别学习。IEEE transactions on pattern analysis and machineintelligence,33(1):43-57,2011。[4] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议上,2018年6月。[5] Chenyi Chen , Ari Seff , Alain Kornhauser , andJianxiong Xiao.深度驾驶:自动驾驶中直接感知的学习启示。在IEEE国际计算机视觉会议(ICCV),2015年12月。[6] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834[7] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017.[8] Qiuyu Chen,Ryoma Bise,Lin Gu,Yinqiang Zheng,Imari Sato , Jenq-Neng Hwang , Sadakazu Aiso , andNobuaki Iman- ishi.利用立体x射线图像实现复杂背景下的血管虚拟。在IEEE计算机视觉研讨会国际会议上,第99-106页[9] 程景春,蔡义轩,王胜金,杨明轩。Segflow:视频对象分割和光流的联合学习。在IEEE国际计算机视觉会议(ICCV),2017年10月。[10] Xinjing Cheng,Peng Wang,and Ruigang Yang.使用卷积 空 间 传 播 网 络 学 习 深 度 。 arXiv 预 印 本 arXiv :1810.02695,2018。[11] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele. Cityscapes数据集用于语义城市场景理解。在IEEE计算机视觉和模式识别会议(CVPR),2016年。[12] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?KITTI视觉基准套件。在IEEE计算机视觉和模式识别会议(CVPR)中,第3354-3361页。IEEE,2012。[13] 斯派罗·吉达里斯和尼科斯·科莫达基斯检测、替换、重新定位:用于逐像素标记的深度结构化预测。在IEEE计算机视觉和模式识别会议上,2017年7月。[14] 罗 斯 · 格 希 克 。 快 速 R-CNN 。 在 IEEE InternationalConference on Computer Vision( ICCV) 中, 第1440-1448页[15] 法特玛·古尼和安德烈亚斯·盖格。Displets:使用对象知识解决立体模糊性在IEEE计算机视觉和模式识别会议(CVPR)上,2015年6月。[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月。[17] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理 IEEE Transactions on Pattern Analysis and MachineIntelligence,30(2):328[18] 海科·赫施穆勒和丹尼尔·沙尔斯坦。立体匹配代价函数的评估。在IEEE计算机视觉和模式识别会议(CVPR)上,第1IEEE,2007年。[19] 杰虎,李申,孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议,第7132-7141页[20] Jianbo Jiao,Ying Cao,Yibing Song,and Rynson Lau.看得更深更深:具有语义增强器和注意力驱动损失的单目深度估计。在欧洲计算机视觉会议(ECCV)中,第53-69页[21] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在IEEE计算机视觉和模式识别会议(CVPR),第7482-7491页[22] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习IEEEInternationalConferenceonComputerVision(ICCV),2017年10月。[23] Sameh Khamis , Sean Fanello , Christoph Rhemann ,Adarsh Kowdle , Julien Valentin , and Shahram Izadi.Stereonet:实时边缘感知深度预测的引导分层细化。arXiv预印本arXiv:1807.08865,2018。[24] Zhengfa Liang,Yiliu Feng,Yulan Guo,Hengzhu Liu,Linbo Qiao,Wei Chen,Li Zhou,and Jianfeng Zhang.通过先验和后验特征恒定性学习深度对应arXiv预印本arXiv:1712.01039,2017。[25] Di Lin,Yuanfeng Ji,Dani Lischinski,Daniel Cohen-Or,and Hui Huang.多尺度上下文交织语义分割。在欧洲计算机视觉会议(ECCV),第603-619页[26] Guosheng Lin ,Anton Milan,Chunhua Shen,and IanReid. Refinenet:用于高分辨率语义分割的多路径细化网络。在IEEE计算机视觉和模式识别会议(CVPR),第1925-1934页[27] 作者:Jiangsu G.Schwing和Raquel Urtasun。用于立体匹配的高效深度学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月。[28] Nikolaus Mayer , Eddy Ilg , Philip Hausser , PhilippFischer , Daniel Cremers , Alexey Dosovitskiy , andThomas Brox.用于训练卷积网络的大型数据集,用于视差,光流和场景流估计。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月。7494[29] Moritz Menze和Andreas Geiger。自动驾驶车辆的目标场景流在IEEE计算机视觉和模式识别会议,2015年。[30] Jiahao Pang , Wenxiu Sun , Jimmy SJ Ren , ChengxiYang,and Qiong Yan.Cascade residual learning:A two-stage convolu- tional neural network for stereo matching.在IEEE国际计算机视觉研讨会会议上,第7卷,2017年。[31] Pierluigi Zama Ramirez , Matteo Poggi , Fabio Tosi ,Stefano Mattoccia,and Luigi Di Stefano.几何符合语义的半 监 督 单 目 深 度 估 计 。 在 亚 洲 计 算 机 视 觉 会 议(ACCV),第298-313页。Springer,2018.[32] Anurag Ranjan和Michael J.黑色.使用空间金字塔网络的光 流 估 计 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)上,2017年7月。[33] JeromeRevaud,PhilippeWeinzaepfel,ZaidHarchaoui,and Cordelia Schmid.深度匹配:分层可变形稠密匹配。International Journal of Computer Vision,120(3):300[34] Amit Shaked和Lior Wolf改进的立体匹配与恒定的高速公路网络和反射的信心学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年7月。[35] 萧嵩、赵旭、胡汉文、方良吉。Edgestereo:用于立体匹配的上下文集成残差金字塔网络。2018年亚洲计算机视觉会议(ACCV)[36] 孙德清、杨晓东、刘明宇和Jan Kautz。Pwc-net:使用金字塔、扭曲和成本体积的光流的Cnns。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年6月。[37] FedericoTombari , StefanoMattoccia , LuigiDiStefano,and Elisa Addimanda.立体通信成本汇总方法的分类 与评 价。在 IEEE计算 机视 觉和模 式识 别会议(CVPR)上,第1-8页。IEEE,2008年。[38] Guorun Yang , Hengshuang Zhao , Jianping Shi ,Zhidong Deng , and Jiaya Jia. Segstereo : Exploitingsemantic information for disparity estimation. 欧洲计算机视觉会议(ECCV),2018年9月。[39] Changqian Yu , Jingbo Wang , Chao Peng , ChangxinGao,Gang Yu,and Nong Sang. Bisenet:用于实时语义分 割 的 双 边 分 割 网 络 。 欧 洲 计 算 机 视 觉 会 议(ECCV),2018年9月。[40] Fisher Yu和Vladlen Koltun。通过扩张卷积的多尺度上下 文 聚 合 国 际 学 习 表 征 会 议 ( InternationalConference,2016。[41] Jure Zbontar和Yann LeCun。通过训练卷积神经网络来比 较 图 像 块 来 进 行 立 体 匹 配 。 Journal of MachineLearning Research,17(1-32):2,2016.[42] Chi Zhang , Zhiwei Li , Yanhua Cheng , Rui Cai ,Hongyang Chao,and Yong Rui. Meshstereo:一个全局立体 模型 ,具 有用 于视 图插值 的网 格对 齐正 则化IEEEInternationalConferenceonComputerVision(ICCV
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功