立体图像恢复的挖掘与应用研究

65 浏览量更新于2023-10-24 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

432113179立体图像恢复上海市重点实验室复旦大学{byan，cxma17，bahtiyarbari16，wmtan14}@ fudan.edu.cnSteven HoiSalesforce ResearchAsia新加坡管理大学shoi@salesforce.com摘要在立体环境下，视差估计、立体放大和立体视图合成等问题受到了广泛的关注。然而，有限的图像质量给相关应用的开发带来了不可忽视的困难，成为立体图像的主要瓶颈据我们所知，立体图像重建的研究很少为此，本文分析了如何有效地挖掘视差信息，并提出了一个统一的立体图像恢复框架。该框架显式地学习立体视图之间的固有像素引入特征调制密集块（FMDB），自适应地在整个w孔网络中插入视差先验实验结果表明，该算法在处理各种立体图像恢复任务时，具有较高的效率、客观和感知质量以及深度估计的准确性1. 介绍随着人们对虚拟现实和增强现实的兴趣日益高涨，立体图像在计算机视觉的多个领域得到了广泛的研究，从立体放大、立体匹配到深度估计。在实际应用中，立体图像往往会受到各种各样的影响。与其他立体图像相关研究的活跃情况不同，致力于提高立体图像质量和实用性的因此，立体图像复原技术能够有效地解决退化图像固有的质量限制问题，在研究和应用中具有广阔的应用前景。增强立体图像的另一种解决方案是使用单图像恢复方法，该方法仅在退化视图内施加空间统计，而忽略了每个图像的空间统计。本工作得到国家自然科学基金资助（批准号：61772137）。图1：Fly-ingThings 3D图像“C 0007”上的×4 SR结果。与最先进的 SISR （ ED-SR [11]）、基于参考的 SR（SRNTT [22]）、视频SR(DUF[6]）和立体SR（StereoSR [5]，PASSRnet [18]）工作，所提出的方法合成更精细的纹理并恢复准确的细节，而不会带来失真。不同视图之间的像素配准。因此，独立地恢复每个图像限制了性能，特别是当预测在一个视图中丢失但可能存在于另一个视图中的一些细节时。另一种方法是多帧或视频恢复方法，该方法扩展了时间维，并利用了广告帧之间的补充信息然而，与在一个视点和不同时间点捕获的视频不同，立体图像同时对应于不同视点。视频图像和立体图像中的像素偏移分别是由运动和视差引起的，这使得视频图像中的基于参考的图像复原方法也不适用于立体图像，例如.RefSR [22]在高分辨率（HR）参考的帮助下超分辨率低分辨率然而，人力资源参考很难获得。如图1所示，上述方法仅限于平面场景，并不完全适用于立体场景。从图2所示的立体成像过程来看，这两个视图包含类似的内容，并相互参考视差是指两个视图之间的内在对应关系，并提供亚像素偏移信息，这是相对于像素级的432113180图2：立体成像过程和视差视觉表示的图示。信息.在重建一个视图时，视差作为先验知识，使一个视图为另一个视图提供准确的参考。最近，提出了两种基于深度学习的立体图像超分辨率（SR）方法来利用视差。StereoSR [5]通过将右视图中的所有像素水平偏移固定数量64来对齐左视图和右视图，而不考虑不同立体图像之间的视差变化。PASSRnet [18]学习视差atten- tion map来将信息从右视图传输到左视图。然而，这些方法不考虑dispar- ity的作用。Zhou等[23]提出了一种立体图像去模糊网络DAVNet，该网络估计视差以对齐两个视图的特征虽然已经取得了很大的突破，DAVNet并没有完全结合到整个管道的差异或视差信息的影响只考虑在一个阶段，即视差只是用来扭曲两种视图的特征。此外，这些方法都集中于提高图像级的重建性能，而忽略了立体图像更有实用价值的方面，如视差估计的精度。上述分析促使我们开发了一个端到端的可训练立体图像恢复网络（StereoIRN），该网络通过充分探索视差信息来恢复立体图像，并且可以无缝集成到不同立体图像任务的CNN中。StereoIRN由单目网络、视差流网络和双目网络组成，捕捉两个视图之间的复杂依赖关系，并将视差先验用于图像恢复。具体地说，单目网络通过独立地利用当前视图的空间信息来恢复每个图像，并将图像和特征级别的信息传输到双目网络。视差流网络通过与单目网络共享特征提取层，利用多任务学习生成更合适的视差先验，并配准亚像素信息，增加两视图间的对应性。在精确的指导下，双目网络结合输出图像和特征，重建立体图像细节。视差先验被进一步插入到双目网络中，通过提出的特征调制密集块（FMDB）来改进特征精度，该FMDB生成用于空间方向特征调制的仿射变换参数。主要贡献如下：• 本文提出了一个统一的立体图像恢复框架（StereoIRN），该框架以特征连续性和视差先验为指导，对立体图像的空间和交叉视觉进行感知。同时查看信息• 本文分析了视差在立体图像恢复中的特性，探讨了如何利用视差的立体成像特性，并提出了一种基于特征调制密集块的立体图像恢复算法通过在视差域中自适应地合并信息来细化空间特征• 我们引入了两种视差注意损失，这鼓励了解决方案，以提高视差估计的准确性。• 我们是第一个用视差估计来评价立体图像的人。在图像和视差估计水平上的实验表明，提出的方法实现了最先进的结果。2. 相关工作基于深度学习的图像恢复：SRCNN[2]首先构造了一个3层的CNN，用于单图像超，分辨率（SISR），并导致戏剧性的飞跃。Zhang等人提出了一个20层DnCNN [20]来同时解决SISR，图像许多图像复原研究都是循着他们的足迹，通过改进网络结构来实现的，并不断取得突破.在视频和多帧恢复方面也出现了巨大的热潮。VSRNet [7]和[9]将广告帧扭曲到中心帧上，以利用连续的降级帧立体图像恢复：Jeon等人[5]首先提出了StereoSR通过亮度SR和色度SR网络来超分辨左图像。他们补偿-通过水平移动右图像64个像素来满足视差。然而，他们的网络假设立体图像中的视差固定为64，并且所有像素共享相同的视差，而不考虑变化。PASSRnet [18]通过一个视差注意机制来超解析左图像，该机制学习一个掩码来融合两个视图的最相似特征，以将全局对应性纳入立体对。然而，PASSRnet利用基于两个原始视图的像素相关性，这是在像素级不匹配的，并限制了这两个视图之间的参考意义的432113181图3：我们的StereoIRN概述，包括单眼网络（NETM），视差流网络（NETD）和双眼网络（NETB）。其正确的观点如下。因此，视差先验可以帮助配准两个视图，为立体图像重建提供更准确的信息。左右视差右对齐图4：基于视差的扭曲过程的可视化。左图像、右图像、视差图和扭曲的右图像3.2. 网络d（x，y）=xl−xr，I l（x，y）= I r（x +d，y）。（一）图像分别。立体图像去模糊网络DAVNet [23]基于模糊立体图像估计双向视差，对齐两个视图的特征，并通过学习门映射自适应地融合特征。然而，模糊的立体图像限制了视差精度，视差信息可以进一步利用。本文提出了一个统一的立体图像恢复框架，以寻求更高的图像质量和更准确的视差估计，这是新的文献。3. 方法在介绍所提出的方法之前，我们首先分析了立体成像过程，并探讨了视差恢复精确图像细节的潜力3.1. 差异先验分析图2所示的立体成像过程显示了两个视图之间的像素关系。真实场景由多个平面组成，不同视点在这些平面上的透视投影因此，视差是指外观像素差异或运动，并且表示两个视图之间的像素位置的对应性。我们把视差先验看作是一种知识，它可以提供亚像素偏移的多采样信息，以提高图像质量。假设d（x，y）是左im中的像素（x，y）的视差年龄Il，我们可以根据左图像I r和右图像I r之间的像素关系来计算右图像Ir如图3所示，建议的StereoIRN com-包括单眼网络（NETM）、视差流网络（NETD）和双眼网络（NETB）。具体来说，单目网络分别恢复每个视图的空间信息，视差流网络学习视差并对齐不同的视图以确保像素精度。双目神经网络综合上述各子网络的输出，通过参考交叉视图信息，利用图像和特征空间中先前网络的输出，并结合视差的指导，对最终图像进行细化。随后将通过进行消融研究来研究StereoIRN中每个组件的重要性单目网络：如图3所示，我们首先独立地恢复每个视图，并通过单目网络（NET M）生成相应的特征，其结构可以是一个常见的轻量级单目网络。角图像恢复网络为了简单起见，我们采用一系列卷积层和残差块[10]来提取和重建退化图像的特征，并将其进一步分为两个分支，分别重建图像和特征。图像重建分支通过卷积层输出图像IM，该卷积层被去卷积层替换以增加用于立体图像SR任务的IM的空间分辨率。特征重构分支输出特征fM以将特征的准确性扩展到双目网络。视差流网络：分析了如何利用视差信息配准亚像素信息。如前所述，立体视图之间的像素相关性用作先验知识，其为其他视图提供更准确的参考以来432113182MimDimdis伊姆伊姆图5：不同结构的双目网络探索交叉视图信息。（a）在开始时直接将两种（b）3D卷积。（c）用于独立处理两个视图的两个平行路径（d）由我们的特征调制密集块（FMDB）组成的不同立体图像之间的视差变化很大，构造视差流网络NETD，将视差先验嵌入到立体图像重建中。为了简单起见，NETD采用Stere-oNet [8]的结构来显式提取视差先验，称为视差流。受多任务学习策略的启发，我们将单目网络的特征转移到StereoNet上，而不是立体图像。因此，StereoNet和图像重建网络在特征提取部分共享卷积层。这些网络的共同特征和代表性可以在不同任务之间传递领域信息，提高网络的在我们的例子中，视差估计任务的学习有助于通过提供更多的像素对应来提高图像恢复任务的质量，反之亦然。然后，根据视差流，我们如等式1中所示的过程来扭曲右图像IR，并且生成新的立体图像对（IL，IR），其在然而，网络很难学习两种视图之间的参考内容。由于提出了3D卷积来提取考虑通道间信息的特征，因此我们用3D卷积代替2D卷积，上述两种结构通过一条路径同时处理两个视图而不加区分，这忽略了两个视图之间的视差，似乎不太合理。图5（c）示出了双路径结构，其经由并行路径处理两个视图，并跨这两个视图传递特征以更好地处理不同视图的特征。即使两个视图的特征交叉传递，在不利用视差先验的情况下，这些特征对彼此提供此外，双路径结构使参数和计算量成倍增加。为此，我们构造了特征调制密集块（FMDB）将视差先验纳入整个双目网络，并促进一个单一的路径，以更好地使用。M D像素级，如图4所示。双目网络：除了在单目网络中探索的空间信息之外，提出了双目网络来合并视点间关系以细化图像细节。我们首先提供并比较了利用立体成像性质的不同方式，如图5所示，这些方法的性能将在实验中说明。要感知不同视图之间的关系，最简单和直观的方法是在网络的开始连接两个视图，如图5（a）所示利用交叉视图的性质。如图5（d）所示，FMDB 密集连接多个视差注意特征变换器（DFT），以增强对视差的引导，DFT基于图像和视差特征（fM，fM）学习调制参数对（s，p），通过对fM进行空间仿射变换，自适应地影响输出.DFT（f M|s，p）= f M s + p.（二）扭曲操作使得移位的右视图IR包含不可避免的像素方面的误差，这产生干扰。432113183M2φACCP向其他视图提供参考信息。由于特征图包含比单个图像更丰富的信息，并且在整个网络中保持一致。为了减轻这些亚-Ldisp =Φ（HR）− Φ（SR）||第二条，第（五）项像素位移和提高像素精度，我们探索通过将fL，fR馈送到其中Φ表示StereoNet中的特征网络亲-提出了两个差异的注意力损失帮助我们的立体IRN，M M双目网络，在图3和图5中用红线表示。我们的双目网络密集连接6个FMDB，总共包括4个DFT。将输入图像IL添加到输出残差图像。为了减少计算成本，同时减少精度损失，两个图像的空间分辨率通过空间到深度变换来降低，并通过反卷积层在产生更好的结果和差距，这是很难否认的-从真实的参考资料中剔除。培训策略：为了实现更快的收敛和更好的性能，我们采用逐步优化来逐步训练我们的模型。具体地，我们首先分别用以下约束训练单目网络和我们双目网络的开始和结束LNET为||SR M−HR l||2个以上||SR M− HR r||二、ly.所有卷积层的核大小为3×3。由于不同任务的最优网络结构不同，ML净D =γ（dl-d），中文（简体）StereoIRN可以为每个子网部署任何体系结构，以利用不同恢复任务的性质，并充分发挥其灵活性和容量。注意力缺失：大多数经典的图像重建模型可以用公式表示，以解决以下问题：x′=argmin 1 |y−x|2+ λP（x），（3）x2φ其中d′和d分别是预测的差异和真实差异然后，所有子网联合更新，同时固定NETD中的参数。L MSE= ||SR 1− HR 1||2个以上||SR r− HR r||二、Lall=λ1LMSE+λ2Ldis+λ3Ldis，（7）其中第一部分1|y−x|2是数据保真度项，第二部分P（x）是正则化项。这个方程仅将恢复图像x约束为在像素级上类似于地面实况y，而不考虑立体图像的整体结构和全局空间一致性，这对于精确的视差估计是至关重要的。这一观察激励我们直接从视差估计过程中学习视差的视觉约束。特别地，我们分别在像素级和特征级上构造了两个视差注意损失，包括视差内容损失和视差感知损失，以重新训练我们的网络，使其具有更高的视差精度。设计了像素级视差内容损失L_disacc，使恢复后的立体图像接近自然立体图像流形，保证视差估计的精度。为了实现这一点，我们通过双参数鲁棒函数[1] γ（. ），这近似于平滑的L1损失。其中参数λ控制不同损失对我们最终损失的贡献，并在我们的训练过程中采用1。4. 实验4.1. 数据集和训练设置通过遵循[5]，所有模型都在来自Middlebury数据集的60个立体对上进行训练，其他5个立体图像作为测试集，用于不同的任务。视差流网络在SceneFlow数据集上进行预训练[12]。通过随机缩小、翻转和旋转来增强训练图像。我们将图像裁剪成大小为80的补丁，每批采用32个补丁。为了训练SR模型，我们用比例因子2，3，4缩小补丁。对于去噪，我们加入加性白高斯噪声与噪声等级范围[0，40]，到干净的补丁。为了去模糊，我们卷积干净的图像，模糊核大小为15 ×15，σ从[0.1，4.0]采样。所有模型都在配备2.20 GHz Intel（R）Xeon（R）CPU和GTX1080Ti GPU（128 G RAM）的机器上进行了40次学习，L显示访问 =γ（dSR′− d）。（四）速率为1 e-4。采用Adam优化算法，β1 = 0.9，β2= 0.999，ε= 1e-8。此外，在特征层引入了一个更为简洁的约束条件，即视差感知损失L_dis_p，使恢复后的图像能够提供更准确的特征，从而获得更好的视差估计和视觉效果。L_dis_p通过最小化StereoNet中间层特征的距离来约束恢复图像在特征空间中与地面真实图像相似除了Middlebury之外，还对来自Tsukuba的前15张图像[14]，来自KITTI 2012 [3]和KITTI 2015 [13]的前20张图像以及 SceneFlow 中 FlyingThings 3D 子集的 A-000，B-000，C-000集进行了评估，包括各种视差和遮挡。为简单起见，所有结果均在左侧视图中计算和演示。432113184图6：×4 SR任务中速度和精度之间的权衡。该模型在速度和精度之间保持了令人满意的平衡。型号NET M NET B 特征PWCNet NETDPSNR/SSIMMSEL访问Ldisp地面实况图7：不同SR结果的视差精度。4.3.消融研究我们的C C C × C29.831/0.9094为了说明每个组件在我们的NETM之间的特征传递表1：我们网络的不同组成部分的消融研究。Middlebury上×4 SR的平均PSNR/SSIM。和NETB，我们使用不同的设计选项进行实验，并在表1中报告结果。类似于常见的SISR网络，我们的单眼网络NETM超级，模型PSNR/SSIM参数只解析一个图像一次，而不引用其他视图级联29.16/0.902936675立体图像在没有NETM的模型中，双目3D卷积27.79/0.879942624网络NETB将两个LR图像作为输入，并行路径29.60/0.9084598790空间到深度的操作。NETB的PSNR增益FMDB29.83/0.9091132932在NETM上演示了不同的视图提供了使用-表2：双眼网络结构的比较MSELdisaccLdispPSNR/SSIMEPEC××33.223/0.96122.4982CC×32.757/0.95782.3665C×C 32.673/0.95702.2996表3：不同损失的消融研究。来自SceneFlow的A-000上×4SR的平均P- SNR/SSIM和EPE4.2.运行时间对立体图像SR任务进行了计算效率分析，图6显示了从320 × 240 L-R立体图像对重建640 × 480 HR立体图像对的平均运行时间与重建质量之间的比较，重建质量由Middle- bury上放大4倍的PSNR表示。很明显，该算法具有较低的时间复杂度，并保持实时性，同时产生高质量的结果。即使只给出LR视图，也要充分参考彼此与LR参考相比，NETM可以为NETMB提供更好的信息。在 NETM和NETB之间增加了特征传输（表示为NETMBf）后，得到了进一步的改进，这表明特征引导在纠正像素信息的偏差方面起作用。在启用视差流网络后，实现了更高的PSNR/SSIM，表明视差先验对于恢复更多细节是最终的模型，利用依赖的超分辨视图和功能，获得最好的结果。为了显示视差和运动信息之间的差异，这在视频恢复中通常被考虑，我们用P-WCNet [15]代替我们的视差流网络。表1中的NETMBPf和Our之间的结果表明，视差流网络捕获了更可靠的立体对应以用于图像重建。为了定量地比较几种替代方案在利用立体成像性质方面的性能，这在第3.2节中讨论，我们构造了不同的双目NETMC××××28.987/0.8991网B×C×××29.162/0.9016为了清楚地说明，所有消融研究都是在NETMBCC×××29.423/0.9061在×4立体图像SR任务上。NETMBf净MBP fCCCCCC×C××29.722/0.910429.625/0.9082网络：432113185数据集规模SISR视频SR参考SR立体SR我们的BICEDSR*[11]SPMC [16]德国[6][22]第二十二话StereoSR [5]PASSRnet [18]DAVNet*[23]DASSRS426.61/0.85629.17/0.90323.05/0.79328.82/0.90028.78/0.90127.40/0.87429.28/0.90328.12/0.882929.83/0.909Middlebury S328.35/0.90032.03/0.944---30.37/0.926--32.19/0.945S231.49/0.94936.14/0.97628.88/0.929--34.28/0.967--36.40/0.976S424.81/0.83226.00/0.86422.00/0.77927.60/0.89723.79/0.85424.80/0.84226.55/0.87425.52/0.85326.96/0.882KITTI 2012 s326.27/0.87627.75/0.909---27.04/0.896--27.97/0.909S228.74/0.92730.44/0.94826.90/0.910--29.65/0.941--30.73/0.950S423.37/0.81424.41/0.85220.34/0.74125.14/0.87124.20/0.85823.15/0.82324.97/0.86524.11/0.84225.35/0.874KITTI 2015 s324.92/0.86725.87/0.902---25.49/0.889--26.46/0.906S227.46/0.92828.90/0.94925.41/0.905--28.09/0.941--29.21/0.952S430.83/0.92334.03/0.95926.73/0.86933.68/0.95733.51/0.95630.92/0.93434.52/0.96231.66/0.94334.81/0.965筑波S333.23/0.95537.11/0.980---36.05/0.975--37.94/0.983S237.36/0.98243.87/0.99533.49/0.968--41.88/0.993--43.98/0.995S429.29/0.91631.59/0.94525.36/0.86724.63/0.85331.55/0.94429.46/0.92232.22/0.95130.85/0.93533.35/0.960SceneFlow s331.18/0.94634.622/0.971---33.53/0.965--34.85/0.973S234.31/0.97438.78/0.98930.97/0.950--37.81/0.987--39.12/0.989表4：来自基准的左侧图像上的最新SR方法之间的平均PSNR/SSIM比较图8：两个立体图像恢复任务的定性比较上面的线表示具有噪声水平30的去噪结果，并且下面的线表示具有σ= 3.6的立体图像去模糊结果。网络，并在表2中展示SR任务的结果如可以观察到的，所提出的FMDB产生最佳输出。简单的输入连接不足以发挥必要的跨视图信息。虽然产生了良好的结果，并行路径是不参数有效的。三维卷积不能很好地处理立体图像中存在的视差。这支持了先前的讨论。损失：我们的重要贡献之一是在像素和特征级别引入视差注意力损失。为了解释这些损失的性能，我们用不同的损失训练我们的模型，并在表3中显示了PSNR/SSIM和端点误差（EPE），这分别证明了定量结果和视差估计精度。视差结果如图7所示。因此，针对MSE损失优化的模型始终实现最佳PSNR/SSIM也就不足为奇了。相反，在加入视差内容损失和视差感知损失后，视差估计的准确性逐渐提高这主要是因为PSNR/SSIM并且仅示出像素的相似性，而不考虑全局结构和立体视图之间的这两种视差注意损失都促使图像产生可靠的全局和立体体验，这对视差估计具有重要意义4.4. 与艺术状态的为了证明StereoIRN的通用性，本节提供了与各种SR、去噪和去模糊方法的定量和定性比较。立体图像超分辨率对于立体图像SR任务，将所提出的模型与最先进的SISR（EDSR [11]）、立体图像SR（StereoSR [5]，PASSRnet [18]）、RefSR （ SRNTT[22]）和视频SR方法进行比较。ods（SPMC [16]，DUF [6]）。为了公平比较，我们使用与我们相同的数据集重新训练EDSR*。我们还通过将模糊输入替换为双三次插值立体图像来重新训练SR任务的DAVNet*。432113186噪声[20]第二十话FFDNet [21]CBDNet [4]我们1028.124/0.81137.39/0.97830.56/0.88839.12/0.9852022.11/0.552 33.14/0.95034.04/0.95625.89/0.72936.38/0.9733018.59/0.384 31.47/0.93032.13/0.93522.89/0.58834.73/0.964图9：SR的视差与HR立体对的视差之间的绝对差。[17]第17话我的世界1.329.06/0.91629.38/0.9232.36/0.95536.82/0.9802.026.43/0.85726.92/0.86830.10/0.92733.07/0.9543.623.82/0.77624.48/0.79527.54/0.87229.58/0.900表5：Middlebury上的去模糊比较如表4所示，所提出的StereoIRN大大优于其他方法。在SceneFlow上，与次优方案相比，×4SR的PSNR提高了1 dB以上图1中的视觉比较显示了超分辨率的左图像，表明亲提出的方法产生更好的结构细节和更有希望的结果。对于高斯去模糊任务，我们的去模糊模型与最先进的单图像去模糊网络（SRN-DeburNet [17]，DM- PHN[19]）和立体图像去模糊方法（DAVNet*）进行了比较，并在我们的数据集上进行了重新训练。表5提供了对具有不同模糊核宽度的Middlebury的定量立体图像去噪我们和其他最先进的方法（DnCNN[20]，FFDNet [21]，CBDNet [4]）在Middlebury上的立体图像去噪结果在表6中报告，其中我们的模型在当前最佳结果上的明显PSNR和SSIM增益表明了我们结构的优势。如图8所示的定性去模糊和去噪结果，所提出的StereoIRN可以从模糊和噪声条件中产生令人信服的输出。我们可以将所提出的框架扩展到其他立体图像恢复任务，如去块，去噪，修复等。4.5. 差异感知如前所述，视差估计是立体图像的重要应用。然而，退化的立体图像，遭受遮挡，噪声和无纹理表6：Middlebury上的去噪比较模型EPE（HR）/EPE（GT）数据集一BCHR0/2.2380/1.0980/2.624双三2.488/3.1731.758/2.0752.714/3.429EDSR*2.214/2.6811.423/1.5851.975/3.000DUF3.680/3.3382.332/2.1133.212/3.470SRNTT2.550/2.8311.861/2.1622.531/3.286StereoSR1.862/2.8011.472/1.5162.088/3.225PASSRnet2.851/2.7241.532/1.5882.153/2.983我们2.248/2.4981.296/1.4321.917/2.889表7：在来自flyingthings3d数据集中的测试集的超分辨立体对上区域，导致视差估计中的显著伪像。最令人印象深刻的是，除了空间精度，更丰富的信息，这是由恢复的立体图像，为准确的视差估计也是我们的方法的主要贡献。为了评估视差失真，我们测量恢复结果的视差与干净立体图像的视差之间的偏差（参见图9），并在表7中描述SR任务的终点误差（EPE）。在SR结果的视差与HR立体对的视差之间计算EPE（HR），并且分别在SR 结果的视差与地面实况视差之间计算EPE（GT）。与现有技术的超分辨器相比，所提出的模型保留了新场景的视差，使其与原始HR场景的视差相似，并导致显著更低的EPE。5. 结论本文提出了一个由单目、双目和视差流网络组成的单目网络和双目网络分别利用空间信息和跨视点信息进行图像恢复。为了将视差域的知识实验结果表明，视差对立体图像恢复有很大的帮助，并从恢复精度、恢复效率和视差估计的准确性等方面对所提出的方法进行了实验结果表明，该方法在多个立体图像恢复任务上取得了令人瞩目的性能432113187引用[1] 乔纳森·T.巴伦更一般的鲁棒损失函数。ArXiv，abs/1701.03077，2017年。[2] Chao Dong ， Change Loy Chen ， Kaiming He ， andXiaoou Tang.使用深度卷积网络的图像超分辨率。IEEETrans Pattern Anal Mach Intell，38（2）：295[3] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。在2012年IEEE计算机视觉和模式识别会议上，第3354-3361页[4] 史国，严子飞，张凯，左王梦，张磊。真实照片的卷积盲去噪。 2019 年 IEEE 计算机视觉和模式识别会议（CVPR），2019年。[5] D. S.全，S。白岛Choi和M. H. Kim.利用视差原理提高立体图像的空间分辨率。2018年IEEE/CVF计算机视觉和模式识别会议，第1721-1730页[6] Younghyun Jo、Seoung Wug Oh、Jaeyeon Kang和SeonJoo Kim。使用动态上采样滤波器的深度视频超分辨率网络，无需显式运动补偿。在IEEE计算机视觉和模式识别会议（CVPR），2018。[7] A. Kappeler，S.哟Q Dai和A. K.卡萨格洛斯利用卷积神经网络实现压缩视频的超分辨率。在2016年IEEE图像处理国际会议（ICIP），第1150-1154页[8] Sameh Khamis ， Sean Fanello ， Christoph Rhemann ，Adarsh Kowdle ， Julien Valentin ， and Shahram Izadi.Stereonet：实时边缘感知深度预测的引导分层细化。在欧洲计算机视觉会议论文集（ECCV）中，第573-590页[9] Tae Hyun Kim，Mehdi S. M. Sajjadi，Michael Hirsch，and BernhardSc ho？ l k opf. 用于视频恢复的时空Transformer网络在计算机视觉[10] C.莱迪格湖Theis，F. Huszr，J. Caballero，A.坎宁安A.阿科斯塔A.艾特肯A. Tejani，J. Totz，Z. Wang和W.石使用生成对抗网络的照片逼真的单图像超分辨率。2017年IEEE计算机视觉和模式识别会议（CVPR），第105-114页[11] Bee Lim ， Sanghyun Son ， Heewon Kim ， SeungjunNah，and Kyoung Mu Lee.单图像超分辨率的增强深度残差网络。在 IEEE 计算机视觉和模式识别会议（CVPR）研讨会上，第1卷，第4页，2017年。[12] N.Maye r ， E. Ilg ， P.Hausser ， P.Fische r ， D.Cremers，A. Dosovitskiy和T.布洛克斯一个大型数据集，用于训练卷积网络进行视差、光流和场景流估计。IEEEInternational Conference on Computer Vision andPattern Recognition （ CVPR ）， 2016 年。 arX- iv ：1512.02134。[13] N.迈耶，E. Ilg，P. H？usser，P. Fischer，D. Cremers，A. Dosovitskiy和T.布洛克斯用于训练视差、光流和场景流卷积网络的大型数据集-估计 2016 年 IEEE 计算机视觉和模式识别会议（CVPR），第4040-4048页[14] M. Peris，S.Martull，A.Maki，Y.Ohkawa和K.福井提出了一种仿真驱动的立体视觉系统. 在第21届模式识别国际会议（ICPR 2012）论文集，第1038-1042页，2012年11月[15] 孙德清、杨晓东、刘明宇和Jan Kautz。Pwc-net：使用金字塔、扭曲和成本体积的光流的Cnns。在IEEE计算机视觉和模式识别会议论文集，第8934- 8943页[16] Xin Tao，Hongyun Gao，Renjie Liao，Jue Wang，andJiaya Jia.细节揭示深度视频超分辨率。在IEEE计算机视觉国际会议的论文集，第4472-4480页[17] 陶新，高红云，沈晓勇，王珏，贾继亚.用于深度图像去模糊的尺度递归网络。在IEEE计算机视觉和模式识别会议论文集，第8174-8182页[18] Longguang Wang ， Yingqian Wang ， Zhengfa Liang ，Zaiping Lin，Jungang Yang，Wei An，and Yulan Guo.学习视差注意立体图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第12250-12259页，2019年[19] 张洪光，戴玉超，李洪东，和彼得·科纽兹.用于图像去模糊的深度堆叠层次多块网络在IEEE计算机视觉和模式识别会议上，2019年6月。[20] K. Zhang，W.左，Y. Chen，中国粘蝇D. Meng和L.张某在高斯去噪器之外：用于图像去噪的深度cnn残差学习。IEEE Transactions on Image Processing，26（7）：3142[21] 张凯、左王梦、张磊。Ffdnet：基于CNN的图像去噪的快速灵活解决方案。 IEEE Transactions on ImageProcessing，2018。[22] Zhifei Zhang，Zhaowen Wang，Zhe Lin，and Hairong Qi.基于神经纹理传递的图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第7982-7991页，2019年[23] 周尚辰，张佳伟，左旺梦，郝哲，潘金山，任志华 .Davanet ：使用视图聚合进行立体去模糊。在CVPR，2019年。

下载后可阅读完整内容，剩余1页未读，立即下载