没有合适的资源?快使用搜索试试~ 我知道了~
4914- × −×暗立体图像的实时恢复莫希特·兰巴M V A Suhas Kumar Kaushik Mitra印度理工学院马德拉斯摘要微光图像增强是一个活跃的研究领域,已经产生了优秀的夜间单图像,视频和光场恢复方法。尽管取得了这些进展,但极低光照立体图像恢复的问题大多被忽视,解决这个问题可以为智能手机和自动驾驶汽车等多种应用提供夜间功能。我们提出了一个特别轻的重量和快速的混合U-网架构的极端低光立体图像恢复。在最初的几个尺度空间中,我们分别处理左右特征,因为这两个特征由于大的视差而不能很好地对齐。在较粗的尺度空间,左右特征之间的差异减小,网络我们利用这一事实,以减少计算,同时处理的左,右功能,这也有利于epipole保存。由于我们的架构不使用任何3D卷积进行快速推理,因此我们使用深度感知损失模型来训练我们的网络。该模块计算快速和粗略的深度估计,以更好地执行立体epipo- lar约束。在视觉增强和下游深度估计方面的广泛基准测试表明,我们的架构不仅恢复黑暗的立体图像的信念-充分,但也提供了4 60的速度与15 100较低的浮点运算,必要的现实世界的applica- tions。1. 介绍低光增强社区见证了最先进的算法的发展,以恢复在极暗条件下拍摄的高质量图像。在这一领域的多年研究已经利用了几种技术,从直方图均衡化[29,50,58,8,22,35] retinex理论[34,33,61,13,14,37,17,26],和最近的卷积神经网络[6,15,16,72,60、38、63、25、36、52、75、45]。这些进步已经启用了几个夜间应用程序,这些应用程序以前仅限于日光条件,例如对象检测[54,10],语义分割[64,53],显着性去噪[64,53],保护[68,69],甚至是休闲摄影[6,15]。看到这些方法在单个图像增强方面取得的巨大成功,许多研究人员将其扩展到夜间视频[24,5]和光场恢复[32]。虽然弱光恢复领域已经得到了相当广泛的研究,但仍然存在一个重要的空白,这就是极暗立体图像的恢复。填补这一空白将有利于一些需要整合周围世界3D信息的夜间应用。例如,今天大多数自动驾驶汽车都使用激光雷达在低光条件下获得可靠的深度估计。同时,摄像头对于其他面向ADAS的任务(如车道检测和行人识别)是不可避免的。然而,如果可以对低光立体图像进行高质量的恢复,则可以去除昂贵且笨重的LiDAR其他应用,如智能手机和AR/VR耳机中的散景效果,也可以同样受益于低光立体声增强。利用现有的单目低光方法可能会产生次优结果,因为它们不能消除对应立体对中存在的信息,并且对极几何结构可能会被破坏。另一种选择是使用现有的立体模型,但它们主要针对深度预测进行了优化[56,4,27,7,74,18,71,76],并且不会在视觉上增强RGB图像。此外,它们严重依赖于3D卷积,这带来了巨大的计算负担。因此,最近用于良好照明立体图像的超分辨率方法已经用相对便宜的注意力模块代替了昂贵的3D卷积[59,70,73,62,67]。然而,当我们尝试将它们用于黑暗的立体图像时,由于极端低光图像中存在严重的噪声和较差的对比度,它们很难提供任何增强效果。我们提出了一种混合U网架构(见图1)。1)以不仅有益于各个图像的感知质量而且还为下游应用保留对极几何形状的方式重新存储暗立体图像。此外,我们的网络是特别快,重量轻,这是必要的现实世界的部署。为了有利于视觉增强,我们的混合架构独立处理初始缩放空间中的左视图和右视图,因为在这些缩放空间中,左/右特征不4915低光立体视图我们网络增强的StereoView深度感知损失模块可微E座L1损失我们的混合网络可微E座GT粗StereoViews视差左视图右视图1/161/161/32可微E块粗差获取差异单位范数图像块点积图像块单位范数图像块L1 + SSIM损失强制执行最大差异核极-感知损耗模块11111/21/21/21/21/41/81/41/41/81/4图1.我们提出了一个非常轻量级的快速混合U-网架构,以恢复暗立体图像的方式,不仅有利于个人图像的视觉感知,但也尊重下游应用程序的对极几何。它的速度很快,因为它不使用任何3D卷积,而且由于深度感知损失模块,它是准确的。由于大的不一致性而很好地对准。但随着尺度空间由于重复下采样而变得粗糙,视图差异减小,并且网络的感受野显著增大。这允许我们同时处理两个视图以提高计算效率。我们避免使用3D卷积或注意力模块来保持网络的快速。虽然我们提出的解决方案很简单,但它非常有效,在现有的文献中被忽视了,也许是因为重点是光线充足的图像。所提出的混合架构仅使用2D卷积,因此为了更好地执行对极线约束,我们使用我们的深度感知可微损失模型对其进行训练。我们的深度感知损失模块采用恢复的立体视图,并使用经典的计算机视觉以可区分的方式计算视差。同样,在从GT立体视图获得GT视差之后,模块计算两个视差之间的L1损失。一个天真的方法将使用来自立体模型的最先进的深度,而不是我们的深度感知模块来强制执行几何约束。但这种方法有两个挑战:(a)通过深度估计模型的反向传播在计算上非常昂贵,需要多个GPU,因此训练增强网络的主要任务将由于存储器不足而受到影响。使用现有的深度估计模型将迫使主增强网络使用小批量/补丁大小,这对恢复质量产生负面影响。(b)对于KITTI [43]或合成的SceneFlow数据集[42],几乎所有来自目前可用的立体模型的深度都已被优化因此,它们不能用于开箱即用的训练网络,适用于使用任意立体设置捕获的图像。为了克服这些限制,我们的深度感知可重构损失模块使用经典的计算机视觉进行深度计算,并且只有一个超参数。因此,它可以直接插入训练立体声增强模型,任何一般立体声纠正设置。深度感知损失模块不被设计为替换最先进的立体深度模型,如果提供大量的训练数据、时间和存储器,则立体深度模型可以提供出色的深度估计,而是提供足以在训练期间实施对极约束的快速且轻量的粗略水平深度估计。我们的代码 1可以在https://mohitlamba94.github.io/darkstereo/总之,我们做出以下贡献:•我们的目标是计算光和高速恢复极暗的立体图像,这虽然是一个重要的问题,在现有的低光增强文献中,在很大程度上是未探索的。•我们提出了一个简单而有效的混合U-网架构的立体图像增强相比,现有的方法提供了一个很好的权衡立体图像的视觉恢复,核线保存和实时推理。•受经典计算机视觉的启发,我们使用了一个深度感知可微损失模块,1这项工作得到了IITM Pravartak Technologies Foundation的部分支持。4916−× −×−−×开箱即用,用于训练任何任意立体声校正设置的立体声增强模型。•与传统方法相比,我们的方法提供460加速与15 100较低的浮点运算与恢复在同等计算昂贵的方法。2. 相关作品弱光图像增强。早期的弱光增强方法使用直方图均衡来增强动态范围[29,50,58,8,22,35]。后来,人们发现利用Retinex理论[34,33]将低光图像分解为照明和反射分量有助于更好地增强[61,13,14,37,17,26]。现在,人们使用基于学习的网络来更好地进行低光增强[16,72,60,38,63,25,36,52,75]。Chen等人[6]提出了著名的SID数据集,用于极低光图像增强,从那时起,该数据集激发了极低光图像增强的几项工作[41,15,66,1]。这些方法中的大多数都有相当大的计算开销。因此,也提出了一些轻量级的单一图像增强方法[31,45],通过稍微牺牲视觉增强。适用于不同立体声应用的深度立体声模型。立体模型已经被用于各种各样的任务,诸如深度估计[4,56,27,7,18,55,74,57,65,46,3,76,71]和超分辨率[59,70,73,62,67,23]。大多数深度模型扭曲立体特征以生成4D成本体积,然后使用3D卷积回归以计算视差。尽管这些方法产生了最先进的结果,但使用3D卷积在计算上是昂贵的。为了缓解这个问题,最近的立体声超分辨率方法[59,62]提出了相对便宜的注意力模块。虽然注意力模块对于光线充足的图像是有益的,但是将它们应用于极其嘈杂的低光图像可以赋予类似的改进。深度立体模型也被用于立体去模糊[70],校正双折射[28]和图像压缩[11],但极低光立体图像的轻量增强任务几乎没有研究。直到最近,DVEnet [21]才被提出来增强曝光不足的低光立体图像。然而,DVEnet在用于极暗立体图像时表现出大量光晕伪影(参见实验部分),并且需要相当大的计算开销。3. 实时立体声增强网络实际的低光立体恢复方法必须同时解决三个挑战:(a)噪声抑制和色彩增强,(b)保持宽基线照相机设置的对极几何,以及(c)现实世界应用所需的低计算开销。考虑到这些限制,我们提出了一个混合U-网架构的实时恢复非常黑暗的立体图像。大多数现有的立体方法首先计算左/右视图之间的视差,然后将此信息用于特定任务,例如超分辨率和深度估计。然而,对于极端低光立体图像,我们首先使用混合U网增强图像,然后使用深度感知损失模块强制几何约束。我们这样做是因为非常低的光图像太嘈杂,对比度差,因此,直接检索深度容易出错(见补充资料)。3.1. 网络架构我们的混合U-net架构接受一对立体矫正的低光图像,并输出恢复的立体视图。它被设计成使每个视图能够利用相应立体视图中存在的信息,而不使用任何计算上昂贵的3D卷积或注意力机制。图1显示了我们提出的网络,它在6个尺度空间下运行:输入图像的1,1/2,1/4,1/8,1/16和1/32分辨率在初始的几个尺度空间中,由于大的视差,立体特征不对齐。因此,我们通过运行卷积核两次来独立地处理它们,每个立体特征一次。但是,随着特征维度的降低,由于重复的下采样操作,立体特征之间的不对准也会减少,网络的感受野也会例如,KITTI[43]数据集中的最大像素差异在200 256之间,而CityScape[9]的最大像素差异甚至更低。因此,在1/8分辨率尺度空间处,最大像素视差将为25 32。但我们的网络因此,在1/8分辨率尺度空间处,我们逐通道连接立体声特征,并针对剩余尺度空间联合处理它们。这不仅便于立体特征之间的信息交换,而且还避免了重复卷积。为了节省计算,我们将更多的卷积核分配给后面的尺度空间,并且在初始尺度空间中不使用太多的卷积核。该网络主要依赖于像素洗牌操作来进行下采样和上采样特征映射,并使用LeakyReLU非线性。有关我们架构的更多详细信息,请参见补充资料。3.2. 深度感知损失模块我们的混合U-net只使用2D卷积来实现高速推理。因此,我们使用深度感知损失模块来训练它,以更好地执行对极约束。 本模块虽然仅用于培训,保持轻量级以适应更大的增强网络。该模块有两个组件,即PHO-由Lph表示的距离损失和视差一致性4917LLLL··CC.×CCD计算C′。 只能走这边MΣCC损失表示为disp。 ph计算增强立体视图和地面实况(GT)立体视图之间的L1+SSIM损失。另一方面,disp注意,与许多立体方法不同,我们的方法不需要GT深度,而只需要GT立体校正RGB增强视图进行训练。这是有利的,因为与LiDAR相比,相机便宜,并且对准LiDAR和RGB数据并不简单。因此,总损失函数可以总结为:L=Lph+λ·Ldisp(1)光度损失:令Len和Ren表示增强的左和右立体视图,并且 LGT和 RGT表示GT立体视图。此外,令 L1(,)计算输入张量的l1范数与dssi m(·,·)=1−SSIM(·,·)。因此,光度损失是(i,j)在L中计算为,j−k′,其中k′=argmax(Ci′,j,k)(4)虽然argmax通常不允许反向传播,但我们通过强制通过(i,j,k′)的梯度为1,所有其他梯度为0,使其可微。这个简单的解决方法有时也用于使maxpooling层可区分。更复杂的方法,如SGM [20],还强制平滑约束,这肯定有助于获得更精细的差异。但是对于极端的低光增强视图,非常精细的纹理很难恢复,所以我们发现粗糙的视差足以训练我们的网络。这不仅避免了使附加约束可微所涉及的挑战,而且还使运算在计算上保持轻量。 一旦我们计算了差异,我们也计算置信度图C∈RH×W如下,.计算为,L ph= 0。5·[L1(LGT,Len)+L1(RGT,Ren)]Ci,j =1如果Ci′,j,k′≥0否则(五)+0的情况。5·[dslim(LGT,Len)+dslim(RGT,Ren)](2)可区分的E块:给定一对立体直角化视图L∈RH× W×3和R∈RH× W ×3,其中,k是中所有条目的平均值, 其中argmax由方程式获得4对于大多数立体声设置,我们对最大视差有相当多的想法,dispmax,因为信息计算两个视图之间的视差,允许反向传播。给定左视图L中的任何像素,我们构造MM(in这个工作M=31)补丁周围,并计算一个单位诸如基线和照相机焦距的信息通常是已知的。我们把这些信息结合起来正则化C′。具体地说,我们定义了一个新的张量C ∈RH×W ×W,在右立体视图中沿着水平偏光线与每隔一个相同尺寸的补片的归一化点积这样,我们构造C′∈RH×W ×W,使得C′中的每个条目Ci′,j,k被计算为:Ci,j,k=Ci′,j,k 如果0≤j−k≤dispmax否则无效n∈[1,H]和j,k∈[1,W](6)Ci′,j,k=LP||LP||1Rp•||Rp||1然后仅使用有效条目来计算视差和置信度。对于我们所有的实验,我们只改变这个单一的超参数dispmax。此外,在[1,H]和[1,W]中的任意一个其中,LP∈RM×M ×3是中的像素(i,j)周围的补丁,L和RP∈RM×M ×3是中的像素(i,k)周围的补丁R.然而,计算i′、j、k可能会在计算上很昂贵,因此我们更倾向于使用较轻的操作,而不是折衷我们的混合U型网络架构的训练例如,如果我们为了简单而忽略单位归一化步骤,则每个i′,j,k需要至少3个M2乘法。然而,我们发现,比选择路径的大小更重要的是背景。因此,我们引入一个膨胀项d,其中每d行和列的补丁,2i,j,k3需要乘法。在这项工作中,我们设置d=3,并在消融研究中实验这个想法。“现在具有计算快速和粗略水平视差所需的所有信息。任何像素的视差K4918∞消融研究表明,在不知道Disp_max的罕见情况下,可以将其设置为Disp_max= 0,并且预测的视差仍然相当好。视差一致性损失:令D_en和C_en是由E块为增强立体视图产生的视差和置信度图。同样地,令DGT和CGT是GT立体视图的视差和置信度图。视差一致性损失Ldisp因此被计算为,Ldisp=L1 ( DGT·Cen·CGT , Den·Cen·CGT )(7)4. 实验4.1. 实验设置数据集:我们在三个公开可用的数据集上评估了我们的方法的性能,即KITTI [43],CityScape [9]和L3F [32]。4919××U∼ N ∼ N(a) RGB(b)线性RGB(c)按比例缩小b)(d) 添加异方差噪声(e)弱光sRGB(f)10倍放大e)图2.将光线充足的图像转换为弱光图像的各种步骤目前还没有公开的数据集对极端低光立体声增强定量基准。因此,在之前面临类似挑战的作品之后[51,48,38,19,15,70,39],我们将KITTI 2015良好照明的立体图像转换为低光图像。但是,我们不是天真地添加高斯噪声并使用伽马函数使图像变暗,而是遵循更原则的方法来进行逼真的建模[2]。我们的低光建模方法的详细描述在补充中给出,并且可以在图中找到简要概述。2.微光光子噪声主要是在图像采集过程中加入的,图像采集是一个线性空间。但是由相机产生的非线性空间。因此,我们首先回到线性RGB空间,缩小图像,添加异方差噪声,然后回到sRGB空间。KITTI数据集包含400对1240 376立体图像,具有相应的地面实况(GT)LiDAR深度图。我们使用了200对用于训练,并保留了200对用于测试。在低光转换期间,对于我们选择的每个立体声对,(2,0.01),增益(2,0. 01)、QE(0. 55,0。66)和比例尺=1/40。有关详细信息,请参阅附录。为了从增强的立体视图中计算深度,我们使用了LEASereo [7],在撰写本文时,它在KITTI2015立体排行榜上占据了最高位置。为了进一步评估我们的方法的性能,我们对CityScape数据集重复了这个过程CityScape数据集有5000对1024 2048立体图像,其中500对保留用于测试,其余用于训练。CityScape没有LiDAR深度图,并使用SGM [20]提供GT深度。因此,我们还使用SGM从增强的低光CityScape图像中计算深度。我们尝试使用其他立体数据集,如Ox-ford RobotCar数据集[40],但它缺乏GT增强的立体图像,因此不能用于基准测试。节中4.4然而,我们示出了从L3F光场数据集获得的真实极端低光立体图像和我们捕获的真实夜间立体图像的定性结果。与其他方法的比较:我们将我们的方法与SID [6],SGN [15],StereoSR [23],PASSR[59],DASSR[70],CFnet[56]和DVEnet [21]进行比较。SID和SGN被提出用于单眼极低-(a) (b)SGN [15](c)StereoSR*[23](d)PASSR*[59](e)DASSR*[70](f)CFNet*[56](g)DVENet(h)Ours(i)GT(j)SID [6](k)SGN [15](l)StereoSR*[23](m)[59](n)DASSR*[70](o)CFNet*[56](p)DVENet(q)Ours(r)GT图3. 该 图 显 示 了 通 过 不 同 方 法 增 强 的 左 视 图 , 以 及 由LEASetro [7]使用低光增强立体视图计算的深度我们的方法明显优于大多数方法。就CFNet* 而言,我们的视觉结果相当,但推理速度高出40倍光增强和噪声抑制。我们使用它们来分别增强左/右视图由于没有极端低光立体声增强的方法,我们与DASSR,它已经表现出良好的性能去噪加性高斯白噪声添加到良好的照明立体图像。DASSR在阶段I中独立地获得左/右视图的特征,在阶段II中计算差异以扭曲特征,并且在阶段III中仅恢复左视图。因此,我们复制了第二阶段和第三阶段,以获得左和右低光增强视图。我们也来-4920×× ×××表2. CityScape数据集上的定量比较。我们的方法在所有其他指标上实现了最佳性能,同时保持了快速的推理速度。表1. KITTI数据集上的定量比较。最好的分数用粗体表示,第二好的分数用下划线表示。我们的方法在所有指标上实现了最佳性能,同时提供了实时推理速度。具有StereoSR和PASSR的RGB立体声超分辨率设计。由于我们的目标是增强而不是超分辨率,我们将这些方法的最后一层的缩放因子从2,4,. 到1.这些方法也只输出左视图,因此我们复制了扭曲和最终合并阶段,以增强左视图和右视图。我们还比较了CFNet,一个从立体声计算深度的轻量级模型. CFNet有三个阶段:第一阶段单独计算左/右特征;在阶段II中,特征被扭曲以获得4D体积;在阶段III中,3D卷积对4D体积进行操作以输出表示深度图的单个通道张量。我们通过使3D卷积输出RGB彩色图像的3通道张量来稍微修改最后一个阶段然后,我们使用L1和SSIM来训练它进行RGB图像增强。在我们的基准测试中,我们通过在上标中添加'*'来表示这些略微修改的立体声模型。我们重新训练了所有模型以进行公平比较。最后,很少有关于原始低光增强的作品报道了使用比率前置放大的更好的增强。但是当我们直接在sRGB图像而不是原始图像上训练时,我们没有发现任何性能差异,所以不要使用它。我们使用PyTorch [49],在Intel Xeon E5- 1620 V4CPU上运行,配备64 GB RAM和RTX 3090 GPU,设计我们的模型。我们使用ADAM优化器[30]使用默认参数训练我们的模型。我们训练了100,000次迭代,学习率设置为10-4。训练是在随机选择的补丁上进行的,没有数据增强,因为有足够数量的随机可以从完整图像中获得补丁。对于KITTI数据集,补丁大小设置为352 704,对于CityScape,补丁大小设置为512 512 。 对 于 KITTI 数 据 集 , dispmax=200 。 由 于CityScape基线,我们为CityScape设置disp max= 100。4.2. 定量和定性比较在选项卡中。1.我们对我们的方法进行了7个指标的基准测试:PSNR和SSIM,用于比较视觉增强; RMSE和D1坏像素百分比[43],用于比较从增强视图计算的深度;以及用于测量推断计算复杂度的CPU时间、GPU时间和浮点运算(FLOPS)。为了测量计算开销,我们考虑了以全空间分辨率增强左视图和右视图所需我们发现,我们的方法比大多数方法表现得更好,同时表现出实时推理速度,这是现实世界中的应用程序所必需的。这些定量结果也得到了图1所示定性结果的支持。3.为了计算RMSE和D1度量,我们使用了KITTI数据集中可用的LiDAR GT。但是,由于LiDAR输出半密集深度,对于图1中的视觉比较3我们已经示出了从GT立体视图获得的密集深度图在一般情况下,我们观察到,立体的方法比SID和SGN单目方法更好。这是预期的,因为单目方法不能从相应的视图中受益此外,SID使用最大池化进行下采样,其遭受梯度稀疏和转置卷积进行上采样,这已被报告为降低性能[47]。PASSR*、StereoSR* 和DVEnet等立体模型可进行特征匹配以进行最终恢复。与他们的方法相反,CFNet* 仅依赖于3D卷积进行增强,因此与现有的立体模型相比,可以实现最佳效果。这是因为,使用注意力模块或特征相关性对于良好照明的图像是有益的,但对于具有差的对比度和大量噪声的极低 光 图 像 则 这 一 点 从 图 中 也 可 以 看 出 。3 , 除 了CFNet* 和我们的方法之外,所有以前的方法所做的增强都受到了“光环伪影”的影响,方法感知深度推理速度PSNRSSIM(dB)↑ ↑RMSE D1%↓ ↓CPU GPU GFLOPs(s)↓(ms)↓ ↓SID[6]16.32 0.6967.7822.2 2.23三十点四十九200.50[第15话]16.30 0.6927.9322.230.86203.92[23]第二十三话20.97 0.6647.9120.2 147.50美元 1101.86[59]第五十九话14.86 0.6996.6918.9473.822301.25DASSR* [70] 20.09 0.6738.1223.9132.27407.62CFNet*[56]24.56 0.7187.3721.9312.331278.44方法感知深度推理速度PSNR↑ SSIM↑ RMSE↓ CPU数量↓GPU(ms)↓SID[6]27.580.8400.22410.82248.96[23]第二十三话28.080.8100.22152.95635.03DASSR*[70]27.280.8310.22332.84616.64CFNet*[56]29.170.8520.21472.711361.61DVENet [21]29.020.8470.18930.05685.744921××−× × ××实弱光左增强左GT左Pred视差GT视差实弱光左增强左GT左Pred分割GT分割图4.使用我们的网络对真实低光立体图像进行定性结果。不仅是增强几乎相同的GT视图,但下游任务的结果,如深度估计和语义分割增强视图与从GT视图获得的估计。在饱和像素的小范围内正确的颜色恢复[12,61,44]。这是CFNet* 和我们的方法具有出色PSNR的主要原因。最后,CFNet* 和DASSR* 等方法估计中间视差以扭曲视图。然而,我们在我们的模型中没有利用这样的想法,因为使用从中间低光特征计算的视差的视图扭曲容易出错。我们只是简单地按通道连接特征,并让网络通过在增强视图上使用深度感知损失模块这样做不仅有助于我们的方法实现更好的视觉增强和深度估计比所有以前的方法在两个选项卡。1和图3,但也保持内存占用低。在 选 项 卡 中 。 2 我 们 还 评 估 了 我 们 的 模 型 在CityScape数据集上的性能,发现我们的方法比大多数方法都要好得多,并且继续保持显着更高的加速比。总的来说,KITTI [43]包含的图像具有丰富,鲜艳的色彩,而CityScape因此,增强CityScape图像比KITTI图像更容易同时,CityScape具有更高分辨率的立体图像,这使得模型难以保持良好的推断速度。4.3. 时间复杂度一般来说,立体模型计算量很大,但如表1中所示。1和Tab。2、我们的网络非常快。主要原因是,与CFNet*、PASSR* 和DEVnet不同,我们不使用3D卷积或注意力模块。相反,我们只使用2D卷积。StereoSR*也主要依赖于2D卷积,但它主要是在全分辨率下实现的。然而,在我们的模型中,大多数卷积发生在1/16和1/32分辨率下。StereoSR* 还需要额外的时间将RGB图像转换为YCrCb色彩空间。我们的网络的推理速度甚至比SID等单声道方法更快。SID需要进行两次计算以增强左右视图。我们的模型,无论如何,通道明智的,连接两个视图在较低的分辨率,真正的极端DVENet我们的GT左低光左视图图5.还原真实的极端低光立体图像帽-午夜时分虽然DVEnet(a) 左(b)右(c)无单位范数(d)无dispmax(e)55补丁(f)1111贴片(g)3131贴片(h) 3131贴片d=3d=3d=1,计算d=3,计算重型轻型(建议)图6.在不同设置下由E块计算的粗水平视差(由置信图掩蔽)小斑块大小产生噪声差异。因此,我们使用更大的补丁,但增加膨胀d为3,以节省计算。即使dispmax是未知的(使用基线和焦距容易地计算),(d)中的视差图也非常接近(h),除了表示非常大视差的微小白点.因此,不需要重复计算。这不仅可以保持较低的内存占用,还可以更好地实施对极约束。4.4. 真实的低光立体图像在这里,我们展示了从低光照光场(L3F)数据集获得的真实低光照立体图像的定性结果该数据集有三个子集,其中我们使用了L3 F-20子集。L3F数据集是在晚上拍摄的,当时落在相机镜头上的光线最大为20勒克斯。因此,捕获的LF非常暗。该数据集还通过具有5 - 10秒的大曝光时间捕获了相应的良好照明的光场(LF)。LF被布置在15 × 15的网格中,每个SAI具有434 × 625的空间分辨率。为了构建立体数据集,我们忽略了外围视图,因为它们受到晕映效应的严重影响,并考虑只有中央的9×9SAI。 然后我们选择了极端的4922×·CL- × −×3·Σ我 们 在 KITTI ( 基 线 =54cm ) 、 CityScape ( 基 线=22cm)和L3F数据集(非常小的基线)上的网络具有非常不同类型的采集传感器和立体声设置。为了在这些不同的数据集上训练我们的网络,只有一个超参数dispmax在Depth-Aware中进行了更改表3.消融研究所提出的方法使用KITTI数据集。我们的风格的特征提取的好处极约束,而只有轻微降低PSNR的视觉增强,芒。该表还示出了感知增强和深度估计之间的权衡。从中间行的左和右SAI以获得立体声对。 因此,我们通过设置dispmax=10在384 384块上重新训练了我们的网络,因为SAI具有子像素视差。因此,我们表明,我们的方法可以很容易地在大/小基线系统之间切换,即使它是优化的大型基线系统。定性结果见图。4.我们看到,输入的立体视图是非常黑暗的,但恢复的意见看起来几乎相同的GT意见。其他任务的性能,如深度估计和增强视图上的语义分割也与从GT立体视图计算的结果相当我们我们甚至采用了两台FLIR机器视觉摄像机,将它们严格放置在24 cm基线处,并在午夜拍摄了校正立体对,摄像机镜头上的光照度值为10<像SID一样,我们也捕捉了高曝光图像,用于定性基准测试。图5显示了修复完成通过DVEnet和我们的方法。我们发现,这两个结果是可比的,但如表中所示1和Tab。2我们的方法是显着更快,重量轻。4.5. 消融研究选项卡. 3报告了通过在KITTI数据集上重新训练我们的方法的不同版本来进行立体增强的定量比较。Net-I和Net-II的结果证明了我们的混合架构的好处。对于Net-I,在整个U-net中,左视图和右视图的特征是独立处理的。对于Net-II,我们的混合风格的特征提取,如图所示。1、使用过。与Net-1相比,深度预测度量好得多1。82个单位,同时只经历了0的微小下降。09dB PSNR。此外,Net-II还具有计算优势。例如,对于2 MP图像,Net-I需要77。08 GFLOPS,而Net-II只需要57。42GFLOPS。接下来,我们通过包括我们的视差一致性损失来训练Net-II,disp的权重为λ=1。这提高了深度度量RMSE,但降低了PSNR。在[70]中也注意到了这种感知深度的权衡。为了同时支持分辨率和深度,我们选择λ= 0。1.一、节中第4.2节和第4.4我们通过培训展示成果损失模块为了进一步理解不同组件在深度感知损失模块中的作用,我们在图中示出了由E块计算的一些粗略级视差图六、这里,视差图被由E块估计的置信图掩蔽图6 c)我们不执行导致不相干视差的逐块单元归一化接下来在Fig. 6d)我们假设立体元数据,即基线和焦距是未知的,因此disp_max是未知的。除了非常微小的spo- radic白点外,估计还是相当不错的。因此,不知道dispmax并不是一个严重的缺点。接下来,我们将补丁大小从M=31减少到M=5,11,发现估计的视差非常嘈杂。最后,我们将M恢复到31,但将膨胀d从3减小到1。在这种情况下,估计的差异几乎与(h)中所示的建议差异相同,除了在少数孤立点处的边际改善但同时计算复杂度也非常高。例如,如第二节所述。3.2,在这种情况下,仅计算的一个条目需要至少3 312次乘法。但对于图中所示的差异。6 h)仅3312乘法are required.5. 结论今后的工作弱光增强技术已经得到了广泛的研究,主要解决了单幅图像、视频和光场的夜间恢复问题。然而,一个非常重要的领域,快速轻量级恢复极端低光立体声增强几乎尚未探索,我们在这项工作中解决。我们提出了一种混合U-网架构,它忠实地恢复属于不同数据集的立体图像我们的网络的推理速度明显优于现有的立体方法,因为我们只使用2D卷积,并通过使用深度感知损失模块在训练过程中实施极线约束我们表明,该模块可以开箱即用地用于不同类型的数据集上的训练,例如具有非常大的基线的KITTI和具有中等基线的CityScape。最后,我们的网络甚至比SID等单声道方法更快这是因为我们的混合体系结构在较低的分辨率上联合操作两个立体声特征,并且与单声道方法不同,我们不需要进行重复的卷积。总的来说,我们的网络提供了4 60加速15 100较低的浮点运算相比,现有的策略。作为未来的工作,我们希望将模型中特征合并发生的尺度参数化为立体基线的函数,尽管这会使训练更加困难。独立我们的λ产品特点 L显示提取 浸提重量感知(峰值信噪比)深度(RMSE)Net-I✓✗025.267.82Net-II✗ ✓025.176.00Net-III✗ ✓124.905.384923引用[1] Yousef Atoum,Mao Ye,Liu Ren,Ying Tai,andXiaoming Liu.用于弱光图像增强的色彩注意力网络。在CVPR研讨会,2020。[2] Tim Brooks,Ben Mildenhall,Tianfan Xue,JiawenChen,Dillon Sharlet,and Jonathan T Barron.未处理图像,用于学习的原始去噪。在CVPR,2019年。[3] Rohan Chabra,Julian Straub,Christopher Sweeney,Richard Newcombe,and Henry Fuchs. Stereodrnet:扩张的残余立体网。在CVPR中,第11786-11795页[4] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR,2018年。[5] Chen Chen,Qifeng Chen,Minh N Do,and VladlenKoltun.在黑暗中看到运动。在ICCV,2019年。[6] Chen Chen,Qifeng Chen,Jia Xu,and Vladlen Koltun.学会在黑暗中看东西。在CVPR,2018年。[7] Xuelian Cheng,Yiran Zhong,Mehrtash Harandi,YuchaoDai,Xiaojun Chang,Hongdong Li,Tom Drummond,and Zongyuan Ge.用于深度立体匹配的分层神经架构搜索。NIPS,33:22158[8] Dinu Coltuc,Philippe Bolon,and J-M Chassery.精确的组织图规格。IEEE Transactions on Image Processing,15(5):1143[9] Marius Cordts,Mohamed Omran,Sebastian Ramos,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,第3213-3223页[10] Ziteng Cui,Guo-Jun Qi,Lin Gu,Shaodi You,ZenghuiZhang,and Tatsuya Harada.用于暗物体检测的正交切线规则多任务算法。ICCV,2021。[11] Xin Deng,Wenzhe Yang,Ren Yang,Mai Xu,EnpengLiu,Qianhan Feng,and Radu Jingfte.用于高效立体图像压缩的深度单应性。在CVPR,2021年。[12] Gabriel Eilertsen,Joel Kronander,Gyorgy Denes,RafałK Mantiuk,and Jonas Unger.使用深cnn从单次曝光重建Hdr图像。ACM图形交易(TOG),36(6):1[13] Xueyang Fu,Delu Zeng,Yue Huang,Yinghao Liao,Xinghao Ding,and John Paisley.一种基于融合的弱光照图像增强方法。信号处理,129:82[14] Xueyang Fu,Delu Zeng,Yue Huang,Xiao-PingZhang,and Xinghao Ding.同时估计反射率和照度的加权变分模型。在CVPR,2016年。[15] 古书航、李亚伟、吕克·凡古尔、拉杜·提莫夫特。用于快速图像去噪的自引导网络。在ICCV,2019年。[16] Chunle Guo,Chongyi Li,Jichang Guo,Chen ChangeLoy,Junhui Hou,Sam Kwong,and Runmin Cong.用于弱光图像增强的零参考深度曲线估计。在CVPR,2020年。[17] 郭晓洁,李宇,凌海滨。Lime:通过照明图估计进行低光图像增强。IEEE Transactions on image processing,26(2):9824924[18] Xiaoyang Guo,Kai Yang,Wukui Yang,XiaogangWang,and Hongsheng Li.分组相关立体网络。在CVPR中,第3273-3282页[19] Yanhui Guo,Xue Ke,Jie Ma,and Jun Zhang.基于流水线神经网络的微光图像增强。IEEE Access,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功