没有合适的资源?快使用搜索试试~ 我知道了~
2553基于正交切线规则的多任务AET检测暗目标紫腾崔1,郭俊齐2,顾林3,4*,游少地5,张增辉1,原田笃哉4,31上海交通大学2,西雅图研究中心,创峰科技3,理研AIP4,东京大学5,阿姆斯特丹大学cuiziteng@sjtu.edu.cn www.example.com,www.example.com,www.example.comguojunq@gmail.com @lin.gu riken.jpexample.com,www.example.com @s.you uva.nl,zenghui. sjtu.edu.cn,harada@mi.t.u-tokyo.ac.jp摘要黑暗环境中由于光子数量不足和噪声干扰,给计算机视觉算法带来了挑战.为了提高在黑暗环境中的目标检测,我们提出了一种新的多任务自动编码- ING变换(MAET)模型,它能够探索背后的照明翻译的内在模式。以自我监督的方式,MAET通过考虑物理噪声模型和图像信号处理(ISP)对现实照明降级变换进行编码和解码来学习内在视觉结构。在此基础上,我们通过解码边界框坐标和类来实现目标检测任务。为了避免两个任务的过度纠缠,我们的MAET通过施加正交切线正则性来解开对象和退化特征。这形成了参数流形,沿着该参数流形,可以通过最大化沿着相应任务的输出的切线之间的正交性来几何地制定多任务预测。我们的框架可以基于主流的对象检测体系结构实现,并使用正常的目标检测数据集(如VOC和COCO)直接进行端到端训练。我们已经实现了国家的最先进的性能 , 使 用 合 成 和 真 实 世 界 的 数 据 集 。 代 码 将 在https://github.com/cuiziteng/MAET发布。1. 介绍低照度环境给计算机视觉带来了巨大的挑战。计算摄影社区已经提出了许多面向人类视觉的算法来恢复正常照明的图像[26,46,28,27,4,20,51,12,8]。不幸的是,恢复的图像不一定有益于高级视觉理解任务。由于增强/恢复方法针对人类视觉感知进行了优化,因此它们可能产生伪影*通讯作者。图1.索尼DSC-RX100 M7相机在夜间拍摄的0.1s曝光时间和3200 ISO的图像检测和增强结果。(a)为MAET(YOLOv3)对原始图像的检测结果,(b)、(c)、(d)分别为Lv等[28]、Zhang等 [51]、Guo等 [8]对YOLOv3检测失败的增强图像。(see图1),这对于随后的视觉任务是误导性的另一个研究方向集中在特定高级视觉算法的鲁棒性上。他们要么在大量真实世界数据上训练模型[31,25,48],要么依赖于精心设计的任务相关特征[29,17]。然而,现有方法存在两个主要缺点:目标不一致和数据不一致(在现有研究中)。目标不一致性是指大多数方法都专注于自己的目标,无论是人类视觉还是机器视觉。每条线分别遵循各自的路线,在一个总体框架下互不受益同时,数据的不一致性使得训练数据应该与所使用的数据2554图2.多任务自动编码转换(MAET)框架的结构。进行评估。例如,预先训练的对象检测模型通常在清晰和正常照明的图像上训练。为了适应较差的光照条件,他们依赖于增强的暗图像来微调模型,而不探索光照变化下的内在结构。就像幸福的家庭都是一样的;每个不幸福的家庭都有自己的不幸福,即使使用现有的数据集[6,23,16],训练集也很难覆盖现实世界条件的各种分布。在这里,我们的目标是在一个统一的框架下弥合上述两个差距如示于图2,正常照明的图像可以被参数化地变换(t度)成其退化的低照明对应物。基于此变换,我们提出了一种新的多任务自动编码变换(MAET)提取变换等变卷积特征的目标检测在黑暗的图像。我们基于两个任务训练MAET:(1)通过基于未标记的数据解码低照度退化变换来学习固有表示,以及(2)基于标记的数据解码对象位置和类别。如图在图2中,我们训练我们的MAET以使用连体编码器E对正常照明和低照明图像对进行编码,并且使用解码器D度对其降级参数(诸如噪声水平、伽马校正和白平衡增益)进行解码。这使得我们的模型能够捕获与照明方差等变的内在视觉结构与文献[26,42,20,28,41]的过度简化综合相比,我们设计了考虑传感器物理噪声模型和图像信号处理(ISP)的退化模型。然后,我们通过基于由E编码的表示用解码器D〇bj解码边界框坐标和类来执行对象检测任务(图2)。尽管MAET通过预测低光降级参数来使网络训练规则化,但是对象检测和变换解码的联合训练通过共享骨干网络而过度纠缠。虽然这虽然使用MAET规则改进了暗对象的检测,但是它也可能冒着将对象级表示过拟合到自监督成像信号中的风险。为此,我们建议通过施加正交切线规则来解开对象检测和它假设上述两个任务的多变量输出形成一个参数流形,并且可以通过最大化沿不同任务的输出的切线之间的正交性来几何地表达沿流形的多任务输出的解缠该框架可以使用标准目标检测数据集(如COCO [23]和VOC [6])直接进行端到端训练,并使其检测弱光图像。虽然我们认为YOLOv3[39] 为了说明,所提出的MAET是可以容易地应用于其他主流对象检测器的通用框架,例如,,[40,22,54].我们对本研究的贡献如下:• 通过探索传感器和ISP流水线的物理噪声模型,我们利用一种新的MAET框架来编码的内在结构,它可以解码低光降解的转换。然后,我们通过解码 边界 框坐 标 和类 别进 行 对象 检测 , 我们 的MAET框架与主流的对象体系结构是兼容的。• 此外,我们提出了多任务输出的解缠,以避免过拟合的学习对象检测功能的自我监督退化参数。这可以从几何角度通过最大化沿着对应于不同任务的输出的切线的正交性来自然地执行。• 综合评价和与其他方法相比,我们的方法表现出优越的性能,属于低光目标检测任务。2. 相关工作2.1. 低照度数据集已经提出了几个数据集用于低光对象检测任务:Neumann 等 人 。 [31] 提 出 了 用 于 夜 间 行 人 检 测 的NightOwls数据集。Nada等人。 [30]收集了一个无约束人脸检测数据集(UFDD),考虑了各种不利条件,如雨、雪、雾霾和低照明。最近,UG2 +挑战赛[48]已经包括了在不同的低能见度环境下的视觉任务的几个轨道。其中,DARK FACE数据集包含10,000张图像(包括6,000张标记图像和4,000张未标记图像)。对于多类暗物体检测任务,Loh等人。 [25]提出了专门的暗(ExDark)数据集,其中包括7363个图像,具有12个物体类别。2555ΣDD简体中文·ΣΣk度lobj∥2.2. 昏暗视觉2.2.1增强和恢复方法低光视觉任务通过恢复细节和校正颜色偏移来关注人类视觉体验。早期的尝试是基于Retinex理论的方法[18,13,9]或基于直方图均衡化(HE)的方法[44,19]。如今,随着深度学习的发展,基于CNN的方法[26,46,28,27,20,51,8]和基于GAN的方法[15,12]在这项任务中取得了显着的改进。像Wei等人。 [46]将Retinex理论[18]与深度网络结合用于低光图像增强。Jiang等人。 [12]使用无监督GAN来解决这个问题。最近,Guo等人。 [8]提出了一种自监督方法,该方法可以在没有正常光图像的情况下学习2.2.2高级别工作为了针对黑暗环境采用高级任务,一种直接的策略是将上述增强方法作为后处理步骤[53,8]。其他依赖于增强的真实世界数据[31,25,48,47] 或一些过度简化的合成数据[52,41]。最近的真实噪声图像基准测试[2,35]表明,有时手工制作的算法甚至可能优于深度学习模型。为了结合计算摄影的强度,我们开发了一个框架与变换等变表示学习。2.3. 变换-等变表示学习已经提出了几种自监督表示学习方法,通过解决拼图[33]或修复图像的缺失区域[34]来学习图像特征。最近,一系列自动编码变换(AET),如AET [50],AVT [37],EnAET [45],已经证明了几个自监督任务的最新性能。 由于AET是灵活的,并且不限于任何特定的卷积结构,我们将其扩展到我们的多任务AET,用于暗图像中的对象检测。3. 多任务自动编码转换在本节中,我们首先简要介绍自动编码转换(AET)[50],基于此,我们提出3.1. 背景:从AET到MAETAET [50]学习代表性潜在特征,其基于变换t从原始图像(X)和变换的对应物(t(X))解码或恢复参数化变换:x−T−→t(x)。(一)AET包括连体表示编码器(E)和变换解码器(D)。编码器E从X及其变换t(X)提取特征,其应当捕获固有视觉结构以解释变换t(例如,下一节中的低照明降级变换)。然后,解码器D使用编码的E(x)和E(t(x)),以解码估计对于t:t=D[E ( x ) , E ( t ( x ) ) ] 。(二)可以通过最小化原始变换t和预测结果t的偏差损失来训练AET,特别是表示编码器E和变换解码器D:Laetk(tK其中,k表示使用预测变换tk和真实变换tk之间的均方误差(MSE)损失计算的k型变换损失。3.2. 具有正交正则性的在这项研究中,我们进一步扩展AET的MAET同时解决多个任务。如示于图2,提出的MAET模型由两部分组成:表示编码器(E)和多任务解码器。对于照明降级变换t度的任务,我们使用解码器D度来解码降级参数。目标检测的任务由解码器Dobj实现,以直接从光照退化图像预测边界框位置和目标类别。虽然这两个任务是相关的,但它们的输出反映了输入图像的非常不同的方面:D度的照明条件和D obj的对象位置和类别。这表明可以施加正交规律性以解耦不同任务的输出之间的不必要的相互依赖为此,所提出的MAET的正交目标是最小化下面的余弦相似性的绝对值:|Σ∂E ΣT·ΣEΣ|多任务AET(MAET)。然后,我们讨论了ISP管道在相机中设计降级转换奥尔特k,l|为|=k,lEKdegElobj通过我们的MAET。最后,我们解释了MAET-其中E和E是表示的切线。DDKdegLobj架构、培训和测试细节。由编码器E沿着第k个和第k个形成的流形(四)2556degobjLLLLL第l输出坐标分别是照明降级变换和对象检测任务的第l输出坐标。换句话说,这两条切线分别描绘了表示随着解码器输出Dk和Dl的变化而移动的方向最小化余弦相似性的绝对值将推动两个切线尽可能正交。基于几何观点,这将使两个任务分开,使得一个任务的预测坐标的改变将对另一个任务的坐标具有最小的影响。在第3.3节中,我们将讨论关于如何定义低照明降级变换的细节在文献[43,24,49]中探索了在任务之间施加正交性的想法然而,在这里,我们实现它的上下文中的AET,其中的正交方向定义的解码器切线沿编码器引起的流形,这不同于以前的作品。因此,我们的低光物体检测的总损失由三部分组成:退化变换损失deg、对象检测损失obj和正交规则性损失ort(参见图10)。当量(4)),用于训练的总损失可以是表示为Ltotal=Lort+ω 1·Lobj+ω 2·Ldeg。(五)对象检测损失obj特定于不同的对象检测器[40,54,39]。在这个实验中,obj是YOLOv3 [39]的损失函数,包括位置损失、分类损失和置信度损失。降解3.3.1图像信号处理(ISP)流水线相机被设计成基于人眼的视角尽可能地使照片令人愉快和准确。因此,相机传感器捕获的RAW数据在成为最终照片之前需要ISP(几个步骤)。已经进行了大量研究来模拟该ISP过程[38,10,11,32,21]。例如,Karaimer和Brown [14]一步一步地详细介绍了ISP过程,并展示了其与计算机视觉相关的高潜力。我们采用了一个简化的ISP和它的unprocessing过程从[3](图3)。特别地,我们忽略了包括去马赛克过程的几个步骤[1]。虽然这些过程对于精确的ISP算法是重要的,但是互联网上的大多数图像是各种来源的,并且不遵循完美的ISP过程。为了在精确性和可生成性之间取得平衡,我们忽略了这些步骤.我们对补充材料附录B.2中去马赛克的影响进行了详细的分析。接下来,我们将详细介绍我们的ISP流程。量化是模拟电压信号步骤,其使用模数转换器(ADC)将模拟测量x量化为离散代码yquan量化步骤将一系列模拟电压映射到单个值,并生成均匀分布的量化噪声。为了模拟量化步骤,已经添加了与B比特相关的量化噪声Xquan。在我们的降级模型中,B从12、14和16位中随机选择。第11章x U(−,)变换损耗Ldeg 是AET损失(参见 当量(3)与泉2乙2乙(六)低照度退化变换tdeg1和ω1和ω2是固定的平衡超参数。3.3. 低光照降解转化给定一个正常照明的无噪声图像x,我们的目标是设计一个低照度退化的变换tdeg到trans-y全=x+ x全白平衡模拟人类视觉系统(HVS)的颜色恒定性,以将“白色”颜色与白色对象映射捕获的图像是光的颜色和材料反射率的产物。相机流水线中的白平衡步骤估计并调整红色通道将x形成为暗图像tdeg(x)与真实照片相符增益GR和蓝色通道增益GB,以使图像显现在“中性”照明下被点亮在低光条件下捕获,即,通过关灯。大多数现有的方法进行了过于简化合成,例如、反伽马校正(有时使用yrgr 00xrG·G(七)加性混合高斯噪声)[26,28,52]或retinex-基于理论的合成方法[20]1.传感器和片上图像信号处理(ISP)的物理的无知,使这些方法推广到现实世界的黑暗图像差。在这里,我们首先系统地描述了ISP管道之间的传感器测量系统和最终的照片。基于这个管道,我们参数化模型的低光降解转换t度。1这些合成方法的对比实验已在我们的补充材料附录B.1中给出。y=0 1 0xyb0 0gbxb基于[35,3],从(1. 九二4),并且gb随机地选自(1. 五一9);两者都遵循均匀分布并且彼此独立逆过程考虑红色和蓝色增益的倒数1/g。色彩空间转换将白平衡信号从相机内部色彩空间cRGB转换到sRGB色彩空间。 此步骤在ISP管道中至关重要,因为相机颜色空间与sRGB空间不同2557CCM1∼图3.低照度降级流水线的一般视图,来自PASCAL VOC2007数据集[ 6 ]的sRGB[38、14]。转换后的信号y sRGB可以用3 × 3颜色校正矩阵(CCM)M ccm获得:ysRGB=Mccm·ycRGB,(8)该过程的逆为:ycRGB=M−1·y sRGB。(九)伽马校正也已广泛用于ISP管道中,用于人类对暗区感知的非线性[36]。这里我们使用标准伽马曲线[35]如:yγ=max(x,ε)γ( 10),y invertgamma= max(x,ε)γ。(十一)伽马曲线参数γ可以从均匀分布γ U(2,3. ε是一个非常小的值(ε = 1e −5),以防止训练过程中的数值不稳定。色调映射旨在匹配胶片的为了计算复杂性,我们将“smoothstep”曲线[ 3 ]执行ytone= 3x2−2x3(12),我们还可以用以下公式进行逆运算图4.我们在SID数据集上进行降级转换的示例[4]。长曝光RAW 图 像 及 其 地 面 实 况 短 曝 光 RAW 图 像 使 用 AdobeLightroom转换为sRGB格式,分别显示在第一列和第二列中。第三列显示了从我们的管道生成的图像。3.3.2降级转换模型在定义ISP流水线的每个步骤之后,我们可以呈现我们的低光照退化变换tdeg,其基于其正常光对应物x来合成现实暗光图像tdeg(x)。首先,如图所示。在图3中,我们必须使用逆处理过程[3]来将正常照明图像X转换成传感器测量或RAW数据。然后,我们线性衰减RAW图像,并用拍摄和读取噪声破坏它最后,我们继续应用流水线将低照度传感器测量值转换为照片tdeg(x)。2558--102- 02sin−1(12x))的情况。 (十三)3未处理过程:基于[3],未处理部分旨在将输入的sRGB图像转换为它们的2559√二、二RAW格式对应物,其与捕获的光子成线性比例。如图在图3中,我们通过(a)反转色调映射、(b)反转伽马校正、(c)将图像从sRGB空间变换到cRGB空间以及(d)反转白平衡来对输入图像进行反处理,这里我们将(a)、(b)、(c)、(d)一起称为反处理。基于这些部分,我们合成逼真的RAW格式的图像,并将合成的RAW图像用于低光腐败过程。微光腐蚀:当光子通过透镜投射到电容器簇上时,考虑到相同的曝光时间、孔径大小和自动增益控制,每个电容器产生对应于环境照度勒克斯的电荷。散粒噪声是由相机中光子的随机到达所生成的一种类型的噪声,其是基本限制。由于光子到达的时间由泊松统计决定,因此在给定时段期间收集的光子的数量的不确定性为δ s=S,其中δ s是散粒噪声,S是传感器的信号。读噪声发生在electrons到电压的输出放大器,它可以近似使用高斯随机变量与零均值和固定方差的电荷转换。拍摄和读取噪声在相机成像系统中是常见的;因此,我们对传感器上的噪声测量x噪声[7]进行建模:xN(µ=kx,σ=δ+δ kx)图5.基于YOLOv3框架的MAET模型的体系结构。3.4. 架构所提出的MAET的架构如图所示。五、我们的网络包括表示编码器E和解码器D。为了说明,我们基于YOLOv3的架构实现了MAET [39]。此外,这可以由其他主流检测框架替代,例如[40],[22],[54]。E采用共享权值的连体结构。持续时间噪声RSy噪声= kx+ x噪声,(十四)在训练过程中,正常照明图像x被馈送到E的左路径(用橙色表示),而其退化图像x被馈送到E的左路径(用橙色表示)。其中来自未处理过程的每个像素x的真实强度。 我们线性衰减它与参数K.为了模拟不同的光照条件,光强度k的参数从截断高斯分布,在(0. 01,1。0),平均值为0。1和方差0。08. δr和δs的参数范围遵循[35],如表1所示。ISP流水线:RAW图像往往要经过一系列的变换,之后我们才能看到它的RGB格式;因此,我们在低光破坏过程之后应用RAW图像处理。基于[3],我们的变换按以下顺序进行:(e)添加量化噪声,(f)白平衡,(g)从cRGB到sRGB,以及(h)伽马校正,我们将(f)、(g)、(h)一起称为t ISP。最后,我们可以从无噪声的x获得退化的低光图像tdeg(x),如等式(1)所示。十五岁原始图像、生成的图像和地面实况的一些示例在图中示出。4.第一章我们总结了tdeg中涉及的参数及其范围(表1):tdeg(x) =tISP(k·tunprocess(x)+xnoise+xquan)。(十五)对应的t deg(x)通过正确的路径或暗路径(用蓝色表示)。这里,编码器采用DarkNet-53网络[39]作为骨干。当我们解决两个任务,即降级变换解码和对象检测任务时,解码器D可以被划分为降级变换解码器D度和对象检测解码器D对象。前者侧重于解码的参数的低光降解转换(t 度)。 后者解码目标信息,即、目标类别和位置。如图在图5中,编码的潜在特征E(x)和E(t deg(x))被级联在一起并被传递到解码器D deg以估计对应的降级变换t deg。 这种自我监督训练帮助MAET学习在具有未标记数据的各种照明降级变换下的内在视觉结构。 对象检测解码器D 〇 bj仅对来自暗路径(用蓝色表示)的表示E(t deg(X))进行解码以预测对象检测的参数。在测试时,我们直接将低光图像馈送到MAET编码器的暗路径以解码检测结果:目标类别和位置。2560·对数δs2Bγ射线2BBBg gγRb要学习的步长变换范围光强f(x)= k xk N(µ = 0. 1,σ = 0。08)k0的情况。01≤k≤ 1。0散粒噪声和f(x)=x+N(μ=x,σ2=δ2+δx)logδsU(−4,−2)-2读取噪声rsl ogδr N(µ = 2. 18logδ s+0. 12,σ = 0。第二十六章)量化f(x)=x+U(−1,1)B∈[12,14,16]1Gr0个0个白平衡f(x)=010·xg r U(1. 九二四、一,一颜色校正00gbg bU(1. 五一九、四色混合校正GrGBcRGB→ uRGB→ sRGBf(x)=Mcu·Mus·x基质(CCM):索尼A7R,奥林巴斯E-M10,-索尼RX100 IV,华为Nexus 6P在[3]色调映射f(x)= 3x2−2x3- -伽马校正1f(x)=max(x,ε)γ,ε=1e−5γ U(2,3. 5)1表1.低照度降级变换参数的细节,第一列表示变换的名称,第二列表示变换过程,第三列是参数范围,并且最后一行表示要在我们的MAET模型的降级变换解码器中预测的参数训练集测试集预处理VOC(AP50)COCO(AP)COCO(AP50)COCO(AP75)COCO(APS)COCO(APM)COCO(APL)Yolo正常正常-0.8020.3350.5730.3520.1950.3640.436低MBLLEN0.7120.2390.4110.2430.1150.2580.342种0.7290.2540.4370.2550.1380.2930.365零DCE0.7170.2500.4220.2430.1290.3020.358低-0.7640.3180.5220.3090.1620.3440.405MAET(不带工具)低+正常0.7700.3210.5340.3310.1630.3550.401MAET(书面)0.7880.3300.5690.3410.1890.3620.421表2.在VOC [6]数据集和COCO [23]数据集上的实验结果。4. 实验4.1. 培训详细信息我们基于开源对象检测工具箱MMDetection [5]实现了我们的工作在等式(1)中的失重组分ω1和ω25分别设置为1和10。 在该实验中,L obj表示Dobj中的YOLO Head输出分支的损失函数,L deg表示D deg的预测与已知的地面实况之间的变换参数的MSE损失,如表1的最后一行中所列出的:(k,1,1,1,1),每个参数在其对应的类别中被归一化作为预处理步骤,并且它们在L deg中的权重是设置为5:1:1:1:1。所有输入图像都已裁剪并调整为608 × 608像素大小。主干DarkNet-53使用ImageNet预训练模型初始化。我们采用随机梯度下降(SGD)作为优化器,并将图像批量大小设置为8。我们将权重衰减设置为5e-4,动量设置为0.9。编码器(E)和对象检测解码器(D〇 bj)的学习速率被初始设置为5e-4,并且劣化变换解码器(Ddeg)的学习速率被初始设置为5e-5。这两种速率都采用多步LR策略进行学习速率衰减。对于VOC数据集,我们用单个Nvidia GeForceRTX3090GPU训练了我们的网络50个epoch,学习率有所下降对于COCO数据集,我们使用四个Nvidia GeForce RTX3090 GPU训练了我们的网络273个epoch,并且在218和246 epoch时学习率下降了4.2. 综合评价Pascal VOC [6]是具有20个类别的众所周知的数据集。我们基于VOC 2007和VOC 2012训练集和验证集训练我们的模型,并基于VOC 2007测试集测试模型。对于VOC评估,我们报告了IOU阈值为0.5时的平均精密度(mAP)COCO [23]是另一个广泛使用的数据集,具有80个类别和超过10,0000个图像。我们基于COCO 2017训练集训练模型,并基于COCO 2017验证集测试模型对于COCO评估,我们评估了COCO数据集的每个指标VOC和COCO数据集的定量结果列于表2中。在这一部分, 我们训练和测试YOLOv3模型[39]基于VOC和COCO数据集,用于正常照明和合成低照明图像作为参考。然后,我们使用针对正常照明训练的YOLOv3模型来测试通过不同的低光增强方法恢复的集合[28,51,8]2。 为了验证正交试验的有效性2这里[28,51]已经在正常照明图像和同步图像上重新训练2561表3.基于ExDark [25]数据集的实验结果。YOLO(N)、YOLO(L)是使用原始图像/合成低光图像预训练并基于ExDark数据集进行微调的模型;MBLLEN [28]、KIND [51]和Zero-DCE [8]+ YOLO(N)使用原始COCO数据集进行预训练,并基于通过不同增强方法处理的Exdark数据集进行微调; MAET是我们在Exdark数据集上微调的MAET(COCO)。最后,我们将具有/不具有正交损失函数的MAET模型训练为MAET(w/oort)和MAET(w ort),并在没有预处理的情况下直接在低光照图像上测试这些模型。为了保证公平性,训练过程中的所有方法都被设置为相同的设置参数,即数据增强方法(扩展、随机裁剪、多尺寸和随机翻转)、输入大小、学习速率、学习策略和训练时期。实验配置和结果列于表2中。表2中的实验结果表明,我们的MAET基于合成低光数据集显著改进了基线检测框架。与增强方法[28,51,8]相比,考虑到所有评估指标,所提出的MAET表现出优越的性能。4.3. 真实世界评估为了评估真实场景中的性能,我们评估了我们的训练 模 型 ( 在 第 二 节 中 解 释 ) 。 4.2 ) 使 用 专 有 暗(ExDark)数据集[25]。该数据集包括7,363张低光图像,范围从极暗环境到黄昏,有12个对象类别。为每个图像注释局部对象边界框由于EXDark是基于不同类别划分的,因此每个类别的80%样本用于COCO预训练模型的微调(第二节)。4.2),学习率为0.001,剩余的20%用于评估;我们计算每个类别的平均精度(AP)更多详情请参见图3),并计算总体平均精密度(mAP)。此外,我们在附录A中提供了一些示例。如表3所列,我们可以看到,考虑到大多数类和总体mAP,所提出的MAET方法实现了这一结果证实了我们的降解转化符合现实世界的条件。此外,我们已经使用UG2 +DARK FACE数据集[48]评估了我们的方法;UG2 +是一个低光人脸检测数据集,其中包含6,000个标记的低光人脸图像,其中5400个图像用于精细识别。thetic低亮度图像对和[8]只在低亮度图像上训练,因为[8]是一种自监督模型,不需要正常照明的地面实况。调整COCO预训练模型(第2节)4.2),学习率为0.001。其他600幅图像用于评估;实验结果列于表4中。与其他方法相比,所提出的MAET方法取得了更好的结果。地图YOLO(N)0.483[28 ]第28话我的世界0.516KIND [51] + YOLO(N)0.516Zero-DCE [8] + YOLO(N)0.542YOLO(L)0.540MAET(不带工具)0.542MAET(书面)0.558表4. UG2+DARK FACE [48]数据集上的实验结果。5. 结论我们提出了MAET,一个新的框架,探索内在的代表性,是等变的照明变化所MAET解码该自监督表示以检测黑暗环境中的对象为了避免过度纠缠的对象和退化的功能,我们的方法开发了一个参数的man-ifold沿多任务的预测,可以通过最大化的正交性之间的切线沿各自的任务的输出几何制定。通过实验,所提出的算法优于国家的最先进的模型有关的真实世界和合成的暗图像数据集。确认这项工作得到了JST Moonshot R D Grant NumberJPMJMS 2011和 JST,ACT-X Grant Number JPMJAX190 D,日本和中国国家自然科学基金委员会的资助,资 助 号 为 62071333 , U1830103 , CSTC 2018 JSCX-MSYBX 0115,中国自行车船瓶总线车猫椅子杯狗摩托车人表总YOLO(N)0.7180.6450.6390.8160.7680.5540.4970.5680.6380.6180.6570.4050.627[28 ]第28话我的世界0.7320.6440.6720.8920.7700.6070.5710.6610.6970.6340.6970.4390.668KIND [51] + YOLO(N)0.7340.6810.6550.8620.7830.6300.5690.6270.6820.6710.6960.4820.673Zero-DCE [8] + YOLO(N)0.7950.7130.7040.8900.8070.6840.6570.6860.7540.6720.7620.5110.720YOLO(L)0.7820.7080.7230.8810.8070.6790.6240.7050.7480.6940.7580.5090.716MAET(不带工具)0.7920.7110.7300.8840.8110.6710.6480.7010.7500.7020.7540.5140.722MAET(书面)0.8130.7160.7450.8970.8210.6950.6550.7260.7540.7270.7740.5330.7402562引用[1] 第5章-色彩去马赛克方法的比较。在彼得W. Hawkes,编辑,Advances in Imaging and Electron Physics,第162卷,第173-265页Elsevier,2010.[2] Josue Anaya和Adrian Barbu雷诺阿-一个真实的低光图像降 噪 数 据 集 。 Journal of Visual Communication andImage Representation,51:144[3] Tim Brooks , Ben Mildenhall , Tianfan Xue , JiawenChen,Dillon Sharlet,and Jonathan T Barron.不处理图像以进行学习的原始去噪。在IEEE计算机视觉和模式识别会议论文集,第11036-11045页[4] C.陈角,澳-地Chen,J. Xu,and V.科尔顿。学会在黑暗中看东西。2018年IEEE/CVF计算机视觉和模式识别会议,第3291-3300页[5] Kai Chen,Jiaqi Wang,and et.al. MM检测:打开mmlab检 测 工 具 箱 和 基 准 测 试 。 arXiv 预 印 本 arXiv :1906.07155,2019。[6] 放 大 图 片 作 者 : Mark Everingham , Luc Gool ,Christopher K. Williams , John Winn , and AndrewZisserman. Pascal Visual Object Classes(VOC)国际计算机Vision,88(2):303 -338,June 2010.[7] A. Foi,M.特里梅什河谷Katkovnik和K.埃吉亚扎利安人单图像原始数据的实用泊松-高斯噪声建模和拟合IEEETransactions on Image Processing,17(10):1737[8] C. Guo,C. Li,J. Guo,C. C. Loy,J. Hou,S.邝,以及R. Cong.用于弱光图像增强的零参考深度曲线估计。2020 年 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第1777-1786页[9] X. Guo,Y.Li和H.凌Lime:通过照明图估计的低光图像增强IEEE Transactions on Image Processing,26(2):982[10] Felix Heide和Steinberger等人FlexISP:灵活的相机图像处理框架。ACM事务处理图表,33(6),Nov. 2014年[11] H.江角,澳-地Tian,J. Farrell,and B. A. Wandell学习图 像 处 理 流 水 线 。 IEEE Transactions on ImageProcessing,26(10):5032[12] Yifan Jiang,Xinyu Gong,Ding Liu,Yu Cheng,ChenFang,Xiaohui Shen,Jianchao Yang,Pan Zhou,andZhangyang Wang. EnlightenGAN:无需配对监督的深度光增强。IEEE Transactions on Image Processing,30:2340[13] D. J. J. Jobson,Z. Rahman和G. A.伍德尔一种多尺度视网膜,用于弥合彩色图像和人类对场景的观察之间的差距。IEEE Transactions on Image Processing,6(7):965[14] Hakki Can Karaimer和Michael S.布朗一个软件平台,用于 操 纵 相 机 成 像 流 水 线 . 在 欧 洲 计 算 机 视 觉 会 议(ECCV),2016年。[15] G. Kim,D. Kwon和J.权Low-lightGAN:通过任务驱动训练的高级生成对抗网络进行低光增强。2019年IEEE国际图像处理会议(ICIP),第2811-2815页,2019年。[16] Alex Krizhevsky,Ilya Sutskever,and Geoffrey E Hinton.使用深度卷积神经网络的图像网分类。Communicationsof the ACM,60(6):84[17] 罗曼克维耶特内罗曼Maslii等人低光照条件下图像中的目标检测。在Ryszard S. Ro-maniuk和Maciej Linczuk,编 辑 , PhotonicsApplicationsinAstronomy ,Communications , Industry , and High Energy PhysicsExperiments 2017,第10445卷,第250 - 259页国际光学与光子学学会,SPIE,2017。[18] Edwin H.土地在色觉的视网膜理论中计算指示符的另一种技术Proceedings of the National Academy of Sciences ofthe United States of America,83(10):3078[19] C.李角,澳-地Lee和C. Kim. 基于二维直方图分层差分表 示 的 对 比 度 增 强 IEEE Transactions on ImageProcessing,22(12):5372[20] Chongyi Li , Jichang Guo , Fatih Porikli , and YanweiPang. Lightennet:一个用于弱光照图像增强的卷积神经网络。Pattern Recognition Letters,104:15[21] 作者:李丽巴,蔡云达,布鲁克斯,薛天帆,何秋瑞,李 文 彬 , 李 文 彬 . 放 大 图 片 创 作 者 : MichaelW.Hasinoff,Yael Pritch,and Marc Levoy.在极弱光下的手持移动摄影。ACM事务处理图表,38(6),Nov.2019年。[22] T. Lin,P. 戈亚尔河格希克角He和P. 多尔拉。密集目标检测的焦面损失。2017年IEEE国际计算机视觉会议(ICCV),第2999-3007页,2017年。[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C. 劳伦斯·齐特尼克。Microsoft COCO:上下文中的公用对象。在David Fleet、Tomas Pajdla、Bernt Schiele和TinneTuyte- laars编辑的Computer Vision-ECCV施普林格国际出版社.[24] 刘雅静,田心美,李雅,熊志伟,凤舞。用于多域图像分类的紧凑特征学习。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第7186-7194页,2019年。[25] Yuen Peng Loh及Chee Seng Chan。使用完全黑暗的数据集了解低光图
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功