没有合适的资源?快使用搜索试试~ 我知道了~
4298实时图像去模糊的金字塔结构搜索胡晓斌1,2,7,任文琪2*,于凯成3,6,张凯浩4,曹晓春2,刘伟5,BjoernMenze1,71慕尼黑工业大学信息学2SKLOIS,IIE,CAS3瑞士联邦理工学院计算机实验室4澳大利亚国立大学5腾讯数据平台6Abacus.AI7苏黎世大学定量生物医学摘要多尺度和多补丁深度模型已被证明在去除动态场景的模糊方面是有效的然而,这些方法仍然遭受一个主要障碍:人工设计轻量且高效的网络是具有挑战性且耗时的。为了解决这个问题,我们提出了一种新的去模糊方法,被称为PyNAS(金字塔神经架构搜索网络),以自动设计超参数,包括规模,补丁,和标准细胞运营商。所提出的PyNAS采用基于梯度的搜索策略,并创新性地搜索层次补丁和规模计划,而不限于细胞搜索。具体来说,我们引入了一个层次化的搜索策略,适合多尺度和多补丁去模糊任务。该策略遵循的原则是,首先区分顶层(金字塔尺度和金字塔片)和底层变量(细胞算子),然后使用自顶向下的原则搜索多尺度变量。在搜索阶段,PyNAS采用提前停止策略来避免崩溃和计算问题。此外,我们使用路径级二值化机制进行多尺度单元搜索,以节省内存消耗。我们的主要贡献是针对720p图像的实时去模糊算法(约58 fps),同时在GoPro和视频去模糊数据集上实现了最先进的去模糊性能1. 介绍盲运动去模糊是一个不适定问题,旨在从深度变化、相机抖动和物体运动引起的退化图像恢复清晰图像[21,26,35]。在过去的几十年中,图像去模糊引起了计算机视觉界的广泛关注,特别是在监控、遥感和相机的应用中。传统的去模糊方法通过模糊核估计去除不希望的模糊*通讯作者图1. PSNR与最先进的深度运动去模糊方法和GoPro数据集上提出的PyNAS的测试运行时间[21]。粉色区域指示720p图像的推断时间小于33ms(即,30fps)。我们的PyNAS发现的架构实现了更好的性能和更少的推理时间(17毫秒)比其他手工或基于NAS的网络。[7,25],其近似于隐藏的退化知识。然而,获得令人满意的模糊核仍然是一个悬而未决的问题。基于深度学习的模型[31,35,8]已经验证了学习模糊输入和相应清晰图像之间回归的优越性特别地,然而,仍然存在一些挑战:i)由于大的滤波器尺寸而导致的大量训练参数导致的昂贵的运行时间; ii)结构冗余,其归因于多尺度模型中非常低分辨率或小块输入的无效增加深度[21]。最近,人们对开发自动设计深度学习架构而不是手动过程的算法越来越感兴趣。通过搜索算法发现的架构已经实现了非常有竞争力的性能,特别是在高级任务上,例如图像分类[16],对象检测[37,6]和语义分析[37,6]。4299抽搐分段[41,17]。受此启发,我们的目标是找出一个有效的算法来解决上述去模糊的具体来说,我们设计了一个搜索算法来自动优化轻量级金字塔结构的超参数,包括规模金字塔和补丁金字塔。我们的主要贡献概括为:我们提出了一个轻量级的多尺度金字塔神经架构的图像去模糊搜索方法,称为PyNAS。据我们所知,这是第一次尝试设计一个多尺度架构的搜索算法来处理动态场景去模糊任务。所提出的PyNAS创新性地将金字塔结构(尺度金字塔和补丁金字塔方案)包括到搜索空间中,以解决动态场景中的非均匀运动模糊的挑战。我们将优化变量之间的层次关系定义为顶层(补丁和规模方案)和底层(基本操作符),并使用自顶向下的方法训练模型。我们将我们的算法应用于GoPro和VideoDe模糊数据集进行评估。我们定性和定量评估所提出的算法的实时视频去模糊任务。如图1所示,建议的网络工作实现了更好的性能相比,SOTA方法,ods使用更少的推理时间。1.1. 相关工作由于空间不变的模糊核,传统的图像去模糊方法无法去除非均匀运动模糊[13,12]。此外,长时间的处理推理不能满足视频去模糊的实时性要求。CNN已经被用于非均匀图像去模糊中,以在时间有效的推断中处理运动模糊[24,29,39,47,5]。考虑到网络结构和补丁方案的不同,我们将这些方法分为单尺度、多尺度和多补丁算法。单尺度网络。单尺度去模糊方法[31,34,48,30]旨在主要基于用于高级视觉任务的良好开发的网络块来恢复高度逼真的图像,这通常导致繁重且耗时的网络。例如,在残差学习[10]之后,DeburGAN [14]和DeburGAN-V2 [15]通过对抗学习去除模糊。注意力机制也被引入到图像恢复中[49]。为了获得单尺度架构的多尺度先验,一些研究人员参考了用于图像恢复任务的U-Net [28]和扩张卷积[40][15]。多尺度网络。多尺度架构已被验证在图像恢复[8,35]中有效,特别是在图像去模糊[21]中。它可以恢复清晰的图像以渐进的方式由网络在每个尺度上进行。本质上,多尺度架构是模仿传统的从粗到细的框架来将具有挑战性的任务分解成更小的更容易的子任务。例如,Nahetal. [21]提出了一种多尺度CNN,通过模仿传统去模糊方法中的粗到细策略来在[35]中提出了一种尺度递归网络(SRN-DeburNet),它利用ConvLSTM从粗尺度到细尺度聚合特征映射。Gao等人[5]提出了一种有效的约束去模糊网络的选择共享方案Zamir等人[43]介绍了一种逐步学习退化图像恢复函数的多级体系结构。虽然多尺度网络可以提高图像去模糊的性能,但所有上述现有算法都是以劳动密集型手工方式设计的。如何在去除无效的尺度深度和不必要的大滤波器方面优化多尺度架构以在保持竞争性性能的同时减少运行时间,这留下了一个开放且具有挑战性的问题。多贴片网络。Zhang等人[45]提出了一种分层多块方案(DMPHN),以保持空间信息,而无需像[21]那样的任何图像下采样 通过将原始模糊输入划分成多个非重叠的补丁来生成每个尺度的多补丁输入,如图1B所示。二、在这项工作之后,一些最近的研究[43,33]也利用多补丁方案进行多尺度图像去模糊。直观上,对于非均匀去模糊,全局图像的模糊核不同于局部块的模糊核。与多尺度框架下图像退化导致的模糊核信息损失相比,我们利用多块方案来利用模糊核先验知识,更好地表示全局非均匀知识。然而,所有上述工作都是以手动方式固定补丁方案,并且到目前为止尚未探索多补丁机制的进一步优化神经架构搜索(NAS)。神经结构搜索旨在自动设计高性能的结构,使得它在很大程度上消除了繁琐和启发式的人工设计的神经结构。早期的工作引入了进化算法(EA),通过迭代地改变一群可识别的架构来优化神经架构[18]。强化学习(例如,策略梯度[51,37,2,38]和Q学习[50])是一种通过探索搜索空间来优化潜在体系结构的替代算法。但是这些方法在搜索过程中需要因此,加速技术[11](例如,超网络[44]和共享权重[27])被提出来解决这个问题。受此启发,我们提出了一个金字塔神经架构搜索网络自动设计一个多尺度和多补丁机制。最接近我们的是···4300图2.提出的金字塔结构搜索(PyNAS)算法。 我们使用金字塔补丁方案(1-2-4-8)和缩放深度(4)进行说明。非重叠的多补丁层次结构被馈送到网络。 PyNAS从算子候选中搜索每个尺度的整个编码器Ei和解码器Di结构。Ii、Bi、hi是第i个尺度下的估计的潜在清晰、模糊图像和隐藏特征请注意,我们的PyNAS使用更少的推理时间和更浅的尺度深度找到了更好的金字塔网络架构(1-3-9)ProxylessNAS [1]和DARTS [19],其中作者在对架构表示进行连续放松后利用梯度下降策略,并在图像分类任务上实现了有竞争力的性能。我们的方法与[1]和[19]在几个重要方面不同:i)考虑到用于图像去模糊的特定多尺度[21]和多补丁[45]机制的显著优势,我们创新地扩展了搜索空间以包括多尺度结构和补丁组成,然后搜索用于图像去模糊的高性能分层尺度金字塔和补丁金字塔网络; ii)我们提出的多尺度搜索策略不同于现有的NAS搜索策略,包括CLEARER [8]和HiNAS[46]。具体来说,我们定义的优化变量之间的层次关系的顶层(补丁和规模计划)和底层(基本运营商)时,一些工作[1,19]假设所有的变量是平行的; iii)我们以自顶向下的方式训练模型,并分别采用随机策略用于顶层变量初始化和基于梯度的策略用于底层变量搜索。此外,如算法1所示,我们运行迭代优化并堆叠先前搜索良好的网络,直到搜索到所有规模的网络。2. 该方法2.1. 问题公式化模糊伪像是由不同的原因(例如,摄像机抖动和对象移动)。一般来说,数学-模糊处理的理论公式可以描述为:B=KS+n,(1)其中B、S和n分别表示模糊、清晰图像和K是模糊核。我们采用了一个多补丁的结构,在多个尺度上的粗到精的策略,以解决去毛刺配方。具体地,在每个尺度下,由该尺度网络生成清晰的潜像,然后将其导入并连接为下一尺度子网络的输入,其可以表示为:Ii,hi=Neti(Bi,Ii+1,hi+1;θi),(2)其中i是标度索引,并且第一标度i= 1是最精细标度。如图2所示,IjPBi分别是第i个尺度处的估计的潜在清晰和模糊图像,而hi表示跨尺度的隐藏状态特征Neti是由编码器Ei和解码器Di组成的第i尺度网络架构,具有训练参数θi。在[43,33,45]之后,我们引入多补丁层次作为输入,以即使在不同尺度下也保持相同的空间分辨率,这减轻了去卷积/上采样操作的昂贵运行时间。此外,在每个尺度上设置不同的块的数量的主要思想是使粗尺度集中于局部信息以产生用于下一个更细尺度的残差信息。我们假设网络的规模深度是N,因此它的多补丁层次结构方案是(1,…,Pi,… P N)。块方案Pi表示特定尺度i处的图像非重叠块的数量。值得注意的是,我们的算法可以自动优化的规模深度和多补丁层次方案。4301JNN^N·•×个•×个•联系我们•×个我我ΣO=α O(T),(6)j→ij→ij→i·Km二进制=Jg o(x)=J+KN−1KJT=ΣOj→i(T),(5)我•×个我们的PyNAS网络的整体架构如图2所示。去模糊操作在底部尺度N=4处开始。在该尺度中,整个模糊图像B1被划分为P,N个非重叠块Bn(j = 1,… PN)。我们网络的每个规模都由一个编码器E和一个解码器D。然后,我们喂补丁路径二值化。在大设计空间的硬件存储器限制的情况下,我们采用基于路径二值化的操作。具体地,N个实值架构参数αi表示路径权重,然后被转换成二进制门:[1,0,..., 0],概率为p1,输入到第N个尺度编码器EN中以产生潜在特征表示:hN=EN(BN), j ∈ 1,…,P N,(3)g=二进制化e(pi,...,pN)...[0,0,……,1],概率为pN,(七)应用二进制门g,混合歌剧的输出之后,我们连接(Num=PN/PN-1)个相邻特征以形成新的特征表示,如下所示:NNn将其重新表述为:Σo1(x)withprobabilityp1,...h^k=h...埃赫Nu m,(4)哦我我i=1oN(x),概率为pN,其中k∈1,...,P N−1和表示级联运算符。然后,hk通过解码器DN以产生具有与解码器DN相同的空间大小的IN=DN(hk)如方程所示。如图7和图8所示,通过使用二进制门,代替路径权重,在运行时只有一个激活路径在存储器中是活动的,并且存储器需求降低达到可接受的水平。补片Bk(例如,图2中的I4和B4)。 的特征在所有尺度上沿着空间维度连接。换句话说,将相邻片拟合在一起形成较大片。2.2. 体系结构搜索方法为了有效地处理层次补丁从每个规模,我们利用基于梯度的NAS技术优化每个规模的结构,规模深度,和多补丁的高层次计划。在本节中,我们首先介绍如何使用连续松弛和路径二值化来搜索架构单元。然后,我们解释了如何定义的尺度深度和多补丁层次模式空间。最后,我们详细介绍了我们的多尺度搜索策略和损失函数。2.3. 单元结构搜索持续放松。 在[1]中的连续松弛之后,在集成了所有可能的层类型的每个块中,输出张量Tl通过搜索操作Oj-i链接到所有输入张量Il。L lI jTl∈Il为了使搜索空间连续,我们用连续松弛估计搜索步长Oj→i,得到Oj→i:LJO∈O其中ΣO∈O α j→i =1且O ∈O1,O2…,所有的人都有可能-分层多尺度搜索空间。考虑到实时去模糊和大的多尺度计算负担之间的矛盾,我们依赖于具有自适应感受野的计算高效操作,例如膨胀卷积,而不使用大的核卷积。此外,对于不同的尺度,输入斑片的大小不同,对感受野的要求也不同。在本文中,我们预先定义了以下5种基本算子和两个多尺度优化变量:金字塔变量:刻度深度1D4 个;金字塔变量:多补丁分层方案[1,p2,..., 表示在N尺度下的面片号e r; Conv算子:3 3卷积;Conv运算符:55卷积;膨胀算子:33卷积,膨胀率为2;可分离算子:33可分离卷积;零运算符:无连接并返回零。每个卷积运算之后是ReLU ac。活化层由于批量归一化倾向于破坏像素级相关性,因此我们放弃批量归一化并采用小批量进行训练。然而,在训练阶段采用小批量算法,计算量大,大大增加了多尺度结构的优化难度2.4. 多尺度搜索策略根据多尺度去模糊网络的特点,提出了一种分层搜索策略,将所有优化变量分为底层(基本算子)和顶层(尺度金字塔和补丁)参数表S层候选,αkj→i好的。表示运算符金字塔)。首先,我们随机初始化顶级参数(规模和补丁编号)。我们注意到,过于小N(八)434302不超过×个×个Σ×个算法1我们系统的多尺度搜索策略。输入:多尺度金字塔搜索空间M包括尺度深度(η)、分块方案(P)和单尺度层搜索空间S。输出量:在结构约束下的良好优化的多尺度结构M最终1:while迭代Ido2:P0:初始化多尺度方案M0,包括尺度数(n)和斑块方案(p);3:对于i= l;i n;i++do4:S0:初始化第i尺度网络结构;5:更新: 基于梯度的MSE损失=Si()net-工作搜索;6:Si:第i个尺度优化的候选网络;7:M:堆叠单尺度候选Si;8:结束第九章: end while10:返回M final。图3. 编码器(左)和解码器(右)从搜索空间进行结构搜索。对于实时图像去模糊,我们的PyNAS旨在获得一个由紧凑单元组成的紧凑网络,并且每层仅保留一个单元。补片(16,16)对于去除运动钻是不利的。因此,分层方案的最大斑块数被设置为16,以确保最后一个尺度的斑块大小大于16 16。在确定金字塔尺度和金字塔面片方案之后,我们首先优化最粗尺度网络,然后堆叠优化得好的粗尺度以进一步优化下一个更细尺度。如图3所示,每个缩放网络由编码器和解码器网络搜索组成我们运行迭代优化,直到搜索到所有规模的网络然后,我们用初始顶层参数训练优化后的网络表1. GoPro测试数据集上的定量结果。大小和运行时间以MB和毫秒(ms)为单位。报告的时间仅为网络推理时间,不包括将生成的映像写入磁盘的时间。我们将分层多片方案的搜索空间最好的结果以粗体突出显示,第二好的结果以下划线突出显示。GoPro数据集模型PSNRSSIM大小运行时Sun等人[34] 24.64 0.8429 54.1 12000Nah等人[21] 29.23 0.9162 303.6 4300Zhang等人[47个]29.190.930637.11400Tao等人[35]第三十五届30.100.932333.61600Zhang等人[45个]30.250.935129.030Yuan等[第四十二届]29.570.93383.110我们的(PyNASs)30.510.939120.726我们的(PyNASd)30.620.940535.917根据经验测试大约210个时期以计算MSE损失。之后,我们更新尺度深度和补丁数量以搜索更好的顶层参数,如算法所示1.一、为了加快搜索过程,避免搜索周期数变大时的崩溃,我们在优化过程中采用了提前停止原则。对于顶层变量,我们建立了一个判断模块,以确保不会重复生成相同的方案。2.5. 多尺度损失函数我们的多尺度损失函数是基于均方误差(MSE),然后修改考虑搜索变量和多尺度架构。L=Net{N,P,θ,C} −G2,(9)其中N、P、θ、C分别表示尺度深度、层次修补方案、网络权重和单元运算符。我们遵循残差学习的原则,将中间输出视为在不同尺度上捕获图像先验的残差信息。因此,我们只能以最小的比例来计算损失。3. 实验3.1. 数据集GoPro数据集[21]用于验证我们算法的去模糊它由3214对模糊和清晰的图像,从33个序列中提取在720 - 1280分辨率。通过对连续的潜在帧求平均以产生变化的模糊来生成模糊图像我们遵循[21]中的相同策略,使用2103个图像对进行训练,剩余的1111对进行测试。VideoDeflurring Dataset[31]包含由不同设备拍摄的视频,如GoPro Hero 4,iPhone 6s和4303×个×个×个×个图4.峰值信噪比(PSNR)与最先进网络的参数和我们在GoPro数据集上的PyNAS。Nexus 5x。定量子集由来自71个视频的6708个模糊帧和对应的清晰图像组成。根据以前的工作[31],总视频被分成61个训练视频和10个测试视频。3.2. 实验环境正在搜索设置。我们在Go-Pro数据集上进行网络搜索我们训练预热阶段以更新卷积层的权重,然后第二阶段用于优化神经架构的参数。在第二阶段,我们搜索最多80个时期的基本操作符(底部变量),批量大小为32,并应用早期停止以避免模型崩溃。我们采用标准SGD优化器,并在卷积核更新中使用余弦退火策略[20]将学习率设置为0.0005对于架构更新,使用Adam优化器,并且将学习速率设置为0.001。培训设置。所有的训练实验都是在Pytorch中使用单个TITAN XP GPU实现的。对于随机裁剪,从输入图像中随机裁剪256 256的块,但是对于奇数块方案(例如,[1,3,9])为288 288。初始学习率为0.0001,使用Adam求解器的衰减率为0.1。我们还将图像归一化到[0,1]的范围并减去0.5以保持像素级知识。我们用minibatch大小6训练模型3000个epochs。3.3. 与最新技术水平的我们将我们通过PyNAS获得的网络与其他最新的最先进的去模糊方法进行比较:用于非均匀运动模糊去除的卷积神经网络[34]、深度多尺度卷积神经网络[21]、空间变化递归神经网络[47]、尺度递归网络[35]、深度堆叠分层多补丁网络[45]和空间变化反卷积网 络 [42] 。 我 们 提 出 了 两 种 模 型 : 一 种 是 轻 量 级(PyNAS),其针对每个尺度搜索相同的单元,并且可以在尺度之间共享权重。另一个是PyNASd,它搜索每一个秤然后把它们堆在一起。学习的PyNASs是金字塔形(1-2-4-8)网络,并且主要由膨胀块和标准卷积块组成,而PyNASd是1-3-9补丁方案网络,并且包含具有大内核大小的大量膨胀块和卷积块。详细配置(例如,PyNASd和PyNASs的核大小和运算符)可以在补充材料中找到定量结果。如表1所示,我们的PyNASd(每个尺度的不同结构)实现了显著更好的结果(比最新的实时去模糊方法([42])高1.1dB),同时与[42]相比,对于720p图像保持第二快的运行时间17ms值得注意的是如表2所示,VideoDeflurring数据集的定量结果表明,我们的PyNAS方法比最近的方法([45])实现了更好的泛化性能。定性评价。GoPro数据集[21]的五个去模糊示例如图5所示。我们展示了包含大的运动模糊和放大的主要对象的图像的不同模型的可视化。与最近的深度学习模型相比,我们的方法恢复的图像在边缘更清晰,更锐利我们的去模糊图像的内容被很好地恢复,例如,广告和车牌的数字被正确地去模糊,而其他的数字不能显示清楚。实时去模糊。运行时间表示为ms,并且仅由CNN运行时间计算(不考虑将生成的为了保持视觉的持久性和产生运动图像的错觉,处理模糊图像需要较短的时间(现在,30fps通常为33ms,24fps通常为41ms)。对于实时视频去模糊的主要动机,只有我们的模型[42]和[45]满足处理720p图像的实时要求此外,我们的PyNASd可以对1280 720的图像进行去模糊,每个图像接近0.017s,即40比Taoet al. [35 ]第35段。我们的PyNAS模型实现了实时去模糊,并表现出高性能的运动去模糊(超过30.50)。3.4. 多尺度搜索策略与随机策略为了评估我们的Py-NAS的多尺度搜索策略从表3中,我们的Py-NAS可以搜索比通过随机策略获得的模型更优化的模型(高1.5dB)。验证了多尺度搜索策略对多尺度网络结构的有效性。4304(a)输入(b)J. Zhanget al. [47](c)H. Zhang等人[45](d)Ours(PyNASd)图5. 与来自GoPro数据集的最先进的去模糊方法进行视觉比较。第一列是模糊图像,第二列是[47]的去模糊图像,第三列是[45]的结果。最后一列显示了我们的PyNASd生成的结果,与其他方法相比,它实现了最佳性能。4305表2.VideoDeflurring数据集上的定量结果(PSNR)我们的模型在GoPro数据集上进行训练,然后在VideoDeflurring数据集上进行泛化视频去模糊数据集模型#1#2#3#4#5#6#7#8#9#10平均输入24.1430.5228.3827.3122.6029.3127.7423.8630.5926.9827.14PSDeblur24.4228.7725.1527.7722.0225.7426.1119.7526.4824.6225.08WFA [4]25.8932.3328.9728.3623.9931.0928.5824.7831.3028.2028.35Su等人[三十一]25.7531.1529.3028.3823.6330.7029.2325.6231.9228.0628.37Zhang等人[45个]29.8933.3531.8231.3226.3532.4930.5127.1134.7730.0230.76我们的(PyNASd)30.1133.5231.9231.5426.4432.7330.6927.5135.0730.4531.01表3. 定量分析:我们的多尺度搜索策略的优越性相比,十个随机CNN模型和其他低层次的NAS算法。GoPro数据集模型PSNR SSIM随机模型的平均值29.11 0.9251NAS-DIP [3]29.010.9176清洁剂[8]28.960.9188PyNASs30.510.9391PyNASd30.620.94053.5. 与其他低级别NAS的考虑到我们的工作是动态场景去模糊任务的首次尝试,我们将我们的PyNAS与其他低级NAS方法[23,22,46,36,32]进行了比较,例如超分辨率[9],去噪[8]和去雾[3]任务。由于其紧凑的模块搜索空间,CLEAR需要8个GPU小时才能找到令人满意的网络。NAS-DIP需要大约3天(72 GPU小时)才能找到最佳架构。与CLEAR和NAS-DIP相比,我们的PyNASs搜索每个尺度的相同单元仅需要8 GPU小时,而我们的PyNASd搜索每个尺度的单个单元结构需要大约36GPU小时。如表3所示,我们的PyNAS比其他低级NAS获得这主要归因于为动态场景设计的专用金字塔补丁和金字塔规模搜索机制遭受空间不变模糊[45]。我们采用多尺度和多补丁的计划decom- pose一个具有挑战性的任务,更容易的子任务,通过划分的全球空间不变的内核到本地补丁为基础的空间不变的内核。3.6. 体系结构分析在本小节中,我们将分析由PyNAS设计的架构的主要特征我们可以发现:在我们的PyNAS发现的多尺度网络中,第一和第二尺度倾向于具有相似性。由大内核和扩张卷积组合的较大结构,而第三和第四尺度倾向于具有由更小的内核和膨胀卷积。这种现象主要是由每个尺度的输入面片尺寸引起的。相应地,在每个尺度网络中需要不同的感受野要求。以下方面导致我们的PyNAS快速运行时:i) 搜索具有浅尺度深度(d=3)和修补方案(p=1-3-9)的合适的金字塔参数,并选择小尺寸的卷积滤波器; i i)切断不必要的链路,例如,跳过或重复连接;iii)减少了卷积特征之间的上采样/去卷积的数量。为了减少每个尺度的大量搜索时间和计算,我们定义了PyNAS的搜索模型,假设每个尺度继承相同的网络体系结构。与针对每个尺度具有不同网络架构的模型PyNASd相比,PyNASs仍然获得了令人满意的实时视频去模糊结果,但仅占用PyNASd的1/4左右的搜索时间。4. 结论在本文中,我们提出了一种金字塔神经结构搜索算法(PyNAS)优化超参数(层次补丁,规模深度和细胞计划)的多尺度网络的实时去模糊任务。多尺度和多补丁机制是专门设计的,以解决动态去模糊任务的非均匀运动模糊的挑战。采用多尺度搜索策略,从顶部(尺度深度和补丁方案)到底部变量(细胞算子)依次搜索多个参数。为了使PyNAS的内存和计算效率,使用路径二值化和早期停止策略。我们的架构所获得的建议的PyNAS实现更好的性能相比,国家的最先进的算法,具有更快的推理时间。此外,我们的算法适用于实时去模糊,对于一幅720p图像(即,58fps)。致谢。这工作是支持国家自然科学基金项目2020YFB1406704 ( 编 号 : 61802403 、 62025604 、U1936210、61971016)。···4306引用[1] 韩才、朱立庚、宋涵。Proxylessnas:在目标任务和硬件上直接进行神经结构搜索。2018年国际学习表征会议。三、四[2] Yukang Chen ,Tong Yang ,Xiangyu Zhang,GaofengMeng,Xinyu Xiao,and Jian Sun.Detnas:用于对象检测 的 主 干 搜 索 。 arXiv 预 印 本 arXiv : 1903.10979 ,2019。二个[3] Yun-Chun Chen,Chen Gao,Esther Robb,and Jia-BinHuang. Nas-dip:在神经架构搜索之前学习深度图像。欧洲计算机视觉会议(ECCV),2020年。八个[4] Mauricio Delbracio和Guillermo Sapiro。通过有效傅立叶聚 合 的 手 持 视 频 去 模 糊 。 IEEE Transactions onComputational Imaging,1(4):270-283,2015。八个[5] Hongyun Gao,Xin Tao,Xiaoyong Shen,and Jiaya Jia.基于参数选择共享和嵌套跳跃连接的动态场景去模糊在IEEE计算机视觉和模式识别会议论文集,第3848二个[6] Golnaz Ghiasi , Tsung-Yi Lin , and Quoc V Le. Nas-fpn:学习可扩展的特征金字塔体系结构,用于对象检测。在IEEE计算机视觉和模式识别集,第7036-7045页,2019年。一个[7] 阿米特·戈德斯坦和拉南·法塔勒来自谱不规则性的模糊核 估 计 。 欧 洲 计 算 机 视 觉 会 议 , 第 622-635 页 。Springer,2012. 一个[8] Yuanbiao Gou,Boyun Li,Zitao Liu,Songfan Yang,and Xi Peng.更清晰:用于图像恢复的多尺度神经架构搜索。神经信息处理系统的进展,33,2020。一二三八[9] 郭勇,罗永生,何振豪,金煌,剑尘。分层神经结构搜索单图像超分辨率。IEEE Signal Processing Letters,27:1255-1259,2020。八个[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。二个[11] 胡寿康,谢思瑞,郑和辉,刘春晓,石建平,刘训英,林大华Dsnas:无需参数再训练的直接神经结构搜索在IEEE/CVF计 算 机 视 觉 和 模 式 识 别 会 议 论 文 集 , 第12084-12092页,2020年二个[12] Tae Hyun Kim,Byeongjoo Ahn和Kyoung Mu Lee。动态场景去模糊。在Proceedings of the IEEE InternationalConference on Computer Vision,第3160二个[13] Tae Hyun Kim和Kyoung Mu Lee。免分割动态场景去模糊。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,第2766二个[14] OrestKupyn、VolodymyrBudzan、MykolaMykhailych 、 DmytroMishkin 和 Jiˇr´ıMatas 。Deflurgan:使用条件对抗网络进行盲运动去模糊。在IEEE计算机视觉和模式识别会议论文集,第8183-8192页,2018年。二个[15] Orest Kupyn , Tetiana Martyniuk , Junru Wu , andZhangyang Wang.Deblurgan-v2:去模糊(数量级)更快更好。在IEEE计算机视觉国际会议论文集,第8878-8887页,2019年。二个[16] Zhihang Li,Teng Xi,Jiankang Deng,Gang Zhang,Shengzhao Wen,and Ran He. Gp-nas:基于高斯过程的神经结构搜索。 IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年6月。一个[17] Chenxi Liu , Liang-Chieh Chen , Florian Schroff ,Hartwig Adam,Wei Hua,Alan L Yuille,and Li Fei-Fei.自动deeplab:用于语义图像分割的分层神经结构搜索。在IEEE计算机视觉和模式识别会议论文集,第82-92页二个[18] Hanxiao Liu , Karen Simonyan , Oriol Vinyals ,Chrisantha Fernando,and Koray Kavukcuoglu.用于高效体 系 结 构 搜 索 的 分 层 表 示 。 arXiv 预 印 本 arXiv :1711.00436,2017。二个[19] 柳寒笑,凯伦西蒙尼扬,杨一鸣。Darts:差异化架构搜索。在2018年国际学习表征会议上。三个[20] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr:Stochas-tic 梯 度 下 降 与 热 重 启 。 arXiv 预 印 本 arXiv :1608.03983,2016。六个[21] Seungjun Nah,Tae Hyun Kim,and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。在IEEE计算机视觉和模式识别会议论文集,第3883-3891页一二三五六[22] 南月松和惠姬。用于处理图像去卷积中的核/模型不确定性的深度学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第2388-2397页,2020年。八个[23] 南月松、权玉慧、姬慧。基于变分em的深度学习用于噪声盲图像去模糊。在IEEE/CVF计算机视觉和模式识别会议论文集,第3626-3635页,2020年。八个[24] Thekke Madam Nimisha,Akash Kumar Singh,and Am-basamudram N Rajagopalan.用于盲去模糊的模糊不变深度 学 习 。 在 Proceedings of the IEEE InternationalConference on Computer Vision,pages 4752 二个[25] Jinshan Pan,Zhe Hu,Zhixun Su,Ming-Hsuan Yang.通过l0正则化强度和梯度先验对文本图像进行IEEE计算机视觉和模式识别会议论文集,第2901-2908页,2014年。一个[26] Liyuan Pan , Yuchao Dai , Miaomiao Liu , and FatihPorikli.同时立体视频去模糊和场景流估计。在IEEE计算机视觉和模式识别会议论文集,第4382-4391页,2017年。一个[27] Hieu Pham、Melody Y Guan、Barret Zoph、Quoc V Le和Jeff Dean。通过参数共享进行高效的神经架构搜索。arXiv预印本arXiv:1802.03268,2018。二个[28] Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-net:用于生物医学图像分割的卷积网络。在国际医学影像会议上-4307puting and computer-assisted intervention,pages 234施普林格,2015年。二个[29] Christian J Schuler,Michael Hirsch,Stefan Harmeling,and BernhardScho¨ l k opf. 学习去模糊。IEEE模式分析和机器智能测试,38(7):1439二个[30] Ziyi Shen , Wenguan Wang , Xiankai Lu , JianbingShen,Haibin Ling,Tingfa Xu,and Ling Shao.人类感知的运动去模糊。在IEEE计算机视觉国际会议论文集,第5572-5581页,2019年。二个[31] Shuochen Su , Mauricio Delbracio , Jue Wang ,Guillermo Sapiro,Wolfgang Heidrich,and Oliver Wang.用于手持相机的深度视频去模糊。在IEEE计算机视觉和模式识别会议论文集,第1279-1288页,2017年。一、二、五、六、八[32] Masanori Suganuma,Mete Ozay和Takayuki Okatani。利用 标 准 卷 积 自 动 编 码 器 的 潜 力 在 InternationalConference on Machine Learning,第4771PMLR,2018。八个[33] Maitreya Suin,Kuldeep Purohit,and AN Rajagopalan.用于自 适应 运动 去模 糊的 空间关 注块 层次 网络 。在IEEE/CVF计算机视觉和模式识别会议论文集,第3606二、三[34] Jian Sun,Wenfei Cao,Zongben Xu,and Jean Ponce. 学习用于非均匀运动模糊去除的卷积神经网络。IEEE计算机视觉和模式识别会议论文集,第769-777页,2015年二、五、六[35] 陶新,高红云,沈晓勇,王珏,贾继亚.用于深度图像去模糊的尺度递归网络。在IEEE计算机视觉和模式识别会议论文集,第8174-8182页一、二、五、六[36] Gerard Jacques van Wyk和Anna Sergeevna Bosman。用于图像恢复的进化神经结构搜索。2019年国际神经网络联合会议(IJCNN),第1-8页。IEEE,2019。八个[37] Ning Wang,Yang Gao,Hao Chen,Peng Wang,ZhiTian,Chunhua Shen,and Yanning Zhang. Nas-fcos:用于对象检测的快速神经架构搜索。在IEEE/CVF计算机视觉和模式识别会议论文集,第11943-11951页,2020年。一、二[38] Sirui Xie
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 天池大数据比赛:伪造人脸图像检测技术
- ADS1118数据手册中英文版合集
- Laravel 4/5包增强Eloquent模型本地化功能
- UCOSII 2.91版成功移植至STM8L平台
- 蓝色细线风格的PPT鱼骨图设计
- 基于Python的抖音舆情数据可视化分析系统
- C语言双人版游戏设计:别踩白块儿
- 创新色彩搭配的PPT鱼骨图设计展示
- SPICE公共代码库:综合资源管理
- 大气蓝灰配色PPT鱼骨图设计技巧
- 绿色风格四原因分析PPT鱼骨图设计
- 恺撒密码:古老而经典的替换加密技术解析
- C语言超市管理系统课程设计详细解析
- 深入分析:黑色因素的PPT鱼骨图应用
- 创新彩色圆点PPT鱼骨图制作与分析
- C语言课程设计:吃逗游戏源码分享
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功