没有合适的资源?快使用搜索试试~ 我知道了~
711××计算机视觉雷蒙德A.叶远亭胡中正芝加哥Schwing Toyota技术学院†伊利诺伊大学香槟分校yehr@ttic.edu,{ythu2,zr5,aschwing}@illinois.edu摘要深度网络层内的优化已经成为深度网络层设计的新方向。然而,在将这些层应用于计算机视觉任务时,存在两个主要挑战:(a)层内的哪个优化问题是有用的?(二)如何确保 每一层的计算为了研究问题(a),在这项工作中,我们提出了全变差(TV)最小化作为计算机视觉的一个层。受图像处理中全变分成功的启发,我们假设TV作为一个层也为深度网络提供了有用的归纳偏置。我们在五个计算机视觉任务上研究了这个假设:图像分类、弱监督对象定位、边缘保持平滑、边缘检测和图像去噪,在现有基线基础上进行改进。为了实现这 些结果,我们必须解决问题(b):我们开发了一个基于GPU的投影-牛顿法比现有的解快37倍1. 介绍深度网络层内的优化已经成为设计深度网络构建块的有希望的方向[2,4,29]。为此,优化问题被视为可微函数,将其输入映射到其精确解。这个映射的导数可以通过隐式微分来计算。结合起来,这提供了一个深网“层”的所有成分为深度网络设计有效的层对于深度学习的成功至关重要例如,卷积[28,43],递归[35,63],归一化[37,77],注意力[75]层和其他专用层[41,46,64,80]是现代计算机视觉模型的基本构建块。最近,优化层,例如,OptNet [4]也在强化学习[3],逻辑推理[76],超参数调整[10,58],场景流估计[72]和图形匹配[61]中找到了应用尽管取得了这些成功,但优化作为一个层并没有被广泛采用,解决的优化问题的精确解,如果输入是合理的高维?在这项工作中,我们提出并研究了总变差(TV)[62]最小化作为计算机视觉深网中的一层,特别是TV邻近算子。我们的动机是,电视在计算机视觉中取得了许多成功,结合了先前的知识,即图像是分段常数。值得注意的是,TV已被用作图像去噪[16],超分辨率[48],风格化[40]和盲解卷积[17]等应用中的正则化器。由于这些成功,我们假设电视作为一个层将是深网中的一个有效的构建块,以端到端的方式实施分段属性。然而,可以支持TV作为深网层的现有解决方案[2,9]是有限的例如,CVXPYLay- ers [2]支持通过有纪律的凸程序进行反向传播但是,CVXPYLayers使用通用求解器,缺乏GPU支持。虽然存在用于TV最小化的专门求解器[9,38]因此,为了有意义地将电视作为计算机视觉任务规模的一个层进行研究,我们需要快速的GPU实现。为了实现这一目标,我们开发了一个快速的GPU电视求解器与自定义CUDA内核。这是第一次将电视作为跨计算机视觉任务的一个层。我们的实现比通用解算器和37比专门的电视解算器更快。通过这种快速实现,我们研究了假设作为一个层的电视上的五个任务,跨越从高层次到低层次的计算机视觉:分类,对象定位,边缘检测,边缘感知平滑,图像降噪。我们将电视层整合到现有的深层网络中,ResNet和VGGNet,并发现它们可以改善结果。我们的贡献:• 我们建议将全变分作为一个层,用作计算机视觉任务的深度网络中的• 我们开发了一个快速的基于GPU的电视求解器。它大大减少了训练和推理时间,允许将TV层纳入经典的深度网络。该实现是公开的。1计算机视觉,因为两个未回答的问题:(一)哪个优化问题有用?(b)如何有效地1github.com/raymondyeh07/tv_layers_for_cv712Σǁǁ|− |≥12∈. Σ¨ ¨Σ ¨ ¨Σ∈电视• 我们通过对五种不同的计算机视觉任务进行评估,2. 相关工作在下文中,我们简要讨论了深层网络层内的优化,计算机视觉中的全变分(TV)和现有TV求解器的使用。优化作为一个层次。最优化是经典统计推断中的一个关键组成部分,即,在深度网络的“for-ward pass”中结构预测和图形模型[39,71,73,81]的早期工作依赖于优化程序的输出来进行预测。端到端的方法也已经开发出来[12,30,31]。最近,优化被视为深度网络中的一层。Amos和Kolter [4]提出将二次规划集成到深度网络中。也考虑了其它优化程序,锥规划[2]和整数规划[55]。这种将优化作为一个层的观点也导致了新的基于优化的深度网络架构。Bai等人[7,8]提出了深层平衡模型,将所有层封装到一个寻根问题中。在优化排名度量[60]和图匹配[61]中也探索了作为一个层的优化与这些工作不同的是,我们提出并探索了电视作为计算机视觉任务的一个层的优化。计算机视觉的总体变化。Rudin等人提出的总变差。[62],已应用于各种计算机视觉应用,包括去噪[11,16,52]去卷积[17,54],去模糊[11],ing [1,66,79],superresolution [48],structure-texturede-输入转换(低通)总变差图1.卷积和TV邻近算子用于图像平滑的插图。与卷积相反,即,低通滤波器,TV能够在平滑过程中保留边缘。3. 方法我们的目标是将总变差(TV)最小化作为一个层纳入深度网络。受电视在经典图像恢复中的成功的启发,我们假设电视作为一个层并入深网是计算机视觉任务的有用它提供了一个额外的选择,在现有层的电感偏置灰。具体地,TV操作的输入/输出依赖性不能由单个卷积层实现,因为TV操作不是线性系统。考虑作为示例的图像平滑:TV可以保留边缘,而卷积(低通滤波器)会模糊边缘,如图所示。1.一、为了将这种形式的感应偏置纳入深度网络,我们开发了可微分TV层。3.1. 可微全变差层我们的电视层的主要组成部分是邻近运算符。对于1D输入x∈RN,TV定义为[25][26][27][28][29][29]总变差具有Prox1D(x,λ)= arg min1y−x2+λD2中国,(1)1也被应用在深度学习中作为visu-TVy2的损失函数使深网功能化[47],用于风格转换[40],以及图像合成[84]。这些先前的作品探讨了电视监管问题。随后,我们研究如何将TV作为一个层纳入端到端训练的深度网络。TV正则化问题的求解器。解决TV正则化问题的一种常见方法是近端梯度下降(PGD)[59],它需要计算哪里 DNy 1 =n x n+1x n和λ0。差分矩阵DN在其对角线上包含负1,一个1的非对角线,捕捉y的梯度。类似地,针对2D输入X和输出Y∈RM ×N的2D TV(各向异性)邻近操作被定义为:电视接近操作员。解决电视节目的方法近端2D(X,λ)=arg minY-X(二)经典的线性算子包括张紧弦算法[22]、牛顿型方法[38]、迭代收缩保持算法(ISTA)[21]及其快速对应的FISTA [11]等。除了这些优化算法之外,深度网络还被用于学习ISTA(LISTA)[32]和变体[68],学习AMP[15]和学习PGD(LPGD)[18]。这些工作感兴趣的是使用深度网络来解决优化问题,即,学习预测解决方案。与这些工作不同的是,我们感兴趣的是如何使用优化问题(作为一个层)将归纳偏差纳入深度网络。+λm DMYrow(m)1 + n DNYcol(n)1、其中DM和DN表示相应的行和列差分矩阵。我们将此TV邻近算子作为一个层并入深度网络中,并将其称为可区分的总变化层。可 区 分 的 电 视 层 。 给 定 一 个 输 入 特 征 映 射XRC×H×W,TV层输出一个相同大小的张量Y。 该层独立地计算每个通道上的TV接近度运算符。这一层的可训练参数是λλRC,用于SoftPlus[26]非线性,以保证λ包含正数Y 2FN713电视SOO−××CC电视CC注意H=DND||2|联系我们classTVLayer(Module):def init(self,num_chan,is_sharp):# num_chan:通道数# is_sharp:锐化或不锐化。self. Is_sharp=Is_sharpself. _lmbd=参数(零(num_chan))延迟转发(自身,x):# x:Tensor(num_chan,height,width)lmbd = softplus(self. _lmbd)#按通道近端批量应用。电视y= tv_b_2d(x,lmbd)如果是自己。is_sharp:y=2*x- y返回y图2.建议的TV层的伪码。然而,当所有其他操作发生在GPU上时,CPU实现不适合与深度网络集成,因为在每一层都需要GPU和CPU之间的存储器传输,使得训练和推理变慢。为了解决这些短期问题,我们开发了一种基于GPU的投影牛顿[13]方法,通过编写自定义CUDA内核来解决TV。我们仔细考虑了电视问题的结构。这些自定义CUDA内核被包装到PyTorch [53]中,可以通过Python方便地调用。接下来我们将讨论1D输入的向前和向后操作前进行动。投影牛顿解决了TV接近度问题(等式2)。(1)通过其对偶:1Maxu −2<$DNu<$2+u DNx s.t. u<(六)其被传递到邻近度操作器。因此,前向操作被总结为:- 是的- 是的,C}Yc=Prox2D ( Xc , λc ) 其 中 λc=SoftPlus ( λc ) 。(三)该层在保留边缘的同时执行平滑注意,根据所需的空间模式,该层还可以独立地处理行/列,即,每一行或每一列都有一个1D电视接近度运算符。此外,我们进一步扩展了这一层的能力,通过设计一个受图像锐化技术的启发,我们计算输入和平滑电视输出之间的差异。这一差异被添加返回到原始图像以执行塞普茨Y=2X−Prox2D(X,λ)。(四)φ(u)具体地,投影牛顿迭代地求解目标的局部二次近似,然后以合适的步长执行更新步骤,例如,遵循阿米约规则给定等式(6)、二次近似归结为求解线性系统HSdS=φφ(u)S,(7)对于表示对偶变量更新方向的dS这里,H=2φ(u)是指海森矩阵,下标表示选择行/列以基于变量的子集形成系统。一个简单的例子,解决Eq。(7)看起来很贵。然而,在这方面,N 是一个三对角对称的矩阵这一层的全部伪代码如图所示。二、TV层中的可训练λ注意,具有可训练λ的TV层增加了模型的容量。当λ=0时,该层是用于平滑和锐化的恒等函数,x=arg min1y−x2+0,(5)2特里克斯 三对角系统可以有效地解决第一计算一个Cholesky分解,然后用向后替换求解。两个操作都可以在线性时间内执行,即,(N)[74].如果不利用这种结构,一般的高斯消去法具有(N3)的复杂性.不幸的是, 专门 例程 用于子索引y2和解三对角方程组都不被cuBLAS也不是ATen。为了实现高效计算,在锐化模式下为2x x=x。因此,具有TV层且λ = 0的网络等效于没有该层的模型。因此,网络可以学习“如果这改善了结果,则将该层”关闭“,我们现在将详细讨论如何开发此TV层的快速实现。3.2. 高效执行现有的支持电视接近运算符的软件包要么是通用的,要么缺乏GPU支持。例如,CVX-PYLayers使用一个通用的求解器,与专门的TV求解器相比,它相对较慢.相比之下,高效的求解器在CPU上的速度很快,例如,ProxTV工具箱[9,38],为了支持GPU,我们实现了21个自定义CUDA内核。这些CUDA操作与PyTorch集成,以便于使用。我们注意到,由于矩阵的特殊结构,这些举个例子,一个N N三对角矩阵可以有效地存储在一个3N矩阵中,存储对角线和两个非对角线。但是,这种索引方案需要得到支持,并且在现有的包中不容易获得。接下来,为了为方向dS选择合适的步长,我们使用二次插值回溯策略[51]。我们还实现了一个并行搜索策略,它考虑了多个步长的减半间隔并行。在实践中,我们发现回溯更有效,因为它只迭代几次。714电视−电视电视×:,SS↑↓Y××2FM行(m)1:,S用ProximalDykstra方法构造一个L1输入:X和λ封装硬件CVXPYLayers CPU前后合计20704± 32 9932± 41 1770×初始化:Y(k)=X,P0=0,Q0=0对于k ∈ {1,. - 是的- 是的,K} doProxTV-TS CPUProxTV-PN CPUOurs-PN Titan X207. 8±7。五千四百三十7±7。9 37×257 3 ± 5。八千四百四十七。0 ± 9。6 41×9 .第九条。0± 0。七 点十七。7 ± 2。41. 5×对于m ∈ {1,. - 是的- 是的 ,M} do #使用CUDA进行了标记10 .第10集0± 1。5个7. 3±6。0 1×Z(k)=Prox1D(Y(k)+P(k),λ)行(m)端电视行(m)行(m)表1. TV 1D Proximity Operator的运行时间(ms)比较。我们报告相对于Ours-PN的总运行时间,P(k+1)=P(k)+Y(k)−Z(k)对于n ∈ {1,. - 是的- 是的 ,N}使 用 C U D A进 行 了 标记A6000 GPUY(k+1)=Prox1D(Z(k))+Q(k),λ)col(n)端TVcol(m)col(n)在GPU上高效。整个过程在Alg中进行了总结。1.一、我们发现了三到四次迭代Q(k+1)=Q(k)+Z(k)Y(k+1)结束返回YK+1反向操作。 为了使用Prox 1D(x,λ)作为层,我们需要计算关于(w.r.t.) x和λ:为了可读性,我们让y = Prox1D,这会产生My=ML|且y=−MSign(Dy)<$,(8)近端Dykstra方法在实践中工作良好。对于反向传递,我们的TV 1D邻近算子支持自适应微分,因此通过Alg的反向传播。1是使用PyTorch自动计算的。4. 实验首先,我们比较了用不同方法实现的电视层的运行时间。接下来,我们将在各种计算机视觉任务上评估所提出的TV层x哪里:,Sλ包括:图像分类,弱监督对象定位,边缘检测,边缘感知滤波,和IM。M=L:,S<$(L|¯L:,S′)−1.(九)年龄去噪这些任务涵盖了从高级语义理解到低级语义理解的各种视觉应用。这里,<$表示D N y中非零值的索引集合,L表示NN下三角矩阵,下标表示列的子选择。我们建议读者参考Cherkaoui et al.[18]为了有效地计算这些雅可比矩阵,观察L|L:,S在方程式中。 (9)是一个半正定矩阵。因此,我们使用Cholesky分解和Cholesky求解来计算逆,而不是标准的矩阵求逆。同样,我们实现了自定义CUDA内核,以实现高效的索引和查询。我们将其集成到PyTorch的反向函数中,以支持自动微分。2D电视近距离2D TV邻近实现基于Proximal Dykstra方法[20]。它在解决所有行和列的1D TV邻近问题之间交替,即,最小值1Y−X2+λDY(10)M水平像素操作,证明了建议的电视层的实用性。当我们报告多个任务和指标时,我们使用/来指示指标是否更高/更低时更好。4.1. 时序分析我们使用支持反向传播的CVXPY- Layers [2,23]与通用TV求解器进行比较。我们还使用ProxTV工具箱2[9 , 38] 与 PyTorch 实 现 的 反 向 传 递 进 行 了 比 较 。CVXPYLayers和ProxTV都只支持CPU计算。我们在一批维数为256 32的信号上对这些方法中的每一种进行计时三十二这是小规模计算机视觉任务的典型尺寸。数据包含具有加性高斯噪声的单位阶跃信 号 , 并 且 λ 被 设 置 为 1 。 时 序 评 估 是 在 NVIDIATITAN X或A6000 GPU和Intel Core i7-6700K CPU。我们报告了25次运行的平均值和标准差。结果在选项卡中。1我们报告每个方法的向前和向后计算时间,单位为毫秒。NS7152FNcol(n)1最小值1Y-X 2+λD Y<$。( 十一)我们观察到,ProxTV与专门的求解器比使用通用解算器的CVXPYLayers。 我们报道ProxTVEq.(10)和Eq.(11)可以分解为每行或每列的1D TV邻近问题。由于我们的1D TV接近运算符实现支持并行,因此我们可以非常并行地求解所有行或所有列,有两个不同的专门的电视解算器,即,拉紧弦(TS)和投影牛顿(PN)。然而,这些基于CPU的方法对于实际视觉来说仍然太慢2可查阅https://github.com/albarji/proxTV。Yn716↑±±±× ××∼Arch.噪声类型高斯发射脉冲模糊类型玻璃散焦 运动变焦损坏类型雪霜雾亮度对比弹性像素化 JPEG所有AllConv电视-平滑电视夏普三十六2±1。四点四十八。9±1。5466±3。1四十二7± 2。4550± 1。四四四8± 3。2四十6±1。4531±1。5465±1。0七十七。9±0。7467±2。3728±0。5719±1。179岁。4±0. 七点四十九2±2。5745±0。874. 3±1。279岁。8± 0。3503± 0。6757± 0。七七三。9± 0。4七十七。8±0。1719±0。8825±0。491. 6±0。267岁1±0。982. 2±0。七七二。2±0。579. 0±0。379岁。4±0. 875. 3±1。1850±0。392. 1±0。169岁。4±1。1818±0。373.0±0。678. 4±0. 2八十3± 0。5752± 0。9862± 0。492. 2± 0。一百七十四。4± 0. 2818± 0。3726± 0。576. 5± 0。1668岁4±0. 5七十3±0。6七十6±0。2表2.CIFAR 10-C对不同类型腐败的分类准确率(↑)0的情况。5090的情况。40的情况。30的情况。20的情况。10的情况。80的情况。70的情况。60的情况。50的情况。40的情况。30的情况。20的情况。1表3. Choe等人测试集上的WSOL定位准确度MaxBoxAccV2()。[19]对于ImageNet预训练模型。05000100001500020000250003000035000历元05000100001500020000250003000035000历元图3. λvs.在第一和第二Conv.块我们观察到λ学会大于零。应用,例如, 对ResNet101的整个推断需要在GPU支持下,我们的方法比CVXPYLayers实现了1770的加速比,比ProxTV快37到41这种显著的加速使电视层能够扩展到真正的计算机视觉任务。4.2. 图像分类我们对CIFAR10数据[ 42 ]进行实验,评估两个方面:(a)标准分类和(b)域外泛化。我们研究了所提出的全变差层对全卷积网络的基线架构的影响[69]。我们研究了平滑和锐化TV层,其中λ在通道间共享,并添加到前三个卷积块中。具体来说,我们在对每个块进行批量归一化之前插入TV层。我们将这些修改后的架构称为TV-Smooth和TV-Sharp。我们初始化λ= 0。05并与模型参数一起训练它们。标准分类。在CIFAR10上,基线模型AllConvNet的准确率达到93。百分之五十一18%(5次运行报告的标准偏差 随着平滑和锐化TV层的加入,TV平滑和TV锐化达到了93。610 17%,93。43 0. 24%的人回复。可以看出,添加这些TV层的性能与基线模型相当。为了确保模型实际使用TV模块,我们在等式中可视化λ。(1),在每一层,在图中的3 .第三章。注意,λ学习为非零,表明TV层正在影响模型架构。域外泛化。为了进一步评估TV模块如何影响模型,我们评估了分布外(o.o.d.)使用CIFAR 10-C数据进行概括[34]。在干净数据上训练模型并在损坏数据上评估模型,噪声被添加到图像中。CIFAR 10-C的分类准确性报告见表1。二、平均来说图4.WSOL结果的可视化我们展示了输入图像(左),来自CAM的热图(中)和我们的热图(右)。TV-Smooth和TV-Sharp模型都改善了O.O.D.。在基线模型上进行泛化。我们观察到:TV-Smooth模型更好地推广到加性噪声破坏,而TV-Sharp提高了模糊破坏的准确性。这些结果符合我们预期的锐化和平滑行为,并说明作为一个层的优化4.3. 弱监督目标定位弱监督对象定位(WSOL)是各种计算机视觉任务中流行的可解释性工具它学习仅使用图像级标签来本地化对象开创性的工作类激活映射(CAM)[85]首先研究了WSOL的图像分类。后续工作[57,65]进一步推广到更广泛的领域,如视觉和语言。我们相信TV层对WSOL是有益的,因为它有助于本地化结果,即,类式热图,更平滑,更好地与边界对齐。对于评估,最流行的方法是推断计算的类热图的周围边界框,并与地面实况进行比较。然而,最近的WSOL分析工作[19]指出,在更公平的评估设置下,CAM仍然是最先进的WSOL方法在后续的性能提升是虚幻的错误的实验设置和不一致的边界框生成方法造成的。因此,我们在这项工作中采用CAM和公平评估协议,并在其上测试TV层转换时的λ层#1转换时的λ层#2方法VGG-16 inception-V3 ResNet-50CAM纸60.0263.4063.65摄像机再现60.1363.5164.09CAM-repro.+电视(我们的)60.3563.8065.36717× × ××·Σ¨−¨方法BIPED [56]ODS(↑)OIS(↑)AP(↑)[第50话]ODS(↑)OIS(↑)AP(↑)HED [78].829.847.869.851.864.890RCF [45].843.859.882.857.862-[56]第五十六话.859.867.905.859.864.917表4.BIPED和MDBD数据边缘检测的定量比较基线来自相应的文件。实验设置。 我们测试了三种不同的模型:VGG- 16[67],ResNet-50 [33]和Inception-V3 [70]。我们使用一个固定的TV2D平滑层,在所有通道中共享,λ=1。我们在每个网络的CAM层之前插入这个TV层。我们使用Choe等人的代码库 [19]他们讨论了一个更公平的实验环境:所有WSOL方法都在固定的验证集上进行微调,以搜索最佳超参数,然后在新收集的测试图像上进行测试。由于微调的模型没有发布,我们使用发布的代码进行复制并报告两个结果(CAM-repro.和CAM-纸)的完整性。结果我们在Tab中报告定量指标。其中我们观察到TV层一致地改善了各种模型的WSOL我们进一步显示了香草版本和我们的图之间的定性比较。我们观察到TV层有助于WSOL模型生成更平滑和对齐的结果。4.4. 边缘检测边缘检测是识别给定输入图像的所有边缘的任务对于基于学习的方法,这被公式化为每个像素位置的二进制分类问题,即,分类所述图像中的给定像素是否任务如图所示。五、我们对最近的BIPED [56]和Multicue(MBDB)[50]数据集进行了边缘检测评估。实验设置。 我们将其与密集型极端进行比较,输入地面实况[56]第56话:我的世界边缘检测的定性比较。使用每个图像的最佳阈值和平均精度(AP),平均精度(AP)是精确率-召回率曲线下的面积。结果 继Poma et al. [56],我们将我们的Dex- iNed + TV与标准DexiNed [56],RCF [45]和HED [78]进行了比较。4使用BIPED和MDBD数据集。所有模型都只在BIPED数据集上训练。可以看出,我们的方法实现了跨ODS,OIS和AP的BIPED和MDBD数据的改进。最终检测到的边缘的定性比较如图所示。五、我们观察到 ,DexiNed+TV预 测更 清晰 的边 缘和 抑制 纹 理比DexiNed更好。4.5. 边缘保持平滑边缘保持平滑是平滑图像的任务,同时保持锐利的边缘。为了公平地比较算法,Zhu et al.[86]提出了一个数据集(Bench-markEPS),由500个训练和测试图像组成,具有相应的“地面实况”平滑图像。Zhu等人[86]还建议使用两种评估方法,加权均方根误差(WRMSE)和加权平均绝对误差(WMAE),定义如下:Poma等人提出的[56]。DexiNed由卷积-NWRMSE(I,I)=Kw(n,k) I(n) I(n,k)k=12一个多尺度和多头架构,结构在最大池化的每个阶段之前,DexiNed输出比例为2、4、8和16的边缘图。通过对每个尺度下的边缘图进行平均来获得最终的边缘图预测对于我们的模型,我们添加了TV 2D-Sharp层,× ××和WMAE(I,I)=Nn=1Kk=1N·K·H·Ww(n,k)<$I(n)−I(n,k)<$对于可训练λ,在2 、4和8边缘图 在最后的边缘图,我们添加了一个TV2D平滑层。边缘检测的评估指标[5]基于F-measure =2 精确度·召回率(12)查准率+查全率(a)最佳数据集尺度(ODS),其对应于在数据集上使用最佳阈值;(b)最佳图像尺度(OIS),其对应于N·K·H·W其中I(n ,k )对应于第n个图像的第k个地面实况(具有高度H和宽度W),I(n)表示第k个地面实况。对于第n个图像的预测,w(n,k)表示地面实况的归一化权重注意,每个图像都有多个基础事实,因此注释者为每个基础事实投票,并且他们的投票被归一化为权重w(n,k)。为了评估,我们比较了两个深网基线,VDCNN和ResNet,由Zhu等人提出[86]以及2ΣΣn=11、”。,Σ7182015105053020100输入最终转换层后电视平滑图6.用于边缘保持平滑的最终TV平滑层的效果的可视化101520表5.边缘保持图像平滑基准的定量结果[86]。基于L1平滑的优化方法[14]。ResNet架构由16个残差块组成,后面是三个卷积层,与输入有一个跳过连接。对于我们的模型(ResNetTV),我们在残差块中插入四个具有交替行/列方向的TV 1D- Sharp层,最后在最后一个跳过连接后插入一个TV 2D-Smooth层(跨通道共享λ这种设计是由于观察到残差块学习高频内容并且最终输出是平滑的。结果在选项卡中。5、给出了定量结果。我们观察到WRMSE和WMAE在基线上的改进,无论是基于纯优化的方法还是深度学习方法。这证明了将优化作为一个层纳入深度网络的好处。除了定量改进之外,我们还分析了最终TV平滑层的效果,因为它在图像空间中运行,所以可以很容易地可视化。首先,我们观察到学习的λ = 15。1,这意味着该层确实是执行平滑。 为了说明其效果,在图。6我们在最终卷积层和TV平滑层之后可视化图像可以看出,最终卷积层的图像(图2的第2(6)已经平滑102030TV后的输入功能图7.ResNetTV上残留块处TV-Sharp层前后的特征图可视化红色框表示可视化(放大)特征图的区域。一个体面的数额。最终的TV平滑层进一步过滤图像,同时保留边缘,从而改善结果。我们怀疑增加TV平滑层有助于整体性能,因为深度网络不需要使用其容量进行部分平滑过程。我们还分析了电视层对特征图的影响图7我们显示了TV-Sharp层之前和之后的中间特征图正如预期的那样,特征图被锐化,导致特征空间中更突出的边缘虽然很难直接解释这些特征图,但直观地说,在边缘保持平滑方面表现良好的深网应该很容易捕获图像的边缘。方法WRMSE(↓)WMAE(↓)L1平滑[14]9.895.76VDCNN [86]9.786.15ResNet [86]9.035.55ResNetTV(我们的)8.875.47719R电视电视输入TV后的真实噪声输入输出TV后的最终残差块可视化输入和输出TV层的效果(参见等式(14)图像去噪。4.6. 图像去噪图像去噪是在给定噪声输入图像的情况下恢复干净图像的任务。基于深度网络的方法通常将图像去噪公式化为回归任务,即,回归到给定噪声输入的干净RGB值。我们考虑被加性白高斯噪声破坏的彩色图像,并报告平均峰值信噪比(PSNR)[36];越高越好。我们对常见的CBSD 68 [49]、柯达24 [27]和McMaster[83]数据进行了评估我们使用DnCNN [82]作为我们的基础模型。它由具有从输入的完全跳过连接的残差块组成,即,DnCNN(I),R(I)+I,(13)其中I表示残差块,I是有噪输入图像。我们在网络的输入和输出处添加了TV2D平滑层,即,DnCNNTV(I),近端2D. ΔR(IΔ)+IΔR,λ输出,(14)其中I= λ,Prox2D(I ,λin)。 我们使用KAIR工具箱3来训练这些去噪模型。结果 在选项卡中。6,我们报告了不同噪声水平下的平均PSNR我们在σ=50设置和McMaster数据集上观察到更大的增益。我们进一步分析了两个添加的TV层的行为。由于电视层被添加到图像空间中,我们可以直接将它们可视化。在图8中,我们可视化了噪声输入图像、输入TV层之后的图像图像、最终残差块以及输出TV层之后的最终结果。我们观察到:输入TV层执行非常弱的降噪,参见第二列与第二列。三是图。8. 接下来,在第四栏,3可在https://github.com/cszn/KAIR上查阅720×方法噪声级σCBSD 68 [49]25 50[27]第二十七话25 50麦克马斯特[83]25 50[第82话]31.2427.9532.1428.9531.5228.62DnCNNTV三十一点二十六分二十八点零七分32.15二十九点零九分32.32二十九点三十五表6.图像去噪的定量比较。我们报告每种方法的平均PSNR(↑)。我们观察到:残余块输出具有尖锐边缘但具有高频伪像的图像然后,这些伪影由最终输出TV层平滑(参见第1栏)。五)。局限性。我们注意到,我们的结果不是最先进的模型,即,[44]第四十四话我们还为SwinTransformer模型添加了TV层。然而,λs学习为零,这有效地关闭了TV层。我们怀疑TV平滑层会导致输出过于平滑因此,当深度网络具有足够的容量时,TV层可以学习使用λ = 0来避免平滑。5. 结论作为一个层的优化是将企业归纳偏置纳入深度网络的一个有前途的方向。在这项工作中,我们建议将总变差最小化作为一个层。我们的方法比现有的解决方案实现了37倍的加速,将电视层扩展到真正的计算机视觉任务。在五个任务中,我们证明了现有的深网架构可以从TV层的使用中受益。我们相信TV层是计算机视觉深度学习的重要组成部分,并预计会有更多的应用从中受益。鸣谢:这项工作得到了NSF #1718221、2008387、2045586、2106825、MRI #1725729的部分支持NIFA 2020-67021-32799 和 Cisco Systems Inc. (CG1377144 -感谢访问Arcetri)。721引用[1] Manya V. Afonso,José M. Bioucas-Dias和Mário A.T.菲格雷多成像逆问题约束优化公式的增广拉格朗日方法。IEEE TIP,2010年。2[2] Akshay Agrawal,Brandon Amos,Shane Barratt, 斯蒂芬Boyd,Steven Diamond,and J.济科·科尔特可微凸优化层。在Proc. NeurIPS,2019年。一、二、四[3] 布兰登·阿莫斯,伊万·希门尼斯,雅各布·萨克斯,拜伦·布茨,J. Zico Kolter.用于端到端规划和控制的可区分MPC。InProc. NeurIPS,2018. 1[4] Brandon Amos和J.济科·科尔特 OptNet:可区分优化作为神经网络中的层。InProc. ICML,2017. 一、二[5] 巴勃罗·阿贝莱斯,迈克尔·梅尔,查利斯·福克斯和吉滕-马利克夫人轮廓检测与分层图像分割。IEEE TPAMI,2010。6[6] Jean-François Aujol、Guy Gilboa、Tony Chan和Stanley奥舍结构-纹理影像分解-模型、演算法与参数选择。IJCV,2006年。2[7] Shaojie Bai,J. Zico Kolter和Vladlen Koltun。 深等-library模型在Proc. NeurIPS,2019年。2[8] Shaojie Bai,Vladlen Koltun,and J.济科·科尔特多尺度深度均衡模型。在Proc. NeurIPS,2020中。2[9] Alvaro Barbero和Suvrit Sra.模块化近端光学多维全变差正则化。JMLR,2018年。一、三、四[10] Shane T Barratt和Stephen P Boyd。最小二乘自动调整。工程优化,2021年。1[11] Amir Beck和Marc Teboulle。 快速梯度算法约束全变分图像去噪和去模糊问题的算法。IEEE TIP,2009年。2[12] 大卫·贝朗格和安德鲁·麦卡勒姆 结构化预测能源网络。InProc. ICML,2016. 2[13] Dimitri P Bertsekas求解简单约束优化问题的投影牛顿法。 SICON,1982年。 3[14] 赛毕、韩晓光、益州余。一个L1图像转换-用 于边 缘保 持 平滑 和 场景 级内 在 分解 的 形式 ACMTOG,2015. 7[15] Mark Borgerding,Philip Schniter,and Sundeep Rangan.AMP启发的深度网络用于稀疏线性逆问题。IEEE TSP,2017。2[16] 安东宁·钱博尔一种全变差最小化算法mization和应用。JMIV,2004年。一、二[17] Tony F Chan和Chiu-Kwong Wong。全变分盲反卷积。IEEE TIP,1998年。一、二[18] Hamza Cherkaoui,Jeremiah Sulam,and Thomas Moreau.学 习 使 用 展 开 算 法 解 决 TV 正 则 化 问 题 。 在 Proc.NeurIPS,2020中。二、四[19] 崔俊石吴成俊李成浩春尚旭Zeynep Akata和Hyunjung Shim。正确评估弱监督对象定位方法。在Proc. CVPR,2020中。五、六[20] 帕特里克湖康贝特和让-克里斯托夫·佩斯凯。近侧信号处理中的分裂方法。在科学与工程中反问题的不动点算法中。2011年。4[21] 帕特里克湖Combettes和Valérie R Wajs。信号恢复,近端前后分裂。多尺度建模仿真,2005年。2[22] 洛朗·康达一维全变差的直接算法去噪 IEEE SPL,2013年。2[23] 史蒂芬·戴蒙德和史蒂芬·博伊德CVXPY:一种用于凸优化的Python嵌入式建模语言JMLR,2016. 4[24] 贾斯汀·多姆克基于优化模型的通用方法Eling。InProc. AISTATS,2012. 2[25] Michael Donoser,Martin Urschler,Martin Hirzer和HorstBischof。显著性驱动的全变分分割。InProc. ICCV,2009. 2[26] Charles Dugas,Yoelis Bengio,François Bélisle,Claude纳多和勒内·加西亚。结合二阶函数知识以获得更好的期权定价。 在proc NeurIPS,2001年。2[27] 里奇·弗兰岑柯达无损真彩色图像套件。资料来源:http://r0k. us/graphics/kodak,1999年。8[28] 福岛邦彦Neocognitron:不受位置变化影响的模式识别机制的自组织神经网络模型。生物控制论,1980年。1[29] 史蒂芬·古尔德理查德·哈特利迪伦·约翰·坎贝尔深度声明网络。IEEE TPAMI,2021。1[30] Colin Graber,Ofer Meshi和Alexander G.施温使用非线性输出变换进行深度结构预测InProc. NeurIPS,2018. 2[31] 作者:Colin Graber,Alexander G.施温图结构预测能量网络。在Proc. NeurIPS,2019年。2[32] Karol Gregor和Yann LeCun。学习快速近似sparse coding稀疏编码InProc.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功