没有合适的资源?快使用搜索试试~ 我知道了~
弱监督分割的鲁棒信赖域优化方法
6608联系我们N·ΣΣ·|弱监督分割的鲁棒信赖域加拿大滑铁卢大学dmitrii.a. gmail.comYuri Boykov加拿大滑铁卢yboykov@uwaterloo.ca摘要如果需要标记每个像素,则用于标准语义分割的训练数据的获取是昂贵的。然而,目前的方法在弱监督环境下会显著恶化,例如其中一部分像素被标记或者当只有图像级标签可用时。它已被证明,正则化损失最初开发的无监督的低级别分割和代表像素标签的几何先验,可以大大提高弱监督训练的质量。然而,许多常见的先验需要比梯度下降更强的优化因此,这样的正则化器在深度学习中具有有限的适用性。我们提出了一种新的鲁棒信赖域方法1,用于正则化损失,改善了最先进的结果。我们的方法可以被看作是一个高阶的推广的经典链规则。它允许神经网络优化为相应的正则化器(包括离散正则化器)使用强大的低级求解器1. 介绍本文提出了一种高阶优化技术用于神经网络的训练。虽然专注于语义图像分割,但我们的主要算法思想简单而通用-将标准信赖域原理集成到反向传播的上下文中,即。链条规则。我们重新解释了经典的链式规则:而不是梯度/衍生物的组合函数的链,我们formulate相应的链隐藏的优化子问题。然后,受信赖域原理的启发,我们可以在任何链上用更好的高阶求解器代替标准的线性近似求解器(梯度下降)简而言之,我们取代了经典的差异链规则的信赖域链规则的背景下,反向传播。我们的工作的动机是由典型的正则化损失或几何先验/能量普遍存在于弱监督或无监督分割的背景下的梯度下降提出的众所周知的挑战。1https://github.com/dmitrii-marin/robust_trust_region为了验证我们的方法,我们提出了语义分割的结果,提高了国家的最先进的具有挑战性的设置,训练数据只有一小部分的像素标记。我们的主要原则(信赖域链规则)的普遍性和我们的一个困难的问题,鼓励进一步的研究成果。事实上,这项工作仅适用于网络中的最后一个“链”的信赖域原则我们讨论了几个有前途的扩展,为今后的工作。导言的其余部分组织如下。为了为我们的网络训练的一般方法创建特定的上下文,我们回顾了与弱监督或无监督分割相关的损失函数第一,Sec。1.1讨论了几个标准的几何先验,正则化能量,聚类标准,以及它们最初为低级分割或一般机器学习开发的强大求解器然后,Sec。1.2概述了在弱监督语义(高级)分段的上下文中我们还审查了标准的信赖域原则(第二节)。1.4),并强调我们的主要贡献(第二节。1.5)基于将信赖域(具有强大的求解器)应用于网络训练的一般思想1.1. 低层分割中的正则化能量假设离散分段s1,2,. . . 其中K是类别的数量,N是图像像素的数量,一个常见的低级分割能量可以表示为E(s)=−logP(Ii|si)+wij[sisj](1)i{i,j}∈N其中Ii是低级特征(例如,强度,颜色,纹理),邻域系统描述任何成对连接性(通常为4-,8-网格[5]或更密集[34]),权重wij表示给定的成对亲和力(通常为低级别特征Ii和Ij的高斯核[7,5,54,34]),并且[]是艾弗森括号运算符,如果参数为true,则返回1,否则返回0。上面的能量将对数似然项与给定的(低级)特征分布和成对的reg-region相结合,以实现一致性。6609我Σ·|·|我我我Tk1Ws相当于i∈Ωseedsλ[si=yi]对于无限大的λ。我K∈Σ ΣΣΣ ΣΣΣ偏振器(Potts模型)项,其通过与图像强度边缘对齐来对形状平滑度执行几何先验。像素i∈Ω种子的交叉熵(PCE)Potts模型有几个有效的组合[7]和LP松弛求解器[32,35]。此外,还有许多正则化目标与第一个目标密切相关E种子=−i∈Ω种子日志syi(四)顺序形状正则化,但是从低级分割的不同离散或连续公式导出并且配备有它们自己的有效求解器,e.G. [10]第26话,我的心并且,当被限制为表示硬分段独热si时,它减少了对种子的硬约束[5]。也就是说,对于i nΣt ∈r-值si∈{1,. . . ,K},则种子损失为[18]《说文解字》:“数也,数也。此外,还有许多其他的正则化项超出了由(1)中的Potts项强制执行的基本一阶光滑度(边界长度)扩展包括曲率[57,47,46],Pn-Potts[30]、凸性[24,25]等。低水平分段分段使用松弛变量s∈∆N组合像素-对数似然损失,例如(1)或(3)中的第一项是常见于低级分割,其重要性不容低估。在基本公式中,可以假设针对每个类别k给出(低级)特征P(k)的分布。然而,如果这样的分布不是先验已知的,则它们的表示P(θk)可以显式地包括每个类别的未知分布参数θk特定分布K1K∆在K猫-戈里河 然后,总损失E(s,θ)加上θ={θk}作为si=( si,.. .,s i)K其中∆K是概率单形。在这种情况下分割目标/能量也应该放松,即,定义在实值参数上。例如,(1)中的Potts分段能量的一个基本弛豫是—sklogP(Ii|k)+wijsi−sj 2(2)i k {i,j}∈N使用似然项的线性松弛和Potts模型的二次松弛。注意,可以有无限多个替代松弛。任何特定的选择都会影响松弛解的性质以及相应优化算法的设计。例如,(2)中的简单二次松弛是凸的,表明更简单的优化,但已知它是Potts模型[53]的非紧松弛,导致与几何或形状无关的较弱正则化性质。有许多更好的选择,例如使用不同的范数[18]或其他凸公式[13,12,11]。下面的波茨项的双线性—sklogP(Ii|k)+(1−sk)TWsk(3)ik k是紧的[53],但它是非凸的,因此更难以优化。在上式中,向量sk:=(sk)额外变量在s和θ上优化E(s,θ)对应于分割的联合估计和分布参数的最大似然(ML)估计,如Zhu Yuille[66]和Chan Vese [14]的众所周知的无监督低级分割公式类似的想法也用于框交互方法[54]。1.2. DNN分割与基于可读取的低维特征(如颜色、纹理、对比度边缘)的低级分割方法不同,用于分割的深度神经网络(DNN)方法学习可以区分语义类别的复杂的高维“深度”特征。因此,可以将这样的方法称为高级分割,并且将这样的学习特征称为高级特征。训练分割网络的最标准的方式是基于完全监督,需要大量的图像集合,其中所有像素都被准确地标记。这样的训练数据是昂贵的。训练是基于最小化的交叉熵(CE)的损失类似的种子损失在低级别分割。为了简单起见,集中在单个训练图像上,CE损失是ECE(s(θ))=−Σlogsyi(θ)(5)合并软段k和iN×N亲和矩阵Wij=wij[{i,j}∈ N]表示其中s(θ)=f(θ)∈∆N是(放松的)分割邻域系统N和所有成对的(例如,高斯)网络输出K带参数的f(θ)θ。 为了简洁起见,图像像素之间的亲和度w ij。请注意,Potts正则化与无监督分割的归一化切割目标(1-sk)TW sk密切相关[58]。通常将能量(1)、(2)、(3)与基于用户交互的约束(弱监督)相结合。虽然存在不同形式的这种监督,但最基本的一种是基于添加在具有用户指定类别la的子集Ω种子中的像素上定义的种子损失[5贝尔斯岛 假设si∈∆K,它可以写成一个偏在这里和本文后面,我们从网络函数f的参数中省略实际的测试图像。与上面回顾的低级分段的根本区别在于,不是直接在分段变量s上最小化损失E,现在优化参数是产生这种分段的网络的参数θ估计参数θ可以被解释为学习深度特征。请注意,此任务比分布参数的ML估计复杂得多,6610|我ǁ − ǁ ≤Σ波茨∇P(I θ)在低级别分割中具有固定的低级别特征I,如上所述。这解释了为什么网络优化需要大量完全标记的训练图像,而不是像在低级分割中那样需要单个图像(未标记或部分标记)。弱监督分割的目标是用尽可能少的监督来训练网络。首先,可以仅使用每个图像中的标记像素(种子)的子集进行训练[31,61],与(4)旨在生成/完成地面实况以使用完全监督学习。然而,DNN容易受到建议中的错误的影响。更稳健的方法使用EM [49]或ADMM [42]来迭代地纠正“建议”中的错误1.4. 经典信赖域优化信赖域是一种通用的近似迭代局部优化方法[4],允许在优化任意复杂函数时使用具有良好求解器的近似。为了优化g(x),求解子问题EPCE( s( θ))=−logsyi(θ)(6)minx−xtg~(x)其中函数g~≈g是一个近似i∈Ω种子特别是,如[61]所示,这种简单但有原则的方法可以胜过更复杂的基于启发式的技术。为了改善弱监督训练,也可以使用标准的低级正则化,如Sec。1.1,利用大量未标记的像素[65,31,61,62,42]。例如,[62]使用(3)中Potts模型的双线性松弛实现了最在某些地区可以“信任”的操作 Xx t围绕当前的解决方案。 如果g~是g的线性扩展,则这简化为梯度下降。 更精确的高阶近似可以在更大的区域上被信任,从而允许更大的步长。子问题通常被公式化为无约束拉格朗日优化minxg~(x)+λx-其中λ间接控制步长。1.5. 相关的优化工作和贡献波茨(s(θ))=(1−sk(θ))TW sk(θ)(7)K基于随机梯度下降的一阶方法由于其简单性、有效性和可扩展性而主导深度学习。然而,他们往往会挣扎着--作为一个额外的正则化损失在所有(包括UNLA,beled)像素。对于某些ν >0,它们的连续总损失E=EPCE +ν Ebl.(八)更一般地,来自低级分割的标准正则化损失通常用于分割网络的上下文中这种损失及其求解器在使用种子或盒子来生成完全标记的建议的弱监督技术中是普遍存在的[28,38]。低级正则化器的优化对于网络的输出后处理也是常见的此外,相应的低级求解器可以直接集成为解决方案改进层[65]。1.3.弱监督语义分割深度神经网络语义分割的弱监督有许多不同的形式,例如。图像级标签[50,49,31]、涂写/点击[38,61,62,42]和边界框[49,28,27]。这些作品采用了各种各样的策略来弥补标签的缺乏。多实例学习(MIL)的概念自然适合弱监督环境。由于一般的MIL方法产生小的不满意的部分,更特殊的方法是必要的。例如,方法[50,27]在学习期间对神经网络的输出施加约束存在几个特定于分段的约束,例如大小偏差、对当前标签的约束、紧密性[37]等。[31,62,42]包含边缘对齐约束。提案生成方法[28,38]Cape挑战损耗分布的特征,例如在一些实施例中,梯度可以被称为“谷”,因为梯度缺乏关于损失表面的曲率的信息。Adam [29]结合了许多迭代的梯度来收集此类曲率信息。另一方面,二阶方法计算参数更新的形式为Δθ=H−1θE(f(θ)),c.f.其中H是Hessian或其近似。在神经网络中,计算Hessian是不可行的,因此使用各种近似,例如。对角线或低秩[2]。Hessian向量积的有效计算是可能的[52,56];而使用Hessian求解线性系统仍然具有挑战性[60]。另一组方法基于采用高斯-牛顿矩阵和K-FAC近似[43,1,3,48]。我们的方法与邻近方法[44]相关,特别是与邻近反向传播[22]和惩罚方法[9]相关。在这些工作中,将梯度更新“分离”为隐式逐层优化问题被公式化为某个能量函数的梯度更新。Taylor等人[63]使用ADMM分裂方法在分布式框架中的不同层上分离优化。这些工作集中在神经网络参数优化,完全取代反向传播。与[9,63,22]相比,我们主要关注在弱监督语义分割的上下文中对复杂损失函数的优化,参见第二节。1.2,而其他人专注于替换中间层中的反向传播。此外,与我们不同的是,这些方法在其近似公式中使用平方欧几里德范数。Chen和Teboulle [15]将近似方法推广到Breg-man分歧,这是一类更一般的函数,它E6611◦∇≡−ΣΣ∈∇∈⊂∈∇包括欧几里得距离和KL散度。Nesterov在[45]中使用了具有更高幂的欧几里得范数,从而提高了近似方法的收敛性我们的贡献如下:• DNN分割的新信赖域优化将高阶低级求解器集成到训练中。只要有好的离散或连续求解器,就不需要损失的可微性。在反向传播的背景下,信任区域链规则取代了类分化链• 信赖域框架中的局部优化允许使用任意度量,而不是标准梯度下降中隐含的欧氏我们讨论了不同的度量空间的segmenta- tions和激励一个强大的版本KL发散。• 与梯度下降相比,我们在弱监督DNN分割中对正则化损失进行了优化。我们为弱监督分割设置了新的最先进的结果,涂鸦在所有监督级别上始终实现最佳性能。从点击鼠标到涂鸦2. 损耗优化反向传播是在训练期间优化网络损耗的主要方法它表示相对于模型参数θ的梯度下降,其中梯度的分量使用类链规则逐渐累积,同时从受 难 以 优 化 的 正 则 化 损 失 的 使 用 的 启 发 ( 第 2节)。1.1)在弱监督分割的背景下(第1.1节)。1.2),我们提出了高阶信赖域方法来训练网络。虽然这种通用的优化方法可以被开发用于反向传播的任何步骤(即,链规则),我们将重点放在损失函数与网络输出minE(f(θ))(9)θ∈Rm注意:作为惯例,本文保留了用于向量函数的粗体字体(例如,网络模型F)和矩阵函数(例如,模型本节中网络优化的信赖域方法(9)的主要技术思想是相当一般的。然而,具体地并且不失一般性地,该部分和(特别地)后面的部分可以将网络的输出称为分段,使得Rn=RN×K其中N是图像像素的数量,K是不同语义类的数量。这并不重要。我们对(9)的一般信赖域方法可以被视为损失函数E和模型f的组合Ef的经典链式规则的高阶扩展。 对于标准反向传播过程中的经典链式法则,E和f都是可微的是至关重要的。在这种情况下,(9)中的目标的经典链式规则给出参数θ∆θ=−αETJ f(10)其中∆θ θθ t是从当前解更新的模型参数,α是学习率,是梯度算子,Jf是模型的雅可比矩阵J:=塞尔夫岛fθj我们想要以等效形式重写经典链式规则(10),明确地使用用于分段的变量sRn,其是(9)中的损失函数E显然,等式(10)等价于对分割参数εsεs−st和模型参数εθεθ−θt进行两次单独的更新∆s=−αET(11)∆θ= ∆sJf(12)其中,梯度E在当前分段st =f(θt)处计算。 注意sRn表示点(例如分割)在相同的空间作为网络输出f(θ)∈Rn,两者应清楚地区分其中一些标量损失函数E:Rn-R1定义在网络/模型的nf:Rm→ Rn。由于在训练期间,网络话语。 我们将s称为(显式)分段变量,而f(θ)被称为分割输出。(11)和(12)中的更新对应于两个不同的优化子问题。显然,(11)是损失E(s)局部优化其线性Tay的梯度下降步骤lor近似E〜linear(s)=E(st)+ET∆soverer(e x-隐式)分割变量s B(st)Rn在st周围的邻域(球)中为了简单起见,我们将网络函数f的自变量限制为它的训练参数θ∈Rm。也st+1=argminE~s∈B(st)线性 (s).(十三)6612θ∆θ=−`xγ,f(θ))(18)2虽然不太明显,但很容易验证(12)中的θ更新正是梯度下降步骤B-步骤(18),一般来说,在下一个A-步骤之前不必等待子问题(17)中的收敛我们的公式提供了几个重要的概括-∆θ =12−2θst+1−f(θ)(十四)经典链式法则的例子首先,代替由梯度下降(11)暗示的线性近似(13)对应于最小二乘目标的优化minst+1−f(θ)2(15)我们将得到(16)中损失E~的高阶近似。在某些情况下,可以使用精确的损失E2。(16)的相应强大的低级求解器可用于许多类型的有用鲁棒损失,请参见基于问题(13)的解st+1≡∆s+f(θt)秒 1.1. 注意,对于精确解,当E=E时,我们的网络训练的信赖域方法(9)是通过将链规则(10)原则性地分离成两个子问题(13)和(15)来驱动的代替梯度下降,(13)中的损失的低级优化可以利用可用于许多流行损失函数的强大高阶求解器,参见第2节。1.1.特别地,众所周知,用于无监督或弱监督计算机视觉问题的大多数常见鲁棒损失函数对于梯度下降是有问题的。例如,它们的鲁棒性(有界性)导致梯度消失和对局部最小值的敏感性。同时,梯度下降可以负责(15)中的最小二乘优化。虽然由于典型模型f(θ)的大小和非凸性,它仍然是一个困难的问题,但至少可以将由复杂损耗E引入的额外困难移除到不同的子问题中。形式上,我们的信任域训练方法(9)概括了我们对子问题(13)和(15)中的经典链式规则的解释,如迭代阶段A、B所示:阶段A(低级优化)可以论证λ= 0,允许网络从正则化损失E的最佳解中学习,这意味着(9)中的全局最优。然而,这种固定的建议(第二节)。1.2)可能由于常见正则化器中的众所周知的偏差/弱点而导致对错误的过拟合。 将损失优化(9)约束到Rn中的网络输出流形会在(16)中激活λ > 0。更多讨论见[40,第5节]。其次,除了标准反向传播(链式规则)所需的连续/可微损失外,我们的信赖域方法(阶段A/B)允许基于离散域上定义的损失进行训练有几个原因为什么这个扩展是显着的。例如,除了连续求解器之外,(16)中的优化现在可以使用显著更大的求解器池,包括许多强大的离散/组合方法。此外,该方法使得能够训练具有离散决策函数的模型例如,阶跃函数代替S形函数,或者硬最大值代替软最大值。这在[40,第5节]中进一步讨论。第三,标准梯度下降(10)是在欧几里得度量上隐式定义的,其通过局部邻域拓扑(欧几里得球B)和最小二乘目标(平方)在我们的等式(13)和(15)s t+1=arg minSE~(s)+λdA(s,f(θt))(16)欧氏距离)。 相反,当更换球B(st)时通过(16)中的信赖域项,我们显式地阶段B(网络参数更新)使用函数dA对信赖区域“形状”进行精细化它可以是任何特定于应用的距离度量、准距离度量或伪距离度量。minθdB(st+1,f(θ))(十七)度量、发散等。 同样,任何适当的动机-⇓θdB(st+1其中E~是一些损耗近似值,dA和dB是一些距离/发散度量。 代替(11)中的α和(14)中的固定权重1,我们的训练过程的总体学习速度由两个参数控制:(A)标量λ in-直接从(16)中的当前解s t= f(θ t)确定步长,以及⑶标量γ,其定义(18)中的梯度下降的步长。虽然λ和γ对学习速度都很重要,但我们通常将λ称为信任(17)中的可变距离、失真或发散函数 dB可以代替(15)中的最小二乘目标。在负面方面,由于阶段A中低级求解器的计算成本,我们的信赖域公式可能更昂贵。在实践中,可以在阶段B的多次迭代中摊销阶段A。3. 信赖域定义上述信任区域的形状的度量dA和dB的选择在分割的情况下,神经网络的输出通常是0b。区域参数,而术语学习率被保留主要针对(18)中的参数γ,如网络优化中梯度下降步长的惯例。注意,类似于梯度下降(10),迭代阶段A/B直到收敛。虽然合理的做法是2注意,(16)中的参数λ控制两个属性:用于近似E~的信任区域的大小,以及网络的训练速度。虽然使用精确损失E〜=E意味着用于这种“近似”的信任区域应该是整个域(即λ= 0),限制(17)中的训练速度的竞争利益可能需要λ> 0。6613我我KKK我我≈Q我ΣΣ− log(a + b q)。(二十二)|我Li我我=L |Z =k)=K−1l(a) :−logq1q1=1(b) :−log(a+b q1)i1+exp(−xi)Xi图1.未知的真实标记Z对应于观察到的图像I。假设观察到的标记Y是通过简单的损坏模型(20)从真实Z通过soft-max函数获得因此,信赖域在其中运行的空间是K个类别上的多个类别分布的空间:ΔN。下面,我们一般讨论在ΔN中的任意概率分布p,q对上的(鲁棒)度量。本节的目的是激励我们在问题(16)、(17)中选择度量dA和dB,以便分布p可以与分段变量s相关联,分布q可以与网络输出f(θ)相关联。 除了这种连接,下面对概率分布上的度量的讨论与网络的上下文无关。注意,度量dA或dB不必是出于信赖域优化的目的的适当相反,可以使用定义在空间ΔN上的任何散度测度。让我们考虑1图2.作为logits x i的函数的鲁棒损失。存在K=2个类;基础真值标签是yi=1。如果当前预测q1是可信的并且与yi不一致,参见图上的x10或q10,则鲁棒损失(b)变得更平坦,避免了在地面实况中的错误的情况下的过度惩罚。与此相反,标准交叉熵(α)线性地表现,如果基础事实是错误的,则这可能不利于学习。0.790.780.770.760.750.0 0.2 0.4 0.6 0.8鲁棒性参数ε图3. Fashion-MNIST数据集[64]上的分类准确性使用具有两个卷积,两个全连接层和鲁棒损失的网络(22)。原始标签N K1N K1KL(pq)=Σ Σpllogpi=−Σ Σpl logql−H(p)都以概率2被破坏最佳精度为在ε = 0处实现。4,接近实际噪音水平。其中p,q∈N,并且pl是像素i具有i和Z是它隐藏的真实标签。我们假设概率-标签K i,和。我l H(p)是分布p给定真实标签k,观察标签l的能力为一个实际上重要的情况是当分布p是退化的或独热的,即对于每个像素i,存在标签yi使得pyi= 1且对于任何标签kyi概率.1-ε,l=k,pk= 0我H(p)= 0且i iε,l/=k,I. 在这种情况下KL(pq)=Σ−logqyi,(19)K−1其中ε被称为离群值概率[36]。给定图像I,像素i具有标签l的概率为我其是交叉熵或负对数似然,当q是由神经网络输出的概率估计时是标准损失。在下面我们假设(19)。Pr(Y i=1|I)=KPr(Yi=1|Zi=z)Pr(Zi=z|I)=z=1在信赖域过程期间,由(16)中的求解器生成的中间解可能具有显著量的误分类像素。众所周知,神经网络的许多标准损失,包括交叉熵(19),可能导致训练对数据集中的特质敏感,包括地面事实中的错误[23,39,21]。因此,可能需要稳健的距离测量。我们的实验表明,鲁棒性是至关重要的。我们提出了一个简单的误差模型图中的图形模型描绘。1.一、设随机变量Yi为像素=a+bPr(Z i= l|(21)其中a=ε,b= 1−K a。概率Pr(Zi=z I)是未知的,并且被概率估计qi代替,从而产生散度的鲁棒版本(19):伊伊我观察到隐藏图像我标签Z真观察到标签Y嘈杂概率为ε精度i=1l=1i=1l=1Pr(Y(二十)6614图2比较了交叉熵(19)与鲁棒损失(22)。6615≈Σ−logq~|波茨我我们的鲁棒交叉熵(22)与更一般的分类方法有关[51,59]。在[51]中,相应的鲁棒交叉熵(前向校正)是我(23)我其中q~i=TTqi,qi是像素i处的概率估计的向量,T=[Tlk]是噪声转换矩阵:Tlk= Pr(Y=k Z=l)。不同ε的影响在图1的示例3 .第三章。在实践中,不同的像素需要(20)中的ε的不同值。例如,在基于涂鸦的弱监督分割中,种子像素的标签Ωseeds是确定已知的。因此,对于这样的像素ε= 0,并且对于所有其他像素ε >0。因此,鲁棒的我们使用ScribbleSup [38]注释Pascal VOC 2012 [20]数据集。ScribbleSup提供涂鸦,即图像像素的一个小子集(3%)被标记,而绝大多数像素未被标记。4.1. 实现细节在我们所有的实验中,我们使用DeeplabV3+ [17]和MobileNetV2 [55]作为骨干模型。预培训:我们使用标准ImageNet [19]对骨干模型进行预训练。此外,在通过Grid-GD(7)和Grid-TR(16-18)开始优化之前,DeeplabV 3+模型通过PCE损失(6)进行预训练元参数:我们训练60个epoch。我们调整了val集合上所有方法的学习率。竞争性方法的其他Meta参数如核心中所述设置。回复文件/代码。学习率是多项式的KLε,Ω(pq)=Σ−log(a+bqyi)+Σ−logqyi。功率为0。9,动量为0。9,批量为12。种子i/∈Ω种子我i∈Ω种子我(二十四)网格-TR STAGE A(16):网格CRF的低级求解器3是具有8个网格的α-展开[8,33,6]。总而言之,我们提出了以下针对信赖域迭代(16)和(18):布尔胡德体系α-展开迭代的最大次数为5,在大多数情况下达到收敛。我们将标签集限制为图像中存在的标签我们相爱-dA(p,q)= KL(pq),dB( p,q)= KLε,Ωseeds(p q)。(二十五)通过将S TAGE A计算时间与数据加载相结合来调整STAGEA计算时间。训练比Dense-GD慢1.3倍。(18)第二节:第一节:第二节:第二节:4. 导致弱监督分割为了验证我们的方法(16-18),我们使用标准有效离散求解器[7]来计算损失通过图切割求和,我们对分割变量(18)的每次更新执行M= 5个神经网络权重更新(17)的时期。我们使用一个全局的学习率时间表跨越整个迭代。参见Alg. 1.一、E~=EPCE +E波茨(26)3GCOv3.0:https://vision.cs.uwaterloo.ca/code/其中EPotts(s)=Σ{i,j}∈Nwij[si/=sj]是第二个(正则化)项在标准低能级能量(1)中。在这种情况下,(16)中的优化限于单纯形的角,其中EPCE减少到种子上的硬约束。在(16-18)中,我们使用鲁棒度量(25)。在Alg. 1.一、Alg 的 一 个 自 然 基 线 。 1 是 基 于 随 机 梯 度 下 降(SGD)的标准方法,用于[62]中提出的正则化损失(8),参见Sec. 一点二的确,Bl是一个算法1:Potts模型的鲁棒信赖域1 使用ImageNet预训练初始化模型f;2通过优化PCE-GD损耗来调整模型f的参数θ(6);3 用基本学习率初始化γ;4个重复数据集中的每个图像为5EPotts的松弛,如在Sec. 1.1.因此,(8)是(26)的松弛。Alg. 1,具有E~的组合求解器在(26)中的近似可以被看作(8)的离散信赖域通常,我们的方法(16 - 18)允许其他离散或连续求解器和/或其他近似E~。首先,PCE-GD基线是优化部分交叉熵的标准SGD(6)。在[62,61]中已经表明,这种方法优于更复杂的建议(假地面实况)生成方法,如[38]。其次,Grid-GD是正则化损失(8)上的SGD,其中CRF邻域是标准的8网格。第三,Dense- GD是[62]的方法,其使用常见的完全-.6616[34]的连接(密集)Potts CRF6经由(16)计算分段变量s使用(25)中的度量dA和损失(26);7端8个M时期数据集中的每个图像(批次)为910使用针对损失的随机梯度下降(17)利用(25)中的鲁棒度量dB来更新网络参数θ;11更新速率γ符合调度;12端部13端部14直到达到所需的时期数;6617图像真实PCE-GD(6)网格-GD密集-GD网格-TR(16,18)图4.完整涂鸦训练结果的示例,请参见Tab。1和图5。注意我们的Grid-TR的更好的边缘对齐0.50 0.57 0.590.55 0.61 0.620.54 0.60 0.62 0.640.57 0.63 0.64 0.66表1.ScribbleSup的结果,参见图5中的描述。0.700.650.600.55全监控PCE-GD密集型-GDGrid-GDGrid-TR到边界的距离(三重图宽度),px图6.线段边界对齐的质量。在全长涂鸦上训练网络工作者。0.500.00 0.25 0.50 0.75 1.00涂写长度比图 5. 使 用 DeeplabV3+ [17] 和 MobileNetV2 [55] 主 干 对ScribbleSup [38,20]的val集的分割性能监督级别水平变化,1对应于完整的涂鸦。我们的4.2. 分割质量用于语义分割的弱监督训练的定量结果在图5和表2中呈现1.一、结果以从点击(表示为长度0)到全长涂写(表示为长度1)变化的不同水平的减少监督会导致所有方法的性能下降。我们有兴趣比较不同的方法在不同的监督级别上执行我们的Grid-TR在每个监督级别上都优于所有竞争对手。图1中所示的图像和结果的示例。4证明了我们的方法的优点,特别是w.r.t.边缘对齐定量地,我们使用标准三重图[30,34,16,41]评估语义边界的准确性。三重图对应于围绕变化宽度的地面实况片段边界的窄带。一个精确度的度量,例如针对每个带内的像素计算mIoU。结果示于图6,我们的方法表现出卓越的性能。确认我们感谢Yaoliang Yu对相关近端方法的深入讨论和相关文献的指出我们也感谢弗拉基米尔Kolmogorov建议以前的研究的紧密性的波茨模型松弛。PCE-GD密集型-GD网格-GD网格-TR(我们的)0.60000.55000.50000.45000.40005101520并集上的平均交并集上的平均交涂写长度00.30.50.81全程监督0.70PCE-GD密集GD网格-GD网格-TR(我们的)6618引用[1] 吉米·巴罗杰·格罗斯和詹姆斯·马滕斯使用克罗内克因子近似的分布式二阶优化2017. 3[2] Christopher M.主教模式识别与机器学习。Springer,2006年8月。3[3] Aleksandar Botev,Hippolyt Ritter,and David Barber.深度学习的实用高斯-牛顿优化在Doina Precup和Yee WhyeTeh,编辑,第34届国际机器学习会议论文集,机器学习研究论文集第70卷,第557- 565页PMLR。3[4] 斯蒂芬·博伊德和利文·范登伯格。凸优化。剑桥大学出版社,2004年。3[5] 尤里·博伊科夫和玛丽·皮埃尔·乔利。N- D图像中目标最优边界区域分割的交互式图割载于ICCV,第一卷,第105-112页,2001年7月。一、二[6] 尤里·博伊科夫和弗拉基米尔·科尔莫戈洛夫。最小割/最大流算法在视觉中能量最小化的实验比较IEEE模式分析和机器智能学报,26(9):1124-1137,2004。7[7] Yuri Boykov Olga Veksler和Ramin Zabih通过图割的快速近似能量最小化IEEE Transactions on Pattern Analysisand Machine Intelligence,23(11):1222一、二、七[8] Yuri Boykov Olga Veksler和Ramin Zabih基于图割的快速近 似 能 量 最 小 化 算 法 . Pattern Analysis and MachineIntelligence,IEEE Transactions on,23(11):1222-1239,2001。7[9] Miguel Carreira-Perpinan和Weiran Wang。深度嵌套系统的分布式优化在人工智能和统计,第10-19页PMLR,2014年。3[10] Vicent Caselles Ron Kimmel和Guillermo Sapiro测地线活动等高线。国际计算机视觉,22(1):61-79,1997。2[11] Antonin Chambolle,Daniel Cremers,and Thomas Pock.最 小 划 分 的 凸 方 法 。 SIAM Journal on ImagingSciences,5(4):1113-1158,2012。2[12] Antonin Chambolle 和 Thomas Pock 。 凸 问 题 的 一 阶Journal of Mathematical Imaging and Vision,40(1):120-145,2011. 2[13] Tony Chan、S Esedoglu和M Nikolova。图像分割和去噪模型的全局最小值寻找算法。SIAM应用数学杂志,66(5):1632-1648,2006。2[14] Tony F Chan和Luminita A Vese。没有边的活动轮廓IEEE Transactions on Image Processing,10(2):266-277,2001。2[15] 龚晨和马克·特布勒。利用bregman函数的类近似极小化算法的收敛性分析。SIAM Journal on Optimization,3(3):538-543,1993. 3[16] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:语义图像使用深度卷积网、无环卷积和全连接CRF进行分割。IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834-848,2017。3、8[17] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议(ECCV)的会议记录中,第801-818页,2018年。七、八[18] Camille Couprie、Leo Grady、Laurent Najman和HuguesTalbot。功率分水岭:一个统一的基于图的优化框架。IEEE Transactions on Pattern Analysis and MachineIntelligence,33(7):1384-1399,2010. 2[19] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。7[20] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge : ARetrospective.International Journal of Computer Vision,111(1):98七、八[21] Ben o tFr e´ nayandMichelVerl e ysen. 标签噪声存在下的分类研究综述。IEEE神经网络和学习系统学报,25(5):845-869,2013。6[22] ThomasFrerix , ThomasMollenhoff , MichaelMoeller,andDaniel Cremers.近端反向传播。在2018年国际学习代表会议上3[23] Stuart Geman,Elie Bienenstock和Rene 'Doursat。神经网络和偏差/方差困境。神经计算,4(1):1-58,1992.6[24] Lena Gorelick , Olga Veksler , Yuri Boykov , andClaudia Nieuwenhuis.二值分割的凸性形状先验。IEEETransactions on Pattern Analysis and Machine Intelligence(PAMI),39(2):258-271,2017年2月。2[25] Hossam Isack , Lena Gorelick , Karin Ng , OlgaVeksler,and Yuri Boykov.用于分割的K凸形状先验欧洲计算机视觉会议(ECCV),慕尼黑,德国,2018年9月。2[26] 迈克尔·卡斯安德鲁·维特金和德米特里·特佐普洛斯。Snakes:活动轮廓模型。 国际计算机视觉杂志,1(4):321-331,1988。2[27] Hoel Kervadec , Jose Dolz
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功