正则化分割损失的优化方法

61 浏览量更新于2023-10-19 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1正则化分割损失滑铁卢大学滑铁卢孟唐大学加拿大Ismail BenAyed ETS蒙特利尔加拿大Yuri Boykov滑铁卢大学加拿大摘要梯度下降（GD）的简单性使其成为训练更深入和复杂神经网络的可靠方法。损失函数和结构通常都被扩展调整以服从这种基本的局部优化。在弱监督CNN分割的背景下，我们展示了一个动机良好的损失函数，其中alter- native optimizer（ADM）1达到了最先进的水平，而GD表现不佳。有趣的是，GD获得了损失函数的“更平滑”调谐的最佳结果结果在不同的网络架构中是一致的。我们的损失是由“浅”分割中的MRF/CRF正则化模型及其已知的全局求解器引起的。我们的工作表明，网络设计/培训应更加注重优化方法。1. 动机和背景神经网络的弱监督训练通常基于正则化损失，将经验损失与一些正则化项相结合，以补偿缺乏监督[38，14]。正则化损失也适用于CNN分割[32，34]，其中完全监督通常是不可行的，特别是在生物医学应用中。这种损失是由shal- low2分割中的正则化能量引起的，其中数十年的研究进入了基于几何[24，7，5]，物理[18，1]或鲁棒统计[13]设计鲁棒正则化模型。这样的模型应该代表现实的形状先验补偿图像模糊性，但服从高效的求解器。视觉中常用的许多鲁棒正则化器[31，17]是非凸的，需要强大的优化器来避免许多弱局部最小值。基本的局部优化器通常无法使用此类模型产生实际有用的结果。有效的弱监督CNN视觉方法应该包含补偿图像数据模糊性和缺乏监督的先验知识，就像在浅层视觉方法中一样。例如，最近的工作[38，34]制定了半监督分类和弱监督分割的问题是正则化损失的最小化。这种原则性的方法优于常见然而，我们表明，在深度学习中使用正则化模型作为损失受到主干优化器GD的限制目前的训练方法。众所周知，GD导致浅分割中许多正则化器的局部最小值较差，并且提出了许多更强的算法[4，6，21，31，15]。同样，我们在深度分割中对正则化损失进行了更好的优化适用于正则化损失的一种流行的通用方法是ADMM [3]，它将优化分为两个有效的可解子问题，分别关注经验损失和正则化器。我们提倡类似的分裂，以改善CNN训练中正则化损失的优化。相反，类似ADMM的网络参数拆分在[35]中使用不同的层来提高并行性。在我们的工作中，弱监督CNN分割是讨论正则化损失优化的背景。作为正则化器，我们使用常见的Potts模型[6]，并考虑其最近和大邻域变体，也称为。稀疏网格CRF和密集CRF模型。我们证明了ADMM样分裂网格CRF损失的有效性，由于强大的子问题求解器的可用性，例如。图切割[5]。如[34，Sec.3]所述，[20]的早期迭代命题生成技术可能与正则化损失分裂相关，但他们的方法仅限于密集CRF及其近似平均场求解器[22]。事实上，给定这样的弱子问题求解器，分裂比正则化的基本GD差。失[34]。下面是关于网格和密集CRF的更多见解1.1. 用于浅层分割的成对CRF鲁棒的成对Potts模型及其二进制版本（Ising模型）在立体声、重建和分割等许多应用中得到了广泛的应用。可以将该模型定义为整数值标号S上的代价泛函S：=（Sp∈Z+|p∈N）的图像像素p∈N，如下所示Σ1https://github.com/dmitrii-marin/adm-seg2在本文中，EP（S）=pq∈Nwpq·[Sp/=Sq]（1）1018710188(a) 1D图像（b）网格CRF [4]（c）密集CRF [22]图1. 网格和密集CRF（Potts）模型的合成分割示例：（a）1D图像上的强度I（x）。段的成本St= {x|x< t}，根据（b）最近邻（网格）Potts和（c）较大邻域（密集）Potts具有不同的不连续点t。后者给出了更平滑的代价函数，但其更平坦的最小值可能使不连续性定位复杂化。(a)图像+种子（b）网格CRF [4]（c）密集CRF [22]图2.稀疏（b）和密集（c）CRF（Potts）模型的真实“浅”分割示例，用于具有种子（a）的图像稀疏Potts给出了更平滑的段边界，具有更好的边缘对齐，而密集CRF推断通常给出噪声边界。其中N是给定的邻域系统，wpq是相邻像素{p，q}之间的不连续性惩罚，并且[·]是艾弗森括号。给出了k-连通网格Nk上的最近邻形式，以及它的变分形式，如测地线活动轮廓[7]、凸松弛[27，9]或连续最大流[39]都是特别好研究的。通常在相邻点之间使用对比度加权不连续性惩罚[6，4]，如下面的条件{pq} ∈ Nk上述方法不能扩展到密集邻域。然而，密集CRF模型在CNN的上下文中很受欢迎，它可以用作可微正则化层[41，29]。更大的带宽产生更平滑的目标（1），见图。1（c），服从梯度下降或其他局部线性化方法，如容易并行化的平均场推断注意，现有的用于密集CRF的有效推断方法需要双边滤波[22]，其被限制为如（3）中的高斯权重。这不同于wpq=λ·exp −||Ip-I q||2·[{pq} ∈Nk].（二）全局Potts解算器，例如，α-扩展，可以使用任意权重，但对于密集邻域变得低效。2σ2最近邻Potts模型使分割边界的对比度加权长度最小化，优选与图像边缘对齐的较短周长，例如。见图第2段（b）分段。该模型的流行可以通过通用性，鲁棒性，良好的几何基础以及大量有效的离散或连续求解器来解释，这些求解器可以保证二元问题[4]的全局最优或多标签设置中的某些质量约束，例如。α-展开[6]。密集CRF [22]是一种Potts模型，其中成对相互作用在由高斯核定义的明显更大的邻域上活跃，该高斯核在像素位置上具有相对较大的带宽噪声密集的CRF结果，例如。图2（c），意味着较弱的正则化。事实上，正如[36]中所讨论的，对于较大的邻域，Potts模型更接近基数势。带宽缩放（3）是模型看到分割边界的分辨率尺度稠密CRF中较弱的正则化可以保留一些由精细分辨率边界正则化平滑的薄结构，例如。最近的邻居波茨。然而，这基本上是相同的“噪声保存”的效果，如图。第2段（c）分段。为了保持一致性，本文的其余部分将最近邻Potts模型称为网格CRF，将大邻域Potts模型称为密集CRF。1.2. 贡献概述wpq = λ·exp−||I p−I q||2σ2·exp−p−q22002年。（三）在浅图像分割中，标准正则化模型的任何动机，如前一节所述，直接它在浅视觉中的使用是有限的，因为它经常产生嘈杂的边界[22]，也见图。第2段（c）分段。此外，全局优化将其转化为弱监督CNN分割中的正则化损失函数[32，34]。主要10189问题是如何优化这些损失。基于梯度下降的标准训练技术可能不适用于许多强大的正则化模型，这些模型可能具有许多局部最小值。以下是我们的主要贡献：我们提出了一种通用的交替方向方法（ADM），以优化（4）中一般形式的神经网络正则化损失，使用以下问题的分裂：• 作为梯度下降（GD）的替代方案，我们提出了一种分裂技术，交替方向方法（ADM）3，用于最小化净过程中的正则化损失尽量减少θ，X受n（Sθ，Y）+λR（X）ΣD（X p|S p，θ）= 0，p∈Ω（五）工作培训。ADM可以直接采用高效的正则化求解器在浅分割。• 与GD相比，我们的ADM方法与α-扩展求解器显着提高了弱监督CNN分割中网格CRF虽然ADM的每次迭代比GD慢，但损失函数在UXp=Yp<$p ∈L其中我们引入了单热分布Xp∈ {0，1}K和某些发散测度D，例如.Kullback-Leibler散度R（X）现在可以是一个离散的经典MRF正则化，例如.（一）. 这相当于下面的拉格朗日Σmin maxλR（X）+ γD（X）|S）使用ADM时，发生率明显更高一步到位，达到比GD收敛时更低的损失值θθ，Xγp∈ΩUpp，θ（六）网格CRF从未被研究为CNN分割的损失，并且在很大程度上被忽视。• 网格CRF损失的训练质量在弱监督CNN分割中达到了最先进的水平。我们比较了密集CRF和网格CRF的损失。我们的研究结果可能会激发更多关于正则化分割损失及其优化的研究。2. 正则化损失优化假设存在图像对和部分地面真实标记的数据集。为了符号的简单性，我们implantable假设所有损失函数的表达式在数据集中的所有对求和。对于每个图像I的每个像素p∈P，存在该像素的相关联的颜色或强度Ip。标签Y=（Y p|其中，Yp∈ {0，1}K是一个独热分布，K是标签的数量。我们考虑以下形式的网络φθ受X p=Y pp∈我们在（6）中对X和θ交替优化γ上的最大化在每次更新时增加其值，从而导致模拟退火的变体。我们已经试验了可变乘数γ，但发现与固定γ相比没有优势。所以，我们固定γ，不对它进行优化。总之，我们的方法不是使用梯度下降来优化正则化项，而是将正则化损失问题（4）分为两个子问题。我们将正则化项中的softmax输出Sp，θ替换为潜在离散变量Xp，并确保两个变量之间的一致性（即，Sθ和X），使发散D最小。这在概念上类似于ADMM的一般原则[3，37]。我们的ADM分裂适应使用强大的和完善的离散求解器的正则化损失。正如我们在SEC中所展示的那样。3，流行的α-扩展求解器[6]显着改善了网格CRF损失的优化，从而产生了最先进的培训质量。这种高效的求解器保证了二元问题[4]的全局最优解或多标签情况下的质量边界[6]。θ（Sθ，Y） +λ·R（Sθ）→minθ（四）我们的离散-连续ADM方法交替两步，每一步递减（6），直到收敛。给定固定其中S θ∈[0，1]| Ω| ×K是由网络S θ：=φ θ（I）生成的K路softmax分割，R（·）是一个正则化项，例如. 松弛的稀疏Potts或密集CRF，并且（·，·）是部分地面实况损失，例如：Σ在前一次迭代中计算的离散潜变量Xp，第一步通过标准反向传播和随机梯度下降（SGD）的变体最小化以下损失来学习网络参数θΣ（Sθ，Y）=p∈ΩLH（Yp，Sp，θ），尽量减少θn（Sθ，Y）+γp∈ΩUD（X p|S p，θ）（7）其中H（Y，SΣ）=−YklogSk是交叉熵第二步确定网络输出S并找到pp，θK pp，θθ在预测分割Sp，θ（矩阵Sθ的一行对应于像素p）和标记为Yp的地面真值。下一个潜在的二进制变量X通过最小化以下通过任何合适的离散求解器在X3标准ADM M [3] 将问题 minxf（ x ）10190+g（x）转换为minx，ymaxλf（x）+g（y）+λT（x-y）+ρx-y<$2，并在x，y和λ上交替更新，并行优化f和g。我们的ADM使用尽量减少X ∈{0，1} |Ω|×KΣλR（X）+ γD（Xp|Sp∈ΩUp，θ）（八）不同形式的分裂，可以看作是一种惩罚方法，见第二节。二、满足X p= Y p<$p ∈ <$L。10191|B|因为Xp是一个只有K个可能值的离散变量，所以（8）中的第二项是一个基本的一元项。类似地，等式约束可以被实现为使用一元势的禁止值的一元一元项是最简单的可能的能量势，可以由任何一般的离散求解器处理。另一方面，正则化项R（X）通常涉及两个或多个变量的相互作用，从而引入解的新性质以及优化复杂性。在网格CRF的情况下，可以使用图切割[4]，α-扩展[6]，QPBO [2，28]，[ 21 ][22][23][24][25][ 26 ][27]总之，我们的方法交替上述两个步骤。对于每个小批量，我们计算网络预测，然后计算隐变量X优化（8），然后计算损失梯度（7）并使用SGD的变体更新我们的ADM方案的概要在Alg中示出。1.一、算法1正则化损失的ADM（4）。要求：小批量序列0;初始化网络参数θ（0）;对于每个小批次B对于每个图像标记对（I，Y）∈B，计算分割预测Sθ←φθ（i）（I）;求解X的能量（8），例如：α-展开;计算梯度gw.r.t.（7）的参数θ结束，结束计算批次g（i）←1g的平均值;使用梯度g（i）更新网络参数θ（i+1）;i←i+1端3. 实验结果我们对弱监督CNN分段进行实验，并将涂鸦作为监督[23]。重点是正则化损失方法[32，34]，但我们也将我们的结果与基于提案生成的方法进行了比较，例如。[23]第二十三话.我们测试了网格CRF和密集CRF作为正则化损失。这种正则化损失可以通过随机梯度下降（GD）或交替方向法（ADM）进行优化，如第2节所述。二、我们比较了三种训练方案，即密集CRF与GD [34]，网格CRF与GD和网格CRF与ADM，用于弱监督CNN分割。在比较分割之前，在SEC。3.1我们测试使用ADM是否比使用标准GD给出更好的正则化损失我们的训练损失（CRF能量）与训练迭代的曲线图显示了当ADM或GD最小化时损失收敛的速度。我们的实验证实，一阶方法，如GD导致一个贫穷的局部最小值电网故障报告表的损失对于最小化电网CRF损失，ADM比GD有明显的改进。节中3.2，而不是在优化方面进行比较，我们在分割质量方面比较ADM和GD。我们报告的mIOU（平均交叉工会）和准确性，特别是边界区域。节中3.3，我们还在更短的涂鸦[23]或极端情况下的点击的更具挑战性的设置中研究了使用ADM作为优化器，我们的网格CRF正则化损失方法与基于密集CRF的方法相比更有利[34]。数据集和实现细节根据最近关于CNN语义分割的工作[10，23，20，32]，我们报告了我们在PASCAL VOC2012分割数据集上的结果我们在10，582张图像的增强数据集上使用[23]中的涂鸦进行训练，并在1，449张图像的val集上进行测试我们报告mIOU（平均交集）和像素精度。特别是，我们感兴趣的是如何良好的分割在边界区域。因此，我们计算接近边界的那些像素的准确度，例如距离语义边界在8或16个像素内。除了mIOU和精度，我们还测量正则化损失，即。网格CRF。我们的实现基于DeepLabv 24，我们展示了不同网络上的结果，包括deeplab-largeFOV，deeplab-slight-largeFOV，deeplab-vgg 16和resnet-101。我们不对网络输出分割应用任何网络的训练分为两个阶段。首先，我们训练网络以最小化部分交叉熵（pCE）损失w.r.t涂鸦。然后，我们使用网格CRF或密集CRF正则化项进行训练为了实现离散网格CRF损失的梯度下降，我们首先对其进行二次松弛，<$1，S p，θ<$+<$1，S q，θ<$− 2 <$S p，θ，Sq，θ<$。（九）其中Sp，θ，Sq，θ∈[0，1]K，θ·，θ·是点积。然后我们对w.r.t.在反向传播期间的Sθ。虽然有办法，例如。[11，8]，为了放松离散Pott对于我们提出的ADM算法，它需要在网格CRF中进行推理，我们使用α-扩展5的公共实现。CRF推理和损失被实现并集成为Caffe [16]层。我们运行α-展开五次迭代，在大多数情况下都是收敛的。我们的密集CRF损失不包括位置XY上的高斯核，因为忽略这项不会改变mIOU度量[22]。RGBXY上的密集高斯核的带宽被验证以给出最佳mIOU。对于网格CRF，（2）中的核带宽选择如下4https://bitbucket.org/aquariusjay/deeplab-public-ver25http://mouse.cs.uwaterloo.ca/code/gco-v3.0.zip10192网络训练集†验证集GDADMGDADMDeeplab-LargeFOV2.522.412.512.33Deeplab-MSc-largeFOV2.512.402.492.33Deeplab-VGG162.372.102.422.14ResNet-1012.662.492.612.42表1. ADM比梯度下降（GD）提供更好的网格CRF损失。我们随机选择了1,000个训练样本。标准Boykov-Jolly [4]σ2=1|N|ΣIppq∈N-I q2002.图3.ADM和梯度下降（GD）在Deeplab-MSc-largeFOV上的训练进度我们的ADM为网格CRF损失与α-一般来说，我们对正则化损失的ADM优化是由于网格CRF的推断，比GD慢然而，对于推理算法，例如，α-扩展，不能很容易地并行化，我们利用简单的多核并行化的所有图像在一个批次，以加快训练。请注意，我们在测试期间不使用CRF推断。3.1. 尽量减少亏损在本节中，我们证明了对于网格CRF损失，采用α展开的ADM方法[6]，一种强大的离散优化方法，在找到正则化损失的较低最小值方面优于正则化损失的常见梯度下降方法[32，34选项卡. 图1显示了不同网络架构的训练集和验证集上的网格CRF损失。图图3（a）示出了网格CRF损失随训练迭代次数的演变ADM需要更少的迭代来实现相同的CRF损失。使用ADM方案训练的网络对于训练集和验证集都具有较低的CRF损失。梯度相对于soft-max层的输入的网络是可视化的图。4.第一章显然，我们的ADM方法与网格CRF实施更好的边缘对齐。尽管正则化损失及其优化的公式不同，但（4）或（7）的梯度w.r.t.网络输出Sθ是训练的驱动力。大部在这种情况下，GD仅在当前模型预测边界附近产生显著的梯度值，如图2所示。4（c，d）。如果实际的物体边界足够远，梯度方法由于网格CRF模型的稀疏性而无法检测到它，见图。1为一个说明性的“玩具”的例子。另一方面，ADM方法能够预测良好的潜在分割，允许梯度更有效地导致良好的解决方案，见图。第4段（e）。因此，在网格CRF的上下文中，结合α-展开的ADM方法显示出优化质量的显著改善在下一节中，我们将进一步比较ADM和GD，看看哪种分割效果更好。扩展显著地提高了收敛性并实现了较低的训练损失。例如，ADM的前1,000次迭代给出的网格CRF损耗低于GD3.2. 分割质量不同方法分割的定量测量总结在表1中2、Tab。3 .第三章。报告了各种网络在PASCAL 2012 [12]的val集上的mIOU和分割精度监督是潦草的[23]。弱监督分割的质量受到完全监督的限制，我们对不同弱监督方法的差距感兴趣。基线方法是使用由GrabCut风格的交互式分割生成的具有这种涂鸦的pro-texture来训练网络。除了基线（train w/proposals）之外，这里我们还比较了通过梯度下降或ADM优化的正则化损失的变体。正则化损失由部分交叉熵（pCE）w.r.t. 潦草和网格/密集CRF。其他损失，例如：归一化切割[30，32]可能会给出更好的分割，但重点是比较梯度下降与网格CRF的ADM优化。在测试过程中，对网络的输出应用密集CRF后处理[10]是很常见的然而，为了清楚地比较，我们显示了没有它的结果。如Tab.所示2，所有正则化方法都比仅最小化部分交叉熵的非正则化方法更好。此外，正则化损失方法比基于建议生成的方法好得多，因为错误的建议可能会误导训练。在正则化损失方法中，具有GD的网格CRF表现最差，这是因为在能量最小化的背景下，一阶方法如梯度下降会导致网格CRF的局部最小值较差我们的ADM的网格CRF提供了更好的分割与密集的CRF与GD竞争。替代的基于网格CRF的方法给出了接近于用于10193(a) 输入（b）预测(c)密集GD[34](d)网格GD(e)网格ADM图4.相对于具有密集CRF（c）和网格CRF（d和e用于使用普通随机梯度下降或我们的ADM方案）的deeplab_largeFOV网络的分数的梯度。ADM中的潜在分割与网格CRF损失产生梯度更直接地指向一个好的解决方案（e）。注意，对象边界在（e）中更突出。全面监督。选项卡. 图3示出了对于接近语义边界的像素的不同方法的准确性这种度量反映了边界区域的分割质量。图图5显示了一些定性的分割结果。3.3. 缩短涂鸦根据ScribbleSup [23]中的评估协议，我们还使用缩短的涂鸦测试了我们的正则化损失方法训练。我们按照一定的长度比例在极端的情况下，涂鸦退化为对语义对象的点击。我们感兴趣的是如何弱监督分割方法降级，因为我们减少了涂鸦的长度。我们报告mIOU和像素精度。如图6，我们的ADM在电网CRF损失方面优于所有竞争对手，在电网CRF损失方面比GD提供了更好的mIOU和准确性。随着监管的减弱，ADM比密集CRF更优雅地降级。网格CRF在正则化CNN分割中被忽视，目前由密集CRF作为后处理层或可训练层占主导地位。我们表明，对于弱监督CNN分割，网格CRF作为正则化损失可以提供至少与密集CRF一样好的分割。最小化网格CRF损失的关键是通过ADM而不是梯度下降进行更好的优化。网格CRF损失的这种竞争性结果证实，它作为神经网络训练的损失正则化器被低估了1.一、网格CRF作为损失是否有利于CNN分割还不明显我们表明，直接向梯度下降的网格CRF不工作。我们在优化方面的技术贡献有助于揭示网格CRF相对于密集CRF模型的局限性和优势。较弱的正则化属性，如在第2节中所讨论的。1.1，密集CRF和我们的实验有利于网格CRF正则化相比，密集CRF。10194网络吃饱了。监管不力带建议书的培训pCE损失+密集CRF丢失+电网CRF损失广东[34]GDADM深大视场63.054.855.862.260.461.7Deeplab-MSc-largeFOV64.155.55663.161.262.9Deeplab-VGG1668.859.060.464.463.365.2ResNet-10175.664.069.572.971.772.8表2.弱监督分割结果适用于不同的网络架构选择，正则化损失和通过梯度下降或ADM进行优化。我们在PASCAL 2012的valset上显示mIOU对于网格CRF的不同网络，ADM始终优于GD我们的具有ADM的网格CRF与之前最先进的密集CRF（具有GD）相比具有竞争力[34]。所有像素网络吃饱了。监管不力带建议书的培训pCE损失+密集CRF丢失+电网CRF损失广东[34]GD89.990.592.9ADM90.591.393.4Deeplab-MSc-largeFOV90.986.486.590.6Deeplab-VGG1691.688.688.991.1ResNet-10194.590.29293.1trimap16pixelsDeeplab-MSc-largeFOV80.173.966.777.874.875.680.676.778.182.2Deeplab-VGG1681.975.570.977.8ResNet-10185.778.477.782.0trimap8像素Deeplab-MSc-largeFOV75.069.560.372.568.469.074.671.472.477.0Deeplab-VGG1676.970.464.172.0ResNet-10181.573.871.276.7表3.PASCAL 2012的val集上的逐像素精度前3行：所有像素的精度中间3行：距离语义边界16像素以内的像素的精度底部3行：距离语义边界8个像素以内的像素的精度更接近边界的像素我们的ADM计划改善GD电网CRF损失一致不同的网络。请注意，我们的方法的弱监督几乎与完全监督一样好。4. 结论梯度下降（GD）是训练神经网络的默认方法。通常，损失函数和网络架构的设计是为了服从GD。性能最好的弱监督CNN分割[32，34]通过正则化损失进行训练，这在弱监督深度学习中很常见[38，14]。一般来说，GD允许任何可微正则化子。然而，在浅图像分割中，已知通用GD是标准鲁棒正则化器（的松弛）的次标准优化器，例如，网格CRF。在这里，我们提出了一个通用的分裂技术，ADM，优化正则化损失。它可以利用许多现有的高效正则化求解器已知的浅分割。特别是，对于网格CRF，我们的ADM方法使用α-展开求解器实现了显着更好的优化质量相比，GD。通过这种ADM优化，网格CRF损失的训练在弱监督CNN分割中达到了我们系统地从建模和优化的角度比较网格CRF和密集CRF的损失使用ADM优化，网格CRF损失实现了CNN训练，与密集CRF损失的最佳结果相当。我们的工作表明，在网络训练的背景下，应该更多地关注GD之外的优化方法。一般来说，我们的ADM方法适用于许多正则化损失，只要有相应的正则化器的有效求解器。这项工作的重点是ADM的上下文中常见的成对正则化。有趣的未来工作是研究非高斯成对CRF势和高阶分割正则化的损失e.G. PnPotts模型[19]、曲率[25]和核聚类[30，33]。同样使用ADM框架，我们可以探索除α扩展之外的其他优化方法[17]，用于分割中的各种正则化损失。我们的工作桥接了“浅”分割中的优化方法和深度CNN分割中的损失最小化。10195(a) 输入（b）密集GD（c）网格GD（d）网格ADM(e)地面实况图5.通过正则化损失方法的变体进行的示例分割（Deeplab-MSc-largeFOV）网格CRF的梯度下降（GD）给出了边界对齐不良的分割，尽管网格CRF是正则化损失的一部分ADM网格CRF显着改善边缘对齐，并媲美密集CRF的方法。图6.使用正则化损失方法的变体进行较短涂鸦训练的实验结果结果适用于Deeplab-MSc- largeFOV。我们报告mIOU（左）和像素精度（右）。10196引用[1] A. Blake和A.齐瑟曼。视觉重建。剑桥，1987年。1[2] Endre Boros，PL Hammer和X Sun。网络流与二次伪布尔函数极小化。技术报告，技术报告RRR 17-1991，RUTCOR，1991年。4[3] S.博伊德，N. Parikh，E.楚湾，澳-地Peleato和J. Eckstein通过乘子交替方向法的分布优化和统计学习。Foundations and Trends in Machine Learning，3（1）：1-122，2011。第1、3条[4] 尤里·博伊科夫和玛丽·皮埃尔·乔利。N-D图像中对象最佳边界区域分割的交互式图割。载于ICCV，第一卷，第105-112页，2001年7月。一、二、三、四、五[5] Y. Boykov和V.哥洛夫通过图割计算测地线和极小曲面计算机视觉国际，第一卷，第26-33页，2003年1[6] Yuri Boykov Olga Veksler和Ramin Zabih通过图割的快速IEEE Transactions on Pattern Analysis and MachineIntelligence，23（11）：1222一、二、三、四、五[7] Vicent Caselles Ron Kimmel和Guillermo Sapiro测地线活动等高线。International Journal of Computer Vision，22（1）：61-79，1997。一、二[8] Antonin Chambolle，Daniel Cremers，and Thomas Pock.最小划分的凸方法。 SIAM Journal on ImagingSciences，5（4）：1113-1158，2012。4[9] Antonin Chambolle和Thomas Pock。凸问题的一阶原始-对偶算法及其在图像中的应用Journal of MathematicalImaging and Vision，40（1）：1202[10] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义arXiv：1606.00915，2016。四、五[11] C. 库普里湖格雷迪湖Najman和H.塔伯特电力分水岭：一个统一的基于图的优化框架。IEEE Transactions onPattern Analysis and Machine Intelligence ， 33 （ 7 ）：1384-1399，2011年7月。4[12] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html 啊5[13] S. Geman和D.盖曼随机松弛，吉布斯分布，和贝叶斯恢复的图像。IEEE模式分析和机器智能学报，6：721-741，1984年。1[14] Ian Goodfellow Yoshua Bengio和Aaron Courville深度学习MIT Press，2016. 1、7[15] L Gorelick ， O Veksler ， Y Boykov ， I Ben Ayed 和 ADelong。二元两两能量的局部次模逼近。在计算机视觉和模式识别，2014年。1、4[16] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe：用于快速特征嵌入的卷积架构。第22届ACM国际多媒体会议论文集，第675-678页。ACM，2014年。4[17] Jörg H Kappes ， Bjoern Andres ， Fred A Hamprecht ，Christoph Schnörr，Sebastian Nowozin ，Dhruv Batra，SungwoongKim ， BernhardXKausler ， ThorbenKröger，Jan Lellmann，et al.结构离散能量最小化问题现代推理技术的比较研究。 International Journal ofComputer Vision，115（2）：155-184，2015. 1、7[18] M. Kass，A. Witkin和D.特佐普洛斯Snakes：活动轮廓模型。International Journal of Computer Vision，1（4）：321-331，1988. 1[19] Pushmeet Kohli，Philip HS Torr，等.强大的高阶潜力，加强标签的一致性。International Journal of ComputerVision，82（3）：302-324，2009. 7[20] Alexander Kolesnikov和Christoph H Lampert。种子、展开和约束：弱监督图像分割的三个原则。欧洲计算机视觉会议，第695-711页。施普林格，2016年。1、4[21] 弗拉基米尔·科尔莫戈洛夫。能量最小化的收敛树重加权模式分析和机器智能， IEEE学报， 28 （ 10）：15681、4[22] Philipp Krahenbuhl和Vladlen Koltun。具有高斯边缘势的全连通CRF的高效推理。NIPS，2011年。一、二、四[23] Di Lin，Jifeng Dai，Jiaya Jia，Kaiming He，and Jian Sun.Scribblesup：用于语义分割的Scribble-supervised卷积网络在 Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，pages 3159-3167，2016中。一、四、五、六[24] D. Mumford和J. Shah.分段光滑函数的最佳逼近及相关的变分问题。Comm. Pure应用数学，42：577-685，1989. 1[25] Claudia Nieuwenhuis，Eno Toeppe，Lena Gorelick，OlgaVek- sler，and Yuri Boykov.有效平方曲率。在IEEE计算机视觉和模式识别会议（CVPR）中，2014年6月。7[26] 朱迪亚·珀尔贝叶斯牧师谈推理机：一种分布式的等级方法。加州大学洛杉矶分校工程与应用科学学院认知系统实验室4[27] Thomas Pock，Antonine Chambolle，Daniel Cremers，and Horst Bischof.一种计算最小划分的凸松弛方法。IEEE计算机视觉与模式识别会议（CVPR），2009年。2[28] CarstenRother ， VladimirKolmogorov ， VictorLempitsky，and Martin Szummer.通过扩展的屋顶对偶优化二元MRFs。《计算机视觉与模式识别》，2007。07年CVPR。IEEE会议，第1-8页。IEEE，2007年。4[29] 亚历山大G施温和拉奎尔Urtasun。完全连接的深度结构化网络。arXiv预印本arXiv：1503.02351，2015年。210197[30] Jiibo Shi和Jitendra Malik。标准化切割和图像分割。IEEE传输模式分析马赫内特尔，22：888-905，2000.五、七[31] R. 塞利斯基河 Zabih ， D. 沙尔施泰因岛 Veksler ， V.Kolmogorov，A.Agarwala、M.Tappen，和C.罗瑟基于光滑性先验的马尔可夫随机场能量最小化方法的比较研究。 IEEE transactions on Pattern Analysis and MachineIntelligence，30（6）：1068- 1080，2008。1[32] Meng Tang，Abdelaziz Djelouah，Federico Perazzi，YuriBoykov，and Christopher Schroers.弱监督CNN分割的归一化切损在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。一二四五七[33] 孟唐，Dmitrii Marin，Ismail Ben Ayed和Yuri Boykov。核切割：核和谱聚类满足正则化。国际计算机视觉杂志（IJCV），127（5）：477-511，2019年5月。7[34] 孟唐、费德里科·佩拉齐、阿卜杜拉齐兹·杰卢阿、伊斯梅尔·本·赛义德、克里斯托弗·施罗德和尤里·博伊科夫。关于弱监督CNN分段的正则化损失。在欧洲计算机视觉会议（ECCV），2018。一、二、四、五、六、七[35] Gavin Taylor 、 Ryan Burmeister 、 Zheng Xu 、 BharatSingh、Ankit Patel和Tom Goldstein。训练无梯度的神经网络：可扩展的admm方法。在国际机器学习会议上，第2722-2731页，2016年。1[36] 奥尔加·维克斯勒具有量化边缘的完整CRF的高效图切割优化。 IEEE Transactions on Pattern Analysis andMachineIntelligence（TPAMI），doi10.1109/TPAMI.2019.2906204，2019（已接受）。2[37] Huahua Wang和Arindam Banerjee布雷格曼交替方向乘子法。在Z. Ghahramani，M.威灵角Cortes，N. D. Lawrence和K. Q. Weinberger，编辑，神经信息处理系统进展27，第2816-2824页。Curran Associates，Inc. 2014. 3[38] Jason Weston ， Frédéric Ratle ， Hossein Mobahi ， andRonan Collobert.通过半监督嵌入进行深度学习。《神经网络：交易技巧》，第639Springer，2012. 1、7[39] Jing Yuan，Egil Bae，and Xue-Cheng Tai.连续最大流和最小割方法的研究IEEE计算机视觉与模式识别会议（CVPR），2010年。2[40] 艾伦·尤尔

下载后可阅读完整内容，剩余1页未读，立即下载