加速优化方法在PDE框架中的应用

9 浏览量更新于2023-10-19 收藏 2.39MB PDF 举报

加速优化

参数估计

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12318活动轮廓Anthony Yezzi1岁，Ganesh Sundaramoorthi2岁，MinasBenyamin11佐治亚理工1{ay10，mbenyamin3}@ gatech.edu，2ganesh. gmail.com摘要在Nesterov的开创性工作之后，加速优化方法已被用于在二阶优化策略不适用或不切实际的情况下有力地提高一阶基于梯度的参数估计的性能。迭代梯度下降收敛更快，并通过初始过冲然后振荡回到具有足够大的吸引基以包含过冲的最小值来执行参数空间的更鲁棒的局部搜索最近的工作表明，如何广泛的一类加速计划可以投在变分框架导致连续极限常微分方程的我们将他们的公式扩展到PDE框架，特别是对于连续曲线的无限维流形，将加速度及其增加的鲁棒性引入到广泛的基于PDE的活动轮廓中。1. 介绍加速和随机梯度搜索方法已在机器学习社区中广泛使用[2，3，4，5，6，7，8，9，10，11]。加速梯度下降不仅比传统梯度下降收敛得快得多，而且它还通过初始过冲然后在其稳定到最终配置时振荡回来来执行参数空间的更鲁棒的局部搜索，从而仅选择具有足够大的吸引基以包含初始过冲的然而，到目前为止，加速优化方法已被限制在有限维参数空间的搜索。然而，最近，Wibisono、Wilson和Jordan在[12]中概述了一个变分ODE框架（我们将在第2.4节中简要总结），该框架围绕Bregman发散制定，并产生了一大类加速优化方案的连续极限，包括Nesterov的加速梯度方法[13]，其连续ODE极限也由Su、Boyd和Candes在[14]中我们将这种方法应用于-有限维偏微分方程的框架，通过制定一个广义的时间显式的行动，可以被看作是一个特殊化的布雷格曼拉格朗日在[12]。虽然我们概述的扩展从ODE框架到PDE框架是一般的，足以适用于各种无穷维或分布参数优化问题，本文的重点将是使用活动轮廓优化。活动轮廓和表面（例如，[15，16，17，18，18]）已被广泛用于计算机视觉中的分割和3D密集重建问题曲线或曲面通常通过能量泛函的优化来驱动图像分割，这通常是非凸的无限维问题。由于这种非凸性，传统的活动轮廓模型对图像中的初始化和杂波敏感。在过去的十年中，人们试图通过在放松的指示函数方面制定活动轮廓能量来降低这种敏感性，在某些特定的活动轮廓模型下，活动轮廓能量可以简化为可以有效解决的凸问题[19，20，21，22]虽然这极大地改进了主动轮廓，但是这样的方法不扩展到非凸问题。因此，我们通过构造一个适用于任何非凸主动轮廓模型的通用方法来此外，这些方法在深度学习时代仍然是相关的，因为存在许多问题，其中无法满足当前深度学习系统的大训练集要求迁移学习、微调等）也是不可能的。因此，需要减少训练要求的显式活动轮廓提供了这样的显式模型，可以作为深度学习的补充（见[23，24]）。移动到无限维的加速方法的框架中引入了在有限维中不会出现的额外的数学、数值和计算挑战和技术细节。例如，有限维优化中的演化参数向量可以自然地解释为Rn中具有恒定质量的单个移动粒子，在加速优化中，12319在其发展过程中获得了动力。由于质量是恒定的，并且固定在单个粒子上，因此不需要显式地对其建模。然而，当演化连续曲线、曲面、区域或函数时，加速过程中累积动量的概念要灵活得多，因为相应的概念质量可以以几种不同的方式局部分布在整个域中，这反过来又会显著影响演化动力学。在这第一篇文章中，我们提出了最简单的情况下，质量分布沿曲线具有恒定的密度每单位弧长。因此，总质量不受固定的约束，而是根据轮廓的弧长变化而变化加速偏微分方程模型的离散实现也将大大不同于现有的基于动量的梯度下降方案在有限维。空间和时间步长将根据CFL稳定性条件确定，用于PDE在偏微分方程的框架中，需要粘性解来传播通过在连续锋面演化过程中可能发生的激波和稀疏化，这种现象在有限维情况下表现得不同，因此处理方式也不同因此，这些考虑也将影响加速PDE模型的数值离散化。部分由于这些不同的离散化标准，部分为了避免流形情况下不必要的复杂性，我们将放弃[12]中描述的Bregman拉格朗日量，而是利用更简单的时间显式广义作用量，这将使我们能够直接处理演化实体的连续速度，而不是Bregman散度的有限特别是对于这里考虑的曲线和曲面的情况，这避免了在高度弯曲的无限维流形上计算测地线距离的复杂性，但让我们在切空间中更容易地工作。这项工作提供了一个坚实的理论框架，优化功能定义的轮廓（和表面1），通过将基于公知的Chan-Vese能量[26]的窄带水平集实现[25]，其现在可以用凸方法很好地解决，在应用该相同的加速技术以最小化替代轮廓能量，特别是也不能被简化为凸问题的非凸轮廓能量时，将期望类似的鲁棒性改进最近，我们还将PDE加速引入到流形的优化问题中（图像配准）[27，28]和线性函数空间（去噪和去模糊）[29]。2. 背景和先前工作几十年来，几何偏微分方程在图像分析和计算机视觉中发挥了重要作用。应用范围从低级处理操作，如使用各向异性扩散的去噪、盲反卷积和对比度增强;到中级处理，例如使用活动轮廓和活动表面的分割、图像配准和经由光流的运动估计;到高级处理，例如多视图立体重建、视觉跟踪、SLAM和形状分析。参见，例如，[30，31，32]介绍了20世纪90年代在计算机视觉中已经建立的PDE方法，包括20世纪80年代已经开发的用于形状传播的几种这样的PDE方法已经被公式化，使用变分法[34]作为函数空间中基于梯度下降的优化问题，包括曲线和曲面的几何空间。2.1. 基于偏微分方程的主动轮廓在本文中，几种主动轮廓模型被表示为特定应用的能量泛函E的梯度下降PDE流，该能量泛函E将未知轮廓C与给定的数据测量值相关联。这样的能量泛函被选择为仅取决于轮廓C的几何形状，而不是其参数化。在这些假设下，E的第一个变化将加速优化。我们得到加速优化的轮廓，这需要大量的数学工作（复杂的计算是补充材料）。具有以下形式δE=−C f（δC·N）ds（1）由于这项工作主要是理论上的，我们保持中立的特定选择的活动轮廓功能被最小化。在过去的三十年里，已经提出了大量的基于能量的活动轮廓方法。任何这些模型，其本质上是几何的（即要被最小化的能量取决于轮廓几何形状，而不是其特定的参数或隐式表示）。虽然我们在第4节中的说明性结果[1]虽然我们没有明确地处理曲面的情况，但得到的数学表达式与轮廓的情况相同，除了曲面表示之外，不需要额外的算法工作。其中fN表示在每个轮廓点处沿着单位法线N的扰动场，并且ds表示弧长测度。注意，第一个变分仅取决于允许的轮廓扰动δC的法向分量。f的形式将取决于能量的特定选择。例如，在用于图像分割的流行的Chan-Vese活动轮廓模型[26]中，f可以表示为（I-c1）2-（I-c2）2+ακ，其中I表示给定轮廓点处的图像值，α和ar。长度惩罚权重，κ是给定轮廓点处的曲率，以及c1和c2分别是轮廓内部和外部图像的均值作为替代示例，测地线活动轮廓模型[35，36]将对应于12320t22f=φκN-（φφ·N）N其中φ >0表示被设计为在感兴趣的边界附近小而在其他情况下大的点测量。然而，在所有情况下，下降PDE将具有以下显式形式。C=fN[显式梯度流]（2）普雷特这类轮廓流纯粹在法线方向上演化，可以在水平集框架[33]中通过演化其零水平集表示曲线C的函数来隐式地实现，如下所示∂ψ= −fˆǁ∇ψǁ[隐式水平集流]普雷特其中f（x，t）表示f（s，t）到远离曲线的点的空间扩展。2.2. Sobolev活动轮廓活动轮廓模型最臭名昭著的问题是，正常速度函数f逐点依赖于噪声或纹理数据，导致对演变轮廓的精细尺度传统的解决方法是在能量中加入强正则化项，从而惩罚轮廓中的精细尺度结构。这种能量正则化策略有两个缺点。首先，大多数正则化子通常会导致梯度等值线流中的高阶扩散项，这会对数值离散施加较小的时间步长限制，从而减缓PDE的演化。第二，正则化器，虽然它们有益地迫使噪声和虚假结构的规则性，但也迫使最终收敛轮廓的规则性。因此，它们使得难以捕获诸如尖锐拐角或窄突起/入口的特征。通过使用几何Sobolev梯度[37，38，39]代替传统活动轮廓采用的标准L2 我们将这类活动轮廓称为Sobolev活动轮廓，其演化可以由以下积分PDE描述<$C=（f N）<$K[Sobolev梯度流]（3）普雷特这里，λ表示弧长测度与平滑核K的卷积，以反转线性Sobolev梯度演化行为[40]，使轮廓抵抗局部最小值。然而，虽然Sobolev梯度下降法成功地使活动轮廓或表面抵抗一大类不需要的局部极小值，但它具有沉重的计算成本。线性算子反演带来了显着的每次迭代成本，我们将在进行中的加速PDE演化方案中跨迭代分配。最近的工作[17]试图使用Sobolev梯度的表面使用近似的内核作为一个可分离的内核，但这只是一个近似;我们的方法完全避免了卷积。2.3. 动量和Nesterov加速度如果我们回到有限维的情况，一个替代的和计算上更便宜的方法来正则化任何基于梯度下降的迭代方案是采用动量的使用。在这种方案中，每次更新都是先前更新（动量项）和每一步新计算的梯度这导致在演化过程本身期间计算和累积的梯度信息的时间平均，而不是在每个时间步长期间独立发生的空间平均。因此，它增加了微不足道的每次迭代计算成本，同时显着提高了优化过程的鲁棒性（通常是收敛速度）。动量方法，包括随机变量[8，7]，近年来在机器学习中变得非常流行[10，9，6，5，4，2，11，3]。策略性地动态改变动量项的权重可以进一步提高下降速率。Nesterov在[13]中提出了一个著名的方案，在光滑凸能量函数的情况下，该方案获得了12.4. 加速常微分方程的变分框架最近，Wibisono，Wilson和Jordan [12]基于凸距离母函数h的Breg- man发散性，给出了Nesterov [13]和其他基于动量的梯度格式在Rn中的变分推广D（y，x）=h（y）−h（x）−H（x），y−xH（4）和仔细离散的欧拉-拉格朗日方程的时间积分（演化时间）以下布雷格曼拉格朗日操作符.数值实现不是这样进行的，但表达式给出了如何帮助洞察L（X，V，t）=eΣa（t）+γ（t）D（X+e−a（t） V，X）−eb（t）ΣU（X）Sobolev梯度流（3）涉及通常的梯度流（2）。也就是说，优化过程，而不是能量泛函本身，是通过通过核K对逐点梯度力fN进行平均来正则化的，以产生更平滑其中势能U表示要最小化的成本在欧几里得的情况下，其中D（y，x）=1<$y−x <$2，这简化为轮廓演化这不会改变局部最小值，能量函数的能量，也不施加额外的规则，L=e γ（t）−a（t）1eV−ea（t）+b（t）U（X）收敛时的larity，但会导致动态的粗到细2012年12月22日不12321其中T模拟了Rn中单位质量粒子的动能。Nesterova= logk− logt，b =k logt + logλ，γ =k logt在欧几里德情形下，它产生以下时间显式广义作用量（与经典力学中的时间隐式标准作用量T−U相比[46]）需要通过冲击和稀疏传播，发生在分布式连续前发展。这是我们用更简单的时间显式广义作用量（5）替换[12]中更一般的Bregman-Lagrangian的部分原因，以及这样的选择允许我们直接使用演化实体的连续速度（或在其相关流形的切空间内容易定义的其他广义）而不是有限位移的额外好处。的tk+1，L=K、T −λk2tk−2U（五）Bregman分歧（4）.例如，在k= 2的情况下，这个时间显式作用量的积分的欧拉-拉格朗日方程给出了Nesterov的加速镜像下降的连续极限[45]两者都有[14，4]。3. PDE框架中的加速我们现在开发了一个通用策略，该策略基于第2.4节中回顾的Wibisono、Wilson和Jordan公式[12]的欧几里德情况的调整虽然我们的方法将受到 [12]中围绕Bregman分歧制定的变分ODE框架的激励，但需要解决几个新的问题。例如，有限维优化中的演化参数向量可以自然地解释为Rn中具有恒定质量的单个运动粒子，在加速优化方案中，该粒子在演化过程中获得动量。由于质量是恒定的，并且固定在单个粒子上，因此没有必要对其进行明确建模。然而，当演化连续曲线、曲面、区域或函数时，加速过程中累积动量的概念要灵活得多，因为相应的概念质量可以在整个域中以几种不同的方式局部分布，这反过来又会显著影响演化动力学。在这项工作中，3.1. 一般方法正如在[12]中一样，在连续无限维未知数（无论是函数、曲线、曲面还是非纯映射）上优化的能量泛函E将表示时间显式广义作用量（5）中的势能项U接下来，将制定定制的动能项T，以在最小化过程中纳入注意，正如演化时间t将表示连续梯度下降过程的人工时间参数一样，动能项将与并入加速优化过程中的人工动力学相关联。因此，在分布式未知与真实对象的运动相关联的情况下，可以完全独立于任何潜在的物理动态来根据具体优化问题的几何形状，可以探索几种不同的策略，用于定义动能项，包括用于将人工质量（其分布和其流量）分配给感兴趣的实际未知量的各种方法，以提高优化过程的鲁棒性和速度。一旦动能项被公式化，将使用变分法[34]作为以下时间显式广义作用的欧拉-拉格朗日方程来我们从最简单的分布质量模型开始通过考虑沿着活动轮廓的恒定质量密度（每单位弧长）。这意味着，与有限的二-积分积分tk+1，K、T −λk2tk−2Udt（6）在自然情况下，总质量不一定守恒，而是随着轮廓弧长的变化而变化然而，在所有情况下，这些公式的结果将是一个一阶偏微分方程的耦合系统此外，加速偏微分方程模型的数值离散也将大大不同于现有的动量梯度下降格式在有限维。空间和时间步长将根据CFL稳定性条件确定，用于PDE的有限差分近似在简单的k= 2的情况下，与经典的最小作用量原理运动方程（在拉格朗日量中没有时间显式项）相比，所得到的演化方程是附加的摩擦型项，其摩擦系数与时间成反比地减小。然而，这个附加项对于加速最小化方案是至关重要的。如果没有这样的摩擦项，系统的哈密顿量（总能量T+U）将是守恒的，并且相关的动力学演化将永远不会收敛到一个稳定点。摩擦保证能量的单调耗散，允许演化收敛到零动能和局部最小势能的状态（优化目标）。12322伊什伊什伊什这产生了加速梯度优化的自然物理解释，即质量在重力的拉动下沿着潜在的复杂地形滚动。在梯度下降中，它的质量是无关紧要的，球总是在重力（梯度）的作用下向下滚动。因此，梯度直接调节其速度。在加速的情况下，重力调节其加速度。摩擦力可用于插值这些行为，梯度下降表示[12]中指出的无限摩擦极限。当摩擦有限时，动力学随着时间收敛，为了制定加速的活动轮廓，需要特别是，我们看的一阶和二阶的轮廓的演化行为的局部几何框架的单位切线和单位法向量。设C（p，t）表示一条演化曲线，其中t表示演化参数，p∈[0，1]表示沿每条固定曲线的单位切线、单位法线和曲率将表示为T=C，N，和κ，κ的符号约定和N的方向约定选择为尊重平面Frenet到总能量（动能）的一致单调减少方程组=κN和N= −κT，其中s表示加上势能），而不是像在纯梯度下降与时间相关的弧长参数，其阶次与相对于p，得到参数化速度ε s=εC。∂p¨ ∂p¨加速有两个好处。首先，当-即使梯度非常浅（能量泛函几乎是平坦的），只要梯度方向是自增强的，加速度允许球在其移动时积累速度。因此，球更接近最小值设α和β表示曲线的切向速度和法向速度，C =αT+βN（7）普雷特帧本身可以被示出为如下演变快第二，速度不能像梯度下降那样在一个浅的最小值它的质量使它T.∂β=特鲁什Σ+ ακ N，N=−普雷特.∂β伊什Σ+ακ中文（简体）即使加速度方向在一个浅的最小值附近切换，累积的动量，mentum仍然会在一定的时间内推动它前进对速度分解（7）相对于t求微分，然后进行帧演化（8）替换，得到轮廓允许优化过程向前看以寻找潜在的更深的最小值。2002年Ct2.∂α=普雷特.∂β-β伊什ΣΣ+ακ.∂βT+普雷特.∂β+α伊什ΣΣ+ακN（9）3.2. 加速活动轮廓我们现在说明的步骤，在发展过程中的偏微分方程为基础的加速优化计划的spe，其可以被重写为以下两个标量evolu。切向速度和法向速度的方程。α-α-2-C- β，几何活动轮廓的典型例子。这不仅使我们进入了PDE的无限维框架t=∂βt2 ·T+β2002年Cβ s+ακ∫∂β、、（10）但它也把我们放在一个高度弯曲的流形上，在这个流形中，使用加权t=t2 ·N−αβ s+ακ先前的更新和新计算的梯度的组合不再以这种直接的方式应用前面几节中所有公式的详细推导可以在[1]中找到。更具体地说，在活动轮廓的情况下，梯度（以及任何其他当等高线改变形状时，必须通过适当的平行线将来自先前演化步骤的旧梯度信息重新映射到当前等高线配置我们先取能量，或成本函数E，用于任何期望的新颖或现有的通用电气系统。度量活动轮廓模型，我们将其定义为所选模型的加速版本的势能U。只要这个原始能量泛函只取决于轮廓C的形状（而不是它的参数化），则所得势能的第一个变分将具有如下形式，正如前面在2.1节中所介绍的（1），其中f N表示在轮廓每个点处的后向局部梯度力。曲线流形上的输运过程这将是δU=−f（δC·N）dsC通过耦合PDE公式我们在这一节推导出。此外，所得到的耦合PDE演化将保留基于梯度下降的主动轮廓模型的参数化独立属性，因此将仍然适用于使用水平集方法的隐式实现[33]。几何曲线演化框架我们从一些微分轮廓演化公式开始，为了建立加速演化模型，我们定义了动能，这需要质量和速度的概念。最简单的初始模型是一个恒定的质量密度ρ（沿着轮廓的每单位弧长）和逐点轮廓演化速度2的平方范数的积分。[2]在[47]中，同样的动能模型与更经典的作用量T-U配对用于开发动态测地线蛇模型用于视觉跟踪。12323普雷特第二章2∫T=1ρ.公司简介Σ中文（简体）加速活动轮廓方案的第二个优点是扩散项的消失，2Ct t将其代入广义作用量积分（6）并计算欧拉-拉格朗日方程方程导致我们的加速模型的非线性波动方程的形式。通常由于梯度下降中的弧长正则化而出现在这种情况下，梯度f将包括沿向内法线的曲率力，从而产生几何热流<$C=κN=<$C。在加速情况下，忽略附加的摩擦和运输条款2002年C=λk2tk−2fN-k+1 C在（12）中，我们得到了简单的波动方程2002年Ct22002年C第二章t2v{，}加速度ρv{，}−梯度vt{，t}摩擦相反，（一个更复杂的波动方程与addi-术语）。.2Σ。¨ ¨2Σ（十二）C联系我们正则化扩散项变成- -¨ ¨斯瓦特你好，2英尺v{，}波传播和平流项（实现平行传输）第一项表示在最初选择的梯度下降主动轮廓模型中产生的相同的后向梯度力（现在具有时间和质量相关的缩放因子）。第二项表示不断消耗能量的摩擦力。这使得演化系统的总能量（结合势能加动能）随时间单调下降，这是其收敛的基础。最后，最后两项（底线），完成了演化力随时间的平行传输到不断变化的轮廓形状，从而捕获和映射的演变历史到矢量场沿更新的活动轮廓。耦合偏微分方程系统如果我们从零初速度出发，我们可以把这个二阶非线性偏微分方程分解成下面的一阶非线性偏微分方程的波项在数值上提供了另一个巨大的优势。也就是说，加速轮廓系统（14）的简单显式向前欧拉离散化可以用与网格间距λx成正比的时间步长λt稳定地实现，而在扩散的情况下，稳定的时间步长受到网格间距λx2的平方的约束，使得显式梯度下降PDE方案在高分辨率网格上非常慢。这种显著的离散时间步长改进是加速偏微分方程的一般性质，它来自于对它们的显式前向离散化的我们提供了推导和详细的分析，这一现象在同伴工作[1]的各种不同的显式欧拉离散计划。3.3. 启用选项以实现更高的稳健性局部梯度测量值f随曲线演变的时间积分C =βN，普雷特β=普雷特λk2tk−2F+ρ1β2κ−2K+ 1不β（13）出现在经典的梯度下降对应中。然而，更多的选择，甚至进一步进化的规律性由于轮廓演化仍然是纯几何的（仅在法线方向N上），我们也可以写出隐式水平集耦合PDE系统在加速框架中也得到了促进。Sobolev式梯度平滑∂βˆt=λk2t（k−2） f+·ρ∫，1βˆ2∇ψ−2 ǁ∇ψǁk+1ββ中文（简体）沿着曲线本身的梯度测量可以在-通过在速度演化中添加扩散项来动态地结合（不要与扩散项混淆）。∂ψ=βˆǁ∇ψǁ普雷特曲线演变中的扩散项）如下其中f∈（x，t）和β∈（x，t）表示f的空间扩展加速度联系我们梯度2k−2摩擦联系我们扩散联系我们分别为β。数字优势的显著优点λ k tΔ t=ρ联系我们12f+β κ−2k+ 1β+不∂2βτ（15）第二章耦合PDE系统（14）是窄带电平设置方法，ods可以用于在表示曲线C周围的局部邻域的笛卡尔网格的小子集内同时演化水平集函数β和正常速度函数β（隐含地表示为β的零水平集）。将传统的动量技术推广到笛卡尔网格上的离散区域演化的完全全局方法（例如，Chambolle-Pock）不会产生相同的计算优势。其中τ >0表示可调扩散系数。在演化的早期阶段，大的τ值将优先处理演化等高线的粗尺度变形，随着等高线向稳定状态构形的会聚，越来越多的细尺度变形逐渐折叠。这种由粗到细的行为与Sobolev活动轮廓的事实上，在有限时间内的扩散类似于具有平滑的卷积=}12324普雷特ing核，这确实是一种将Sobolev活动轮廓的速度场与简单梯度场fN相关联的方法。因此，将扩散项结合到加速PDE中是赋予加速活动轮廓附加的从粗到细的Sobolev活动轮廓行为的最接近和最直接的方式，而无需在动能的定义中直接采用Sobolev范数（这将需要在加速流期间的每个时间步长处的完全线性算子反演，就像在实际Sobolev梯度流中一样）。这种增加的扩散项与Sobolev活动轮廓的关键区别在于，沿着轮廓的梯度场的这种平滑因此，如果扩散系数τ足够小以允许具有由其他一阶项规定的相同时间步长的PDE的稳定离散化，则不会产生额外的计算成本。然而，随着扩散系数的增加，由二阶扩散项引起的离散CFL条件将开始在PDE的数值实现中占据主导地位，并且需要越来越小的时间步长。与梯度下降偏微分方程框架不同，加速偏微分方程框架提供了一个数值机会，将随机噪声引入到演化过程中，而不破坏连续性。进化的过程也不是进化的对象。例如，我们可以用随机项替换可选扩散项，如下所示Fig. 1. 不同的初始轮廓流入局部极小值尺寸问题），其提供对局部最小化的增加的抵抗。这样的随机噪声项的潜在益处将是提供第二和独立的机制（在加速度之外）以扰动远离鞍点或浅最小值的优化流参见[48，49]深度学习背景下的PDE随机方法）。4. 说明性结果在本节中，我们将说明将现有活动轮廓模型重新表达为加速框架的性能提升，并将性能与Chambolle-Pock进行比较。由于本文的范围不是发明或提出任何特定的活动轮廓模型，而是一个可以应用于任何变分活动轮廓模型的加速框架，因此我们将保持测试图像的简单性，使得流行的基于二值区域的活动轮廓模型（如Chan-Vese）非常适合分割任务。但我们将证明，这种模式-加速度联系我们梯度摩擦联系我们噪声没有足够的规则性（在这种情况下，弧长β=普雷特λk2tk−2ρ联系我们f+2β2κ− K+ 1不联系我们β+τW（16）惩罚），当被实现为标准梯度下降主动轮廓时，变得倾向于不需要的局部最小化其中W表示从某个分布中抽取的随机样本，τ是正的可调系数（类似于3.3节中的扩散系数）。由于噪音是加上加速度，它在更新的轮廓（或表面）的构造中得到两次积分，因此不会立即干扰连续性，也不会干扰演化变量的一阶可微性因此，速度β以及轮廓的单位法线N（并且因此速度β C）在耦合PDE演化期间保持连续。因此，轮廓保持规则性（至少短期）。另一方面，将随机噪声添加到标准（非加速）梯度下降轮廓PDE从来不是可行的选择，因为直接添加到速度的噪声仅被积分一次，这不保持在演变轮廓的单位法线N这样一来，轮廓立即变得不规则。因此，加速偏微分方程虽然近年来制定了替代性全球战略（例如，Chambolle-Pock）来解决这类特殊的基于二进制区域的活动轮廓的问题，这些策略不能以与这里为更丰富的活动轮廓模型类提出的PDE加速框架相同的通用性来扩展。我们将在这两个说明性示例中看到，简单地应用轮廓加速本身就足以将灵敏度固定到局部最小值，而不需要放弃活动轮廓框架本身而支持不太通用的全局凸优化方法。在图 1 中，我们看到三个不同的初始轮廓位置（上、中、下）通过梯度流PDE（2）从左到右演变。每个被困在一个不同的局部极小值由于噪声，所有这些谎言非常远离所需的更深的极小沿矩形边界。当然，可以将更强的正则化项添加到活动轮廓能量泛函中，以在轮廓上施加平滑度，从而使其具有抵抗力。112325图二. 加速活动轮廓流到相似的结果对噪音敏感。然而，这个实验的重点是创造一个散布着成千上万（甚至几十万）局部极小化的能量景观，以证明加速的影响。此外，更强的正则化将牺牲捕获矩形的尖角的能力，并且由于PDE离散化中的较小的所得步长约束而增加计算成本我们通过在加速PDE系统中使用完全相同的主动轮廓力f来避免这两种牺牲(13)而不是.在图2中，我们看到了应用加速轮廓演化方案的效果，该方案具有相同的初始轮廓放置和相同的能量泛函（没有额外的正则化项）。在所有三种情况下，加速PDE系统将轮廓推过噪声，使其沿着矩形边缘朝向更鲁棒的最小值。在图3中，我们在一个真实的地震图像上看到了同样巨大的差异，我们试图使用活动轮廓来提取记录的地震仪线的相当嘈杂的沿着左列，我们看到四个不同的初始轮廓放置，其中前三个椭圆初始化，这是远离所需的分割结果，对经典的梯度下降主动轮廓构成了相当大的挑战。考虑到信号的尖峰性质，这里允许最小正则化，至少在我们希望捕获这种精细尺度细节水平的情况下。在中间一栏中，我们看到了基于（2）给出的演化只有在最后一种（底部）情况下，分割结果才是合理的。在最后一列中，我们看到使用加速偏微分方程系统（13）演化的相同活动轮廓能量E和力f的收敛结果。虽然在最终结果中存在非常细微的差异（可以通过收敛能量值的细微差异看出），但即使从前三个具有挑战性的初始轮廓放置来看，所有四个都是合理的在表1中，我们将我们的方法活动轮廓（AC）与全局凸Chambolle/Pock（CP）[20]进行了比较，并发现与全局方法相比，对局部最小值/初始化具有可比的鲁棒性，但具有显着的计算节省。我们选择的规则，使标准的活动轮廓，图三. 非加速（中间）与地震仪图像上相同的四个初始化（左）的加速（右）活动轮廓结果。下面的成本函数值表1：[左]：PDE加速（AC）在较低的计算时间内提供了与全局凸Chambolle/Pock（CP）相当的初始化鲁棒性水平。[右]：CP AC中能量差异最大的结果的目视比较显示，能量差异几乎不可察觉。在多个不同的初始化过程中趋于局部最小值（而不是全局最小值），因此需要更好的方法来优化能量。还考虑到CP的性能来选择规则性以用于比较，因为CP也需要足够高的规则性（尽管低于标准活动轮廓）来分割区域。我们运行每个AC和CP以收敛并测量计算时间，以及3个初始化的最终能量（在所需分割内并靠近所需分割的正方形-近正方形，远离所需分割的正方形-远正方形，以及图像的阈值- Theshold Mask）和4种不同的图像分辨率。还示出了分辨率为1120 x 1120的按比例缩小的噪声二进制正方形图像以及所得到的分割。结果参见表1. 这种比较表明，我们的方法始终获得可比的局部最优在不同的初始化，类似于CP，但具有更少的计算时间。此外，我们的方法更普遍地适用于非凸问题，在这种情况下，我们期望在我们的方法中具有类似的鲁棒性，并且CP不适用。引用[1] A. J. Yezzi和G. Sundaramoorthi，12326活动轮廓病例，[2] I. Mukherjee，K.卡尼尼河Frongillo和Y. Singer，Blockeel，K. Kersting，S. Nijssen和F. Zelezny，eds.），pp. 17[3] H. Li和Z.林，科尔特斯N. D. Lawrence ， D.D. 李， M 。 Sugiyama 和R.Garnett ， eds. ）， pp. 379-387 ， CurranAssociates，Inc.，2015.[4] W. Krichene，A. Bayen和P. L. Bartlett，Cortes，N.D. Lawrence，D. D. 李，M. Sugiyama 和 R. Garnett ， eds. ）， pp. 2845-2853，Curran Associates，Inc.，2015年。[5] V. Jojic，S. Gould和D. Koller，503[6] S. Ji和J. Ye，457[7] C.胡， W.Pan 和 J.T.Kwok ， Bengio 、D.Schuurmans，J.D. 拉弗蒂C. K. I. Williams和A. Culotta，eds.），pp. 781-789，Curran Associates，Inc.，2009年[8] S. Ghadimi和G.林明，“非凸非线性随机规划的加速梯度法”，数学程序。，第156卷，第156号。第1-2页。59-99，2016.[9] N. Flammarion和F. Bach，658-695，2015。[10] S. Bubeck，Y. T. Lee和M. Singh，[11] B. O'Donoghue和E. Cand e`s，“Adapt i v e restartfor accelerated gradient schemes，”Foundations ofComputational Mechanics，vol. 15，no.第3 页。715-732，2015。[12] A. Wibisono，A.C. Wilson和M.I. Jordan，[13] Y. Nesterov，372-376，1983年。[14] W. Su，S. Boyd和E. Cand e`s，“用于模拟nesterov加速梯度法的微分方程：理论和见解，”在神经信息处理系统的进展，第。2510-2518，2014。[15] Y. 赵、L. 拉达K. 陈先生，S. P. Harding，以及Y. Zheng，1797[16] D. Bryner和A. Srivastava，312[17] M.斯拉夫切瓦湾Baust和S. Ilic，“Sobolevfusion：经历自由非刚性运动的场景的3D重建，“在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[18] X. Sun，N.- M. Cheung，H. Yao和Y. Guo，5495[19] T. F.陈，S. Esedoglu和M. Nikolova，“Algo- rithmsfor finding global minimizers of image segmentationand noising models” ， SIAM journal on appliedmathematics ，vol. 66 ， no.第 5页。 1632-1648，2006年。[20] A. Chambolle和T. Pock，“A first-order primal-dualalgorithm for convex problems with applications toimaging” ， Journal of mathematical imaging andvision，vol. 40，no.第1页。12012327[21] T. Goldstein，X. Bresson和S. Osher，“分裂布雷格曼方法的几何应用： segmenta- tion and surfacereconstruction”，Journal of Scientific Computing，vol.45，no. 1-3，pp. 272[22] T. Pock ， A. Chambolle ， D. Cremers 和 H.Bischof，810[23] N. Khan和G. Sundaramoorthi，666[24] W. Liu，Y. Song，D. Chen，Y. Yu，S.他和R. W.Lau，[25] D. Adalsteinsson和J. Sethian，“传播界面的快速水平集方法”，Journal Computational Physics，第118卷，第118号。第2页。269[26] T. Chan 和 L.Vese ， “Active contours withoutedges”，IEEE Transactions on Image Processing，vol.10，no.第2页。266[27] G. Sundaramoorthi和A. Yezzi，Bengio，H. 瓦拉赫H. 拉罗谢尔湾格劳曼塞萨-比安奇，R. Garnett ， eds. ）， pp. 3793-3803 ， CurranAssociates，Inc.，2018年。[28] G. Sundaramoorthi和A. J. Yezzi，“在pde框架中的并行优化： Formula- tions for the manifold ofmomorphisms，”arXiv，vol. 1804.02307，2018.[29] M. Benjamin，J.Calder，G.Sundaramoorthi和A.J.Yezzi，1810.00410，2018年。[30] J. Sethian，水平集方法：在几何学、流体力学、计算机视觉和材料科学中不断发展的界面。剑桥大学出版社，1996年。[31] G. Sapiro，几何偏微分方程和图像分析。剑桥出版社，英国剑桥，2000年。[32] S. Osher和N. Paragios，几何水平集方法在成像，视觉和图形。Springer，New York，2003.[33] S. Osher和J. Sethian，“具有曲率依赖速度的波前传播：基于汉密尔顿-雅可比公式的算法，”计算物理学杂志，第79卷，第100页。1988年12[34] J. L. 变分计算与最优控制。Springer-Verlag，纽约，1996年。[35] 诉卡塞勒河Kimmel和G.Sapiro，“测地线活动轮廓”，国际计算机视觉杂志，第22卷，第103 - 104号。第1页。61[36] S. Kichenassamy ， A. Kumar ， P. Olver ， A.Tannen-baum和A. Yezzi，“共形曲率流：从阶段转换到主动视觉，”理性力学与分析档案，第134卷，第134页。275[37] G. 沙尔皮亚河 Keriven ， J. Pons ， and O.Faugeras，[38] G. Sundaramoorthi，A. Yezzi和A. Mennucci，345[39] G. Sundaramoorthi，A. Yezzi和A. Mennucci，号30第5页。851[40] Y. Yang和G.Sundaramoorthi，[41] Y. Nesterov，凸优化入门讲座：基础课程。施普林格出版公司，第1版，2014年[42] Y. Nesterov，“梯度法最小化复合函数”，数学程序。，第140卷，没有。第1页。125[43] Y. Nesterov，“加速牛顿法在凸问题上的三次正则化”，数学程序。，第112卷，第112号。第1页。159[44] Y. Nesterov和B. T.李明，“牛顿法的三次正则化及其全局性能”，数学程序。，第108卷，第108号。第1页。177[45] Y. Nesterov，“非光滑函数的光滑最小化”，数学程序。，第103卷，第103号。第1页。12712328[46] H.戈尔茨坦角Poole和J

下载后可阅读完整内容，剩余1页未读，立即下载