数据驱动能量最小化方法的参数优化

100 浏览量更新于2023-10-13 收藏 641KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10262数据驱动能量最小化方法的参数优化乔纳斯·盖平锡根大学电子工程与计算机科学系{jonas.geiping，michael.moeller}@ uni-siegen.de摘要能量最小化方法是众多计算机视觉应用中的经典工具。虽然它们是可解释的和充分研究的，但它们的规律性假设很难手工设计另一方面，深度学习技术是纯数据驱动的，通常提供出色的结果，但很难约束到预定义的物理或安全关键模型。这两种方法之间的可能组合是设计参数能量并以能量的最小化器对应于一组训练示例上的期望解的不幸的是，这样的公式通常导致双层优化问题，在该双层优化问题上，常见的优化算法难以缩放到数据处理和效率的现代要求。在这项工作中，我们提出了一种新的策略来优化这些双层问题。我们调查代理单级问题，优化的目标问题，可以实现与现有的工具，导致高效的算法，而不会崩溃的能量函数。这种策略框架为从大数据中训练参数化能量最小化模型提供了新的途径。1. 介绍能量最小化方法，也称为变分方法，是计算机视觉中的经典工具[74，14，27，12]。其思想是定义一个依赖于数据的成本函数E，为每个候选解决方案分配一个值X.期望的最优解于是是具有最低能量值的目标解。这种方法有几个优点，首先，它的特点是一个明确的模型- 即要最小化的能量函数以及隐式推理方法如何计算该能量的最小值是一个单独的问题。这种二元性允许富有成效的分析，导致可控的方法与prov- able保证是至关重要的，在许多关键appli-阳离子[71，69，88]。此外，当该方法应用于相关任务时，模型结构的明确知识允许进行可解释和清晰的修改[22]。相反，深度学习方法[53]，特别是深度前馈神经网络的工作原理非常不同。深度学习的方法论以隐式模型和显式推理为特征。手头的问题的解决方案直接由学习前馈结构的输出给出。这在实践中是有利的，并且对于神经网络的有效训练是至关重要的，然而问题结构的底层模型现在仅隐含地包含在网络的响应中。深度神经网络已经从根本上改变了各种计算机视觉应用中的现有技术，这是由于这些属性，因为推理操作是直接从大量训练数据中学习的。这些方法能够学习表达和令人信服的机制，其示例不仅可以在识别任务中找到（例如，识别任务）。[49]），但也可以用于去噪[89]、光流[63，43]或分割任务[57，72，17]。然而，由于底层模型仅被隐式地定义并且“隐藏”在网络结构中，因此难以针对其他领域中的域自适应仍然是一个活跃的研究领域，并且例如在医学成像[3，33]中的几个示例已经证明了对可能基于模型的物理上合理的这个问题在对抗性例子的现象中得到了最明显的证明[79] -输入数据的存在，当通过网络输入时，会导致高度错误的解决方案。虽然人们会认为这种行为在识别任务中可能是不可避免的[77，64]，但它不应该是低级计算机视觉应用中的一个因素。回顾这两种方法，我们当然更希望两者都是最好的。我们希望在许多任务中使用我们所掌握的大量数据和我们深远的领域知识来训练具有大量自由参数的显式模型，以便它们的最优解类似于直接训练的前馈网络。参数化能量最小化方法是这种基于学习和基于模型的方法相结合的一个有前途的候选方法。这种方法的思想是10263我我定义依赖于候选解的能量Ex、输入数据y和参数θ，E：Rn×Rm×Rs→R，（一）（x，y，θ）→E（x，y，θ），使得对于参数θ的良好选择，使所有x上的能量最小化的自变量x（θ）= arg minxE（x，y，θ）尽可能接近所需的真解x∈ N。为了训练这样的参数能量，假设我们被给定N个训练样本{（xi，yi）}N一个持续的高-方法直接区分较高级别的损失函数关于最小化参数，并在该梯度的方向下降图像处理中的示例的不完整列表是[11，22，20，21，28，29，36，40，41]。这种策略要求高层次和低层次的问题都是光滑的，并且最小化映射是可逆的。这通常通过隐式微分来促进，如[75，50，21，22]中所讨论的。在更一般的情况下，直接最小化θ而不假设E中的光滑性的问题导致具有平衡约束的优化问题我水平损失函数l：Rni=1×Rn→R，它测量（MPEC），参见[7]关于机器学习的讨论模型的解与给定训练样本的偏差确定最优参数θ然后是结合较高级别损失函数和较低级别能量两者的双层优化问题ΣN或[31，30，32]和[26]。这种方法也适用于[2]的优化层，其很好地将其自身重新表述为双层优化问题。展开是跨领域应用的双层优化中的一个重要策略。MRF文献[4，62]在深度学习[90，18，15，56]和变分设置中minθ∈Rsi=1l（x，xi（θ）），（2）[66、52、51、38、39、68]。通过选择优化算法，将问题转化为单级问题服从xi（θ）= arg min E（x，yi，θ）。（三）x∈Rn传统的一阶学习方法难以应用在这种情况下。对于每个梯度计算，有必要计算较低级别问题的arg min运算的导数，如果我们考虑参数化的非光滑能量模型，则这甚至进一步复杂化。在固定次数的迭代之后产生较低级别问题的近似解的算法Ax（θ）则由A（y，θ）代替。自动微分[37]允许有效地评估上层损失w.r.t到这个简化目标的梯度ΣN在计算机视觉中广泛传播的ELS [27，12]。因此，本文的目标是分析双层minθi=1l（xi，A（yi，θ））.（四）优化问题，并确定策略，允许有效的近似解决方案。我们调查单级最小化问题与简单的限制，二阶微分，这是适用于甚至非光滑的能源。这样的形式允许将计算机视觉中的能量最小化方法的先前有限的训练缩放到更大的数据集，并且增加在解决方案遵循特定模型结构是关键的应用中的有效性。在本文的剩余部分，我们分析了双层优化问题，以严格理解连续损失函数l和凸的、非光滑的较低层能量E的单层代理策略成功的充分条件。我们引入了参数优化函数的概念，显示关系到结构化的支持向量机，并提供了几个层次的参数优化函数的精确度和计算工作量的变化水平我们将近似扩展到迭代方案，允许重复评估近似，然后说明计算机视觉应用中提出的策略。2. 相关工作优化双层问题的直接方法是考虑直接下降法[48，76，26]。这些通常，这些策略在实践中非常成功，因为它们将模型及其优化方法组合成单个前馈过程，其中模型再次仅隐含地存在。后来的工作[23，19，38，39]允许较低级别的参数在固定的迭代次数之间变化，导致模型微分方程的结构，并进一步偏离底层模型。正如[46]中所指出的，这些策略更适合被认为是一组嵌套的二次低级问题。在结构化支持向量机（SSVM）[82，24，1，85]领域已经开发了几种技术，这些技术与学习能量模型的任务非常相关，因为SSVM可以被理解为具有在θ中线性的较低水平能量并且通常具有非连续的较高水平损失的双层问题。存在各种策略，如margin resscaling[82] ， slack resscaling [85 ， 87] ， softmax- margins[35]，最近也被应用于[47，25]中的计算机视觉模型的训练，我们稍后将返回到它们与所研究策略的联系3. 双层次学习我们现在将学习问题形式化我们假设来自（1）的低能级能量E在其第一个变量x∈Rn中是凸的（但不一定是光滑的），并且依赖于102642E我22M我我我我ΣiiΣθEE在输入数据y∈Rm和参数θ∈Rs上连续地进行。我们假设它的极小值x（θ）是唯一的。对于我们的高级损失函数（2）l：Rn×Rn→R，我们假设它满足l（x，y）≥0，l（x，x）= 0，并且在它的第二个参数中是可微的。请注意，这种双层优化问题的公式化通过二次能量E（x，yi，θ）= 1直接将经典的监督（深度）学习推广到网络N（θ，y）||x−N（θ，y i）||2，其中xi（θ）=N（θ，yi）.凸分析（Convex Analysis）：让我们总结我们的符号和一些基本结果凸分析。我们建议读者参考[5]以了解更多细节。我们定义凸函数E在x处的次梯度集为：E （ x ） . 我们定义两个向量之间关于凸函数 E 的Bregman距离为Dp（x，y）=E（x）−E（y）−P，x−yP，对于次梯度p∈E（y），直观地Bregman距离度量x处的能量与其在y附近的线性下界之差。这种思路与支持向量机方法[86]中的可分性概念密切相关，其中假设给定的训练样本是线性可分的，这相当于假设训练集上的然而，最小化Eq.（6）往往不是一个好的选择。一个简单的例子是E（x，y，θ）=（θx-y）2，即我们可以模拟：ply试图学习x和y之间的一个正比例因子θΣ。问题（5）可以写成minθi（θ2x<$−θyi）2并且通过θ= 0平凡地最小化。这样的解使得E独立于x，使得每个x成为极小元。这种现象在机器学习文献中被称为能量函数的崩溃[55，54]，显然不是学习缩放因子的好策略。有趣的是，如果我们需要，缩放问题可以重新表述为一个合理的（非崩溃）问题。（6）优化二层问题：如果我们考虑高阶损失函数l（x*，xi（θ））=（x*− xi（θ））2，2∗ 2那么我们的代理问题i（θxi-θyi）显然不是E（p）= supx p，x−E（x）是E的凸共轭。x是能量E的极小元当且仅当0∈E（x）或者等价地通过凸对偶x∈<$E <$（0）。E是m-任意θ的优化器。然而，如果我们考虑能量的重新计算为E（x）=（x−1y）2，那么这个公式∗12pm2公式导致优化代理i（xi−θy i）。强凸若D E（x，y）≥2||x−y||对于所有x，y。相反，如果E是m-强凸的，则E是1-强平滑，即 D E*（p，q）≤||p−q||. 此外最小化θ现在导致学习所需的缩放因子。我们的玩具例子激励我们将概念形式化Dp（x，y）=DxM（p，q），q∈E（x）对所有Bregman优化代理人：距离[9]。我们考虑参数化能量在几个变量，但我们总是假设（子）梯度，Bregman距离和凸共轭是关于第一个参数x。3.1. 双水平问题如前所述，直接求解方程中提出的双层问题。（2）和（3）是棘手的。我们需要隐式地对所有N个样本的最小化参数xi（θ）进行微分，以便在θ中应用一阶方法，这与我们找到有效和可扩展算法的目标形成鲜明对比。让我们从一个非常不同的角度来看待这个问题，并接受损失函数l对我们来说实际上是次要的这一想法。我们真的只想找到参数θ，以便我们的训练样本很好地重新构造，x<$$>xi（θ）。如果我们假设我们的最优参数θ*的损失值为零，则平均-定义1（参数化优化器）。给定一个高层损失l（x，y）和低层能量E（x，y，θ）的双层优化问题，我们称函数S（x，y，θ）：Rn×Rm×Rs→R为参数化优化器，如果l（x，x（θ））≤S（x，y，θ）θ∈Rs ss. t.l（x，x（θ））= 0 =⇒ S（x，y，θ）= 0对任意x，y∈Rn×Rm成立。这一定义使我们能够进一步正式确定我们的目标。我们研究用一个合适的参数化优化器的最小化来代替双层优化问题（2），（3），即。ΣN我们的能量最小化者完全能够重新-构造我们的训练样本，那么双层问题就是简化为一个单级问题，插入x*=xi（θ*）：minθ∈Rsi=1S（x∈，yi，θ）.（七）minθ我S.T. 0∈E（x*，yi，θ），（5）定义1的直接结论是，函数S现在证明我们的进展为S（x，y，θ）= 0蕴涵l（x，x（θ））= 0。另外，我们的目标是选择majoriz-我们可以通过ΣNersS以这样的方式产生单级问题（7），这意味着没有必要区分arg minminθi=1||2 s. t.||2s.t.qi∈E（x*，yi，θ）（6）操作以最小化它们或解决同样困难重新表述，使它们更容易解决。10265我2M我我我我我12Eθ3.2. 单级优化器找到满足先前假设的性质的优化子的一种可能的方式是通过考虑通过较低能级能量的Bregman距离自然诱导的优化子。我们假设以下条件l（x，z）≤DEθ（x，z）其中，x∈Rn，θ ∈Rs，（8）这个代理函数已经比原始的双层问题。我们可以通过以下方式使（10）最小化：提出了代理问题ΣN交替θ的最小化和x的最大化，或联合优化两个变量。然而，该问题仍然被设置为鞍点问题，这对于minθi=1DEθ （x*，x i（θ））。（九）优化.条件（8）是关于损失函数和能量两者的假设。因此，它描绘了可以用这种优化策略攻击的双层问题的类。然而，这种情况是相当普遍的。对于一大类损失函数，我们只需要能量包含一个也能导出损失函数的项，这个性质也被称为（相对）强凸性[84，58]：1.提案如果损失函数l（x，y）是由严格凸函数w：Rn→R诱导的Bregman距离，即l（x，y）= Dw（x，y），则如果能量E是w-强凸的，则满足假设（8），即如果E（x）-w（x）仍然是凸函数。公式：我们将E写为E（x）=E（x）+w（x），并应用Bregman距离的加性可分性来找到DE（x，y）=DE（x，y）+Dw（x，y），其大于或等于Dw（x，y），因为DE（x，y）是非线性的，这是由于备注。有趣的是，这种歧视性的提法是并不完全陌生。我们可以将其理解为广义感知器训练的适当推广[55，54，80]，如早在[73]中所讨论的那样。更多详情见附录在该比较的脉络中，来自例如以下的条件1和2[55]，即最优解和（S）SVM方法[86，81，83]的中心的其他候选解之间存在裕度的条件反映在凸连续设置中的命题1由于能量和损失函数的连续性，我们不能服从固定的裕度，但是当我们远离最优解时，我们强制能量至少与损失函数一样快地增长我们可以通过从对偶的角度分析代理（9）来解决鞍点问题，如Bregman对偶[8]0 *x*D（x，xi（θ））=Di（0，qi）（11）E的凸性对于通常的欧几里得损失，这个性质简化为强凸性：例1. 如果损失函数由平方欧氏损失给出，l（x，y）=1||x−y||2且能量是m-强凸的，则对于能量1 E满足假设（8）。问题仍然是所提出的替代问题（9）是否有效地可解。我们特别想避开x（θ）的微分。然而Eθi对于qi∈E（x∈，y，θ）.对比这个公式与我们的初始目标惩罚的次梯度方程。由公式（6）可知，由E*导出的Bregman距离是惩罚次梯度的自然我们可以通过应用Fenchel定理进一步简化对偶公式∗x∗∗ ∗DE（xi，xi（θ））比D E（xi）更容易求解Di（0，qi）=E（x，yi，θ）+E我（0，yi，θ）。（十二）∗原始的双层问题，正如我们可以看到，在其原始θ及其对偶公式。首先，从原始的角度来看，我们有DE（x∈，xi（θ））=E（x*，yi，θ）−E（xi（θ），yi，θ）−∠pi，x*−xi（θ）∠，对于某个次梯度pi∈E（xi（θ）），我们还没有给出它的定义.但是，由于0∈E（xi（θ）），因为xi（θ）被定义为低层问题的解，我们可以取p= 0并简化为E（x*，yi，θ）− E（x i（θ），yi，θ）.计算E*（0）与最小化E（如E（0）= minxE（x）），所以我们需要以一种易于处理的方式重写这个代理。为此，我们假设E可以是相加分解成两部分，E（x，y，θ）=E1（x，y，θ）+E2（x，y，θ），（13）其中E1和E2在它们的第一个参数中都是凸的，并且它们的凸共轭很容易计算。利用E（0）= minzE（−z）+E（z）得到xiDi（0，qi）= minE（x，yi，θ）+E∗（−z，y，θ）+E（z，y，θ）。Bregman代理人：D0Eθi（x，x i（θ））= max E（x，y i，θ）− E（x，y i，θ）.x∈Rn我（十）EE10266现在xi（θ）只包含在E中，我们可以写θz∈Rni12（十四）10267*x我与等式（10）中的原始公式相比，我们现在将问题从鞍点问题（θ最小化和x最大化）重新公式化为更容易处理的纯最小化问题这是在SSVM的线性上下文中讨论的对偶公式的概括，例如[81，83]。然而，对于这两种变体，我们仍然需要处理辅助变量。我们可以通过对等式中的z进行特定选择来将这种计算效果中的一些（14）。为了阐明这些选择，我们介绍函数 WE （ p ， x ） =E<$ （ p ） +E （ x ） − <$p ，x<$[67，10]，其中0.20.150.10.05允许我们编写x*Di（0，q）= minW（−z，x*）+W（z，x*）。（十五）01 1.2 1.4 1.6 1.8 2∗θz∈RnE1，θiE2，θ iϑ注意，如果p∈E（x），则WE（p，x）= 0。这样的选择-z∈E1（x*）或z∈E2（x*）允许我们模拟-图1.二水平问题的代理函数的可视化i ilem在Eq.（十八）、蓝线标志着原来的双层把问题进一步放大。这是特别有吸引力的，如果E是可微的，因为这样两个代理都可以在没有辅助变量的情况下计算。我们将这些表示为部分代理，因为我们仅最小化（15）中的一项。部分替代：z∈E2（x*，yi，θ）最小WE1，θ （− z，x）。∗我（十六）我有效地，这减少了（14）的要求，因为仅需要计算E1的凸共辄通过对称性，另一部分替代物类似地遵循。我们最后也可以回到前面讨论的梯度惩罚（6）。如果我们的能量E是m（θ，y）-强凸的，则它的凸共轭是强光滑的，并且我们可以通过下式来约束对偶公式（11）：问题，绿点标记Bregman距离代理讨论方程中。（十）、橙色曲线标记了部分替代项从（15）通过插入z=E1（x）获得，而纯线标记了另一个部分替代项（16），它是等价的这里的梯度惩罚（17）Bregman代理（10）优化了原始损失函数，并进而被部分代理优化（16），其在强凸性的假设下通过梯度惩罚（17）优化。证据见附录二作为一个明确的例子，我们可以在可微设置中简化这些优化器：示例2（可微分能量）。设E是可微的，m（θ，y）是强凸的，则Prop. 2由下式给出l（x，x（θ））≤DE（x，xi（θ））=DE（0，E（x，yi，θ））iθiθi≤WE（−E2（x*），x*）1i i虽然这个公式允许我们在没有辅助变量的情况下最小化双层问题或者说，知识或知识，都是一个人的智慧，一个人的智慧。≤1||E（x*，y，θ）||二、m（θ，y）i i3.3. 中场休息：一维示例1 2在所考虑的代理之间的过度近似作为下面的命题说明。命题2（参数优化器的排序）。由方程（1），（2），（3），（4），（5），（6），（7），（8），（9），（10），（11），（12），（13），（14），（12），（13），（14），（15），（16），（17），（18），（19 （8）我们发现让我们用一个玩具的例子来说明我们的讨论。我们考虑在双层问题中学习最佳稀疏参数θ1所提出的参数优化器可以按以下顺序排列：以下方式：minθ∈R2 |第二章，（十八）|2,(18)l（x≠，x（θ））≤D0∗（x，xi（θ））=Di（0，qi）E服从x（θ）= arg min 1 |x −y|22+θ|X|.（十九）i Eθi梯度惩罚1m（θ，||Q||2我S.T. q i∈E（x*，y，θ）.我我（十七）不LE₂替代物来损失n代用笔/Partiaurrogate to E原始前囟梯度部分S能量值E10268我≤min∗θWE（−z，x*）X由于低层能量是1-强凸的，而上-z∈<$E（x<$）1ii每级损失是二次的l（x，y）≤DE（x，y）成立。去-≤1m（θ，y）||2 s. t.||2s.t.QI∈E（x*，y，θ）.在附录中可以找到本例的所有三个代理函数的尾导数图1显示了2θ10269我我我我我我我我我我这些替代物，绘制它们相对于θ的能量值。由于问题的低维性，所有替代函数在θ的最优值处与原始损失函数一致。更有趣的是，由于该示例的低维度，Bregman代理与最优值附近的原始损失函数完全相同3.4. 迭代优化器我们使用第3.2小节来构造一系列上证据见附录二然而，该算法不能直接应用，因为我们仍然需要对出现在线性化部分中的xi（θ）进行微分。然而，我们可以使用Fenchel不等式 < p ， x < ≤ E （ x ） + E* （ p ）和之前建立的设DEθ（x，x（θ））=E（x，y，θ）−E（x（θ），y，θ）来求一个过逼近Prop. 第四章：l（x*，xi（θ））≤l（x*，x¯i）−∠l（x*，x¯i），x¯i∠有助于在效率和ex-i之间进行权衡的界限演技然而，如果我们对布雷格曼替代物的精确性不满意，会发生什么呢？此设置特别是当x*和x（θ）是显著不相容的并且随后l（x*，x（θ））很大时，甚至对于最优θ也是如此。例如，如果我们只优化几个超参数，我们可能根本不期望x（θ）接近x*。该讨论可以再次与SVM方法中的“可分性”的概念相关联然而，我们可以迭代地使用先前引入的majorizer 要做到这一点，我们需要开发一个取决于g iv en估计x¯的优化器。3号提案在l（x，y）≤DEθ（x，y）（8）的长期假设下，如果损失函数由严格凸函数w：Rn→R导出，即l（x，y）=Dw（y，x），我们有以下不等式：+E*（l（x*，x¯i），yi，θ）+E（xi（θ），yi，θ）+E（x¯i，yi，θ）−E（xi（θ），yi，θ）=l（x*，x¯i）−l（x*，x¯i），x¯i+E（x¯i，yi，θ）+E*（l（x*，x¯i），yi，θ）这个估计表明，我们可以近似迭代优化器，就像前面讨论的代理一样：迭代的替代E（x<$i，y，θ）+E（l（x<$i，x<$i），yi，θ）+C，我（二十二）由于常数C=l（x，x<$i）−l（x，x<$i），x<$i不依赖于θ。我们基本上回到Eq。（12）并且只有E和E*的输入相对于x′i 变化。此策略恢复前一个优化器作为特殊情况：推论1. 如果我们围绕x<$i= x<$i线性化，那么我们重新覆盖了（9）的布雷格曼替代。l（x，y）≤l（x，z）+ ∠zl（x，z），y−z∠+ D E（z，y）. （二十）Pr oof. 如果x<$=x<$，则l（x<$，x<$）=0，并且l（x<$，x<$）=0我我证据它认为l（x，y）=Dw（y，x）是等价的通过Bregman三点不等式[16，84]得到D w（y，z）+D w（z，x）− w（x）−w（z），z − y。使用常设假设和w（x）−w（z）=xD w（x，z），我们发现建议的不等式。假设我们给出了一个估计的解x¯i，那么我们可以使用这个估计将我们的界改写为l（x*，x（θ））≤l（x*，x¯）+l（x*，x¯），x（θ）−x¯由可微损失函数的性质因此，常数项C为零，并且E（l（x，x<$i），yi，θ）=E（0，yi，θ），因此我们恢复了（12），它等价于Bregman替代项（9）。我们可以使用这个代理来形成一个有效的近似，一个经典的优化最小化策略[78，60，59，42]。值得注意的是，过近似违反了优化的“紧密性”，即，将θ k代入我我我我我我我（二十一）优化器不恢复l（x∈ k，x（θk））。我们迭代+DE（x<$i，xi（θ））.这是参数优化的线性化变体我我ΣNΣ[34]在这个意义上，作为一个非凸复合优化子，作为优化的一个关键属性θk+1= arg minθE*i =1。l（x*，xi（θk）），yi，θΣ（二十三）最小化技术仍保留在参数化设置中，选择x¯i=xi（θk）：命题4（下降引理）。通过反复最小化方程的右侧给出的迭代过程。（21）在θ中，设x¯i =xi（θk），保证稳定，即，不增加双电平损耗：10270我我我+ E x（θk），yi，θ由于该迭代方案的应用简化为从等式（12）到等式（14）的因此，我们可以很容易地在实践中应用它，通过求解一系列快速代理优化来进一步提高代理的保真度。我们按照Corol的建议，用x<$i=x<$i初始化方案ΣNi=1.Σl x*，xi（θk+1）≤ΣNi=1.Σl x*，xi（θk）（二十三）lary1并停止迭代或减小代理求解器，如果在迭代之后增加了高级目标10271我我4. 示例本节将介绍几个实验1，其中我们将说明所研究方法的应用。我们将展示在参数化变分设置中可能的新应用的两个概念，4.1和4.2。然后，我们在4.3中展示了图像去噪的应用。4.1. 计算机断层扫描仅使变分模型的特定部分是可学习的对于计算机断层扫描（CT）是特别有趣的。图像x将从通过应用Radon变换形成的数据y=Ax+n重建并添加噪声n。虽然存在针对该问题的第一种基于完全学习的解决方案（例如，[44，45]），很难找到合适的网络，这不仅是由于潜在问题的不适定性，而且还由于对医学成像中完全基于学习的方法的合理关注[3]。为了从重建的数据保真度的显式控制中受益，我们考虑通过以下方式将可学习的线性校正项引入到另外的经典重建技术中：x（θ）= arg min1Ax−y2+βR（x）+ ∠x，N（θ，y）∠，Huber-TV，PSNR 23.9学习校正，PSNR 25.8图2.使用梯度惩罚学习用于Huber正则化CT重建问题的线性校正项（6）。4.2. 变分分割对于一个非常不同的（和非平滑的）例子，考虑学习变分分割模型的任务[14，13，27，65]。我们有兴趣学习一个模型，其极小值与输入数据的（语义）分割相吻合。较低层次的问题由下式给出：x（θ）= arg min − ﹥ N（θ，y），x﹥ + ||DX||1+h（x），（24）XΣnIx2i2其中h（x）=j=1xilog（xi）+I（x）是熵对于一个合适的网络N（我们选择了8个3×3卷积块，其中有32个过滤器，ReLU激活，批量归一化，以及最后的5×5卷积），R表示x的离散梯度的Huber损失。由于两个凸共轭都难以以封闭形式进行评估，因此我们选择梯度惩罚（17），如果A具有满秩，则其是欧几里得损失的参数优化器（并且实际上甚至超出此设置，因为它优化了||A（x−y）||2甚至对于秩亏的A）。根据（17），我们认为在单位单纯形上的函数[6]。N（θ，y）是某个参数化函数计算分割模型的潜力，这可以是一个深度神经网络，因为我们只需要x的凸性而不是θ。D是一个有限差分算子，使得总变差（TV）项||DX||如果x∈{0，1}n，则1测量分割x的周长。熵函数不仅关键地导致严格凸模型，而且还表示通常的学习分割方法的结构。如果没有周长项，低层问题的解将由下式给出：ΣnminA*Ax*−A*yi+βx（θ）=N（θ，y）.（二十五）由于[70，P.148]，h*正是softmax函数，所以θ∈Rs我i=1I2这个Eq。（25）相当于应用一个参数化函数。然后应用softmax函数来得到在模拟的噪声数据上进行训练，并在广泛使用的Shepp-Logan体模。图2示出了所得到的重建以及最佳重建。最后的输出是训练过程中的一个普通的图像识别流水线。作为更高级别的损失，我们选择日志损失在网格搜索最优β后，使用变分方法，无需附加线性校正项。正如我们所看到的，代理训练了线性校正项足够好，以改善重建的PSNRΣNi=1− ∠x∠，log（xi（θ））∠=ΣNi=1Dh（x，xi（θ））（26）几乎2dB。此外，线性校正项的影响仍然可以被可视化，并且数据保真度可以通过合适的加权容易地控制。我们在附录中可视化校正图。1这些实验的实现可以在https：//github.com/JonasGeiping/ParametricMajorization网站。因此，没有周长项的双层问题是等价于最小化N（θ，y）的交叉熵损失。然而，在包含周长项的情况下，我们不能找到x（θ）的封闭形式的解，需要考虑双层优化。但是，由于对数损失（26）可以被写为相对于h的Bregman距离，所以我们的主要假设l（x，z）≤DEθ（x，z）（8）被满足，并10272且我们可以考虑10273基线部分缝线、、、、定量配给第三站点第四乌罗盖特迭代S迭代S定量配给第一现场第二现场代孕乌罗盖特Bregman迭代S迭代S罗盖特2我0.650.60.550.50.450.40.352 3 456789 2 3 41 10迭代图3. 对于线性模型N（θ，yi），第4.2节中讨论的变分分割模型的训练精度。直接表1.每个替代计算的训练时间（T）（分钟）和测试数据集上的PSNR（针对等式中的能量模型的各种灰度滤波器）在具有和不具有等式（22）的迭代过程的情况下，将等式（30）和用于迭代过程的总时间（TT）与具有最佳正则化参数的总变差进行比较。注意，训练时间的变化主要是由于迭代次数的不同。再现了[22]参数能量模型1训练没有周界项的交叉熵损失，训练Bregman替代方程（28）、部分替代方程（16）和x（θ）= argminX||2个以上||D（θ）x||第1、（29）段||1,(29)2比较迭代方案的四次迭代。我们发现，端到端的训练与周长项提高了分割精度。我们还看到，迭代方案中的少量迭代对于实际CV任务是足够的。其中D（θ）表示要学习的卷积运算符，这是许多其他图像处理任务的原型。我们考虑平方损失l（x，y）=1||x−y||2作为更高的损失函数，并应用我们的方法。该模型的Bregman代理具有以下形式Bregman代理问题的对偶设置方程。（十四）：ΣNΣNminθmin||pi||≤1 ||D（θ）xθ||1个以上||二、||2. （三十）2min minWh（N（θ，yi）−zi，x）+WTV（zi，x），（27）i=1θzii=1我们可以重写成我我模型（29）先前在[22，20]中被考虑，其中它通过隐式微分求解。我们重复[22]的设置，并在BSDS数据集上训练去噪模型ΣN敏敏θ||pi||≤1i=1.Σh<$N（θ，yi）−DT pi- N（θ，y i），x ||DX系列||1 .一、（二十八）[61]第一章。实验装置和优化策略表1示出了当训练时实现的两个PSNR值将D（θ）作为卷积滤波器以及训练时间。我们注意到，这本质上是具有附加加性项pi的交叉熵损失，其能够平衡N（θ，yi）的非相干输出，该非相干输出将导致具有较高周长的错误分割。此外，与展开方案相比，训练过程对于N（θ，yi）仍然是凸的。迭代模型（23）具有非常类似的结构，包括进入（28）的损失的梯度为了验证这个设置，我们选择N由一个简单的卷积线性模型给出。我们绘制城市景观数据集的一个小子集，并将等式（25）的交叉（28）及其部分和迭代应用。图3显示了训练迭代的训练精度。我们发现，所提出的方法是能够提高分割精度的线性模型显着。我们详情请参阅附录。4.3.分析运算符模型最后，我们说明了我们的方法在实际相关模型上的行为，学习一组最佳卷积滤波器进行去噪[74，22]。我们认为与[22]相比，我们惊人地发现，我们可以训练一个凸模型，其性能与[22]中的凸模型相似，同时比原始方法快一个数量级此外，在[22]中，必要的训练时间从48个7 x7过滤器的24小时跳到96个9 x9过滤器的20天-在我们的实验中，训练时间几乎不受参数数量的影响，在这个例子中，由于较大的模型收敛得更快，因此实际上更小此外，该分析验证了迭代过程对于达到有竞争力的PSNR值是至关重要的。5. 结论通过引入参数优化器，研究了数据驱动的能量最小化方法的近似训练策略.我们在凸分析的框架下系统地研究了这类策略，提出了由低能级能量诱导的Bregman距离及其过逼近作为优化子.我们讨论了一种迭代方案，该方案显示出在计算机视觉中应用的前景，特别是由于其可扩展性，如其在图像去噪中的应用所示。精度模型PSNR不PSNR（Iter.）TT全变差27.41---3 3x3滤镜26.6600：3427.6602时21分48 7x7滤镜27.41凌晨两点四十五分28.0303时11分110274引用[1] Yasemin Altun ， Ioannis Tsochantaridis ， and ThomasHofmann.隐马尔可夫支持向量机在第二十届国际机器学习国际会议的筹备会上，ICMLAAAI Press，2003. 2[2] Brandon Amos和J.济科·科尔特OptNet：微分优化作为神经网络的一层。在International Conference on MachineLearning，第1362017年7月。2[3] 作者简介：陈文辉，陈文辉.汉森关于图像重建中深度学习的不稳定性-AI是否有代价？arXiv：1902.05300[cs]，2019年2月。1、7[4] 艾德里安·巴布学习用于图像去噪的实时MRF推理。2009年IEEE计算机视觉和模式识别会议，第1574-1581页，2009年。2[5] 海因茨·H Bauschke和Patrick L.孔贝特Hilbert空间中的凸分析与单调算子理论。CMS数学书籍Springer NewYork，New York，NY，2011.3[6] Amir Beck和Marc Teboulle。凸优化的镜像下降法和非线性投影次梯度法.运筹学快报，31（3）：167-175，2003年5月。7[7] 克里斯汀·PBennett，Gautam Kunapuli，Jing Hu，andJong-Shi Pang. 二层优化和机器学习。 IEEEWorldCongress on Computational Intelligence，WCCI 2008，Lecture Notes in Computer Science，第25-47页。SpringerBerlin Heidelberg，Berlin，Heidelberg，2008. 2[8] 马丁·本宁和马丁·伯格反问题的现代正则化方法。《数值学报》，27：12018年5月。4[9] 马丁·伯格反问题和偏微分方程中的Bregman距离。在数学建模，优化和最优控制的进展，施普林格优化及其应用，第 3-33 页。 Springer International Publishing ，Cham，2016. 3[10] Dan Butnariu和Gabor Kassay。求集值算子零点的近似投影法SIAM J. Control Optim. ，47（4）：2096-2136，Jan.2008. 5[11] Luca Calatroni，Chung Cao，Juan Carlos De Los Reyes，Carola-BibianeSc h¨ nlieb，andTuomoVal k onen. 用于变分成像模型学习的Bilevel方法变分方法：在成像和几何控制，18：252，2017。2[12] Antonin Chambolle，Vicent Caselles，Daniel Cremers，Matteo Novaga，and Thomas Pock.图像分析的全变分介绍稀疏恢复的理论基础和数值方法，9（263-340）：227，2010。一、二[13] Antonin Chambolle，Daniel Cremers，and Thomas Pock.最小划分的凸方法。 SIAM Journal on ImagingSciences，5（4）：1113-1158，Oct. 2012. 7[14] 托尼·FChan和Luminita A.维斯没有边的活动轮廓IEEETransactions on Image Processing，10（2）：266- 277，2001。1、7[15] Siddhartha Chandra和Iasonas Kokkinos 基于深度高斯CRF的语义图像分割的快速、精确和多尺度推理计算机视觉施普林格国际出版社，2016年。2[16] 龚晨和马克·特布勒。 Bregman函数类近似极小化算法的收敛性分析SIAM J. Optim. ，3（3）：538-543，Aug.1993. 6[17] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。使用深度卷积网络和全连接CRF的语义图像2015年，国际学习代表会议1[18] Liang-ChiehChen ， GeorgePa

下载后可阅读完整内容，剩余1页未读，立即下载