强化学习解决高阶CRF推理的程序学习方法

71 浏览量更新于2023-10-25 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1我们可以使用强化学习来学习图形模型推理的启发式吗？放大图片作者：J.伊利诺伊大学香槟分校{messaou2，martar10，aschwing}@ illinois.edu摘要组合优化是计算机视觉中常用的一种优化方法。例如，在语义分割、人体姿势估计和动作识别等应用中，程序被制定用于解决条件随机场（CRF）中的推理，以产生与图像的视觉特征一致的结构化输出然而，解决CRF中的推理通常是棘手的，并且近似方法在计算上要求很高并且限于高阶势的一元、成对和手工形式在本文中，我们表明，我们可以学习程序逻辑学，即，策略，用于使用强化学习解决用于语义分割任务的高阶CRF中的推理。我们的方法有效地解决了推理任务，而不施加任何限制的形式的潜力。我们在Pascal VOC和MOTS数据集上显示了令人信服的结果。1. 介绍图模型推理是机器人和自治系统的一个重要的组合优化任务尽管近年来由于越来越准确的深度网络模型而取得了重大进展这些不一致可以用条件随机场（CRF）来解决，尽管需要解决组合复杂性的推理任务。解决组合问题的经典算法有三种范式：精确、近似和启发式。精确算法通常基于使用线性规划（LP）松弛和分支定界框架的组合来求解非线性特别是对于大的问题，线性规划的重复求解在计算上是昂贵的，因此是禁止的。近似算法解决了这个问题，但是，往往在弱最优性保证的代价此外，近似算法通常涉及每个问题的看起来更容易开发的是计算速度通常很快，但几乎没有保障。另外，可能需要针对特定问题实例调整超参数自21世纪初以来，第四种范式一直在考虑，最近再次流行[93，6，85，5，27，18]：学习算法。这第四范式是基于直觉，即数据支配的组合算法的属性。例如，语义图像分割总是处理类似大小的问题结构或语义模式。因此，可以想象，在给定数据集上学习解决问题会发现接近最优但难以手动找到的策略，因为学习算法筛选大量样本问题会更有效。为了实现这一点，在一系列的工作中，强化学习技术被开发出来[93，6，85，5，27，18]，并被证明在各种组合任务上表现良好，从旅行销售人员问题和背包公式到最大切割和最小顶点覆盖。虽然上述基于学习的技术已被证明在经典基准上表现得非常好，但我们不知道用于语义分割的CRF中的推理算法的结果因此，我们想知道我们是否可以学习语义学来解决语义分割问题中的图形模型为了研究这一点，我们开发了一个新的框架，高阶CRF推理的语义分割任务，使用马尔可夫决策过程（MDP）。为了解决MDP，我们评估了两种强化学习算法：深度Q-Net（ DQN ） [58] 和深度网络引导的蒙特卡罗树搜索（MCTS）[82]。所提出的方法具有两个主要优点：（1）与传统方法不同，它不对CRF术语的形式施加任何限制，以便于进行有效的推理。我们证明了我们的要求，设计检测为基础的高阶电位，导致在计算上难以处理的经典推理方法。(2)我们的方法比传统的方法更有效，因为推理复杂度在任意潜在阶数下是线性的，而经典方法通常对最大团大小具有指数依赖性。这是因为语义分割被简化为顺序推断标签75897590∑秒第3.6节CRF能源秒第3.2节输入二进制（超列VGG16）秒第3.6节奖励秒第3.4节节点嵌入GNN政策网络第3.3输出大地真理高阶电位（边界框YoloV2）第3.6（一）、）+∑（）下一页=1（，）∈∈（）=∑（）+∑十一星座（PSPNet）超像素池图1：拟议方法的管道。使用强化学习解决高阶CRF中的推理，用于语义分割任务。对于Pascal VOC，从PSPNet [94]中获得一元数，使用VGG 16 [30]中的超列计算成对势，并且高阶势基于YoloV2 [69]中的检测边界框策略网络被建模为遵循CRF图结构的图嵌入网络[17]它顺序地产生每个节点（超像素）的标签每个变量的学习策略的基础上，而不使用任何迭代或搜索过程。我们在两个基准上评估所提出的方法：(1)Pascal VOC语义分割数据集[19]，以及（2）MOTS多对象跟踪和分割数据集[86]。我们证明了我们的方法优于传统的推理算法，同时更有效。2. 相关工作在讨论组合优化器的学习之前，我们首先回顾了语义分割的工作。语义分割：在2000年初，分类器被局部应用于图像以生成分割[42]，这导致了噪声输出。为了解决这一问题，早在2004年，Heet al.[33]应用条件随机场（CRF）[43]和多层感知器特征。对于推理，使用吉布斯采样，因为MAP推理是NP困难的，由于程序的组合性质。在20世纪90年代和21世纪初，基于流的问题的组合优化的进展[21，23，26，9，7，8，10，40]表明，最小割求解器可以找到二元分割的图形模型的子模块能量函数的MAP解。开发了类似交换移动和α扩展的近似算法[10]，以将最小割求解器的适用性扩展到两个以上的标签。通过将随机森林与CRF结合，语义分割得到进一步推广[81]。最近，标准语义分割基准（如Pascal VOC2012 [19]）的性能已经通过卷积网络得到了显着提升。已经提出了更深[48]和更宽[61，71，92]的网络架构空间金字塔池化[94]和无源空间金字塔池化[15]等技术进步的出现是为了弥补有限的接收场。其他方法联合训练深度网络，CRF [16，78，28，79，52，14，96]，以更好地捕捉自然场景中存在的丰富结构。CRF推断：在数学上，为了找到MAP松弛，LP松弛在2000年代被广泛研究[74，13，41，39，22，88，34，83，35，68，89，54，53，36，75、76、77、55、56]。此外，CRF推理作为一种深网中的可微模块[95，51，57，24，25]。然而，这两个方向仍然计算需求，ING，特别是如果高阶电位参与。因此，我们想知道最近的进展，学习为基础的组合优化产生有效的算法高阶CRF推理的语义分割。学习型组合最佳化：几十年的研究组合优化，通常也被称为离散优化，发现了大量有价值的精确，近似和启发式算法。早在21世纪初，但最近更突出的是[93，6，85，5，27，18]，已经提出了基于学习的算法用于组合优化。它们基于这样一种直觉，即类似问题的实例经常被反复解决。虽然人类已经发现了令人印象深刻的机制，但数据驱动技术可能会发现更引人注目的机制。这是- yond本文的范围，以审查大量的文献组合优化。相反，我们随后专注于基于学习的方法。第一个是Boyan和Moore的工作[6]，讨论了如何学习预测局部搜索算法的结果，以便偏向未来的搜索轨迹。大约在同一时间，再学习技术被用来解决资源受限的调度任务[93]。强化学习也是最近解决NP难任务的方法的选择技术[5，27，18，45]，如旅行推销员，背包，最大切割和最小顶点覆盖问题。同样，结构化预测也存在有希望的结果7591K次迭代输入图1∑1. 初始状态1=04.状态更新=（{}，（）的情况）21关于我们111∈Y∗EC1 12. 图嵌入3.动作选择（一）|）∈学习算法。在精神上，这模仿了启发式规则的设计。然而，与手工制作11这些规则，我们使用基于学习的方法。到达贝斯特1我们的知识，这是第一个工作，成功地应用基于学习的组合优化CRF推理选动作=（）的方式1图2：推理任务的强化学习的一次迭代的图示策略网络对一个动作进行用于语义分割。因此，我们首先提供一个概述的开发方法，概述图。1.一、就像经典方法一样，我们也使用从深度网络获得的局部因此，该信息用于形成在条件随机场（CRF）上定义一个CRF的例子，其变量对应于超a1=（i，yi），根据学习的分布π（a1|s1）∈R1在迭代t= 1处。N×| L|像素（圆圈），成对的潜力（边缘）和更高阶的潜力，从对象检测（完全连接的集团）中示出图。1.一、但是，与Class不同对话框生成等问题[46，90，31]，程序合成[12，50，65]，语义解析[49]，架构搜索[97]，分块和解析[80]，机器翻译[67，62，4]，摘要[63]，图像字幕[70]，知识图推理[91]，查询重写[60，11]和信息提取[59，66]。代替直接学习来求解给定程序，机器学习技术也已经应用于组合求解器的部分，例如，加速分支定界规则[44，73，32，38]。我们还想强调最近关于学习优化连续问题的工作[47，2]。考虑到这些令人印象深刻的结果对挑战现实世界的问题，我们想知道：我们可以学习解决语义图像分割的高阶CRF的程序吗？由于CRF推理通常被公式化为组合优化问题，我们想知道如何利用基于学习的组合优化的最新进展3. 方法在更详细地讨论各个组件之前，我们首先概述了我们的方法。3.1. 概述图形模型将全局能量函数分解为两种类型的局部函数之和：（1）当地证据;以及（2）共现信息。这两个线索通常是从深度网络分类器中获得的，它们被组合在联合能量公式中。寻找最佳语义sical方法，我们找到了最小化配置的能量，通过反复应用一个学习的政策网络。在每次迭代中，策略网络选择一个随机变量，即，通过计算在所有当前未标记的像素及其标记上的概率分布来确定像素及其标记。具体地，像素和标签通过选择矩阵中的最高得分条目来确定，其中行和列的数量分别对应于当前未标记的像素和可用的标签，如图所示。二、3.2. 问题公式化形式上，给定图像x，我们感兴趣的是预测语义分割y=（y1，. . .，y N）. 由此，N表示像素或子像素的总数perpixels，以及超像素i∈{1，. -是的-是的，N}通过yi∈L={1，. -是的-是的、|L|}，可以将其分配为|L|从可能的标签集合L中选择可能的离散标签。输出空间表示为Y=LN。经典技术获得ev的局部证据fi（yi）每个像素或超像素，以及成对势fij（yi，yj）和更高阶势fc（yc）形式的同现信息。后者将能量分配给团c{1，. . .，N}的变量y c=（yi）i∈c.为了可读性，我们放弃了能量fi，fij和fc对图像x和所采用的深度网络的参数基于能量的语义分割的目标是找到具有最低能量E（y）的配置y（y），即，分段配置，即，找到能量的最小化，通常涉及解决NP难问题。ΣNy=argminE（y），fi（yi）+Σfij（yi，yj）+Σf c（yc）.组合优化问题Notable exceptions include energies withsub-modular co-occurrence terms.y∈Yi=1（i，j）∈Ec∈C（一）而不是使用经典的方向，即，在这里，我们评估基于学习的组合优化的适用性直觉上，我们认为，CRF推理的任务语义分割表现出一种内在的相似性，可以利用由此，集合和子集合分别是成对和高阶共现模式的捕获集合。有关电位的细节见第二节。三点六求解Eq.中给出的组合程序。（1），即，推断最优配置y′通常是NP难的。×| |7592∅EE{}联系我们∈∈∈∈|L|我∀ ∈YL∈A不L⊕⊕|⊕tt不算法一：推理过程1：s1=;2：对于t=1至N，∗加权图G（V，，w），其中节点V=1，. . .，N，对应于变量，即，在我们的情况下，超像素是连接相邻超像素的一组边缘，如图所示图其中w：E→R+是边权函数。的3： at= arg maxat∈Atπ（at|t）4：（i，yi）←a权值{w（i，j）}{j：（i，j）∈E}在给定的ttt∗不节点i和它的邻居{j：（i，j）∈ E}形成一个分布，5：st+1=st（it，yi）第六章：端7：返回rn：yn←sN+1与现有方法不同，我们开发了一种基于学习的组合优化启发式语义分割的意图，以更好地捕捉复杂的能量最小化比手工制作的规则。开发的启发式顺序标记一个变量y i，i1，. . .，N，一次。形式上，一次选择一个超像素可以是在强化学习环境中制定，如图所示。二、具体地说，一个代理在t ∈ {1，. - 是的- 是的，N}时间步长，根据策略π（a t|s t），其对给定当前状态s t的动作a t ∈ A t上的概率分布进行编码。目前的状态包含在SE-选择对所有当前标记的变量I t{1，. - 是的- 是的，N}及其标号y It =（yi）i∈It，即，s t∈ {（I t，yI）：I t∈ {1，. . .，N}，y I∈ L|It|{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 我们开始的点积，通过归一化h ypercolumns [30] gi和gj通过softmax跨越邻居。在每一次迭代中，如果节点是图G的一部分，则通过用标量hi=1标记节点i ∈ V来将状态st编码在图G中。在已经标记的集合It中，即，如果i∈It，则为0。更进一步，独热编码y∈{0，1}|L|编码节点i的选定标签It. 如果节点i尚未被选择，则我们将y_i设置为等于全零向量。每个节点i V由p维嵌入表示，其中p是超参数。嵌入由yi，hi以及superpix el特征bi组成RF编码的外观和边界框的特点，我们详细讨论在第二节。4.第一章网络的输出是一个|L|- 每个节点i V的维向量π i，表示变量i的不同标签的得分。网络迭代地生成新的表示对于每个节点i∈V，通过聚合当前其中S1= 0。可能的动作At的集合是级联。嵌入μ（k）根据图结构E开始所有L个当前未标记像素的标记空间L的我（0）j∈ {1，. - 是的- 是的，N}\t，即，的t=j∈{1，…N}\tL.我们-从µ i= 0，iV.在K步之后，嵌入捕获图特征之间的长程交互将串联运算符与以及用于获得语义分割输出空间的乘积算子=N，即，所提出的方法在产品空间中不起作用如前所述，策略π（a t|s t）导致a以及最小化能量函数E所需的图形属性。形式上，节点i的更新规则是µ（k+1）<$Relu<$θ（k）h+θ（k）y<$+θ（k）b+θ（k）<$w（i，j）µ（k）<$，在行动上的概率分布，选择最可能的动作1i2i3i4j：（i，j）∈EJ（二）（k）（k）（k）（k）a=arg maxπ（a |s）的情况。其中θ∈ Rp，θ∈ Rp×| L|，θ∈ Rp×F和θ∈ttat∈A t1 2 3 4Rp×p最可能的动作可以分解为所选变量的索引，即， i及其状态y i ∈是可训练的参数。在K步之后，πi对于每个未标记节点i ∈ {1，. - 是的- 是的，N}，通过以下公式获得：ttπ=θµ（K）i ∈ {1，. - 是的- 是的，N} I，（3）.我们通过结合以下方法获得后续状态s t+1：提取的变量索引i和它的标记与以前的i5it不其中θ不E ∈R| L| ×p是另一个可训练的模型参数。我们州立大学具体来说，我们得到st+1=st（it，yin）由稍微滥用-运算符来表示连接到一个状态中维护的集合和列表。形式上，我们总结了开发的基于强化学习的语义分割算法用于推断一个标签y的Alg。1.一、在下面的翼，我们描述策略函数πθ（at st），我们发现它运行良好进行语义分割，并学习其不同的变体7593||5说明策略函数πθ（at st）和图中的推理二、3.4.奖励功能：为了训练策略，理想情况下，奖励函数rt（st，at）是这样设计的，即累积奖励与前-实际上与我们旨在最大化的目标函数一致参数θ即，Nt=1 rt（st，at）=−E（y），其中y是来自3.3.策略功能我们使用图嵌入网络对策略函数πθ（at st）进行建模[17]。网络的输入是s N+1。因此，在步骤t中，我们将奖励定义为差异，负的新能量Et的值与来自前一步骤Et-1的负能量之间的参考，即，r t（s t，a t）= E t−1（y It−1）−E t（y It），其中E0= 0。Poten-7594−∈ L|MMN（st）∈L−M MMMN（at|t）表1：在具有3个节点的全连接图上遵循两个所提出的奖励方案的能量奖励计算的图示。t itEtrt= −（Et−Et−1）rt=±1图形0−1230−−11f1（y1）−f1（y1）−1+2·1{（Et（y1）

下载后可阅读完整内容，剩余1页未读，立即下载