深度网络与图分解用于图分解的可训练框架

47 浏览量更新于2023-10-16 收藏 886KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1用于图分解的JieSong1Bjoern Andres3，4Michael J. Black2Otmar Hilliges1SiyuTang1，2，41苏黎世联邦理工学院2智能系统MPI3博世人工智能中心4图宾根大学摘要深度神经网络为模式识别提供了强大的工具在计算机视觉中，许多任务结合了模式识别和图形推理的元素。在本文中，我们研究如何将深度网络与图分解连接到端到端的可训练框架中。更具体地说，最小成本多割问题首先转换为无约束的二元三次公式，其中周期一致性约束被纳入目标函数。新的优化问题可以看作是一个条件随机场（CRF），其中的随机变量与二进制边缘标签。循环约束作为高阶势被引入CRF。标准卷积神经网络（CNN）为完全可微的CRF提供这两个部分的参数以端到端的方式进行优化。通过对MNIST图像聚类和现实世界中多人姿态估计的挑战性任务的实验，证明了1. 介绍许多计算机视觉问题，如多人姿态估计[35]，实例分割[21]和多目标跟踪[42]可以被视为优化问题，其中图的分解是可行的解决方案。例如，在多人姿态估计中，可以构建图G=（V，E），其中节点V对应于身体关节检测，并且边缘E对应于人将图G划分为与单个个体的关节相对应的连通分量可以通过例如解决最小成本多割问题[4，8]来找到。该配方具有几个吸引人的特性：首先，它不支持一种分解而不是另一种分解，并且图组件的数量由解以无偏的方式确定。与此相反，一些平衡切割问题[39]依赖于固定数量的图组件或在问题定义中引入偏见其次，在实践中利用这个优化问题是很简单的：对于许多视觉任务，可以很容易地构建输入图，并且可以使用深度神经网络稳健地获得属于不同组件的事件节点的成本，例如。[14、21]。到目前为止，将最小成本多切割问题应用于视觉任务的最常见方法是采用多级管道[15，21，35，43]。首先，任务相关的检测和检测之间的亲和性措施是由两个单独训练的网络。第二，基于网络的输出构建目标函数的系数，第三，通过分支定界算法[35，42]或启发式贪婪搜索算法[6]在检测图的顶部独立执行优化。虽然简单，但这种多阶段方法的一个显著缺点是深度网络是本地学习的也就是说，在深度特征表示的训练期间不考虑然而，已经证明，图形模型（如条件随机场（CRF））可以提高深度特征学习方法的性能[44，50]。在这项工作中，我们然后问的问题，是否全局依赖定义的一般图分解问题，如最小成本多割问题，可以导致学习更好的特征表示。出于这个问题的动机，我们提出了一个端到端的可训练框架来学习图分解问题中的全局特征表示。我们首先将最小成本多割问题转化为一个无约束的二进制三次问题，将硬一致性约束的目标函数。这个新的优化问题的吸引人的特性是它可以被看作是一个条件随机场（CRF）。CRF的随机变量与初始图的二进制边标签相关联，并且硬约束可以作为高阶势引入CRF中。我们进一步提出了一个端到端的可学习框架，该框架由标准卷积神经网络（CNN）作为前端和具有高阶势的完全可微CRF组成。拟议框架的优点是：（一）1009310094CRF的参数和前端CNN的权重在整个网络的训练期间通过反向传播进行联合优化。这种联合训练促进了一元势和高阶势之间的可学习平衡，这加强了边缘标记的有效性，从而导致更好的分解。（ii）由高阶势编码的周期这种来自全局一致性约束的元监督是对直接局部监督（标准CNN训练）的补充。通过这种方式，它教会网络如何通过考虑输出随机变量之间的依赖关系来表现在实验中，我们首先分析了聚类MNIST（[24]）图像的任务，表明所提出的方法通过强制执行全局一致性约束来改进特征学习。最后，通过对多人姿态估计这一具有挑战性的任务的分析，验证了该方法的有效性。结果表明端到端学习框架在更好的特征学习、循环约束有效性、边缘估计的更紧密置信度和最终姿态估计性能方面的有效性。2. 相关工作最小成本多割问题。已经针对各种计算机视觉任务探索了多切割问题[14，19，25，35，42，21]。在[15，35]中，联合节点和提出了一种基于边缘标记的多人姿态估计方法。在[42，43]中，多目标跟踪任务被公式化为图分解问题。同时，已经开发了许多有效解决最小成本多割问题的算法[5，17，18，20，31，48，41]。Beier at al.[5]提出了一种改进的聚类融合方法，该方法通过融合操作迭代地改进当前解。所提出的算法在任何时候都保持有效的分解Yarkony等人[48]依赖于列生成将子问题的可行解组合成平面图中的连续更好的解。Swoboda和Andres [41]提出了一种对偶分解和线性规划松弛算法。还有一些算法将优化问题作为层集成到网络架构中，用于端到端训练[1，11，37，49]。Schulter等人[37]提出一个网络流问题代价函数的联合学习框架。Amos和Kolter [1]开发了一种将二次规划与深度网络集成的通用方法。由于约束条件数量的立方复杂性，该方法是否可以应用于复杂的视觉任务是一个悬而未决的问题。Funke等人[12]建议使用结构化损失来训练具有迭代区域聚集算法的实例分割网络，用于任务电子显微镜下的神经元分割。据我们所知，我们的工作是第一次引入一个端到端的可学习的框架，通过重新制定的周期约束的CRF模型中的高阶项的多割学习深度结构化模型。几种方法提出共同学习特征表示和感兴趣的变量之间的结构依赖性[3，7，9，27，40]。Chen等人。[7]提出了一个学习框架来估计深度表示和马尔可夫随机场模型的参数。Zheng等人[50]将CRF的平均场迭代重新表示为具有高斯成对势的递归神经网络层。前端CNN和递归神经网络可以使用通常的反向传播算法进行端到端的训练。Arnab等人[3]通过将对象检测和超像素信息作为图像语义分割任务的高阶势来扩展[ 50 ]中提出的模型。Chu等[9]提出一种模型，将结构信息隐式地合并到CNN的隐藏特征层中。我们工作的目标是设计一个端到端的学习框架的最小成本多割问题。虽然这里使用的平均场推断不能保证可行的图分解，但它有效地允许CNN和图分解的集成人体姿势估计。最近的深度神经网络方法在自然图像中的人体姿态估计方面取得了很大进展，特别是对于单人情况[26，28，30，34，44，47]。至于更一般的情况下，多个人出现在图像中，以前的工作主要可以分为自上而下或自下而上的类别。自上而下的方法首先检测单个人，然后预测每个人自上而下的方法通常在公共基准测试中获得更好的性能，因为它们可以利用外部强大的人员检测模型，将姿势估计任务转化为更简单的单人情况。自下而上的方法直接检测单个身体关节，然后将其与单个人关联[6，14，15，27，32，46，38]。在[6，35]中，首先通过深度网络训练身体关节检测和检测之间的亲和力度量，然后通过分支定界算法[35]或启发式贪婪搜索算法[6]独立执行关联。相对于自上而下方法的一个潜在优点是，在较低级别（关节）而不是在最高级别（人）执行检测的决策（通常部署非最大抑制）。请注意，在[27]中，关联是通过预测人物ID以及联合检测来训练的。相比之下，我们的方法专注于图分解问题的端到端学习10095pe1+exp（−（θ，f<$）e我CZ（I）我3我3. 优化问题3.1. 最小费用多割问题最小成本多割问题[4，8]是一个约束，vu w（一）V Vu w u w（b）第（1）款图的约束二元线性规划G=（V，E）和成本函数c：E→R：（c）（d）图1：我们在（a）中举例说明图G;可行解miny∈{0，1}EΣCEYEe∈E（一）Σ和一个不可行解分别表示在（b）和（c）中; G的CRF模型的因子图在（d）中。受<$C∈ cc（G）<$e∈ C：ye ≤e′∈ Cye′ .（二）这里，优化变量y∈ {0，1}E对应于minΣΣC y+ K（yy¯y¯到边E的二进制标记。ye=1表示边缘e被切割。换句话说，节点v和wy∈{0，1}Eeee∈E. VΣ{u，v，w}∈3uv vw uwe是G的不同分量。cc（G）表示G的所有无弦圈的集合。Eq.中的循环约束2定义了可行边标号，它与图G的分解一一对应。玩具示例在图1中示出图1：（a）示出了示例图G;（b）是G的有效分解;以及（c）示出了违反循环不等式的无效解（等式1）。2）的情况。成本函数c：E→R由模型参数θ表征。在以前的工作[14，15，35]中，成本函数定义为log1−pe，其中pe表示ye被切割的概率给定边e上的特征f e，pe采用逻辑形式：1.最大可能模型然后对训练数据进行最大似然估计得到参数θ可以经由从单独训练的深度网络提取的一些深度特征表示来获得例如，在 [14] 和 [43] 中，分别从 CNN 和Siamese网络获得fe研究问题。这项工作的核心在于以下几点-+y<$uvyvwy<$uw+y<$uvy<$vwyuw）。（四）无效循环标签，例如图 1 （ c ）其中 y vw=1 ，yuw=yuv=0和y<$uvyvwy<$uw=1，将值K转化为目标（等式1）。4）. 通过将K设置为足够大，等式中的右侧项 4被强制为0，使得在等式4中定义的周期一致性约束被强制为0。二是满意。3.3. 作为条件随机场的多重割我们的第二个观察是，无约束二进制三次问题（方程。4）可以用一个条件随机场（CRF）来表示，该条件随机场具有定义在每个边变量上的一元势和定义在每个边变量上的高阶势。每三个边变量上。更具体地说，我们在变量X=（X1，X2· · ·，X）上定义一个随机场|E|我们想要预测的。I是观察，在我们的例子这是一个图像。优化问题（Eq. 4）可以表示为以下CRF模型：降低研究问题：首先，如何联合优化模型参数θ和底层权重E（x|I）=ΣU（xi）+我Σ循环（xc）（5）C深度神经网络解决图分解问题第二，如何利用周期一致性约束作为监督信号，并在训练过程中捕获输出随机变量之间的依赖关系在下文中，我们提出了我们的端到端可学习框架，它为这些研究问题提供了解决方案。3.2. 无约束二元三次问题我们的第一个观察是，最小费用多割问题可以等价地表示为一个具有足够大的K∈N的无约束二元多线性规划其中，我们将每个随机变量xi与等式中的边缘变量ye相4.第一章随机变量xi从标签集{0，1}中取一个值。此外，在Eq.5与每三个e相关联。dge是可变的，即yuv，yvw和yuw，其中{u，v，w} ∈V . E（x|（1）能量是一种能量，与一个配置x相关联，条件是观察到I.我们的目标是得到一个具有最小能量的标号，即x∈argminxE（x|I）的第10条。这种标记是吉布斯分布P（X=x）的最大后验（MAP）解|I）=1exp（−E（x|由能量E（x）定义|其中Z（I）是配分函数。miny∈{0，1}E联系我们cey e+K y e′（1−ye′）。（三）一元潜力一元势函数<$U（xi）对应于方程中的左侧项。4、测量e∈EC∈cc（G）e∈C10096e∈C\{e}边缘是否被切割的逆可能性一元在G是完全的特殊情况下，每3个周期都是无弦的。因此，Eq. 3专门研究二进制三次问题，其中 y<$vw：=1−yvw：潜力可以从各种来源获得输入如图所示4，在多人姿态估计的情况下，可以直接使用最先进的CNN [6]的输出。10097CQ我JJ高阶势引入高阶项εCycle（xc）来模拟周期不等式（等式10）。2）在最小成本多切问题中，并且对应于等式2中的4.第一章每个高阶势将成本与初始图中的循环相其主要思想是，对于图中的每个循环，如果循环中的当前边标注违反一致性约束，则会产生高成本更具体地说，对于全连通图，图中的每个圈由三条边组成。存在三种类型的有效边缘标记（1-1- 0，1 -1- 1，0-0-0）和一种类型的无效边缘标记（0-0-1），其违反等式（1）中定义二、图1说明了一个简单的图形和有效（1-1-0）和无效（1-0-0）边标签的例子为了为无效/有效周期分配高/低成本，我们部署了[23]中提出的基于模式的潜力。、通过平均场推断，Eq.8允许我们将误差Δ L反向传播到输入x和参数γxc，γ max。请注意，平均场推断并不保证我们获得有效的图分解。在我们的公式中，推理强制执行循环一致性的有效性，但不保证所有的硬约束（等式2）。（2）满足。因此，在实践中，我们采用快速算法（例如，[19]）在平均场推断之后返回可行的图分解学习利用消息传递更新（等式8）允许我们反向传播误差信号，这促进了整个学习机制。更具体地说，我们现在能够通过将原始优化问题重新公式化为CRF来联合优化深度特征表示和用于图的周期（x）=γxc如果xc∈Pc（六）模型以下参数可以通过CCγmax否则，其中Pc是集团的识别标签配置的集合我们给它们每个分配一个成本γxc。然后将γmax分配给团的所有无效标签配置，即初始图中的无效循环。考虑到所提出的潜力，最小化所提出的CRF模型的能量（等式2）。5）则等价于最小化等式5中定义的优化问题。4.第一章推理。我们采用[50]的平均场更新公式来最小化方程中定义的能量5作为联合框架的一部分对于平均场推断，引入了定义在随机变量上的替代分布Q（x），以最小化Q（x）与真实分布P（x）之间的KL-发散。一般平均场更新如下[22]：反向传播：– W：前端神经网络的权重– θ：表征成本函数c：E→R– γxc，γmax：高阶势的参数通过联合训练，优化变量之间的依赖关系被纳入到学习中，以通过所提出的高阶势更好地表示深度特征3.4.示例：群集MNIST数字为了理解所提出的端到端学习模型如何在训练期间集成输出随机变量之间的依赖关系，我们考虑了一个简单的任务，即在不指定聚类数量的情况下对手写数字图像进行聚类（MNIST [24]）这个问题可能是-Q（x1Σ=l）= exp{−ΣQ（x）n（x）}。（七）模拟为最小成本多切割问题（等式10）。（1-2）i iZic∈C {xc|xi=l}c−ic−iCC定义在一个全连通图上。图的节点这里xc是团c中所有变量的配置，xc−i是团c中除了xi之外的所有变量的配置。给定Eq.6，我们的CRF模型的平均场更新可以从[45]的工作中导出：指示连接图像的数字和边缘，理论上表示相同的数字。通过这个简单的任务，我们讨论了两种方法来学习用于关联图像的特征表示。方法一：独立的暹罗网络。一种直接求取任意两点间相似性度量的方法Qt（xi1Σ Σ=l）= exp{−（ZY（Qt−1（xj=pj））γp图像是训练一个暹罗网络，该网络将一对图像作为输入，并产生概率估计，ic ∈ Cp ∈Pc|xi=lj ∈ c，j iΣ1-（Y（Qt−1（xj=pj）}表示它们是相同的还是不同的数字。我们使用LeNet [24]的架构，p ∈ Pc|xi=lj ∈c，j/=i（八）数字分类任务。图2示出了两个示例结果。在图2（a）中，顶部/左侧对和其中xj表示集团c中除xi外的随机变量，Pc|xi=l是Pc的子集，其中xi=l. t表示平均场推断的第t次迭代。假设L是根据所得结果定义的损失函数的值相同数字的左/右对分别为0.96和0.86，这是正确估计的。但对于上/右对，它是0.48，可能是由于高类内变化。同样，对于图中的示例2（b）概率10098我(a)（b）第（1）款图2：MNIST数字上独立Siamese网络产生的不一致边缘标签示例作为相同数字的上/右对被错误地估计。当我们将这些数字划分为聚类时，不正确的相似性估计会引入无效循环。现在的问题是，我们是否可以部署循环约束来学习更好的Siamase网络，从而获得更强大和一致的相似性度量。方法二：联合培训CRF和暹罗网络。在这种方法中，我们的目标是通过考虑周期一致性约束来为此，我们利用我们的公式，其中分区问题被转换为CRF中定义的能量最小化问题（等式2）。（五）。具体来说，我们添加了一堆自定义的推理层，这些推理层在Siamese网络之上使用高阶势执行迭代平均场更新（详细信息见第2节）。4.2）。现在，我们能够联合训练在该配置中，使用端到端学习的连体网络，指示相同数字的顶部 / 右侧对（在图 2 （ a ）中）的概率增加到 0.57（+0.09）。进一步改进，0.62（+0.14）在用联合学习的CRF参数进行平均场更新之后。在整体性能方面，相似性度量的准确性从91.5% 提高相应的最终聚类准确率从 94.1% 提高到95.9%。讨论：这个简单的设置说明了我们的方法可以在聚类任务（如MNIST数字）上产生更鲁棒和一致的结果下一个未决问题如何设计一个可共同学习的框架，用于更具有挑战性的依赖于聚类的现实世界视觉任务。4. 多人姿态估计在本节中，我们进一步设计了一个端到端的可学习框架，用于多人姿势估计任务。我们的网络由四部分组成：1）输出特征表示的前端CNN（Sec. 4.1）; 2）完全连接层转换功能的一元潜力（节。4.1）; 3）执行迭代平均场更新的定制层的堆叠（第4.1节）。4.2）和4）平均场迭代顶部的损失层（Sec. 4.3）。我们选择多人姿态估计作为案例研究，因为这个任务被认为是理解自然图像中的人的基本问题之一。最近的工作[13，35，6，14]在这项任务上取得了重大进展。例如，Cao et al.[6]礼物一个强大的深度神经网络来学习身体关节和肢体的特征表示，然后是一个快速启发式匹配算法来将身体关节与个人姿势相关联。鉴于[6]在基准测试中的性能，在下文中，我们利用他们的网络架构作为前端CNN。我们的方法是对[6]的补充，因为我们的重点是深度特征学习和检测关联的联合优化。4.1. 从CNN到Unary Potential网络架构。在[ 6 ]中提出的网络在共享相同的基本卷积层之后具有两个单独的分支：一个分支预测14个身体关节的置信度图，而另一个分支估计一组对关节到关节的关系进行编码的部分亲和性字段。零件场是2D向量场。更具体地，亲和度场中的每个像素与对从一个关节指向另一关节的方向进行编码的估计的2D向量相关联。在[6]中，部件字段仅针对遵循人体运动学树的关节例如左肘到左手然而，为了在相邻关节之间结合高阶电位，我们训练模型以捕获非相邻检测之间的特征，例如，肩膀到手腕图构造。给定一幅输入图像，我们首先从检测置信度图中获得人体关节候选。对于每种类型的关节，我们保持多个检测假设，即使是那些非常接近。通过为描述相同类型的身体关节的假设对以及为两个不同关节之间的假设对引入边缘来构造检测图注意，所构造的图不是全连通的，但是图中的每个无弦圈仅由三条边组成。边缘特征。鲁棒图分解的关键是边缘上的可靠特征表示，以指示相应的联合检测是否属于相同/不同的人。对于连接不同体型的检测假设的边缘，我们使用相应的部分场估计。更具体地说，我们计算由边缘方向定义的单位向量与由部分域估计的向量之间的内积我们通过沿着由边缘定义的线段均匀采样来收集10个值这些值形成对应边缘的特征fe对于连接相同关节类型的检测假设的边缘，我们简单地使用检测之间的欧氏距离作为特征。《一元》构造一元势函数<$U（x i）是简单的（等式10）。5）从边缘特征fe。我们结合两个完全连接的层来编码特征，以分类边缘是否被切割，即两个相应的关节属于不同的人。如第 3.3，在训练过程中，我们可以从平均值中获得误差信号10099我我字段更新以学习全连接层的参数和产生边缘特征的前端CNN4.2. 平均场更新Zheng等人[50]提出将平均场迭代公式化为递归神经网络层，并且[3]进一步将其扩展为包括用于语义分割任务的高阶对象检测和超像素电位。在这项工作中，我们遵循他们的框架与修改，将建议的模式为基础的潜力。平均场迭代的目标是更新H-NN-SS-EE-W喜Hi-KK-a是说起源0.7550.6560.6620.5580.6790.5930.6110.635Iter10.7920.6990.6960.5910.7180.6310.6440.663Iter20.8110.7160.7190.6130.7310.6490.6560.675Iter30.8190.7210.7250.6170.7350.6540.6620.685表1：边际分布更新。数字代表了边缘概率的演变以及不同类型肢体的平均场迭代。边际分布Qt（xi1=1）。对于初始化，Q1（xi=l）=exp{-expU（xi=l）}，其中iZiiZ i=lexp{−<$U（x i=l）}。这相当于AP-在负一元能量上应用软极大函数在每个链接的所有可能的标签中。该操作不包括任何参数，并且误差可以被反向传播到一元势来自的前端卷积层或全一旦边际已被初始化，我们计算高阶电位的基础上方程。 8.具体地说，Pc是0-0-0、1-1-1和1-1-0，而无效的团是0-0-1，其中1表示对应的边被切断。该运算相对于在方程中引入的参数γxc和γmax是可微的。 8，允许我们通过反向传播优化它们。误差也可以流回Q1（X）。一旦获得高阶势，将其与一元势相加，然后通过soft-max函数将和归一化以生成下一次迭代的新边际多个平均场迭代可以有效地实现堆叠这个基本操作。在推理过程中，由于平均场推理不能保证原始优化问题的可行解，因此我们使用了[6]作为返回到可行集的附加步骤。4.3. 损失与训练在训练过程中，我们首先用标准的L2损失训练联合置信度图和部分亲和场图，如[6]所述。一旦学习了基本特征，下一步就是用softmax损失函数训练一元这是以即时方式执行的，这意味着估计身体关节的检测假设，然后在训练时间期间也建立假设之间的联系他们的地面实况标签也同时在线生成。最后一步是以端到端的方式用高阶势和softmax损失函数训练CRF的参数，以及基本卷积层和全连接层。4.4. 实验数据集。我们使用MPII Human Pose数据集[2]，其中包含约25k张图像，总共包含约40k张图像表2：无效循环比率。数字（%）代表四种不同类型团无效圈比率为相邻的身体关节定义。注释的人。训练和测试分别包含3844和1758组人。我们进行消融实验上举行了验证集。在测试期间，不提供关于人数或个人身高的信息。我们部署[35]提出的评估指标该度量被计算为图像中所有人的联合检测的平均精度。在以下实验中，我们使用身体关节的快捷方式（头-H、颈-N、肩-S、肘-E、腕-W、髋-Hi、膝-K、踝-A）。实施详情。前端CNN架构具有几个堆叠的完全卷积层，输入大小为368x368（参见图1）。[6]）。我们使用12的批量大小和1 e-4的学习率来训练基本的CNN。对于CRF参数的训练，学习率为1 e-5。整个架构在Caffe中实现[16]。至于运行时效率，在验证集上，平均场推断大约需要0。3ms，所提出的端到端框架的整个推理时间平均约为88ms。CRF推断的有效性。为了证明我们提出的平均场层逼近CRF推断的有效性，我们评估了随机变量Xi的边缘分布的演变。在姿态估计的情况下，CRF中的每个Xi表示两个身体关节之间选项卡. 1总结了7种不同类型的此类链接。每一行都显示了地面真值为0的链接的平均边际概率Pr（X=0），其中标签0表示边缘不应被切割。边际概率可以理解为两个关节属于同一个人的置信度。表1中各肢体的边缘分布即使对于非常具有挑战性的组合，每次迭代也会增加1，例如肘-腕和膝-踝。经过三次迭代推理后，更新收敛。我们将使用此设置进行进一步的实验。H-N-S西南N-LH-RHH-K-A是说起源1.683.401.413.832.60Iter11.082.631.013.052.02Iter20.982.480.882.761.78Iter30.912.420.852.681.6710100周期约束的有效性。另一个重要的测量是平均场迭代后无效周期的比率回想一下，无效的3-团的类型是链接-链接-切割（第二节）。4）. 选项卡. 结果表明，在CRF推理下，非有效循环的比例降低，表明高阶势的有效性。端到端学习对功能表示的好处。联合训练CNN和CRF的关键动机之一是获得更好的特征表示。我们通过检查CRF推理前后的部分字段特征图来说明这一点图3示出了置信度图通常在锐度上增加并且包含更少的噪声。这对于包含严重遮挡的图像尤其明显;例如，在第二行中的第二图像中，部分被遮挡的人的肢体变得更加可区分，这表明特征学习中的显著改进，特别是对于具有挑战性的情况（参见蓝色的突出部分）。这证实了我们的一个核心观点，激励了这项工作。如果利用来自高阶项的附加监督信号来学习，则所学习的特征更具信息性。回到一个可行的解决方案。在推理之后，我们不能直接得到有效的图分解需要一些算法（贪婪搜索[6]或KL启发式[14我们用三种不同的设置来评估这两种方法1) 只有前端CNN和全连接层（一元）;2) 分别训练的CRF和前端CNN（一元和CRF）; 3）全网端到端训练（end-to- end）。选项卡. 3总结了验证集的相应性能。端到端战略相对于基线的优势图4显示，这些改进在具有严重遮挡的最具挑战性的情况下更加明显，其中对变量之间的高阶依赖关系进行建模具有最大的影响。与其他人比较。我们将我们的方法与MPII Human Pose数据集上的其他方法进行了比较。选项卡. 4总结了结果。请注意，如第二节所述。2、多人姿态估计一般有两种方法：自底向上方法和自顶向下方法。在公共基准测试中，自上而下的方法通常实现更好的性能，因为它们可以利用外部强大的人员检测模型，将姿势估计任务转化为更简单的单人情况。相反，自下而上的方法首先检测联合候选人，然后将它们聚类到单独的骨架。在这项工作中，我们专注于提高性能的自底向上设置，因为它是一个直接匹配的建议端到端的可学习的图分解方法。我们实现了 Cao 等人， [6] 作为基线并达到 75.2mAP ，而我们的端到端方法将此精度提高到 76.7mAP。鉴于可用的数据集相对较小，自底向上的方法似乎方法头守Elbo里斯髋膝Ankl是说一元（KL）88.5583.9871.4360.9773.4465.2556.6671.32一元和CRF（KL）89.2684.5772.3461.6573.9366.9858.3272.15端到端（KL）89.5285.1372.9262.4174.4367.3358.7572.96贪婪（Greedy）91.3086.1473.6962.8473.4066.4358.7373.21一元和CRF（贪婪）91.4386.9374.9664.7174.1267.3659.9774.39端到端（贪婪）91.7087.4875.4365.2374.5767.9960.6175.02表3：确认集的消融研究。端到端训练显著提高了多人姿势估计的准确性。方法头守Elbo里斯髋膝Ankl是说自下而上的方法：Insafutdinov等人，[第十五条]78.472.560.251.057.252.045.459.5Pishchulin等人，[35]第三十五届89.484.570.459.368.962.754.670.0Insafutdinov等人，[14个]88.887.075.964.974.268.860.574.3Cao等人，[6]美国91.287.677.766.875.468.961.775.6我们的基线90.787.477.366.575.769.060.975.2我们的CRF91.888.378.567.877.170.063.076.7自上而下的方法（使用单独的人物检测器或单人姿势细化）：Fang等人，[10个国家]88.486.578.670.474.473.065.876.7Newell等人，[27日]92.189.378.969.876.271.664.777.5Nie等人，[29日]92.289.782.174.478.676.469.380.4表4：MPII人体姿势数据集的比较。我们的方法比所有其他自底向上的方法有很大的优势，并且可以与自顶向下的方法相媲美自上而下的方法可以利用更大的数据集来训练外部人员检测器。已经饱和，这种改善是显著的。Tab.中的底部行。4还列出了利用人检测器或单人姿势细化的方法。具体来说，[27]中的方法使用单人姿势估计器来优化最终结果，[10]使用单独的Faster R-CNN[36]人检测器。[29]提出了一种混合模型，它结合了自上而下和自下而上的信息。5. 结论、局限性和未来工作在这项工作中，我们的目标是回答以下研究问题：（1）如何针对图分解问题联合优化模型(2)如何使用周期一致性作为监督信号来捕获训练过程中输出随机变量的依赖性为此，我们建议将最小成本多割问题转换多割问题的硬约束被表述为CRF的高阶势，其参数是可学习的。我们对数字图像聚类和多人姿态估计的任务进行了分析。结果验证了我们的方法的潜力，并显示改进的特征学习和最终的聚类任务。虽然，正如我们在这项工作中所展示的那样，所提出的多割问题的学习方法有几个优点，但仍然存在一些局限性。首先，通过提出的平均场更新，我们可以联合学习前端深度网络和图分解的参数。然而，优化问题中的硬约束并不能保证得到满足。因此，在测试过程中，10101图3：特征学习比较。左：输入图像;中：局部实地地图学习;右：部分字段图与周期一致性学习。正确的样本清楚地显示出更清晰、更准确的置信度图。图4：定性结果。左：无CRF的关联;右：推理后的联想。第一行，明显的错误连接通过推理得到纠正。在第二排闭塞的人被分开。最后一个例子是一个失败的案例。到高效的启发式求解器以返回可行的图分解。第二，我们在多人姿态估计任务的特征学习和循环不等式的有效性方面表现出显着的改进，但姿态关联的最终性能增益并不支持我们优于最先进的自顶向下方法。一个原因是我们的端到端训练只对部分亲和场进行操作，而不是对身体关节检测进行操作，这对最终结果至关重要将身体关节检测包括在端到端训练管道中是一个实际的未来方向。然而，我们认为这项工作增加了一个重要的原始，图分解问题的工具箱，并为未来的研究开辟了许多途径。谢谢。我们感谢Nvidia捐赠用于这项工作的GPU。S.Tang承认德国研究基金会（DFG，德国研究基金会）项目编号276693517 SFB 1233的资助。管理公开 MJB已经收到了来自英特尔、英伟达、Adobe、Facebook和亚马逊的研究基金。虽然MJB是亚马逊的兼职员工，但他的研究完全是MJB在亚马逊和Meshcapade GmbH拥有财务权益。10102引用[1] Brandon Amos和J.济科·科尔特OptNet：微分优化作为神经网络的一层。在 2017 年的国际机器学习会议（ICML）上。2[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在2014年的IEEE计算机视觉和模式识别会议（CVPR）上。6[3] Anurag Arnab、Sadeep Jayasumana、Shuai Zheng和PhilipH. S.乇深度神经网络中的高阶条件随机场。2016年欧洲计算机视觉会议（ECCV）。二、六[4] Nikhil Bansal，Avrim Blum，and Shuchi Chawla.相关聚类Machine Learning，56（1-3）：89-113，2004. 第1、3条[5] Thorsten Beier，Fred A Hamprecht，and Jorg H Kappes.融合移动相关聚类。在IEEE计算机视觉和模式识别会议（CVPR）上，2015年。2[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在2017年IEEE计算机视觉和模式识别会议（CVPR）上。一、二、三、五、六、七[7] 放大图片作者：Alexander G.作者：Alan L. Yuille和Raquel Urtasun学习深度结构化模型。在2015年的国际机器学习会议（ICML）上。2[8] Sunil Chopra和Mendu R Rao。分区问题。Mathematical Programming，59（1-3）：87-115，1993.第1、3条[9] 小楚，欧阳万里，王晓刚。CRF-CNN：人体姿势估计中的结构化信息神经信息处理系统进展（NIPS），2016年。2[10] 方浩书，谢淑琴，戴玉荣，陆策武。区域多人姿态估计。在IEEE国际计算机视觉会议（ICCV），2017年。二、七[11] 戴维·弗罗萨德和拉奎尔·乌塔松多传感器3d跟踪的端到端检测学习。在IEEE机器人与自动化国际会议上，ICRA，2018年。2[12] Jan Funke ， Fabian Tschopp ， William Grisaitis ， ArloSheri- dan ， Chandan Singh ， Stephan Saalfeld ， andSrinivas C Turaga. 大规模图像分割和基于结构化IEEEtransactions on pattern analysis and machine intelligence，41（7）：1669-1680，2018。2[13] Kaiming He，Georgia Gkioxari，Piotr Dollár，and RossGir-shick. 面具R-CNN。IEEE国际计算机视觉会议，2017。二、五[14] EldarInsafutdinov ， MykhayloAndriluka ， LeonidPishchulin ， Siyu Tang ， Evgeny Levinkov ， BjoernAndres，and Bernt Schiele.ArtTrack：野外多人追踪系统。在2017年IEEE计算机视觉和模式识别会议一二三五七[15] Eldar Insafutdinov、Leonid Pishchulin、Bjoern Andres、Mykhaylo Andriluka和Bernt Schiele。深切割：A更深、更强、更快的多人姿态估计模型。2016年欧洲计算机视觉会议（ECCV）。一、二、三、七[16] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe：用于快速特征嵌入的卷积架构。2014年ACM多媒体国际会议。6[17] Jörg Hendrik Kappes ， Markus Speth ， Björn Andres ，Gerhard Reinelt，and Christoph Schn.全局最优图像分割的多切割。在2011年计算机视觉和模式识别中的能量最小化方法国际研讨会上。2[18] Jörg Hendrik Kappes，Markus Speth，Gerhard Reinelt，and Christoph Schnörr.通过多切割进行高阶分割。Comput. 目视图像理解，143（C）：1042016年。2[19] Margret Keuper，Evgeny Levinkov，Nicolas Bonneel，Guil-laume Lavoué，Thomas Brox，and Bjoern Andres.提升多重割的图像和网格图的有效分解IEEEInternationalConference on Computer Vision（ICCV），2015年。二、四[20] Sungwoong Kim，Sebastian Nowozin，Pushmeet Kohli，and Chang D Yoo.高阶相关聚类用于图像分割。神经信息处理系统（NIPS）进展，第1530-1538页，2011年2[21] Alexander Kirillov，Evgeny Levinkov，Bjoern Andres，Bog-danSavchynskyy，andCarstenRother.InstanceCut：从边到实例。在2017年IEEE计算机视觉和模式识别会议（CVPR）一、二[22] 达芙妮·科勒和尼

下载后可阅读完整内容，剩余1页未读，立即下载