多人图像的区域装配：基于身体部位拼接的个性化分割

192 浏览量更新于2023-10-17 收藏 1.46MB PDF 举报

人员检测

优化方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6021解缠人：基于区域拼接的多个亲密人物及其身体部位的个性化美国波士顿学院hjiang@cs.bc.edu美国德克萨斯大学奥斯汀分校grauman@cs.utexas.edu摘要今天然而，在许多真实的图像中，人们并不是这样人们经常看起来很接近对方，例如，四肢相连或头部接触，他们的姿势往往不像印第安人。我们提出了一种方法来解决多人图像中的人。我们把这个问题归结为一个区域装配问题。从身体部位语义分割和通用对象建议的大量重叠区域开始，我们的优化方法将这些片段重新组装到多个人实例中。由于最优区域组装是一个具有挑战性的组合问题，我们提出了一种La-grangian松弛方法来加速下界估计，从而实现全局最优的快速分支定界解。作为输出，我们的方法产生一个像素级地图，指示1）身体部位标签（手臂，腿，躯干和头部），2）哪些部位是哪个人的。我们在具有挑战性的数据集上的结果表明，我们的方法对混乱、遮挡和复杂姿势具有鲁棒性它优于各种竞争方法，包括现有的检测器CRF方法和区域CNN方法。此外，我们展示了它的影响，一个化学识别任务，这需要一个精确的表示“谁的身体部位在哪里”在拥挤的图像。1. 介绍在过去的十年里，人员检测取得了巨大的进步标准方法对行人最有效：直立的人以相当简单、可预测的姿势，并且在人实例之间具有最小的交互和遮挡。不幸的是，真实图像中的人并不总是那么循规蹈矩！许多野外图像包含多个人靠近在一起，也许他们的四肢相互交错，脸靠近，身体部分被遮挡，并且姿势各异。许多计算机视觉应用需要能够将这些自然图像解析成独立的图像。图1. 我们的方法找到人类实例和身体部位区域（手臂，腿，躯干和头部）。从左至右：输入图像、语义身体部分分割、人实例分割、最终人识别和部分标记。个人及其各自的身体部位-例如，时尚[2]、消费者照片分析、预测人与人之间的交互[31]，或者作为朝向活动识别、姿势和姿态分析的垫脚石。当前用于分割人实例的方法[9，10，4，26，27，23，24]采用自上而下的方法。首先，他们使用一个整体的人检测器来定位每个人，然后他们执行像素级分割。由于受到人员检测器的效率和性能的限制，这种方法在处理未知规模和方向的人员时速度很慢。此外，当他们与接近或重叠的人，或不寻常的非身体姿势时，他们会感到痛苦[31]。我们提出了一种新的方法来解决多人图像中的人和他们的身体部位扭转传统的自给定一个包含未知数量的人的输入图像，我们首先使用身体部位语义分割和对象提议来计算一个区域池。这个池中的区域通常是分散的身体部位，并且经常重叠。尽管它们有缺陷，但我们的方法会自动选择最佳子集并将其分组到人类实例中。为了解决这个困难的拼图游戏，我们制定了一个优化问题，其中各部分被分配给人，约束条件偏好小重叠，正确的大小和身体部位之间的空间关系，以及身体部位区域与其人实例的低能量关联。我们表明，这个问题可以有效地解决使用分解和分支定界6022法图1示出了来自所提出的方法的示例结果。请注意，我们不仅估计像素级的身体部位图，而且还指示在三个数据集上的实验表明，我们的方法远远优于一系列现有的方法，包括边界框检测器，CNN区域建议和人体姿态检测器。此外，我们所提出的优化方案相比，简单的推理技术的优势。最后，我们展示了我们的人去纠缠器应用于化学识别[31，39，41]，其中身体部位和身体部位所有者的细粒度估计对于描述微妙的人类交互是有价值的（例如，他是握着她的手还是胳膊肘？）1.1. 相关工作大多数以前的人类实例分割方法需要一个人检测器[11，9，10，4，6，7，8]。在[26，27]中，使用检测器CRF方案研究了电视节目中的多人实例分割，该方案结合了人检测器和像素级CRF以获得准确的结果。顺序分配用于将人的实例掩模拟合到图像数据。从实例掩模，详细的人体分割和身体部位区域进一步估计使用CRF。Hypercolumn [46]是一种CNN方法，可用于通过对初始人员检测边界框中的像素进行分类来进行人员解析。鉴于现有的方法主要采取首先检测人然后分割其部分的策略，我们提出了这种传统管道的逆转。特别地，我们建议从多个人的身体部位的片段或子区域的区域池开始，然后将它们联合组装成个性化的人片段。不依赖于整体人检测器的优点不仅是因为这些检测器具有高计算复杂性，而且还因为人检测器处理复杂的人体姿势、人与人之间的交互和大遮挡仍然是一个困难的问题。与以前的基于检测器的方法相比，我们的方法更有效，并给出了更好的结果。深度学习方法已经在与RCNN [15]相关的联合检测和分割方案[22，46]中进行了研究，尽管作者的目标是通用PASCAL对象检测，而不是个人个性化和身体部位标记。他们的方法从对象区域开始，如[16，17，18]，通过使用彩色图像和二进制图像掩码上的特征，每个区域都被分类为目标，如人类主体潜在地，这样的方法可以是尺度和旋转不变的并且快速。挑战在于如何提出完整的整个对象区域，例如人的整个面具。由于人类四肢的薄结构和任意的人类姿势，这通常是一项困难的任务。我们提出的方法还使用区域建议，但我们的方法允许破碎的子区域，并可以重新组装破碎的区域回到人体部位。部分投票方法已经被深入研究用于人或对象实例分割。在[3]中，边界形状单元投票给人类主体的中心。在 [23，24]，候选人投票的中心，人民的立场。然后识别投票的候选人以获得对象分割。在[25]中，对象边界元是通过查找投票中使用的激活部分来获得的与Hough变换类似，这种方法更适合于具有相对固定形状的目标。我们提出的方法使用关节不变约束而不是简单地投票给人中心来找到最佳部件装配;因此，它可以用于分割高度关节化的人类主体。我们的方法也与人类区域解析有关，因为我们分割并标记每个人的身体部位区域。人体区域解析主要用于分析单个人的身体部位区域[12，13，14，5]。为了处理多个人，在[4]中，行人检测器用于找到每个人的边界框。使用边界框检测器找到具有任意姿势的人仍然是一个难题，而我们的方法自然地处理具有复杂交互和姿势的多个人。部分分割最近已被用于改善动物的语义分割[42]，但成对CRF方法不能个性化多个动物实例。相比之下，我们的方法是能够个性化纠结的人与复杂的姿态。我们的工作也与人体姿态估计密切相关，这已经在深度图像上得到了深入研究[35]以及使用图形结构方法[36，37，38]和CNN [33，43，40，44，45]的彩色图像。然而，与我们的方法不同，人体姿态估计方法通常不直接给出实例和身体部位区域分割。Deep（er）cut [44，45]使用整数规划优化多人简笔画表示与我们的方法不同，Deep（er）cut的身体部位候选者是来自CNN的身体关节候选者，因此该方法不推断区域组装，也不像我们的方法那样处理区域分裂和合并。我们的方法产生多个人类分割，而不提取人类姿势（stick figure）。本文的主要贡献在于：（1）解决了基于区域集合的多人实例分割和人体部位分割(2)我们提出了一种新的线性配方。(3)我们提出了一种拉格朗日松弛法来加快下界估计，并利用快速分支定界法来求解最优化问题实验结果表明，该方法快速有效，优于一系列其他方法，提高了近距离识别的水平。60232. 方法我们首先回顾我们的方法（第二节）。2.1），然后将区域组装的大图公式化为图标记问题（第2.1节）。2.2）。我们详细描述了我们如何实现该配方的组成部分（Sec. 2.3）。我们介绍我们的有效优化方法（第二节）。2.4）。最后，我们讨论优化细节（第二节）。2.5）。2.1. 概述（一）（b）第（1）款区域提议可能已经给出了单独的人类实例的身体部位区域，或者更可能它们是身体部位的部分子区域。许多建议区域不对应于身体部位区域，或者可以是两个个体的身体部位的联合我们的目标是从这些建议中选择一个区域的子集，并将它们重新组合成单独的人体实例和相关的身体部位。直观地说，一个好的配置应该有手臂，腿，躯干和头部区域的比例大小，部分区域应该遵循正确的邻域关系。我们将P表示为不同身体部位的重叠区域或子区域的集合。设X是整数的向量，其指示P中的特定区域被分配给来自1，...，N，N是在优化期间由算法确定的人类实例候选的数量（详情如下）。如果对应的区域候选不属于任何区域，则X自然数和自然数，否则。我们找到了最佳的X通过联合优化所有潜在的人员实例：X=argminX{U（X）−R（X）+S（X）}（1）S.T. I（X）≤ 0，G（X）≤ 0，W（X）≤ 0。这里U是将部分区域分配给特定人类实例的成本R是鼓励所选择的区域候选覆盖对应的身体部位区域的项。S是强制每个检测到的人类实例中的组装的身体区域具有正确大小的项。除了这些术语，我们还引入约束I来限制所选区域之间的相交面积，并引入G来约束特定区域对之间的颜色直方图。我们还使用约束W来强制每个实例人的总身体部位面积在上限内。所有这些术语的详细定义如下。2.2. 图标号问题的区域装配图2（a）将区域组装问题图示为图标记。节点对应于不同身体部位的区域或头节点和头躯干节点图。2（a）也被表示为人类实例节点。头部-躯干节点表示头部-躯干区域组合。二进制边缘对应于可能的区域到人的实例分配，并且超边缘约束区域耦合和分配一致性。二进制边和节点具有权重。我们本质上需要找到一个最佳的节点-边缘标记，以最小化总权重。优化是组合的。很难图2.（a）为了优化区域组装，我们找到节点和边0-1最小化Eq.中的目标的分配。1，同时满足对车身零件装配的不同区域约束。(b)我们将优化分解为两个阶段的三个优化。详情见正文解决由于大量的边缘，循环结构和高阶约束。我们没有直接解决这个难题，而是将其分解为两个阶段中三个简单图上的三个优化第2段（b）分段。优化发现图1中的每个增广二分图中的节点配对。第2段（b）分段。一侧的节点是躯干、手臂或腿的区域。上的节点另一侧是使用头部区域（阶段一）或头部-躯干区域组合（阶段二）的人类实例表示。每个部位区域（手臂、腿、躯干）节点最多只能使用一次，并且每个人体实例节点可以接收零个或多个区域匹配。当选择多个部位节点时，我们使用“断开的”区域片段组装相应的身体部位区域。零件区域的节点通过尺寸约束和排除约束耦合躯干、手臂和腿的优化实际上共享相同的结构，因此我们可以同时讨论它们，如下所示。2.3. 详细制定现在，我们来演示一下如何实例化上面给出的一般公式。我们从语义分割图开始，其中每个像素被分类为四种部分类型（手臂、腿、躯干和头部）之一或背景。（“背景”=“不是任何人”;所有的人物图片都是“前景 ” ）。该地图是通过首先从 CNN （一种改进的AlexNet）中为不同尺度的每个部分计算一堆概率地图来获得的。然后应用最大池化来计算身体部位软语义图。我们使用具有α扩展的图切割来生成最终的语义分割图。总的来说，我们的目标是拥有一个具有高召回率但可能低精度的大型零件候选库;这样，我们就有很大的机会正确地使用它们来组装和分离多个人类实例。考虑到这一点，身体部位（躯干、手臂和腿）的区域和子区域除了使用来自CNN衍生的语义分割图的身体部位区域的连接组件外，我们还使用来自[16]通过将区域建议与每个部分区域相交来将可能合并的部分区域“切割”成更小的片段。因此，区域包括整个身体部位和身体部位的片段。一致性约束区域躯干，头部约束头躯干躯干臂躯干，头部手臂躯干，头腿腿区域限制第一第二.................................6024JJ我J我我头部区域以不同的方式生成，因为上述方法可能不总是能够分离封闭的头部区域。头部区域是圆形区域，其半径由每个头部点处的最大响应尺度确定;通过使用非最大值抑制在软共振头部图中找到峰值来检测头部点。虽然我们的框架允许在同一点上有多个具有不同尺度的中心候选人头部候选区域进一步与语义图中的人前景重叠。头部候选者的数量告诉我们图像中的最大人数如以下各节所述，候选人的选择是通过不同的任期来平衡的。如果包括误报警头部，则头部和其他身体部分之间的耦合项通过适当的权重，可以消除大多数头部错误警报。错过正面的可能性较小，因为我们使用较低的阈值来找到更多的正面候选人。我们引入一个二进制变量xi，j，即等式中X的二进制化版本。1，标签边缘图。2（b）：如果区域i被选择为人j的一部分，则xi，j = 1，否则xi，j=0。We对x有以下约束：jxi，j≤1，其中意味着每个区域最多只能分配给一个人类实例。每个人实例可以连接到多个区域来处理区域分裂的情况。我们还引入变量yj来表示人/头是否可以-选择日期j y是人类实例节点变量。我们强制yj≥xi，j，ni. 在阶段tw o中，头-躯干区域来自阶段1的解，并且y都是1。2.3.1区域分配成本U：将区域i关联到人员实例有一个成本ci，jcandidatej，以及选择candidatej的cost pj。的硬约束，一个软约束，区域组装以接近相应主体部分的尺寸。我们尽量减少|（aixi，j/s2）−l|，其可转化为线性形式：minej，s. t.-ej≤（aixi，j/s2）−l≤ej，ej≥0。这里我是一个从不同视角观察参考人的身体部位尺寸点它对应于第一阶段的躯干和第二阶段的手臂或腿。2.3.3排除和颜色一致性I和G：我们也倾向于选择大多数非-重叠以形成每个身体部位区域。因此，我们在-引入一个新的排除约束I来阻止过度重叠。令zi=jxi，j指示区域i是否与人类实例相关联。为了构造约束I，我们让zm+zn≤1，如果qm，n> τ，其中qm，n是区域m与n的面积交并比，τ是常数.除了交叉排除，我们还希望如果选择两个区域来形成相同的身体部位，则颜色直方图应该匹配。因此，如果hu，v > ε，则我们强制约束G，xu，j+xv ，j≤1，其中hu，v是区域的归一化颜色直方图之间的L1距离u和v和ε是恒定阈值。2.3.4最大覆盖项R：如果我们简单地最小化上述项，x，y将全为零，因为目标中的所有系数都是非负的。我们引入了一个额外的覆盖项，以鼓励chosen区域覆盖相应的身体部分区域，语义分类图。我们最大化总区域大小R=irizi，其中ri=ai/mti，ti是候选i的零件类型，mti是零件ti的总面积在语义图中R与总面积成正比总分配成本为U（X）=i，jci，jxi，j+ijpjyj.尺寸这鼓励了区域覆盖，因为我们强制执行我们只在第一阶段优化y。在第二阶段，y被固定为全1，并且可以从优化中删除。pj等于1减去头部区域这些区域大多不相交。结合上述术语，我们有我们的优化目标：头部图，以强调在更有信心的头部发生的成本。a是一个恒定的权重，min.Σci，jx i，j+Σpjyj+φ Σej−πΣΣ我爱你（二）关联成本与实例选择成本。成本ci，j旨在基于以下条件将人实例与“看起来像”相应身体部位的一部分的区域相关联S.T.i，j jΣΣxi，j≤1，z i=J JJ Ixi，j，yj≥xi，j，i，jCNN软语义分割，并接近锚点zm + zn ≤ 1，如果qm，n> τ，xu，j + xv，j ≤1，如果hu，v> ε部分（第一阶段的头部和第二阶段的躯干）。2.3.2尺寸项S和约束W：Σ2Σ10 - 12 - 2016 09：01：0000：00 00：0000：00我我2aixi，j/sj）−l ≤ej，ej ≥0，当组成一个人类实例所选区域的面积受身体部位的尺寸限制：aixi ，j≤s2b，其中ai是区域的面积i，sj是头部候选者j的比例，b是参考人的身体部分的最大在第一阶段，b是躯干的最大面积，在第二阶段，b限制手臂或腿的面积。除了其中φ和π是用于控制重量的大小和涵盖的条款。如果我们向量化变量x，y，e并将z替换为x项，则优化具有以下格式：min{gT x+wT y+φ1Te}（3）x，y，e6025S.T. Ax≤1，Bx+Ce+Dy≤f，e≥0，x，y是二元的.6026这里，向量x包括边缘变量，向量y包括人类实例节点变量。x的dimension是阶段1中的躯干区域的数量（或阶段2中的手臂或腿部区域的数量）乘以候选头部区域的数量。y的维度是头部区域的数量。e是辅助变量向量。g，w是常数系数向量。φ是常数。1是-1.5-2-2.5-3x104（一）-2-3-4(b)（c）（d）x104-4-6-8-10-12-14一个单一的载体 Ax≤1是赋值约束，Bx+Ce+Dy≤f为区域耦合约束。100200300400 500迭代编号（e）100200300400500迭代编号（f）第（1）款100200300400500迭代编号（g）2.4. 下限整数规划的直接线性松弛算法复杂度高。对于1000个候选人和2个人类实例，单纯形方法需要大约4秒才能完成，而使用以下加速，使用相同的CPU，时间可以减少到0.1秒。我们得到的下界使用拉格朗日对偶。尺寸约束和排除约束使问题复杂化。我们把它们移到目标函数中。为了简化符号，我们使用Eq的紧凑格式。第三章：max min{gT x+wT y+φ 1Te+νT（Bx+Ce+Dy−f）}νx，y，eS.T. Ax≤1，0≤e≤M，x，y是二进制的，ν≥0，（4）其中ν是拉格朗日乘子向量。我们引入了一个上界M，以避免无界的解决方案。由于目标中的额外项对于原问题的所有可行解都是非正的，因此La- grangian对偶给出了一个下界。对偶的内部部分很容易解决，因为它可以分解为三个简单的问题（在第二阶段没有P2）：[P1]：min（gT+νT B）x，s.t. Ax≤1，x为二进制。（五）X[P2]：min（wT+vT D）y，s.t. y是二进制的。（六）y[P3]：min（φ1T+νT C）e，s.t. 0 ≤ e ≤ M。（七）eP1可以通过顺序赋值来求解：在一个分配图中，如图1所示。2（b），对于每个身体部位区域节点，我们检查到人类实例节点的所有链接，并找到最负的链接，并使相应的x变量为1。如果没有负链接，则不进行匹配，对应的x为0。在P2和P3中，y被设置为0或1，e被设置为0或M，这取决于它们的系数的正性。每一组拉格朗日乘子对应于原问题的一个下界。我们感兴趣的是最大的下界。关于乘数的界迭代在求解-对 x ， y ， e 进行 ing ，并通过 ν←max （ 0 ， ν+δ（Bx+Ce+Dy−f））更新ν。这里δ是一个小常数10−6。v中这些系数的初始值被设置为零。图3. （a）：从左到右：输入图像，CNN的语义分割，以及所提出的分支定界方法的区域组装结果（阴影和边界颜色显示实例分割）。在（a）中，请注意CNN的输出如何不将部分个体化为人物实例（中心），而我们的输出（右）。(b-d)：使用拉格朗日对偶对躯干、手臂和腿部进行零件选择。为了清楚起见，在第二阶段优化中未示出躯干颜色表示实例组。(e-g)显示拉格朗日对偶的能量接近线性规划松弛的解（红线）。对于这个问题，拉格朗日松弛界是相同的线性规划松弛。这是由于La- grangian对偶的内部问题的全单模性[28]。Example. 图3示出了使用拉格朗日松弛来获得下限的示例。在两个阶段中的三个优化的La- grangian松弛。如图3（e-g），结果收敛很快线性规划松弛的结果（红线）在几百次迭代中。我们看到松弛分配实际上非常类似于全局最优解。使用拉格朗日松弛法找到下界的复杂度是O（n），其中n是区域建议的数量乘以人类实例候选的数量，并且我们在子梯度方法中使用固定的迭代次数而使用单纯形法的线性松弛 [34] 的平均复杂度是 O （ nlog（n））。上述对偶方法可以扩展到估计搜索树的每个节点处的下界有了下界，我们使用分支定界方法来找到快速全局优化我们设置阈值τ = 0。2，ε = 0。能量项的权重为φ=500，φ=1，π=2×105。我们在手动操作后，检查几个例子。有了更多的标记数据，我们可以优化这些参数以获得更好的性能。2.5. 分枝定界优化我们使用分支定界法来全局优化这三个子问题。我们在x上分支，系数是未确定x的中位数，因为它可能是如果x的一个元素被强制为0，则等效于从优化中删除该变量。如果x的一个元素被强制为1，我们仍然可以将其从优化中删除，但我们必须在优化中改变相应的系数。在任一种情况下，拉格朗日松弛方法仍然可以用于进一步计算。x104能源能源能源6027图4. UCI和MPII数据集上的示例结果。每个结果包含四列：（1）输入图像，（2）我们的输入语义分割身体部位图，（3）最终实例分割，以及（4）使用所提出的方法的最终身体部位分割。我们使用阴影和不同的边界颜色来显示分割。相同的身体部位具有相同的色度（手臂：绿色，腿：蓝色，躯干：黄色，头部：红色），但如果它们属于不同的人，则具有不同的亮度。所有五个最好在PDF上查看。求出每个分支的下界。对于每个分支，如果对偶解是原始可行的并且满足互补松弛，则它是全局最优解。对于搜索树中的每个节点，我们使用一个简单的贪婪分配方法获得原始可行解，如果可行解具有较小的目标，则更新上界如果下界大于最小上界或不可行，则修剪一个分支我们总是在具有最低下界的节点上分支。由于下界很紧，分支和绑定很快终止。我们还使用宽松的公差间隙来加快程序。公差间隙（u−l）/|u+L|其中u是活动分支中的最低上界，L是活动分支中的最低下界，可以设置为20%，并且该方法仍然给出良好的结果。使用拉格朗日量第2.4节中的松弛方法。对于实验中的大多数问题，n平均值在500左右，分支定界过程会在几秒钟内终止。3. 实验结果概述：在下文中，我们将我们的方法与1）更简单的推理方法进行比较，以显示在初始CNN身体部位映射上增加的价值; 2）边界框检测器方法; 3）使用区域提议的CNN方法; 4）基于人体姿态检测的方法。在确定了我们的方法的准确性之后，我们随后证明了其对于下游任务的适用性：化学识别。数据集和评估指标：我们在3个数据集上评估了所提出的方法：UCI [31]，其中包含589张图像，100张来自MPII数据集[32]的图像，[27]第27话，我的朋友们这些图像包括复杂的人体姿势、交互和主体之间的遮挡。人的尺度和取向是未知的。这些是可用于定位人员和零件的最全面的数据集。几乎所有测试图像在PASCAL或COCO等通用识别数据集中，只有10%到30%的图像甚至有多个人。我们手动标记UCI和MPII数据集中的人类实例和四个部分区域，仅用于地面实况评估（而不是训练CNN）。像素级部分语义分割CNN是一个AlexNet，其全连接层转换为卷积层，并在LSP数据集上训练[20]。我们使用标准的面积交集与并集（IoU）比来量化性能。我们报告人类实例的IoU以及每个实例中所有身体部位标签的平均IoU。为了计算前向（F）分数，我们将每个地面真值片段与最佳分割结果进行匹配。对于后向（B）分数，匹配是相反的。前向分数受遗漏检测的影响，后向分数受假警报的影响。图4显示了我们的方法在UCI和MPII上的样本结果。我们最初的CNN身体部分地图足够了吗？在CNN映射之上的一个更简单的推理方法就足够了吗？首先，我们强调CNN身体部位图在定义上是不够的，因为它们没有区分哪个身体部位的斑点属于哪个人。当人靠近时，人和部分分割合并例如，如果它们的手臂接触，则在CNN输出中产生一个连接的分量;参见图4，每组中的第二列我们的CNN语义分割本身是合理的。在UCI和MPII上，平均前景像素精度和部分像素精度为73。13%和42。分别为41%。然而，这并不容易转移到一个良好的人类立场分割。为了定量地证实这一点，我们测试了1 ）基线，其返回 CNN 图中用于身体部位标签（Connected）的连接分量，以及6028图5. 顶部：与使用RCNN [30]和Poselet（Pestal）[23]检测器加上GrabCut（C）[29]的人分割的比较，底部：对象建议方法（选择性搜索（SS）[17]，对象独立建议（OIP）[16]和MCG [18]）结合RCNN（R）人检测器[15]（底部）。对于两者，我们的结果显示在最后一行。图6. 与使用人体姿态检测器的方法比较[21，43]。我们的方法的结果在第2列（实例分割）和第3列（部分分割）中。列4显示[21]的结果，列5显示[43]的结果。在这里，我们展示了CRF细化之前的姿势遮罩。这条线，grefinds每个人的分组顺序（贪婪）。对于后者，在找到最低成本组后，该组中的区域被删除，我们继续到下一个，直到所有的头部区域被耗尽。注意，由于搜索空间巨大，朴素穷举搜索非常慢。表1示出了结果。我们的完整方法我们的有效全局优化是必要的。与边界框检测器方法的比较：一种广泛使用的方法（例如，[9，10，4，23]）提取人体实例是首先在一组边界框中检测人为了测试这样一个基线，我们使用一个可变形的部分模型（deformable partmodel，缩写为EVM）人[30]和poselet（Poselet）人检测器[23]，并使用GrabCut[29]进行细分。我们将人员检测器的阈值调整到较低的一侧，以便它们可以检测到更多的人员实例。我们还调整了GrabCut的参数，以实现最佳性能。如图5（顶部），当人具有复杂的姿势、交互和遮挡时，来自人检测器的边界框不准确。对于像素级分割方法来说，在没有手动交互的情况下校正这样的错误是一项重要的任务。事实上，我们的方法始终优于基于检测器的方法（见表1和Poselet）。与使用区域建议的CNN对象检测器的比较：人类实例分割的另一种方法是首先生成许多区域建议，然后使用分类器提取真实的人类实例，例如。[22]第20段。RCNN [15]也可以修改以实现这样的功能。为了将这个想法与我们的方法进行比较，我们测试了三种区域生成方法：选择性搜索[17]，MCG [18]和对象独立提案[16]。然后，将包含区域提议的每个矩形图像块为了公平比较，除了用于训练的原始数据集外，我们还在改进中包括LSP图像[20]，这改善了基线图5（底部）示出了样品结果。在具有缠结的人的图像实例中，区域建议通常很难获得完整的人分割，因为在这些区域建议方法中不直接使用人结构表1显示了定量比较。我们的方法给出了更好的结果。与使用人体姿态检测器的方法的比较：接下来，我们将我们的方法与两个简笔画姿势检测器（后处理以提供分割）进行比较。第一种是使用可伸缩的简笔人物探测器[26];第二种是基于CNN的部分检测[43]。人类实例分割分数未在[26]中报告;身体部位IoU分数基于与我们和代码不同的身体部位区域定义[26] 并不公开。因此，我们比较了N个最佳姿势的上限性能[21]，用于人体分割。我们要遵循[26]的原则，N-最佳姿态，以去除非常接近的估计，同时保持品种;几千个候选姿势是可预期的。这些姿势随后被细化为人物面具[26]。与[26]中使用能量选择最佳候选人不同，我们使用地面真实值直接找到最大化IoU比率得分的候选人。我们还指定了计算向前分数时匹配的顺序，以便可以计算遮挡。因此，分数是基线的上限。CNN姿势检测器[43]基线（CNN-D）被设计用于检测单人粘连。让它6029我们连接贪婪DPM波瑟莱R-IR-IIR-IIINBestCNN-DUCIFB63.0263.4541.6229.1646.8845.9157.6455.5953.5051.7256.0447.1054.0141.4736.3233.4761.8157.4848.5848.96MPIIFB57.4857.1530.8818.8540.1539.8842.2147.9140.0048.4356.0447.1054.0141.4736.3233.4747.7448.6638.2445.48我们CGNBCDUCIFB38.3938.5624.7518.4327.2932.3037.9831.0826.4926.75MPIIFB35.4835.4720.2612.5424.2529.8028.7129.1622.2728.91表1.UCI和MPII数据集的平均人员实例（左表）和部分（右表）IoU比率比较（%）。在左表中，符号包括连接：连接组件方法。R-I：RCNN+OIP，R-II：RCNN+MCG，R-III：RCNN+SelectiveSearch，CNN-D：CNN姿态检测器[43]。F：前锋得分。B：落后得分。部分IoU表：连通分量表示为C，贪婪方法表示为G，Nbest表示为NB，CNN-D表示为CD。推广到我们的多人图像，我们使用CNN [30]来检测候选边界框，然后应用CNN姿势检测器[43]来查找每个边界框中的姿势。我们改进了简笔画检测，以获得以下实例分割[26]。如表1所示，我们的方法总体上在UCI和MPII上优于基于姿态的方法（NBest和CNN-D）图6显示了原始掩码的样本，其细化最适合地面真实区域。我们的方法在处理遮挡和复杂的人际互动时比传统的简笔画姿势检测器更鲁棒。除了实例分割分数之外，我们的方法还给出了比姿势检测器方法更好的部分分割分数（参见表1）。与最先进的个性化比较：我们与[27]进行了比较，[27]是一种专门针对人类个性化的方法，代表了最先进的技术水平，我们的方法适用于Buffy数据集第4，5，6集的所有图像。我们的平均前向和后向得分分别为68.22%和69.66%，高于[27]报道的平均得分62.4%。请注意，[27]是在Buffy数据集上训练的，而我们的不是。我们还比较了我们的人解析方法与PASCAL VOC中的连接对象类别的超列方法[46]。我们的人身体部位在0.5处的APr为0.312，这高于在0.5处具有0.285 APr的超柱方法。检测器CRF方法[26，27]也比我们的方法具有更高的使用3GHz机器，仅在10个方向上找到一个大的姿势候选集就需要3分钟。我们的方法在每个图像上的区域组装需要不到10秒。我们的方法是旋转不变的。我们的方法可能会失败（图。（8）语义图是否存在严重错误。通过更好的像素级语义分割，可以进一步提高人体实例检测和分割的效果。化学品认证申请：最后，我们证明了我们的人类区域解析的实用程序的化学识别。近位学是研究个体在社会情境中自然保持的空间分离。创建UCI数据集以研究生物化学，并标记为6个类别：手-手（HH），手-肩（HS），肩-肩（SS），手-躯干（HT），手-肘（HE）和肘-肩（ES）。我们使用的功能，包括最小和最大距离之间的每对上半身部分地区的人G：SSHE G：HHHTG：HHG：HSD：SSHE D：HHHTD：HHD：HSG：HHSSESG：HTG：HSESG：HSD：HHSSHTD：HSHTESD：HTESD：HHHTHEESHHHSSSHT他ES平均值（a）平均值（b）我们59.752.053.933.236.136.245.247.58[三十一]3729506138344238[39]第三十九届3120402011122223[41个]41.235.462.2NA43.955.0NA47.54图7. 样品化学识别。第一行：我们的结果（D）与地面实况（G）匹配。第二行：失败案例。该表显示了化学识别的平均精度（%）。平均值（a）是所有类别的平均值。平均值（b）不包括HT类。图8. 失败案例示例。由两个受试者的平均尺度、归一化的头部水平和垂直距离以及尺度差归一化的对按照[31]中的设置，训练和测试的数据被均匀随机分割为了在这些特征之上学习6个数学类，我们使用了一个随机森林分类器，它有100棵树和无限的树深度。我们重复实验10次，并报告平均精度。我们不使用地面实况头部位置。图7显示了样本分类和AP评分。我们的平均AP得分高于所有竞争方法[31，39，41]。我们的弱点VS [31]可能是因为不仅婴儿拥抱，而且其他手放在躯干上的图像也被归类为HT。与现有的姿态检测器相比，我们的方法对大的遮挡更有抵抗力非行人的姿势和复杂的互动。4. 结论我们提出了一种新的方法来分割人体实例和标记他们的身体部位使用区域组装。所提出的方法能够处理复杂的人类交互、遮挡、困难的姿势，并且是旋转和缩放不变性的。我们的分支定界方法是快速和可靠的结果。我们的方法致谢：本研究部分得到以下方面的支持：美国NSF 1018641和Nvidia（HJ）和ONR的礼物PECASE N00014-15-1-2291（KG）。6030引用[1] P. 多尔阿尔角沃杰克湾 Schiele和P. 佩洛娜行人检测：对现有技术的评价。TPAMI 2012年。[2] K.山口，H。Kiapour，L.E. Ortiz，T.L.伯格。检索相似样式以解析服装。TPAMI，第37卷，第5期，2015年。[3] M.D. Rodriguez和M.Shah. 拥挤场景中人体的检测与分割ACM MM 2007。[4] Y.波和CC福克斯基于形状的行人分析。2011年《残疾人权利公约》[5] J. 东角，澳-地Chen，X.Shen，J.Yang，S.燕. 人类的行为模式和行为模式。CVPR 2014年。[6] T.林，S。洪湾，澳-地汉<英>来华传教士。韩自然视频中人体的联合分割与姿态跟踪。ICCV 2013年。[7] H. Wang，中国山杨D.科勒基于松弛对偶分解的多层次推理人体姿态分割。2011年《残疾人权利公约》[8] P. Kohli，J. Rihan，M. Bray和P.乇基于动态图割的人体分割与姿态估计。IJCV，79：285298，2008.[9] J.C.尼布尔斯湾Han和L.飞飞基于跟踪的人体运动轨迹有效提取CVPR 2010。[10]J.C.尼布尔斯湾Han，A. Ferencz和L.飞飞从互联网视频中提取移动的人。ECCV 2008年。[11]T. Zhao河，巴西-地奈瓦提亚拥挤环境下的贝叶斯人体分割。CVPR 2003年。[12]G. Mori，X. Ren，A.A. Efros和J.马利克恢复人体形态：结合分割和识别。CVPR 2004。[13]H.蒋使用比例、旋转和清晰度不变匹配查找人物。ECCV，2012年。[14]P. Srinivasan，J.石自底向上的人体识别和解析。CVPR2007。[15]R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR2014年。[16]I. Endres、D.霍伊姆具有不同等级的类别独立对象命题。PAMI 2014年2月。[17]J.R.R. Uijlings，K.E.A. van de Sande，T. Gevers，A.W.M.史默德斯对象识别的选择性搜索。IJCV，第104卷，第2期，第154-171页，2013年。[18]P. Arbelaez，J.Pont-Tuset，J.T.Barron，F.Marques，J.马利克多尺度组合分组。CVPR 2014年。[19]J.朗，E. Shelhamer，T.达雷尔。用于语义分割的全卷积网络。CVPR 2015。[20]S.约翰逊，M。Everingham用于人体姿态估计的修正姿态和非线性外观模型。BMVC 2010。[21]D.帕克D。Ramanan部分模型的N最佳最大解码器。ICCV 2011年。[22]B.哈里哈兰山口阿贝拉埃斯河Girshick和J.马利克同时检测和分割。ECCV 2014。[23]T.布罗克斯湖 Bourdev，S. 玛吉，J. 马利克。通过将Poselet激活与图像轮廓对齐的对象分割。2011年《残疾人权利公约》[24]L. Bourdev，S.Maji，T.Brox，J.马利克检测使用相互一致的Poselet激活的人ECCV 2010年。[25]B. 哈里哈兰山口阿贝拉埃斯湖Bourdev，S.Maji和J.马利克从反向检测器的语义轮廓。ICCV 2011年。[26] L. Ladicky，P. Torr，A.齐瑟曼。人体姿态估计6031使用联合逐像素和逐部分公式化。CVPR 2013。[27]V. Vineet，J.沃勒尔湖Ladicky，P. Torr.使用基于检测器的条件随机场从视频中分割人体实例。BMVC 2011。[28]洛杉矶沃尔西， G.L. 奈姆豪泽整数和组合优化。Wiley，1999年。[

下载后可阅读完整内容，剩余1页未读，立即下载