多人姿态估计中通道混洗和注意力残差瓶颈的增强模块

145 浏览量更新于2023-10-18 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5674多人姿态估计具有增强的逐行和空间信息苏凯<$，1，2，于东东<$，2，徐振奇，2，耿鑫，1，王常虎，21东南大学计算机科学与工程学院{sukai，xgeng}@ seu.edu.cn2字节跳动人工智能实验室，北京，中国{sukai，yudongdong，xuzhenqi，wangchanghu}@ bytedance.com摘要多人姿态估计是计算机视觉中一个重要而又具有挑战性的问题。虽然目前的方法在融合多尺度特征图方面取得了显著的进展，但对增强特征图的通道信息和空间信息关注较少。在本文中，我们提出了两个新的模块来执行多人姿态估计的信息增强。首先，提出了一种通道混洗模型（CSM），对不同层次的特征图进行通道混洗操作，促进金字塔特征图之间的跨通道信息交流其次，设计了一个空间、通道方向的注意力残差瓶颈（SCARB），通过注意力机制提升原始残差单元，自适应地突出空间和通道方向背景下的特征图信息。我们提出的模块的有效性进行了评估COCO关键点基准测试，实验结果表明，我们的方法达到了国家的最先进的结果。1. 介绍多人姿态估计旨在定位图像中所有人的身体部位，例如手臂，躯干和面部上的关键点。对于许多计算机视觉应用（如活动识别[22]和人类重新识别[28]）来说，这是一项基本但具有挑战性的实现交流-†同等贡献。第十章Geng和C.王先生为通讯作者。这项工作是在Kai Su作为实习生在字节跳动人工智能实验室。本研究得到了国家重点研究发展计划（No.2017YFB1002801）、国家自然科学基金（61622203）、软件新技术与产业化协同创新中心、无线通信技术协同创新中心的部分支持图1.来自COCO test-dev数据集[12]的输入图像（左）和来自我们模型的估计姿态（右）然而，由于紧密交互场景、遮挡和不同的人类尺度，精确的定位结果是困难的。最近，由于深度卷积神经网络的参与[10，7]，多人姿态估计问题取得了重大进展[23，16，4，3，1，15，26]。用于多人姿态估计的现有方法可以大致分为两个框架，即，自上而下的框架[23，16，4，3]和自下而上的框架[1，15，26]。前者首先检测图像中的所有人体边界框，然后独立地估计每个框内的姿态。后者首先独立检测所有人体关键点，然后将检测到的人体关节组装成多个人体姿势。虽然已经取得了很大的进展，但要实现精确的定位结果仍然是一个首先，一方面，在一些具有挑战性的情况下需要具有较大感受野的高级特征图来推断不可见和被遮挡的关键点，例如，人的右膝在图。1.另一方面，具有较大分辨率的低级特征图也有助于关键点的详细图中的人类右脚踝。1.在真实场景中，低级和高级特征图之间的权衡更为复杂其次，特征融合是动态的，融合后的特征图总是冗余的。因此，对姿态估计更重要的信息应该是自适应的。5675频道混洗模块S-转化2S-转化3S-转化4S-Conv-5Concat+Concat+Concat损Concat+2x4x损失8x∼∼R-转化1R-转化2R-转化3R-转化4R-Conv-5Conv 1x1Conv 1x1Conv 1x1Conv 1x1Conv-2Conv-3Conv-4Conv-5图2.我们的架构概览。R-Conv-1 - 5是来自ResNet主干的不同特征映射的最后一个残差块[7]。R-Conv-2 5首先通过1 × 1卷积减少到相同的通道维数256，表示为Conv-2 5。S-Conv-2_5表示通道混洗模块之后的相应混洗特征图。然后将S-Conv-2 5与Conv-25连接起来，作为最终的增强金字塔特征。此外，提出了一种空间方向的注意力残差瓶颈，金字塔特征响应。Loss表示L2损失，loss* 表示在线硬关键点挖掘的L2损失[3]。突出显示，例如，在注意力机制的帮助下基于上述分析，本文提出了一种通道混洗模块（CSM），以进一步增强跨尺度特征图之间的跨通道通信。此外，空间，通道注意力残留瓶颈（SCARB）的设计，以自适应地增强融合的特征图在空间和通道的上下文中。为了促进不同分辨率层的特征图之间与ShuffleNet不同的是，本文创造性地采用了通道混洗操作，使跨通道的信息在所有尺度的特征映射之间流动据我们所知，使用通道混洗操作来增强特征图的信息在多人姿态估计的复杂工作中很少被提及。如图2中，所提出的通道混洗模块（CSM）对不同分辨率的特征图Conv-25执行，以获得混洗特征图S-Conv-2 5。CSM背后的想法是通道混洗操作可以进一步重新校准低级和高级特征图之间的相互依赖性。此外，我们提出了一个空间的、通道式的注意力剩余瓶颈（SCARB），将空间和通道式的注意力机制集成到原始的剩余单元中 [7]。如图 2 ，通过将这些SCARB堆叠在一起，我们可以在空间和通道上下文中自适应地增强融合金字塔特征响应。设计具有注意力机制的网络是一种趋势，因为它能有效地自适应地突出输入特征图中信息量最大的部分然而，空间和通道方向的注意力很少被用于多人姿态估计。作为自顶向下框架的经典方法之一，级联金字塔网络（CPN）[3]是COCO 2017年关键点挑战赛的获胜者[13]。由于CPN是多人姿态估计的有效结构，因此我们将其作为实验中的基本网络结构来研究增强的通道和空间信息的影响。我们在COCO [12]关键点基准上评估了两个拟议模块，消融研究从各个方面证明了通道洗牌模块和空间、逐行注意力残留瓶颈的有效性。实验结果表明，我们的方法达到了最先进的结果。总之，我们的主要贡献有三个方面：我们提出了一个通道洗牌模块（CSM），它可以增强低级别和高级别特征映射之间的跨通道信息通信。我们提出了一个空间的，逐通道的注意力残留瓶颈（SCARB），它可以自适应地增强融合金字塔的功能响应在空间和通道的上下文中。转换和下采样Conv 1x1降维转换S-Conv-x混洗特征图+厄莱姆苏姆空间、空间方向注意力剩余瓶颈Concat··5676∼∼∼∼∼∼×我们的方法在COCO关键点基准测试中获得了最先进的结果本文的其余部分组织如下。首先，对相关工作进行了回顾.其次，我们的方法进行了详细描述。然后进行烧蚀研究，以测量我们的系统的不同部分的效果，并报告了实验结果。最后给出了结论。2. 相关工作本节回顾与我们的方法相关的两个方面：多尺度融合和视觉注意机制。2.1. 多尺度融合机制在先前的多人姿态估计工作中，通过卷积姿态机[23，1]中的顺序架构实现了大的接收场，Conv-2 Conv-3 Conv-4 Conv-5C-Conv-2 C-Conv-3 C-Conv-4C-Conv-5Conv1x1Conv1x1Conv1x1隐式地捕捉了S-转化2S-转化3S-转化4S-Conv-5多个部分，产生越来越精确的估计。然而，低级信息在此过程中被忽略。堆叠沙漏网络[16，15]处理所有尺度的特征图以捕获不同分辨率的各种空间关系，并采用跳过层来保留每个分辨率的空间信息。此外，特征金字塔网络架构[11]集成在级联金字塔网络[3]的GlobalNet中，以维护来自不同尺度特征地图的高级和低级信息2.2. 视觉注意机制视觉注意力在各种任务中取得了巨大的成功，例如网络架构设计[8]，图像标题[2，25]和姿态估计[4]。SE-Net [8]提出了一个然而，SE块只考虑通道间的关系，而忽略了空间注意力在特征图中的重要性。SCA-CNN [2]提出了CNN中用于图像标题的空间和逐行注意空间和通道方面的注意力不仅编码在哪里（即，空间注意力）而且还引入了什么（即，通道式注意力）重要的视觉注意力在特征图中。然而，空间和通道方向的注意力很少用于多人姿态估计。Chu等人 [4]提出了一种有效的多上下文注意模型用于人体姿态估计。然而，我们提出的多人姿态估计的空间和通道注意力残留瓶颈尚未在[4]中提及。3. 方法我们提出的框架的概述如图所示。二、我们采用了有效的级联金字塔网络-图3.频道混洗模块。该模块采用对金字塔特征Conv-2_5的通道混洗操作，实现混洗金字塔特征S-Conv-2_5的跨通道通信。在这里，组g被设置为4work（CPN）[3]作为基本网络结构，以探索通道洗牌模块和空间、逐行注意力剩余瓶颈对多人姿态估计的影响。我们首先简要回顾了CPN的结构，然后详细描述了我们提出的模块。3.1. 再论级联金字塔网络级联金字塔网络（CPN）[3]是用于人体姿态估计的两步给定一个人框，首先，CPN使用GlobalNet来定位一些基于FPN架构的“简单”关键点[11]。第二，CPN采用RefineNet和在线硬关键点挖掘机制来明确地解决如图2，在本文中，对于GlobalNet，具有不同尺度的特征图（即，R-Conv-2 5）首先通过11卷积减少到256然后，所提出的信道混洗最后，将S-Conv-2 5与原始金字塔特征Conv-2 5结合作为最终增强金字塔特征，其将用作U形FPN架构。此外，对于RefineNet，提出了一种具有空间、通道方向注意机制的增强残差瓶颈，以自适应地突出在空间和通道方向上下文中从GlobalNet传输的特征响应上采样上采样上采样Concat频道随机播放拆分Downsample DownsampleConv 1x1·5677Conv+规模乙状残余乙状FCReLUFC全球集中共用规模+残余∼∼∼∼∼∼×∼∼∗∈∈∗3.2. 频道洗牌模块由于深度卷积神经网络中的层的深度极大地丰富了特征图的级别，因此许多视觉任务已经做出了显著的改进，例如，图像分类[7]。然而，对于多人姿态估计，在低级和高级特征图之间的权衡中仍然存在限制。不同层次之间具有不同特征的渠道信息可以相互补充、相互加强。受此启发，我们提出了通道洗牌模块（CSM），以进一步重新校准的相互依赖性之间的低级别和高级别的功能地图。如图3，假设从ResNet主干提取的金字塔特征表示为Conv。XX英寸剩余瓶颈X高×宽×&高×宽×&高×宽×&X“高×宽×&高×宽×1高×宽×11×1×&1×1×&1×1×&1×1×&1×1×&空间注意）渠道关注（2 5（具有相同的通道尺寸256）。Conv-3 5第一次上采样到与Conv相同的分辨率2，然后将这些特征图连接在一起。之后，对级联特征执行通道混洗操作，以融合不同级别之间的互补通道信息。然后将混洗的特征拆分并分别下采样到原始C-Conv-25可以被看作是由来自不同级别之间的特征映射的互补信道信息之后，我们执行11卷积以进一步融合C-Conv-2 5，并获得混洗特征，表示为S-Conv-2 5。然后，我们将混洗的特征图S-Conv-2 5与原始金字塔特征图Conv-2 5连接起来。2 5，以实现最终的增强金字塔特征表示。这些增强的金字塔特征图不仅包含来自原始金字塔特征的信息，而且还包含来自重排的金字塔特征图的融合的跨通道信息。3.2.1频道混洗操作注意剩余瓶颈图4.原始剩余瓶颈（左）和空间、通道注意力剩余瓶颈（右）的图式，其由空间注意力和通道注意力组成虚线链接指示标识映射。图4，我们的注意力残差瓶颈分别学习空间注意力权重β和通道注意力权重α。3.3.1空间注意由于不相关的区域，应用整个特征图可能导致次优结果。与平均关注整个图像区域不同，空间注意机制试图自适应地突出特征图中与任务相关的假设空间注意的输入为V′∈RH× W× C，空间注意的输出为V∈[27]如《易经》中所言，“道”是“道”。RH×W×C′，然后我们可以得到V=βV，其中表示操作可以被建模为由“整形-转置-整形”操作组成的过程。将不同层次的特征串接成一个子带，则子带的信道维数为256 4 = 1024。我们首先将信道维数整形为（g，c），其中g是群的个数，c=1024/g.然后，我们将通道维度转置为（c，g），并将其平坦化为1024。在通道混洗操作之后，在通道上下文中完全相关。组g的数量将在实验的消融研究中讨论。3.3. 注意剩余的瓶颈基于上面介绍的增强的金字塔特征表示，我们附加了增强的注意力残留瓶颈，以自适应地增强空间和信道上下文中的特征响应。所示空间环境中的元素乘法。的空间方向注意力权重βRH×W是由卷积运算WR1×1×C生成的，随后是对输入V的sigmoid函数，即，β=Sigmoid（WV），（1）其中W表示卷积权重，Sigmoidsigmoid激活函数最后，重新调整学习到的空间注意力权重β′在输入V上实现输出V。′vi，j=βi，j∈vi，j，（2）哪里表示元素i，j- 空间背景中β和V5678∈H×W×C∈∈˜∈∈∗∈′′3.3.2渠道关注由于卷积滤波器作为模式检测器执行，并且卷积操作之后的特征图的每个通道是对应卷积滤波器的特征激活。通道式注意机制可以被看作是一个自适应地选择模式检测器的过程，这是更重要的任务。3.3.3SCARB：空间、智能注意力残留瓶颈第一种类型在通道注意之前应用空间注意，如图所示。4.所有过程总结如下：′X=F（X），假设通道式注意力的输入是URH×W×C，通道注意力的输出为Y=α（β）′X），（六）U∈R，则我们可以得到U=α<$U，其中X=σ（X+Y），表示通道方向在上下文中，αRC是通道式注意力权重。根据SE-Net[8]，通道式注意力可以被建模为由两个步骤组成的过程，即，挤压和激发步骤。在挤压步骤中，首先对输入U执行全局平均池化操作以生成通道方式的统计量zRC，其中z的第c个元素通过下式计算：其中函数F（X）表示要在ResNet [7]中学习的残差映射，X是具有增强的空间和通道信息的输出注意力特征映射。3.3.4CSARB：智能空间注意力残留瓶颈类似地，第二种类型是具有通道方向at的模型，HW张力首先实现，即，1zc=高×宽C（i，j），（3）i=1j =1′X=F（X），′其中uc∈RH×W是输入U的第c个元素。在激励步骤中，在通道方向的统计上执行具有S形激活的简单门控机制，Y=β<$（α<$X），X= σ（X+ Y）。（七）轨迹Z，即，α=Sigmoid（W2（σ（W1（z），（4）将讨论SCARB和CSARB的选择在实验的消融研究中。4. 实验其中W1R C× C和W2R C× C表示两个全连接层，σ表示ReLU激活函数[14]，Sigmoid表示sigmoid激活函数。最后，在输入U上重新缩放学习的通道注意力权重α，以实现通道的输出′明智的注意力U，即，我们的多人姿态估计系统遵循自上而下的管道。首先，应用人体检测器来生成图像中的所有人体边界框。然后，对于每个人体边界框，我们应用我们提出的网络来预测相应的人体姿势。4.1. 实验装置′uc=αc<$uc，（5）哪里表示元素在通道式上下文中，α和U如图4、假设残差瓶颈的输入为XRHXWXC，注意机制在残差模的非恒等分支上进行，空间上的、通道上的注意作用在与恒等分支求和之前。在剩余瓶颈中存在空间注意力和通道注意力的两种不同的实现顺序[7]，即，SCARB：空间、逐层注意力剩余瓶颈和CSARB：逐层、空间注意力剩余瓶颈，分别描述如下。56794.1.1数据集和评价标准我们在具有挑战性的COCO关键点基准上评估我们的模型[12]。我们的模型只在COCO训练数据集（包括57K图像和150K人物）上进行训练，不涉及额外的消融研究在COCO minival数据集（包括5K图像）上得到确认。最终结果在COCO测试开发数据集（包括20K图像）上报告，并与公开的最新结果进行了比较。我们使用官方评估方法[12]，该方法在实验中报告基于OKS的AP（平均精度），其中OKS（对象关键点相似性）定义了预测姿态和地面真实姿态之间的相似性5680−×∼-×表1.在COCO minival数据集上使用不同组g对通道洗牌模块（CSM）进行消融研究。CSM-g表示具有g个组的通道混洗模块注意力剩余瓶颈在这个实验中没有使用。方法APCPN（基线）69.4CPN + CSM-270.4CPN + CSM-871. 4CPN + CSM-16 71. 2CPN + CSM-32 70. 1CPN + CSM-64 70. 7CPN + CSM-128 71. 0CPN + CSM-256七十一6表2. COCO minival数据集上注意力残留瓶颈的消融研究。SCARB表示空间、通道方向注意力剩余瓶颈，CSARB表示通道方向、空间注意力剩余瓶颈.本实验中未使用通道方法APCPN（基线）69岁。4CPN + CSARB七十4CPN + SCARB70.8表3.4组通道洗牌模块（CSM-4）和COCO minival数据集上的空间、逐行注意力残留瓶颈（SCARB）的成分分析基于基线CPN [3]，我们逐渐添加CSM-4和SCARB用于消融研究。最后一行显示了与基线CPN相比的总体改善。方法CSM-4SCARB AP表4.与COCO minival数据集上的8阶段沙漏[16]、CPN [3]和简单基线[24]进行比较。他们的结果引自[3，24]。“*” meansthe model training with the Online Hard Keypoints方法主干输入大小AP66.第六十六章大结局967.第六十七章大结局1CPN（基线）ResNet-50256 × 19268. 670.第70章：一个女人6CPN*（基线）ResNet-50256 × 19269. 4CPN*（基线）ResNet-50384 × 28871. 670.第70章大结局672.第72章大结局2我们的 *ResNet-50256×192七十二点一我们的 *ResNet-50384×288七十三点八CPN我们的CPN（基线）CPN + CSM-469岁。41971年7√图5. CPN和我们的模型在COCO minival数据集上的可视化热图。从左到右是输入图像，CPN + SCARBCPN + CSM-4+ SCARB除草剂七十872.1热图和预测姿势。最好用变焦和彩色观看。4.1.2培训详细信息我们的姿态估计模型在Pytorch中实现[18]。对于训练，在服务器上使用4个V100GPU。亚当[9]optimizer是基本学习率设置为5e4，并以0的因子减少。1在90和120个epoch，最后我们训练140个epoch。网络图像的输入大小为固定的高宽比：宽度= 4：3，例如，256 192用作故障分辨率，与CPN [3]相同L2损失用于GlobalNet，并且遵循CPN，我们只惩罚RefineNet的在线硬关键点挖掘中的前8个关键点损失训练过程中的数据增强包括随机旋转（40°+40°）和随机尺度（0。71. （3）第三章。我们的ResNet主干是用权重Imagenet [20]的预训练模型。实验了50层、101层和152层的 ResNet 主干。除非另有说明，否则默认使用ResNet-50。4.1.3试验详细信息对于测试，应用自顶向下的流水线。对于 COCOminival数据集，我们使用CPN [3]提供的人体检测结果进行公平比较，这报告了人体检测AP 55。3 .第三章。对于COCOtest-dev数据集，我们采用SNIPER [21]作为人体检测器，其实现了人体检测AP 58。1.一、遵循[3，16]中的常见做法，在原始图像和翻转图像的平均热图上估计关键点在从最高响应到第二高响应的方向上的四分之一偏移用于获得最终关键点。4.2. 组件消融研究在本节中，我们对COCO minival数据集上的通道洗牌模块和注意力残留所有消融研究中默认使用ResNet-50back-bone和输入大小256 1925681×××××××××表5. COCO test-dev数据集上的最终结果比较。上图：文献中的方法，仅使用COCO trainval数据集进行训练。中：提交给COCO测试开发排行榜的结果[13]。“*”表示该方法涉及用于训练的额外数据。“+”下图：我们的单个模型的结果，仅使用COCO训练数据集进行训练图4表示使用翻转和旋转测试策略的单个模型的结果。方法主干输入大小APAP。5AP。75AP（M） AP（L） ARCMU-Pose [1]--61.884.9675571682665Mask-RCNN[6]ResNet-50-FPN-63.1873687578714-关联嵌入-51251265.586872360672.670。2[第十五条][17]第十七章：你是我的女人 985571362370069。7[3]第72话：我的世界 191480068七七七。278. 5[24]第24话第一次见面291。480969七七九。5786[24]第24话第一次见面891.781.2703800791FAIR Mask R-CNN*[13个国家]ResNet-101-FPN-69。290四七七。064976.3752G-RMI*[13]ResNet-15235325771。087977七六九。 0752758[13]这是一个很好的例子。090379七六七。678.四七七。1bangbangren*+[13]ResNet-101-72.8894796686800787[13]第七十三章：你是我的女人091。780969578179071.第71章大结局491.379868377.177173.第73章大结局2 91。981069。679.378571.第七十一章大结局891.380168七七七。 378873.第73章大结局891.781.470479680372.第72章大结局391.480669277879274.第七十四章：一个女人391.881九点七十。780280574.第七十四章：你是我的191881770680080。4我们的产品ResNet-152 384×288 74.6 91.8 82.1 70.9 80.6 80.74.2.1频道随机播放模块中的组g在这个实验中，我们探索了通道洗牌模块与COCOminival数据集上不同群体的性能。CSM-g表示具有g个组的通道混洗模块，并且组g控制跨通道特征图融合的程度。默认情况下使用ResNet-50主干和256 192的输入大小如表1所示，4个组实现了71的最佳AP。7 .第一次会议。它表明，当只使用4组通道洗牌模块（CSM-4），我们可以实现2。3与基线CPN相比AP改善因此，最终选择4组（CSM-44.2.2注意剩余瓶颈：SCARB和CSARB在本实验中，我们探讨了空间注意和通道注意的不同实施顺序对注意剩余瓶颈的影响SCARB和CSARB。默认情况下使用ResNet-50主干和256 192的输入大小如表2所示，SCARB实现了70的最佳AP。8. 这表明，当仅使用SCARB时，我们的模型比基线CPN高1。4美联社。因此，默认情况下选择SCARB。4.2.3成分分析在这个实验中，我们分析了COCO minival数据集上每个提议组件的重要性，即，频道洗牌模块和注意力剩余瓶颈。根据表1和表2，最终选择了具有4个组的通道混洗模块（CSM-4）和空间、通道方向注意力剩余瓶颈（SCARB）。根据表3，与69。4 AP的基准CPN，只有CSM-4使用，我们可以实现71。7 AP，仅使用SCARB，我们可以达到70。8美联社。使用所有建议的组件，我们可以实现72。AP 1例，改善2例。7AP超过基线CPN。4.3. COCO minival数据集的比较表4将我们的模型与COCO minival数据集上的8阶段沙漏[16]，CPN [3]和简单基线[24]进行了比较。8级沙漏和CPN的人体检测AP相同55。三是我们的。美联社在《简单基线》中报道的人类探测率是56. 4.第一章与8级沙漏相比，这两种方法都使用256的输入大小192，我们的模型改进了五、2AP。 CPN和我们的模型都使用在线硬关键点挖掘，我们的模型比CPN高出2。7 AP的输入大小为256192和2. 2AP输入大小为384 288.与简单基线相比，我们的模型优于1。5 AP，输入大小为256 192，1. 6AP为输入大小384 288.图6展示了CPN的视觉热图和我们在5682−×图6.我们的模型在COCO测试开发数据集上的定性结果。我们的模型可以很好地处理不同的姿势，遮挡和杂乱的场景。表6. COCO测试开发数据集上人体检测性能和姿态估计性能之间的比较。所有姿态估计方法都使用ResNet-152主干和384×288输入大小进行训练。姿势方法检测方法人AP姿势AP简单基线[24][19]第十九话60.9七十三。8我们变形[5]四十五8七十二9我们- [3]五十七2七十三。8[21]第二十一话174.3COCO迷你数据集。如图6，我们的模型仍然适用于场景（例如，紧密交互、遮挡），CPN不能很好地处理这些问题。4.4. COCO测试开发数据集上的实验在本节中，我们将我们的模型与COCO test-dev数据集上的最新方法进行比较，并分析人体检测性能与相应姿态估计性能之间的关系4.4.1与最新方法的比较表5比较了我们的模型与COCO test-dev数据集上的其他最先进的对于CPN，具有人体检测AP 62的人体检测器。9在COCO minival数据集上使用。对于简单基线，使用人体检测AP 60的人体检测器。9在COCO测试-开发数据集上使用。没有额外的数据进行训练，我们的单一模型可以达到 73 。 8AP 与ResNet-101骨干，和74。3AP与ResNet-152骨干网，这两个CPN的单一模型优于72。1AP，73型。73 .我的超次元帝国8美联社。此外，当使用原始、翻转和旋转（这里使用+30°C，30° C）图像的平均热图时，我们的单个模型可以达到74。1个具有ResNet-101主干的AP，以及74个。6个带有ResNet-152主干的AP图图6展示了我们的模型在COCO测试开发数据集上预测的姿势4.4.2人体检测性能表6显示了COCO测试开发数据集上的人体检测性能和相应姿态估计性能之间的关系。我们的模型和简单基线[24]在这个实验中进行了比较这两个模型都使用ResNet-152主干和384 288输入大小进行训练简单基线采用Faster-RCNN[19]作为人体检测器，其报告人体检测AP 60。9在纸上对于我们的模型，我们采用SNIPER[21]作为人体检测器，实现了人体检测AP 58。1.一、此外，我们还使用可变形卷积网络[5]（实现人体检测AP 45。8）和由CPN提供的人体检测结果[3]（报告人体检测AP 57. （2）比较。从该表中，我们可以看到，当人体检测AP增加时，姿态估计AP增加。例如，当人体检测AP从五十七2到581，我们的模型的姿态估计AP从73增加。8到743 .第三章。然而，尽管人体检测AP 60. 9的简单基线高于我们的58。1 AP，姿态估计AP 73. 8个简单基线低于我们的74个。3美联社。因此，我们可以得出结论，这是更重要的，以提高精度的姿态比人类的探测器。5. 结论在本文中，我们使用自顶向下的管道来处理多人姿态估计。提出了通道混洗模型（CSM）以促进所有尺度上的特征图之间的跨通道信息通信，并设计了空间、逐层注意力残差瓶颈（SCARB）以在空间和通道上下文中自适应地突出融合金字塔特征图总体而言，我们的模型在COCO关键点基准测试中达到了最先进的性能。5683引用[1] Z. Cao，T.Simon，S.-E. Wei和Y.酋长利用局部仿射场进行实时多人二维位姿估计在CVPR，第1卷，第7页，2017年。[2] L. Chen，H. Zhang，J. Xiao，L. Nie，J. Shao，W. Liu和T.- S.蔡Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在IEEE计算机视觉和模式识别会议论文集，第5659-5667页，2017年[3] Y. Chen，Z. Wang，Y.彭，Z. Zhang，G. Yu和J. Sun.用于多人位姿估计的级联金字塔网络在IEEE计算机视觉和模式识别会议论文集，第7103-7112页[4] X.朱，W。杨，W.欧阳C. Ma，A. L. 尤尔，还有X.王.多上下文注意力用于人体姿态估计。在IEEE计算机视觉和模式识别会议论文集，第1831-1840页[5] J. Dai，H.Qi，Y.Xiong，Y.Li，G.Zhang，H.Hu和Y.伟.可变形卷积网络。在IEEE计算机视觉国际会议论文集，第764-773页[6] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980-2988页。IEEE，2017年。[7] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770[8] 胡杰湖，澳-地Shen和G.太阳挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页[9] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[10] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278[11] T.- Y. Lin，P.多尔河格希克角他，B.Hariharan和S.贝隆吉用于对象检测的特征金字塔网络。在CVPR，第1卷，第4页，2017年。[12] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象欧洲计算机视觉会议，第740-755页Springer，2014.[13] MS-COCO 。可可关键点排行榜。得cocodataset.org/余弦值.[14] V. Nair和G. E.辛顿校正线性单元改善受限玻尔兹曼机。第27届机器学习国际会议（ICML-10），第807-814页，2010年[15] A. Newell，Z. Huang和J.邓小平更关联嵌入：用于联合检测和分组的端到端学习。神经信息处理系统的进展，第2274-2284页，2017年[16] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。欧洲计算机视觉会议，第483-499页。施普林格，2016年。[17] G. Papandreou，T. Zhu，N. Kanazawa、A. Toshev，J.Tomp-son，C. Bregler和K.墨菲野外多人姿态的精确估计.在CVPR，第3卷，第6页，2017年。[18] A. Paszke，S.格罗斯，S。钦塔拉湾Chanan、E.杨，Z.De Vito，Z. Lin，L.德迈松湖Antiga和A. Lerer pytorch中的自动微分。2017年。[19] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-time object detection with region proposal networks.在神经信息处理系统的进展，第91-99页[20] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein 等人图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211-252，2015.[21] B. 辛格，M。纳吉比和L.S. 戴维斯狙击手：高效的多尺度训练.神经信息处理系统的进展，第9333-9343页，2018年[22] C. Wang，Y. Wang和A. L.尤尔。一种基于姿态的动作识别方法。在计算机视觉和模式识别（CVPR），2013年IEEE会议上，第915IEEE，2013。[23] S.- E. Wei，V.Ramakrishna，T.Kanade和Y.酋长卷积姿态机器。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第4724-4732页[24] B. Xiao，H. Wu和Y.伟.用于人体姿态估计和跟踪的简单基线。在欧洲计算机视觉会议（ECCV）的会议记录中，第466- 481页[25] Q. 你H金，Z.Wang，C.Fang和J.罗图片说明- ing与语义注意。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第4651-4659页[26] A. Zanfir，E.马里诺尤湾Zanfir，A. I. Popa，和C.史敏-奇塞斯库。深度网络用于自然图像中多人的集成3d感知神经信息处理系统的进展，第8420-8429页，2018年[27] X. Zhang，X. Zhou，M. Lin和J. Sun. Shufflenet：一个用于移动设备的高效卷积神经网络在IEEE计算机视觉和模式识别会议论文集，第6848-6856页[28] L. Zheng，Y.郑氏，中国科学院植物研究所所长。Huang，H. Lu和Y.杨用于深度人重新识别的姿势不变嵌入。arXiv预印本arXiv：1701.07732，2017。

下载后可阅读完整内容，剩余1页未读，立即下载