没有合适的资源?快使用搜索试试~ 我知道了~
UniPose:单幅图像和视频中的人体姿态估计的统一框架
7035UniPose:单幅图像和视频中的统一人体姿态估计Bruno Artacho Andreas Savakis罗切斯特理工学院Rochester,NYbmartacho@mail.rit.eduandreas. rit.edu摘要我们提出了UniPose,一个统一的框架,用于人体姿态估计,基于我们的“瀑布”Atrous温泉池架构,实现了国家的最先进的结果上的几个姿态估计指标。UniPose整合了上下文分割和关节定位,在单个阶段中以高精度估计人体姿势,而不依赖于统计后处理方法。UniPose中的Waterfall模块利用级联架构中渐进式滤波的效率,同时保持与空间金字塔配置相当的多尺度视场。此外,我们的方法被扩展到UniPose-LSTM进行多帧处理,并在视频中的时间姿态估计方面取得了最先进的结果。我们在多个数据集上的结果表明,具有ResNet主干和瀑布模块的UniPose是一种鲁棒且高效的姿态估计架构,可以在单个图像和视频的单人姿态检测中获得最先进的结果。1. 介绍人体姿态估计是计算机视觉中的重要任务,其应用于活动识别[54]、人机交互[44]、动画[4]、游戏[42]、健康[10]和体育[51]。[29][15]或[16]或[17],或[18]或[19],或[19]或[19]。由于人体力学中的大量自由度和经常发生的部件遮挡,位姿估计是具有挑战性的。为了克服闭塞问题,许多方法依赖于统计和几何模型来估计闭塞关节[34],[32]。另一种方法是利用已知姿势库,称为锚姿势[41],但这可能会限制模型的泛化能力和学习不可预见姿势的能力。图1.使用我们的UniPose方法的姿势估计示例。受语义分割架构[14],[56],[36]进步的启发,我们提出了一个统一的姿态估计框架,称为UniPose,它只包含一个阶段,无需后处理即可获得准确的结果。我们的架构的主要组件是瀑布Atrous空间池化(WASP)模块[3],其将Atrous卷积的级联方法与从Atrous空间金字塔池化(ASPP)模块[13]的并行配置获得的较大FOV相结合。由于我们的网络中使用了更大的视场(FOV)和多尺度方法,我们的统一方法使用上下文信息预测关节的位置。通过我们的上下文方法,我们的网络包括整个框架的信息,因此不需要基于统计或几何方法的事后分析。使用我们的UniPose方法获得的姿势估计的示例如图1所示。本文的主要贡献如下。• 我们提出了UniPose框架,基于用于Atrous空间池的Water- terfall模块,其实现了单人人体姿势估计的最新结果。• 我们的瀑布模块增加了7036该网络通过将级联无迹卷积的好处与多个FOV结合在一个并行架构中,该架构受到空间金字塔方法的启发。• 所提出的UniPose方法确定了关节的位置和用于人员检测的边界框,从而消除了网络中单独分支的需要。• 我们通过采用线性顺序LSTM配置将基于瀑布的方法扩展到UniPose- LSTM,并获得了视频中时间人体姿势估计的最新结果。2. 相关工作传统的人体姿态估计方法侧重于关节的检测,从而通过探索目标图像中关节之间的几何形状的技术来检测姿态[38],[55]和[48]。近年来,基于卷积神经网络(CNN)的方法取得了优异的结果[46],[8],[41]。流行的卷积姿态机(CPM)[52]采用了一种通过网络中的一组阶段来改进关节检测的方法。堆叠沙漏网络[31]利用沙漏结构的级联进行姿态估计任务。在[ 52 ]的基础上,Yan et al.集成了零件亲和域(PAF)的概念,产生了OpenPose方法[8]。PAF使用更重要的关节的检测来更好地估计不太重要的关节的预测。这一创新使得多人检测的复杂性和计算能力得以降低。[16]中的多上下文方法依赖于沙漏主干来执行姿态估计。原来的骨干是由沙漏剩余单位(HRU)增加,目的是增加接收FOV。利用条件随机场(CRF)进行后然而,CRF的缺点是复杂性增加,这需要高计算能力并导致速度降低。高分辨率网络(HRNet)[46]包括高分辨率和低分辨率表示。该方法从高分辨率开始,逐步增加低分辨率子网络,形成更多的级,并在子网络之间进行HRNet受益于多分辨率的更大FOV,这是我们通过WASP模块以更简单的方式实现的功能多级姿态网络(MSPN)[26]使用类似的方法,其中HRNet结构与跨阶段特征聚合和粗到细监督相结合。DeepPose [50]利用深度CNN的级联并通过回归定位身体关节。该方法依赖于迭代细化,以便更好地预测对称和较低置信度的关节。最近的一些工作试图利用上下文信息到姿态估计。级联预测融合(CPF)[57]使用图形组件,以便开发姿势估计的上下文类似地,级联特征聚合(CFA)[45]旨在使用语义信息来通过级联方法检测姿势。生成对抗网络(GAN)在[9]中用于学习姿势的依赖性和上下文信息。位置、分类和回归网络(LCR-Net)[41]通过深度回归 将 姿 态 估 计 扩 展 到 3D 空 间 。 LCR-Net 依 赖 于Detectron主干[19]用于检测人体关节位置。根据这些位置,该方法找到与检测到的人类姿势的预定义锚姿势的最佳拟合最后,LCR-Net执行回归以估计图像中的3D坐标。该方法的缺点是可用的锚姿势的有限集合,其对用于估计不可预见的姿势的网络施加限制。在用于3D姿态估计的不同方法中,用于人类捕获的MonoCap方法[59]将CNN与几何先验耦合,以便使用期望最大化算法统计地确定姿态的第三维度。一些当前方法的缺点是它们需要独立的分支来检测帧中的人类主体的边界例如,LightTrack [33]依赖于单独的YOLO [40]架构,在检测关节之前执行受试者检测。在不同的计算中,LCR-Net [41]具有不同的分支,用于使用Detectron [19]进行检测和分类期间的关节排列。2.1. 时间姿态估计对于视频中的姿态估计任务,大多数方法不考虑时间分量并且独立地处理每个帧。另一个挑战是视频中人类的运动偶尔会造成模糊。用于开发考虑到节奏分量的姿态估计方法的主要动机是使用来自先前帧的信息在模糊或遮挡期间更好地估计关节。针对视频应用,Modeep [23]利用相邻帧的颜色通道作为输入,试图合并视频中的运动。Pfister等人[37]还提出了一种类似的技术来检测视频序列中的手势。最近,光流技术被采用来处理姿态估计的时间分量。Deep-flow [53]使用光流在更连续的检测中更好地连接帧之间的预测。利用光流的另一种方法是薄切片[43],依赖于光流和时空模型。然而,该模型复杂性的增加导致计算成本的显著增加。7037图2.用于单帧姿态检测的UniPose架构。尺寸(HxW)的输入彩色图像通过ResNet主干和WASP模块馈送,以降低8倍的分辨率获得256个特征通道。解码器模块以原始分辨率生成K个热图,每个关节一个热图,并且关节的位置由局部最大运算确定链式模型[20]利用递归网络来合并时间分量。LSTM姿势机[30]方法采用了类似的概念,其中LSTM用于增强网络中的内存。LSTM的应用并不局限于节奏组件。递归3D姿势序列机(RSPM)[27]在从2D到3D的回归中使用LSTM,以在回归期间获得更好的对应性。2.2. 手势语尽管在通用姿态估计方法上做出了努力,但目前缺乏对诸如用于手语的特定应用的研究。Charles等人[11]在长电视广播视频中签名时的估计该方法依赖于使用语义分割从背景的初始分离,然后通过随机森林回归来定位签名者的上肢[6]中的工作使用时间跟踪来检测相似帧中的部分并估计上身关节。DeepSign [18]在预训练的CNN上应用迁移学习,用于手语过程中的联合检测。他们的方法遵循了[50]在通用姿势图像中所做的工作,并在最终架构中纳入了特定于应用的迁移学习。2.3. Atrous卷积和ASPP结合CNN层的语义分割和姿态估计方法的一个重要挑战是由池化引起的分辨率的显著降低全卷积网络(FCN)[29] [29]通过跨反卷积层部署上采样策略来解决分辨率降低问题。这些方法试图反转卷积运算,并将特征图的大小增加回原始图像的尺寸。语义分割中的一种流行技术是使用扩张或Atrous或扩张卷积[13]。Atrous卷积的主要目标是增加网络中感受野的大小,避免下采样,并生成用于处理的多尺度框架。在一维卷积的简单情况下,信号的输出定义如下:ΣLy[i]=x[i+rl]·w[l](1)l=1其中r是膨胀率,ω[l]是长度为L的滤波器,x[i]是输入,y[i]是输出。速率值为1会导致常规卷积运算。受空间金字塔应用于池化操作[21]的成功的启发,ASPP架构被完全整合到DeepLab [13]中用于语义分割。ASPP方法在具有不同速率的四个并行分支中组装atrous卷积,这些分支通过快速双线性插值与附加因子8相结合。该配置以原始图像分辨率恢复特征ASPP网络中的分辨率和FOV的增加对于姿势估计期间的身体部位的上下文检测可以是有益的。我们通过UniPose框架中的Waterfall架构以更高效的方式利用这一功能。3. UniPose架构我们提出了UniPose,一个统一的架构,姿态估计,利用大FOV生成的atrous卷积结合级联卷积的我们的WASP模块提供了多尺度的表示以及在网络规模缩小的效率。改进以前的作品,单姿态不需要单独的分支边界框和联合检测。相反,它执行人类主体及其关节的边界框的统一UniPose处理流水线如图2所示。输入图像最初被馈送到深度CNN,在本例中是ResNet-101,最后的层被WASP模块替换所得到的特征图由解码器网络处理,该解码器网络生成K个热图,每个关节一个,具有从Softmax获得的相应概率分布。然后解码器执行双线性7038图3.UniPose流水线中使用的解码器模块原始图像尺寸为(1280x720)。解码器的输入是256个通道的ResNet低级特征和256个通道的WASP特征图。解码器的输出是对应于K个关节的K个热图,如图像示例中所示另外,解码器输出边界框的热图(未在图像中展示插值以恢复原始分辨率,随后是局部最大操作以定位关节以进行姿态估计。我们的网络中的解码器生成可见和遮挡部分的关节检测。另外,解码器在不使用后处理或独立并行分支的情况下生成边界框检测接下来我们提供了WASP模块[3]的开发动机,并将其与[29]中的传统去卷积和[13]中的ASPP架构进行了对比。图 4.WASP 模 块 中 的 瀑 布 架 构 [3] 。 原 始 图 像 尺 寸 为(1280x720)。WASP模块的输入是1280个通道的ResNet特征图。3.1. WASP模块WASP模块生成高效的多尺度表示,帮助UniPose实现最先进的结果。WASP架构(如图4所示)旨在利用ASPP配置的较大FOVIni-最初由[3]应用于语义分割,WASP的扩展是结合ASPP[13],Cascade [14]和Res2Net [17]模块的优点。WASP依赖于对ASPP来说是基本的无环卷积来维持大的FOV。它还以增加的速率执行此外,WASP还结合了多尺度特征,这些特征受到Res2Net架构和其他多尺度方法的启发。与ASPP和Res2Net相反,WASP不会立即并行化输入流。相反,它创建了一个瀑布流,首先通过过滤器进行处理,然后创建一个新分支。WASP还超越了级联方法,它将所有分支的流和原始输入的平均池合并在一起,以实现多尺度表示。WASP的设计目标是减少参数的数量,以处理内存限制并克服无环卷积的主要限制。WASP中的四个分支具有不同的FOV,并且以瀑布状的方式布置。在WASP中,心房回旋以小的速率6开始,在随后的分支中持续增加这种配置由于较小的滤波器尺寸而提高了效率WASP模块在图2的UniPose架构中用于姿态估计。3.2. 解码器模块我们的解码器模块将WASP模块产生的分数图转换为与身体关节和边界框相对应的热图 图3显示了大小为(1280×720)的输入彩色图像的解码器架构。解码器接收来自WASP的256个特征图和来自WASP的256个低特征图。7039图5. UniPose-LSTM架构用于视频中的姿态估计。来自UniPose解码器的联合热图与来自先前LSTM状态的最终热图一起被馈送到LSTM中LSTM之后的卷积层将输出重新组织成用于联合定位的最终热图。从ResNet主干的第一个块开始的级别特征映射。在最大池化操作以匹配输入的尺寸之后,特征图被连接并通过卷积层、dropout层和最终的双线性插值进行处理,以调整大小为原始输入大小。输出由对应于K个关节的K个热图组成,这些热图用于局部最大运算后的关节定位此外,解码器输出边界框的热图,而不需要额外的分支。3.3. 用于视频中的姿态估计的UniPose LSTM将UniPose架构修改为UniPose-LSTM,用于视频中的姿态估计。对于视频处理,利用连续帧之间的相似性和时间间隔是有用的为了在视频处理模式下操作,UniPose架构由LSTM模块增强,该LSTM模块接收来自前一帧的最终热图以及来自当前帧的解码器热图。UniPose-LSTM的流水线如图5所示。该网络包括LSTM之后的CNN层,以生成用于联合检测的UniPose-LSTM配置允许网络使用来自先前处理的帧的信息,而不会显著增加网络的总大小。对于单个图像和视频配置,我们的网络使用相同的ResNet-101主干,WASP模块和解码器。我们评估了当对多个帧使用LSTM通过实验确定,当在LSTM中合并多达5个帧时,准确度提高,并且对于额外的帧观察到准确度的平台。4. 数据集我们在四个数据集上进行了实验。其中两个数据集由单个图像组成:利兹运动姿势(LSP)[24]和MPII[2];两个数据集由以下内容组成:视频序列:[ 12 ]第58话:你是谁?下文简要介绍了这些数据集利兹运动姿势(LSP)数据集[24]最初用于单人姿势估计。LSP的图像是从Flickr上收集的,用于进行各种体育活动的个人。该数据集由1,000张用于训练的图像和1,000张用于测试的图像组成,在整个身体中有14个标记的关键点。LSP数据集包括较低的数据变化,允许对单人姿势估计任务的网络性能进行良好的初始评估。MPII [2]数据集包含超过40,000名受试者的注释身体关节的约25,000张这些图像是从YouTube上410个人类日常活动的视频中收集的该数据集包含带有2D和3D关节注释、头部和躯干方向以及身体部位遮挡的帧。MPII数据集的另一个特征是它包含之前和之后的帧,尽管它缺乏对这些帧的标记。Penn Action [58]数据集包含15种不同活动的2,326个视频该数据集用于评估我们的架构用于时间姿态估计和联合跟踪的性能帧中姿态的估计,同时上下文地使用先前的检测来细化结果。BBC Pose数据集[12]由来自英国广播公司(BBC)的20个视频组成,其中存在英国手语(BSL)签名者。BBC Pose数据集被用于手语人类姿势的专门应用。该数据集包括610,115个用于训练的标记图像,309,171个用于验证,309,260个用于测试。作为数据集的限制,标签仅由人体上半身的7个关键点组成,包括头部、肩部、肘部和手腕。4.1. 数据预处理为了训练我们的网络进行联合检测,执行了预处理步骤。理想高斯映射是7040在地面实况标签中的接头位置处产生。这些地图比关节位置处的单点更有效地用于训练,并且它们用于训练我们的UniPose网络以生成与帧中每个关节的位置相对应的高斯热图在网络的训练中考虑具有不同σ值的高斯,对于所呈现的结果和最终分析,采用σ=3的值,从而产生用于地面实况和预测输出的良好定义的高斯曲线。这个σ的值还允许图像中关节之间的足够分离。5. 实验我们根据本节所述的程序和指标对UniPose进行了培训、验证和测试与现有技术相比,我们的方法在几个数据集中实现了卓越的性能,无论是使用UniPose进行单帧姿态估计还是使用UniPose-LSTM进行视频姿态估计,包括手语视频的姿态估计的特定任务。5.1. 度量对于UniPose的评价,使用了各种数据集和一些数据集,如LSP [24],报告和比较正确部位百分比(PCP)的准确性,其中如果肢体的两个预测关节的距离低于阈值,则认为肢体被检测到。在本文中,我们采用了一个阈值的距离的一半的地面真肢体,通常被称为PCP@0.5。PCP方法引入了偏差,这是由于对较小肢体(即,手臂与躯干相比),因为它们自然具有较短的距离,并且因此具有较小的检测阈值。使用的另一个度量是正确关键点百分比(PCK)。当联合检测位于地面实况的某个阈值距离内时,该度量认为关键点的预测是正确的。采用了两个常用的阈值第一个是PCK@0.2,指的是躯干直径的20%的阈值,第二个是PCKh@0.5,指的是头部直径的50%的阈值5.2. 模拟参数我们输入输入图像的原始分辨率,而不进行任何调整,以便通过我们密集且大的FOV网络来训练具有尽可能多细节的网络。 出于这个原因,所使用的批量大小从用于较低分辨率数据集的高数量(例如,LSP)到较小的4个批次,用于数据集,如BBC Pose [12]。我们在WASP模块上试验了不同的膨胀率。我们发现,更大的利率导致更好的预测.为WASP模块选择一组扩张率r={6,12,18,24}我们基于步长方法计算学习率,其中学习率从10-4开始,并在每一步中以一个数量级递减[28]。所有实验均使用PyTorch 1.0在Ubuntu上进行16.04.该工作站具有Intel i5-2650 2.20GHz CPU,16 GBRAM和NVIDIA Tesla V100 GPU。6. 结果我们最初在LSP数据集上测试了我们的网络,并将结果与其他方法进行了比较,如表1所示。UniPose实现了72.8%的PCP和94.5%的PCK@0.2,与其他方法相比,在这两个指标上都有显着提高。与CPM [52]等方法相比,UniPose能够在单次迭代中以高置信度检测身体关节,而不是在网络中经历几个阶段或迭代。图6中示出了来自LSP数据集的对象的姿态估计的示例。从这些例子中可以看出,我们的方法以高精度识别对称身体关节的位置检查条件包括检测肢体中未充分分离且彼此遮挡的关节方法PCP用于LSPPCK@0.2用于LSPUniPose(我们的)百分之七十二点八94.5%Cao等人[9]第一章-94.3%8-[57]第五十七话-94.0%部分回归[7]-百分之九十点七CPM [52]-百分之九十点五DeepCut [39]-87.1%经常预算[5]-85.2%[50]第五十话百分之六十一-波瑟莱[38]百分之五十六-Tian等人[48个]百分之五十六-表1. LSP数据集的位姿估计结果及与其他方法的比较。接下来,我们在更大的MPII数据集[2]中进行训练和测试,重点是单人检测。由于MPII图像可能包含多个人,因此我们使用主要人物的中心图以检测正确个体的姿势我们使用表2显示了MPII测试数据集的结果。UniPose实现了92.7%的PCKh检测率,并且优于其他用于单人姿势估计的方法MPII数据集中使用UniPose进行姿态估计的示7041例如图7所示。这些实施例说明7042图6. LSP数据集UniPose可以有效地处理遮挡,例如:在那个骑马的人身上。方法PCKh@0.5对于MPIIUniPose(我们的)92.7%MSPN [26]百分之九十二点六8-[57]第五十七话92.5%[47]第四十七话92.3%Cao等人[9]第一章92.3%结构感知[25]百分之九十二[45]第四十五话90.1%CFA [45]百分之九十CPM [52]百分之八十八点五表2.MPII数据集的位姿估计结果以及与其他方法的比较图7.来自MPII数据集的表3显示了我们在Penn Action数据集中的UniPose-LSTM结果[58]。我们的结果显示,通过在具有5个连续帧的时间模式中应用UniPose-LSTM,与以前的最先进方法相比,有了显着的改进。对于该数据集,当预测的关节位置位于所提供的边界框内时,结果报告为正确检测,遵循[55]提出并由[30]应用的相同程序。我们的方法的检测率为99.3%,比下一个最佳结果提高了1.6%。方法PCK用于宾州行动UniPose-LSTM(我们的)百分之九十九点三LSTM-PM [30]百分之九十七点七CPM [52]97.1%薄切片[43]96.5%N-best [35]百分之九十一点八伊克巴尔[22]81.1%表3.Penn Action数据集的姿态估计结果以及与其他方法的比较我 们 的 UniPose 网 络 通 过合 并 5 个 连 续 帧来 利 用LSTM的记忆能力。该特征实现了更高的检测率,并且因此实现了针对图像中的运动模糊和遮挡的更鲁棒的架构我们尝试了不同数量的帧,以评估与使用LSTM相关的记忆能力。表4显示了在1到6帧范围内实现LSTM所观察到的准确性增益值得注意的是,当帧数达到5或更大时,LSTM获得的准确度增益达到平台。Penn Action数据集[58]的检测示例见图8。所选择的示例是快速运动场景,按顺序显示每隔一帧,以便在帧之间观察到显著差异帧数在LSTMPCK用于宾州行动1百分之九十八点四2百分之九十八点六3百分之九十八点八4百分之九十九点一5百分之九十九点三6百分之九十九点三表4. Penn Action数据集的UniPose-LSTM结果,用于LSTM使用的不同帧数。表5显示了BBC Pose数据集的结果,其中专门针对7043手语检测UniPose-7044图8.来自Penn Action数据集的一系列帧的姿势估计示例LSTM显著优于旧方法,PCKh达到98.9%。为了从另一种方法中获得结果进行比较,我们为BBC Pose数据集训练了CPM,获得了97.6%的PCK,这低于UniPose-LSTM的性能。方法PCKh@0.5BBC PoseUniPose-LSTM(我们的)百分之九十八点九CPM [52]百分之九十七点六Charles等人[第十一届]74.9%Buehler等人[6]美国百分之六十七点五表5.BBC Pose数据集的姿态估计结果以及与其他方法的比较图9示出了BBC数据集中的对象的姿态估计和边界框检测的示例。每隔一帧显示检测,以说明序列中的我们的网络能够有效地检测签名者的姿势,并生成包含其签名区域的7. 结论我们提出了UniPose框架的姿态估计在单一的图像和视频,分别。UniPose管道利用WASP模块,该模块具有瀑布流,具有级联的atrous卷积和多尺度表示。WASP的大FOV获得了对帧中的上下文信息的更好的解释,并且有助于更准确的姿态估计。UniPose和UniPose-LSTM的结果在多个数据集上展示了最先进的性能,即,图9.来自BBC Pose数据集的一系列帧的姿势估计示例。LSP,MPII,Penn Action和BBC Pose,使用各种方法。我们的框架显示出在更广泛的应用中进一步使用的希望,包括多人姿态检测和3D姿态估计。8. 确认这项研究得到了美国国家科学基金会的部分资助。引用[1] Riza Alp Guler,Natalia Neverova和Iasonas Kokkinos。密度:野外密集的人体姿势估计。在IEEE计算机视觉7045和模式识别会议论文集,第7297-7306页,2018年。17046[2] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议(CVPR)中,2014年6月五、六[3] 布鲁诺·阿尔塔乔和安德烈亚斯·萨瓦基斯。用于有效语义分割的瀑布空间池架构传感器,19(24):5361,2019。1、4[4] 安杰洛斯·巴姆普提斯Tensor body:实时重建人体,并从RGB-D合成化身。IEEE transactions on cybernetics,43(5):1347-1356,2013。1[5] Vasileios Belagiannis和Andrew Zisserman。循环人体姿态估计。2017年第12届IEEE自动人脸手势识别国际会议(FG 2017),第468-475页。IEEE,2017年。1、6[6] PatrickBuehler , MarkEveringham , DanielPHuttenlocher,and Andrew Zisserman.扩展签名序列中的上 身 检 测 和 跟 踪 。 International Journal of ComputerVision,95(2):180,2011。三、八[7] Adrian Bulat和Georgios Tzimiropoulos通过卷积部分热图回归的人体姿势估计。欧洲计算机视觉会议,第717施普林格,2016年。6[8] Z. Cao,T.西蒙,S。E. Wei和Y.酋长基于局部仿射场的实 时 IEEE Computer Vision and Pattern Recognition ,2017。一、二[9] 曹中正,王睿,王向阳,刘智,朱小强。用自注意生成对抗网络改进人体姿态估计2019年IEEE多媒体博览会研讨会国际会议(ICMEW),第567-572页。IEEE,2019。二六七[10] 张耀仁,陈淑芳,黄俊达。一个基于运动的身体康复系统 : 一 项 针 对 运 动 残 疾 年 轻 人 的 试 点 Research inDevelopmental Disabilities,32(6):2566-2570,2011.1[11] 詹姆斯·查尔斯,托马斯·菲斯特,马克·埃弗林厄姆,还有安德鲁·齐瑟曼.手语视频的自动高效人体姿态估计。International Journal of Computer Vision,110(1):70-90,2014. 三、八[12] J. Charles,T.Pfister,D.Magee,D.Hogg和A.齐瑟曼。个性化人类视频姿态估计。在IEEE计算机视觉和模式识别会议上,2016年。五、六[13] L- C. Chen,G.帕潘德里欧岛科基诺斯角Murphy和L.尤尔。Deeplab:使用深度卷积网络,atrous卷积和全连接cfr进行语义图像分割。IEEE Transactions on PatternAnalysis and Machine Intelligence,40(4):834-845,2018。一、三、四[14] L- C. Chen,G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。CoRR,abs/1706.05587,2017。1、4[15] Yu Cheng,Bo Yang,Bo Wang,Wending Yan,andRobby T.Tan.用于视频中3d人体姿态估计的遮挡感知网络。在IEEE计算机视觉国际会议(ICCV),2019年10月。1[16] Xiao Chu,Wei Yang,Wanli Ouyang,Cheng Ma,AlanL Yuille,and Xiaogang Wang.用于人类姿态估计的多上下文注意。InProceedings of the IEEE Conference计算机视觉和模式识别,第1831- 1840页,2017年。2[17] Shang-Hua Gao,Ming-Ming Cheng,Kai Zhao,Xin-YuZhang,Ming-Hsuan Yang,and Philip Torr. Res2net:一种新的多尺度骨干网架构。CoRR,abs/1904.01169,2019。4[18] Srujana Gattupalli,Amir Ghaderi,and Vassilis Athitsos.评估基于深度学习的手势识别姿势估计。在第九届ACM国际会议上,关于与辅助环境相关的侵入性技术,第12页。ACM,2016。3[19] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r和KaimingHe。Detectron ,2018年。二、六[20] G. Gkioxari,A. Toshev和N.贾特利使用卷积神经网络的链式预测。在arXiv预印本arXiv:1605.02346,2016。3[21] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。CoRR,abs/1406.4729,2014年。3[22] Umar Iqbal,Martin Garbade,and Juergen Gall.以姿势换动 作- 以 动 作 换 姿 势 。 IEEE Conference on AutomaticFace and Gesture Recognition(FG7[23] Arjun Jain , Jonathan Tompson , Yann LeCun , andChristoph Bregler.Modeep:一个使用运动特征进行人体姿势估计的深度学习框架。亚洲计算机视觉会议,第302-315页。Springer,2014. 2[24] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。英国机器视觉会议论文集,2010年。doi:10.5244/C.24.12。五、六[25] Li peng Ke , Ming-Ching Chang , Honggang Qi , andSiwei Lyu.用于人体姿态估计的多尺度结构感知网络。在欧洲计算机视觉会议(ECCV),2018年9月。7[26] Wenbo Li,Zhicheng Wang,Binyi Yin,Qixiang Peng,Yum- ing Du,Tianzi Xiao,Gang Yu,Hongtao Lu,Yichen Wei,and Jian Sun.重新思考用于人体姿态估计的多级网络arXiv预印本arXiv:1901.00148,2019。二、七[27] Mude Lin,Liang Lin,Xiaodan Liang,Keze Wang,andHui Cheng. 循 环 3d 姿 态 序 列 机 器 。 CoRR ,abs/1707.09695,2017年。3[28] Wei Liu,Andrew Rabinovich,and Alexander C.伯格。Parsenet : 看 得 更 宽 , 看 得 更 好 。 CoRR ,abs/1506.04579,2015年。6[29] J.朗,E. Shelhamer和T.达雷尔用于语义分段的全卷积网络。IEEE计算机视觉与模式识别会议(CVPR),2015年。三、四[30] Yue Luo,Jimmy S.J. 任,王周霞,孙文秀,潘金山,刘建波,庞家豪,林亮。LSTM pose机器。IEEE计算机视 觉 和模 式 识 别会 议 (CVPR) , abs/1712.06316,2018。三、七[31] Alejandro Newell,Kaiyu Yang,and Jia Deng.用于人体姿态估计的堆叠沙漏网络在European Conference onComputer Vision,第483施普林格,2016年。一、二7047[32] 艾登·尼巴利,何震,斯图尔特·摩根,卢克·普利德-加斯特.使用2d边缘热图的3d人体姿势估计。2019年IEEE计算机视觉应用冬季会议(WACV),第1477-1485页。IEEE,2019。1[33] 宁广寒、黄恒。Lighttrack:一个在线自上而下人体姿势跟踪的通用框架。arXiv预印本arXiv:1905.02822,2019。2[34] George Papandreou 、 Tyler Zhu 、 Liang-Chieh Chen 、Spyros Gidaris、Jonathan Tompson和Kevin Murphy。人员-实验室:使用自下而上、基于部分的几何嵌入模型进行人体姿态估计和实例分割。在欧洲计算机视觉会议(ECCV)上,2018年9月。1[35] 丹尼斯·帕克和德瓦·拉马南零件模型的N最佳最大解码器。ICCV,2011年。7[36] Adam Paszke、Abhishek Chaurasia、Sangpil Kim和Euge-nio Culurciello。Enet:用于实时语义分割的深度神经网络架构CoRR,abs/1606.02147,2016。1[37] 托马斯·菲斯特、凯伦·西蒙尼扬、詹姆斯·查尔斯和安德鲁·齐瑟曼。深度卷积神经网络用于手势视频中的有效姿势估计。在亚洲计算机视觉会议上,第538-552页。Springer,2014. 2[38] Leonid Pishchulin,Mykhaylo Andriluka,Peter Gehler,and Bernt Schiele. 波 塞 莱 制 约 的 图 像 结 构 。 在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,pages 588-595,2013中。二、六[39] Leonid Pishchulin , Eldar Insafutdinov , Siyu Tang ,Bjoern Andres,Mykhaylo Andriluka,Peter V Gehler,and Bernt Schiele. Deepcut:联合子集划分和标记用于多人姿势估计。在IEEE计算机视觉和模式识别会议论文集,第4929-4937页,2016年。6[40] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3:一个渐进的改进。arXiv,2018年。2[41] GregoryRogez , PhilippeWeinzaepfel 和 CordeliaSchmid。LCR-Net:人体姿势的定位-分类-回归。在IEEE计算机视觉和模式识别会议(CVPR),檀香山,美国,2017年。一、二[42] J. 肖通河Girshick,A.Fitzgills,T.夏普,M.库克M. 菲诺基奥河Moore,P.Kohli、A.Criminisi、黑腹拟步行虫A.Kipman和A.布莱克从单个深度图像进行高效的人体姿态估计。IEEE Transactions on Pattern Analysisand Machine Intelligence,2012。1[43] Jie Song , Limin Wang , Luc Van Gool , and OtmarHilliges. Thin-slicing network:一种用于视频中姿势估计的深度结构化模型IEEE计算机视觉和模式识别会议,2017年。二、七[44] Yale Song,David Demirdjian,and Randall Davis.用于自然人机交互的连续体和手势识别。ACM交互式智能系统交易(TiiS),2(1):5,2012年。1[45] 苏志辉,叶明,张国辉,戴磊,盛建达。用于人体姿态估 计 的 级 联 特 征 聚 合 。 arXiv 预 印 本 arXiv :1902.07837,2019。二、七[46] Ke Sun,Bin Xiao,Dong Liu,and Jingdong Wang.用于人体姿势估计的7048mation 在IEEE计算机视觉和模式识别会议,2019。一、二[47] 魏唐、裴禹、英武。用于人体姿势估计的深入学习的合成模型。在欧洲计算机视觉会议(ECCV),2018年9月7[48] Yuandong Tian,C Lawrence Zitnick,and Srinivasa GNarasimhan. 探索用于人体姿态估计的混合模型的空间层次欧洲计算机视觉会议,第256-269页。Springer,2012. 二、六[49] Jonathan Tom
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功