没有合适的资源?快使用搜索试试~ 我知道了~
9567野外手部检测中的情境关注Supreeth Narasimhaswamy<$,1,Zhengwei Wei <$,1,Yang Wang1,Justin Zhang2,Minh Hoai1,3联合第一作者,1石溪大学,2加州理工学院,3VinAI研究摘要我们提出了手CNN,一种新的卷积网络架构,用于检测手掩模和预测手的方向在无约束的图像。Hand-CNN用一种新的注意力机制扩展了MaskRCNN,以在检测过程中纳入上下文线索。这种atten- tion机制可以实现为一个有效的网络模块,捕获功能之间的非本地依赖关系。该网络模块可以插入对象检测网络的不同阶段,并且可以端到端地训练整个检测器。我们还介绍了大规模的注释的手数据集,包含在不受约束的图像的训练和评估的手。我们证明了Hand-CNN在新收集的数据集和公开可用的PASCAL VOC人类布局数据集上的性能优于现有方法。数据和代码:https://www3.cs.stonybrook.edu/cvl/projects/hand_det_attention/.1. 介绍人们使用手来与彼此和环境交互,并且大多数人类动作和手势可以由他们的手的位置和运动来确定。因此,能够在图像和视频中可靠地检测手将有助于许多视觉分析任务,包括手势和动作识别。不幸的是,由于图像中手部的巨大变化,在无约束条件下难以检测手部。手是高度关节,出现在各种方向,形状和大小。遮挡和运动模糊进一步增加了手部外观的变化。手可以被认为是一个通用的对象类,基于外观的对象检测框架,如Mask [9]和MaskRCNN [12]可以用来训练手检测器。然而,基于外观的检测器将难以检测具有遮挡和运动模糊的手。用于检测手的另一种方法是将它们视为人体的一部分,并且基于检测到的人体姿势来确定手的位置。然而,姿态检测本身并不提供可靠的解决方案,尤其是当若干人体部分在图像中不可见时(例如,在电视节目中,下半身图1:野外手部检测。我们提出了Hand-CNN,这是一种用于在无约束条件下检测手部面具和估计手部方向的新型网络。通常不包含在图像帧中)。在本文中,我们提出了Hand-CNN,这是一种新的CNN架构,用于检测手部面具和预测手部方向。Hand-CNN建立在MaskRCNN [12]的基础上,具有一个新颖的注意力模块,可以在检测过程中结合上下文线索。所提出的注意力模块被设计用于两种类型的非局部上下文池化:一个基于特征相似性,另一个基于语义相关实体之间的空间关系。因此,如果存在具有类似肤色的其他区域,则区域更可能是手,并且手的位置可以通过其他语义相关的身体部位(诸如手腕和肘部)的存在来推断。上下文注意模块封装了这两种类型的非本地上下文池操作。这些操作可以用几个矩阵乘法和加法来有效地执行,并且注意力模块的参数可以与检测器的其他参数一起端到端地 注意力模块作为一个整体可以插入到现有的检测网络中。这说明了建议的注意力模块的通用性和灵活性。最后,我们通过收集和注释两个大规模的手部数据集来解决训练数据的缺乏。由于标注许多图像是一个费力的过程,我们开发了一种方法来半自动标注大部分数据,我们只手动标注一部分数据。Al-9568K新收集的数据总共包含超过35K张图像,其中约有54K张带注释的手。这些数据可用于开发和评估手探测器。2. 相关工作存在许多用于手检测的算法。早期的作品主要使用肤色来检测手[5,34,35],或者基于形状特征的提升分类器[19,25]。后来,来自人类图像结构的上下文信息也用于手部检测[3,18,20]。Mittal等人。 [24]提出结合形状,皮肤和上下文线索来构建多级检测器。显着图也被用于手部检测[26]。然而,这些方法在无约束图像上的性能很差,可能是由于缺乏深度学习和强大的特征表示。最近的作品是基于CNN的。Le等人 [15]提出了一种多尺度FasterRCNN方法,以避免丢失小手。Roy等人。 [28]提出将Faster- RCNN和皮肤分割相结合。Duan等人。 [7]提出了一种基于图像结构模型的框架,用于从深度图像中检测和定位手关节。Deng等人 [6]提出了一种基于CNN的方法来检测手并联合估计方向。然而,这些方法的性能仍然很差,可能是由于缺乏用于识别候选对象边界框的区域建议网络(RPN)分支,用于提取每个建议区域内的特征以进行分类和边界框回归的框回归网络(BRN)分支,以及用于预测检测到的对象的二进制分割的二进制掩码在描绘对象的边界方面比边界框更好,但是掩码和边界框都没有对对象的方向进行编码。我们扩展了MaskRCNN,包括一个额外的网络分支来预测手部方向。在这里,我们将手的方向定义为水平轴与连接手腕和手面具中心的矢量之间的角度(见图1)。(见第2段b)。方向分支与其他分支共享权重,因此不会产生显著的计算开销。此外,在我们的实验中,共享通 过 最 小 化 组 合 损 失 函 数 L = LRPN+LBRN+Lmask+λLori,可以联合优化具有掩模检测和取向预测的整个手部检测网络。这里,LRPN、LBRN、Lmask是区域建议网络、边界框回归网络和掩码预测网络的损失函数,如[12,27]中所述。在我们的实验中,我们使用这些损失项的默认权重,如[12]所述 Lori是定向分支的损失,定义为:训练数据和解决歧义的机制我们的团队这里引入了大数据集,并提出了一种新方法来结合基于外观的检测器和注意力方法来捕获非局部上下文以解决歧义。本文中描述的用于手部检测的上下文注意力模块与最近提出的一些注意力机制有一些相似之处,例如非局部神经网络[32],双注意力网络[4]和挤压和激励网络[16]。然而,这些注意力机制是为图像和视频分类而设计的,而不是对象检测。它们不考虑空间局部性,但局部性对于目标检测是必不可少的。此外,它们中的大多数是基于相似性而不是语义来定义的,忽略了通过推理语义相关实体之间的空间关系而获得的上下文3. Hand-CNNHand-CNN是从MaskRCNN [12]开发的,扩展到预测手的方向,如图所示。凌晨2Hand-CNN还采用了一种新的注意力机制来捕获非局部上下文依赖性,Lori(θ,θ)=|arctan2(sin(θ−θ),cos(θ−θ))|、(1)其中,θ和θe是预测的和真实的手部方向(x轴与连接手腕和手部中心的矢量之间的角度,见图10)。(见第2段b)。我们使用上述损失函数而不是θ和θε之间的简单绝对差,以避免角度空间的模块化算法问题(即,359在角度空间上接近1,但绝对差很大)。 权重λ是定向损失的可调参数,其被设置为0。1在我们的实验中3.2.情境注意力模块Hand-CNN具有一种新颖的注意力机制,可以结合上 下 文 线 索 进 行 检 测 。 考 虑 一 个 三 维 特 征 映 射X∈Rh×w×m,其中h,w,m分别是通道的高度、宽度和通道数.对于特征图X的空间位置i,我们将使用xi来表示该位置处的m维特征向量我们的注意力模块计算上下文特征图Y∈Rh×w×m和X一样大。上下文特征向量yi,位置i计算为:手和其他身体部位之间的间隙。ΣΣhwy =f(xi,xj)+αp(x)h(dΣ)g(x)。3.1. 手掩模和方向预测我们的检测网络建立在MaskRCNN上[12]。我j=1C(xi)K 王空军k=1K国际新闻报MaskRCNN是一个强大的最先进的对象检测框架,具有多个阶段和分支。它有一个Re-该上下文向量是来自特征图的所有位置j的上下文9569K取向边界框分割(a)(b)第(1)款图2:Hand-CNN的处理流水线和手部方向图示。(a):将输入图像馈送到网络中以进行边界框检测、分割和方向估计。Hand-CNN扩展了MaskRCNN,通过添加额外的网络分支来预测手的方向。Hand-CNN还具有新颖的注意力机制。这种注意机制被实现为模块化块,并被插入RoIAlign层之前。(b):绿色箭头表示连接手腕和手中心的向量青色虚线平行于x轴,θ1和θ2分别表示人的右手和左手的方位角从位置j到位置i的贡献由如下所述的几个因素将其如下所示。.Σ不f(xi, xj)= exp(Wθ xi)(Wφ xj)、(二)相似的上下文。一种类型的上下文池化基于非局部相似性。在上式中,f(xi,xj)∈ R是特征向量xj与xi之间相似性的度量. C(xi)是归一化因子:C(xi)=jf(xi,xj).因此,xj提供了更多的上下文如果xj与xi更相似,则支持x i。直觉上,如果存在具有类似肤色的其他区域,则相似性池可以提供上下文信息来增加或减少区域是手的概率。语义上下文。然而,相似性池没有考虑语义相关实体之间的语义和空间关系[13]。第二种类型的上下文池化是基于这样的直觉,即手的位置可以通过诸如手腕和肘部的其他身体部位的存在和位置来推断我们考虑具有K个(身体)部分检测器,并且pk(xj)表示概率-证明了xj属于部分范畴k(1 ≤ k ≤ K). 变量dij表示位置i和j之间的L2距离,hk(dij)编码手和类别k的距离迪杰我们使用均值为μk、方差为σ2的高斯分布来建模其概率。 我们特别g(xj)=Wgxj,p(xj)=softmax(Wpxj),(3)其中Wθ,Wφ,Wg∈Rm×m,Wp∈RK×m.设pk(xj)为p(xj )的kth元. 利用1×1卷积可以有效地实现涉及Wθ、Wφ、Wg和Wp的上述矩阵运算。与µk、σ k和αk一起我们注意力模块的参数。与非局部神经网络的比较[32]。相似上下文项f(xi,xj)首先由Wang等人引入. [32],但他们的工作本身更适合于分类而不是检测任务。所提出的注意力模块具有附加项αkpk(x)jhk(dij)以捕获语义上相关的实体及其空间关系。所提出的注意力方法,除了汇集类似的功能,提供有关其他语义相关的实体,如身体部位以及它们的位置的信息。这在图像的每个空间位置处密集地执行,并且因此适合于检测和定位任务。例如,所提出的上下文注意力可以帮助区分具有相似肤色的身体部位,而[32]可能不会。4. 数据集我们的目标是训练一个手检测器,它可以检测图像中所有出现的手,而不管它们的形状,大小,集合:hk(dij)=exp.−(dij −µ)2µ2KK. 部分零件类别方向和肤色 可惜没有现有的训练数据集足够大和多样化,为手部检测提供更多信息的上下文线索因此我们用标量变量αk(0≤αk≤1/K)来表示范畴k的上下文重要性。变量αk函数f、g和pk我们-为此,我们收集并注释了一些数据,我 们 自 己 . 数 据 由 两 部 分 组 成 第 I 部 分 包 含 从ActionThread数据集[14]的视频剪辑中提取的图像帧。第二部分是Microsoft COCO数据集的子集[22]。第一部分的图像由我们手动注释,而第二部分的注释是基于手部姿势检测算法自动导出的ROI Alignσ9570以及COCO数据集的现有手腕注释我们将第一部分称为TV-Hand数据集,第二部分称为COCO-Hand数据集。4.1. TV手数据数据源TV-Hand数据集包含9498个图像帧,这些图像帧是从XNUMX Thread数据集[14]中提取的。该Thread数据集由来自各种电视连续剧的人类行为的视频剪辑组成。我们之所以选择Thread作为数据源,有几个原因。首先,我们需要具有多个手部出现的图像,就像来自人类动作样本的视频帧其次,电视系列是从多个摄像机视角拍摄的,允许手处于各种方位、形状、大小和相对尺度(即,手的尺寸与其他身体部位(例如脸和手臂)的尺寸相比)。第三,我们感兴趣的是检测运动模糊的手,在这方面,视频帧包含比静态照片更好的训练样本。第四,手通常不是电视连续剧中的主要关注焦点,因此它们自然地出现各种程度的遮挡和截断(与其他类型的视频(诸如手语或自我中心视频)相比)。最后,视频帧手数据集将补充COCO和其他从静态照片编译的数据集。视频帧提取。视频帧是从XNUMX Thread数据集的视频中提取的[14]。该数据集共包含4757个视频。 在这些视频中,1521和1514分别是用于动作识别任务的训练和测试数据;其余的视频被忽略。对于TV- Hand数据集 , 我 们 从 所 有 视 频 中 提 取 帧 。 给 定 一 个 来 自XNUMX Thread数据集的视频,我们首先使用镜头边界检测器将其划分为多个镜头。在长于一秒的视频镜头中,我们随机采样了一两个镜头。对于每个所选镜头,提取镜头的中间帧,随后将其包含在TV-Hand数据集中。因此,TV-Hand数据集包括来自每个视频的一到两个帧。我们将TV-Hand数据集分为训练、验证和测试子集。为了最小化数据子集之间的依赖性,我们确保来自给定视频的图像属于同一子集。训练数据包含来自2433个视频的图像,来自810个视频的验证数据所有测试图像都来自于Thread数据集的测试视频。这是为了确保训练和测试数据来自不相交的电视连续剧,进一步提高这两个子集之间的独立性。总共,TV-Hand数据集包含9498张图像。在这些图像中,4853个用作训练数据,1618个用作验证数据,3027个用作测试数据。值得注意的是,来自Thread数据集的所有视频都被归一化为具有360像素的高度和25fps的帧速率。因此,TV-Hand数据集中的图像都高度为360像素。图像的宽度变化以保持其原始纵横比。注释集合。该数据集由三个注释者注释。两个人被要求标记数据集的两个不同部分,第三个注释者被要求验证和纠正任何注释错误。注释器被指示定位每只占据超过100像素的手。我们使用100像素的阈值,以便数据集与Oxford Hand数据集一致[24]。 因为在实践中很难在视觉上确定手区域是否大于100像素,所以这用作近似准则:我们的数据集包含几个小于100像素的手。未考虑截断、遮挡、自遮挡;要求注释者识别被截断和被遮挡的手,只要可见手区域大于100像素。为了识别手,注释者被要求为每只手绘制一个四边形框,目标是包含尽可能多的手像素的紧凑框。这不是一个精确的指示,在许多情况下导致主观决定。然而,没有更好的选择。一种选择是提供像素级掩模,但这将需要大量的人力。另一个选项是注释手部区域的轴平行边界框。但是这种类型的注释由于手极其清晰的性质而提供了差的定位。最后,我们发现四边形框具有最高的注释质量。除了手部绑定框之外,我们还要求注释者识别与手腕/手臂方向相对应的四边形的边。图3示出了TV-Hand数据集中的注释手和未注释手的一些示例。数据集中的注释手牌总数为8646。训练、验证和测试集中的手数分别为4085、1362和3199一半的数据不包含手,很大一部分包含一只或两只手。一张图片中最多的手是9只。大约50%的手占据1000平方像素或更少的区域。1000像素相当于一个33×33的正方形,与图像大小相比相对较小(回想一下,所有图像的高度都是360像素)。4.2. COCO手部数据除 了 TV-Hand 之 外 , 我 们 还 建 议 使 用 来 自MicrosoftCOCO是一个数据集,其中包含具有各种类型注释(包括分割和关键点)的常见对象。对我们来说最有用的是包含人以及注释关节位置的许多图像。然而,COCO数据集不包含手部的边界框或分割注释,因此我们提出了一种自动方法来推断图像的子集,我们可以自信地这样做。我们的目标是自动生成非轴9571图3:TV-Hand数据集中带有注释和未注释手的一些示例图像。 注释器被要求为任何大于100像素的可见手部区域绘制四边形,而不管截断和遮挡的量注释器还标识了四边形中连接到手臂的边(此图中的黄色边)。这是一个具有挑战性的数据集,其中手出现在多个位置,具有不同的形状,大小和方向。严重闭塞和模糊的手也存在。蓝色框是一些未注释的实例。COCO数据集中的手的对齐矩形,以便它们随后可以用作注释示例来训练手检测网络。此过程需要运行手部关键点检测算法(以检测手腕和手指关节),并使用保守启发式来确定检测是否可靠。具体来说,我们使用了[30]的手部关键点检测算法,该算法是在手部和带注释的手指关节的多视图数据集上训练的。这种算法在许多情况下都能很好地工作,但它也产生了许多错误的检测。我们使用下面的方法来确定检测的有效性,如下所示(也见图1)。4).1. 确定预测的手腕位置,称为wpred2. 计算预测的手部关键点的平均值,称为havg。3. 将havg−wpred视为手的方向,确定最小边界矩形,与此方向对齐,并包含预测的手腕和所有手部关键点。4. 计算平行于手方向的矩形边的长度L5. 计算预测的手腕位置wpred和最近的注释手腕位置wgt之间的误差,E=||wpred− wgt||二、6. 如果错误(相对于大小)手的长度)大于0.2(根据经验选择),即,如果E/L > 0,则丢弃检测。二、COCO数据集也有用于手的可见性的注释,我们使用它们来丢弃被遮挡的手。我们在82,783张COCO图像上运行了检测算法,检测到161,815只手。边界矩形的平均面积为977个像素。在这些检测中,我们的保守检测确定113,727个检测不可靠。共有48,008个检测结果得以继续进行下一步。上述算法可以拒绝假阳性,但不能检索遗漏的检测(假阴性)。不幸的是,使用具有遗漏检测的图像可能在手检测器的训练上具有不利影响,因为手区域可能被认为是负面训练示例。同时,手工注释是珍贵的,因此具有至少一个真阳性检测的图像不应被丢弃。因此,我们建议保留具有真阳性的图像,但是使用以下的特征来掩盖未检测到的手(也参见图5)。1. 对于每个未检测到的手,我们添加半径为r = 1的圆形掩码。||wgt−egt||2以w gt为中心,其中wgt和egt分别表示COCO数据集提供的腕部和肘部关键点位置。我们设定掩模内的像素强度为0。2. 如果任何掩模和任何正确检测到的手之间存在任何重叠(真阳性),则丢弃图像。应用上述程序和算法,我们获得了COCO-Hand数据集,该数据集具有26,499个图像,总共45,671只手。此外,我们执行最后的验证步骤,以识别具有良好和完整注释的图像。这个子集有4534张图像,总共有10,845只手,我们称之为COCO-Hand-S。更大的COCO数据集被称为COCO-Hand。4.3. 与其他数据集的存在许多手部数据集,但大多数现有数据集是在实验室环境中收集的,由特定类型的相机捕获,或针对特定场景开发的,如表1所示。然而,我们感兴趣的是在无约束的图像和环境中的手检测算法。在这方面,只有Oxford Hand数据集与我们的数据集相似。然而,这个数据集比这里收集的数据集要小得多。5. 实验在本节中,我们描述了手部检测和方向预测的实验。我们在TV-Hand数据集和Oxford Hand数据集的测试集上评估了Hand-CNN的性能。由于没有手动注释,我们没有评估COCO-Hand数据集上为了更好地进行跨数据集评估,我们不会在Oxford-Hand数据集的训练数据上训练或微调检测器。我们只使用测试数据9572(a)(b)第(1)款图4:在COCO上丢弃错误检测的启发式方法。(a):运行手关键点算法以检测手。左边的人的左手在(b)中显示。(b):黑点:预测手腕wpred;青色点:最接近的标注手腕wgt;黄色点:预测关键点;绿点:预测关键点h平均值的中心;蓝-洋红色框:手部关键点的最小边界矩形;品红色边是矩形的与预测的手方向平行的边,其长度为L。 如果预测的手腕和最近的注释手腕之间的距离超过L的20%,则我们认为检测不可靠。(a)(b)第(1)款图5:在COCO上屏蔽遗漏检测的启发式方法。(a):手部关键点算法未能检测到该男子的左手。(b):添加以手腕为中心的黑色圆形遮罩。半径是根据手腕和肘部关键点之间的距离确定的。评价Oxford-Hand测试数据包含821张图像,共2031只手。5.1. 关于培训程序我们从Abdulla的GitHub代码开始训练Hand-CNN和MaskRCNN[1]。为了训练MaskRCNN检测器,我们使用一个公开的基于ResNet101的MaskRCNN模型对它进行初始化,该模型是在Microsoft COCO数据上训练的这也是Hand-CNN的MaskRCNN组件的初始化方法。在ResNet 101的第4阶段中,上下文注意力模块被插入到最后一个残差块之前,并且权重用Xavier-normal初始化器初始化。5.2. 手部检测性能与最先进的技术相比。我们使用TV-Hand数据集和COCO-Hand来训练Hand-CNN。表2表1:与其他手动数据集的比较。方法AP第11话百分之三十六点八[17]第十七话40.6%RCNN [10]百分之四十二点三[24]第二十四话48.2%RCNN +皮肤[28]百分之四十九点五[27]第二十七话55.7%[6]第六话58.1%手控键[30]百分之六十八点六Hand-CNN(建议)百分之七十八点八表2:Oxford-Hand数据集上最先进的手部检测算法的比较在公开的Oxford-Hand数据的测试集上比较了Hand-CNN与以前最先进的方法的性能我们使用平均精度(AP)来衡量性能,这是一个公认的目标检测标准[8]。为了与以前发表的结果兼容,我们使用精确的评估协议,并根据轴对齐的预测和注释边界框的并集上的交集来评估性能可以看出,Hand-CNN在绝对规模上超过了之前最好的方法10%。这一令人印象深刻的结果可归因于:1)新颖的上下文注意机制,以及2)使用大规模训练数据集。接下来,我们将进行消融研究,以分析这两个因素的好处。与基于2D身体姿势的启发式比较。 考虑到2D身体姿势关键点估计方法的成功,人们可能想知道我们是否可以通过简单地从肘部延伸到手腕的方向来检测手为了与这个启发式基线进行比较,我们使用[30]来获得肘部和手腕的关键点,并将向量从肘部延伸到手腕以找到手的中心。假设肘部和手腕之间的距离为R,我们将扩展距离设置为αR,其中α是可控的名称范围图片数量标签EgoHands [2]谷歌眼镜4,800手动汉德赛格[23]彩色手套210,000汽车[31]第三十一话三科6,736汽车[29]第二十九话三科7,905男人+Syn.[36]第三十六话特定姿势43,986合成HandNet [33]十名受试者212,928汽车GTEA [21]四个科目663手动牛津手[24]无约束2686手动电视手无约束9498手动COCO-Hand-S无约束4534半自动9573参数. 手的空间延伸被抽象地定义为半径为αR的圆形区域。表3报告了该方法在不同α值的牛津数据上的AP,其远低于Hand-CNN的AP。α0.050.10.20.40.81.21.6AP 28.27% 30.41% 33.56% 33.91% 24.22% 14.18% 9.29%表3:启发式基线的AP。该表报告了牛津数据的结果作为参数α的函数。上下文注意力的好处。表4比较了Hand-CNN与其自身变体的性能。所有模型都使用TV-Hand数据和COCO-Hand-S数据的训练集进行训练我们在这里没有使用完整的COCO-Hand数据集进行训练,因为我们想在分析非局部上下文池的好处时排除黑色圆形掩码的可能干扰在Oxford-Hand测试集上,Hand-CNN显著优于MaskRCNN,这清楚地表明了上下文注意力模块的优点。MaskRCNN本质上是没有上下文注意力模块的Hand-CNN我们还训练了一个没有语义上下文组件的Hand-CNN检测器和另一个没有相似性上下文组件的检测器。从表4可以看出,这两种类型的上下文线索对于手部检测都是有用的。上下文模块的好处在 TV-Hand数据集。这可能是由于电视剧中的图像只包含人物的上半身特写,而手可能与其他身体部位不成比例。因此,上下文信息在此数据集上的意义不大作为参考,Hand Keypoint方法[30]在此数据集上的表现也很差(38. 百分之九AP);该方法还严重依赖于上下文信息额外训练数据的好处。我们的论文的一个贡献是收集了一个大规模的手数据集。毫无疑问,这种大规模数据集的可用性是我们的手检测器令人印象深刻的性能的一个原因。表5进一步分析了使用越来越多数据的好处。我们使用三个数据集训练MaskRCNN:电视手COCO-Hand-S COCO-Hand TV-Hand数据集有4853个训练图像,COCO-Hand-S有4534个图像,而COCO-Hand有26,499个图像。使用TV-Hand数据训练集训练的检测器已经表现良好,包括交叉数据:Oxford- Hand数据集。这证明了我们的手检测器的泛化能力和收集的数据的有用性。表5还表明了从Microsoft COCO获得额外训练数据的重要性。我们看到,使用COCO-Hand数据而不是COCO-Hand-S,在Oxford-Hand数据上将AP提高了如第4.2节所述,COCO-Hand-S数据是从COCO-Hand数据中获得的,即使是一只未注释的手,也会丢弃图像,而不考虑图像可能包含的良好手部注释。方法Oxford-Hand TV-HandMaskRCNN百分之六十九点九百分之五十九点九Hand-CNN73.0%60.3%Hand-CNN w/o语义上下文71.4%59.4%Hand-CNN w/o相似性上下文70.8%59.6%表4:背景对于手部检测的益处。性能指标是AP。所有模型都使用TV-Hand和COCO-Hand-S的训练集进行训练MaskRCNN本质上是Hand-CNN,不使用任何类型的上下文。它的性能比Hand-CNN和其他变体差。测试数据列车数据牛津-汉德电视手电视手百分之六十二点五百分之五十五点四TV-Hand + COCO-Hand-S百分之六十九点九百分之五十九点九电视手+COCO手76.7%63.5%表5:数据的好处。这显示了使用不同数量的训练数据训练的MaskRCNN的性能。1.00.80.60.40.20.00.0 0.2 0.4 0.6 0.8 1.0召回图6:在TV-Hand + COCO-Hand上训练的Hand-CNN的精度-召回曲线,在Oxford-Hand和TV-Hand数据的测试集上进行测试。而在COCO-Hand中,我们通过掩蔽未注释的手来保留具有良好注释的图像。实验结果清楚地表明了这样做的好处。查准率-查全率曲线图6绘制了Hand-CNN在Oxford-Hand和TV-Hand数据集的测试集上的Hand-CNN是在TV-Hand和COCO-Hand数据集的训练集上训练的。Hand-CNN具有高精度值。例如,在召回率为0.75时,Hand-CNN的精度为0.81。5.3. Hand CNN的定向性能选项卡. 图6示出了Hand-CNN的预测手方向的准确度值。我们测量预测方向和注释方向之间的角度我们考虑10度、20度和30度三个不同的误差阈值,并计算误差阈值内的预测百分比。可以看出,在误差阈值为30μ m时,预测精度可达75%以上。 请注意,我们只考虑电视数据,AP=63.4%牛津数据,AP=78.8%精度9574角度预测误差测试数据≤10◦≤20◦≤30◦牛津-汉德41.26%64.49%75.97%电视手37.65%60.09%73.50%表6:Hand-CNN在Oxford-Hand和TV-Hand数据的测试集上的手方向预测的准确性。此表显示了10、20和30μm三个误差阈值的正确方向预测百分比。该误差被计算为预测取向和注释取向之间的角度差。我们只考虑具有大于0.5的与相应的地面真值的交集的手的方向预测的性能。MaskRCNN Hand-CNN图8:比较MaskRCNN(左)和Hand-CNN(右)的结果。MaskRCNN在许多情况下将皮肤区域误认为手。Hand-CNN使用上下文注意力来避免此类错误。Hand-CNN还可以预测手的方向,而Mask RCNN则不能。图7:Hand-CNN的一些检测结果。检测具有各种形状、大小和方向的用于正确检测到的手的方向预测。5.4. 定性结果和失败案例图7示出了在TV-Hand和COCO-Hand数据上训练的Hand-CNN的一些检测结果。图8比较了MaskRCNN和Hand-CNN。MaskRCNN在许多情况下错误地将皮肤区域当作手。Hand-CNN使用由上下文注意力提供的上下文线索来消除歧义以减少此类错误。Hand-CNN还预测手的方向,而MaskRCNN没有。图9显示了Hand-CNN的一些失败案例。错误检测通常是由于其他皮肤区域。上下文线索有助于减少这种类型的错误,但错误仍然会发生,由于皮肤面积在合理的位置。遗漏的检测通常是由于尺寸过大或遮挡。图9:Hand-CNN的一些失败案例。6. 结论我们描述了Hand-CNN,一种新的卷积算法,用于在无约束图像中检测手掩模和预测手方向的架构我们的网络建立在MaskRCNN的基础上,但有一个新颖的上下文注意力模块,可以在检测过程中结合上下文线索上下文关注模块可以被实现为模块层,并且被插入在对象检测网络的不同阶段。我们还收集和注释了一个大规模的手的数据集。该数据集可用于训练和评估手检测器。Hand-CNN在两个数据集上的表现优于MaskRCNN和其他手部检测算法。对于手部方向预测,超过75%的预测在对应的地面真实方向的30度内。鸣谢。这项工作得到了VinAI Research和NSF IIS-1763981的部分支持。非常感谢Tomas Simon对COCO数据集的建议,以及Rakshit Gautam对数据注释过程的贡献。9575引用[1] 瓦利德·阿卜杜拉Mask r-cnn用于keras和tensorflow上的对象检测和实例分割。github.com/matterport/Mask_RCNN,2017. 6[2] 放大图片作者:David J.克兰德尔和陈宇。伸出一只手:在复杂的以自我为中心的交互中检测手和识别活动。在2015年国际计算机视觉会议上。6[3] PatrickBuehler , MarkEveringham , DanielPHuttenlocher,还有安德鲁·齐瑟曼连续手语电视广播的长期手臂和手跟踪。2008年英国机器视觉会议论文集。2[4] Yunpeng Chen,Yannis Kalantidis,Jianshu Li,水城Yan和JiashiFeng。A 2-nets:双重注意网络。在神经信息处理系统的进展。2018. 2[5] 海伦·库珀和理查德·鲍登大词典detec-的手语。在国际人类研讨会上,计算机交互,第88-97页。Springer,2007. 2[6] 邓小明、张银达、杨烁、谭平、常亮、叶远、王宏安。基 于 cnn 的 联 合 手 部 检 测 和 旋 转 估 计 。 IEEETransactions on Image Processing , 27 ( 4 ) : 1888-1900,2018。二、六[7] Le Duan 、 Minmin Shen 、 Song Cui 、 Zhexiao Guo 和Oliver杜森从单深度图像估计2d多手姿态。欧洲计算机视觉会议(ECCV)研讨会,2018年9月。2[8] Mark Everingham , S.M. Ali Eslami , Luc Van Gool ,Christo菲 尔 ·KI.Williams , JohnWinn , andAndrewZisserman.Pascal Visual Object Classes Challenge : ARetrospective.International Journal of Computer Vision,111(1):98-136,2015. 6[9] 佩德罗·F.罗斯?费尔岑斯瓦尔布吉西克,大卫·麦卡莱斯特还有德瓦·拉曼南使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on Pattern Analysis andMachine Intelligence,32(9):16271[10] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。在2014年IEEE计算机视觉和模式识别会议论文集6[11] Ross Girshick、Forrest Iandola、Trevor Darrell和Jitendra马利克可变形零件模型是卷积神经网络。IEEE计算机视觉与模式识别会议论文集,2015年。6[12] Kaim ing He,Geor gia Gkioxari,Piotr Dolla'r,and RossGir-真恶心。面罩R-CNN。2017年计算机视觉国际会议论文集。一、二[13] Minh Hoai和Andrew Zisserman。 会说话的头:检测-识别人类并识别他们的互动。在IEEE计算机视觉和模式识别会议上,2014年。3[14] Minh Hoai和Andrew Zisserman。 线程安全:朝向识别镜头边界上的人类行为。在2014年亚洲计算机视觉会议上三、四[15] T Hoang Ngan Le,Yutong Zheng,Chenchen Zhu,KhoaLuu,和马里奥斯·萨维德斯多尺度快速rcnn方法驾驶员在CVPR研讨会,2016年。2[16] 杰虎,李申,孙刚。挤压-激发网络工程. 在IEEE计算机视觉和模式识别会议上,2018年6月。2[17] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。神经信息处理系统的进展,2015年。6[18] Leonid Karlinsky,Michael Dinerstein,Daniel Harari,西蒙·厄尔曼链模型用于根据上下文检测零件。IEEE计算机视觉与模式识别会议论文集,2010年。2[19] M. K o?lsch和M. 土耳其 只有手部检测。在第六2004年IEEE国际自动人脸和手势识别会议诉讼第614-619页,2004年5月。2[20] M Pawan Kumar,Andrew Zisserman,and Philip HS Torr.基于零件的模型的有效判别学习。计算机视觉国际会议,第552- 559页。IEEE,2009年。2[21] Yin Li,Zhefan Ye,and James M Rehg.去挖掘自我-中心行动。IEEE计算机视觉与模式识别会议论文集,2015年。6[22] 林宗义,Michael Maire,Serge Belongie,Lubomir放大图片创作者:James Hays,Pietro Perona,DevaRamanan,C. 劳伦斯·齐特尼克和彼得·多尔·拉尔。MicrosoftCOCO:上下文中的公共对象。2014年欧洲计算机视觉会议论文集。三、四[23] 拉胡·马利雷迪, 弗朗西丝卡·穆勒 马库斯·奥伯Weger , Abhishake Kumar Bojja , Vincent Lepetit ,Chris- tian Theobalt,and Andrea Tagliasacchi. Handseg:用于从深度图像进行手部分割的数据集。ArXiv,abs/1711.05944,2017年。6[24] Arpit Mittal,Andrew Zisserman,and P. H. S.乇 手使用多个建议进行检测。2011年英国机器视觉会议论文集。二、四、六[25] Eng-Jon Ong和Richard Bowden。一种增强的分类器树用于手形检测。在IEEE国际自动人脸和手势识别会议集,2004年。2[26] Pramod Kumar Pisharady、Prahlad Vadakkepat和Ai Poh卢 复 杂 背 景 下 基 于 注 意 力 的 手 部 姿 态 InternationalJournal of Computer Vision,101(3):403-419,2013.2[27] 任少卿、何开明、罗斯·格尔希克、孙健。更快的R-CNN:用区域建议网络进行实时目标检测。神经信息处理系统进展。2015. 二、六[28] Kankana Ro
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功