没有合适的资源?快使用搜索试试~ 我知道了~
2959基于嵌入和头钩的人体-人脸关节检测万俊峰†邓江帆†周晓松邱峰算法研究,Aibee Inc.{jfwan,jfdeng,xsqiu,fzhou}@ aibee.com摘要联合检测行人及其相关联的面部是一项具有挑战性的任务。一方面,由于遮挡或非正面的人类姿势,身体或面部可能不存在。另一方面,在拥挤的场景中,由于缺乏强相关性证据,关联变得困难甚至错误引导 。 本 文 提 出 了 一 种 新 的 人 体 - 人 脸 联 合 检 测 器(BFJ),用于检测人体和人脸的精确对应关系。我们遵循经典的多类检测器设计,通过并行检测身体和面部,但具有两个关键贡献。首先,我们提出了一个嵌入匹配损失(EML)学习的关联嵌入匹配的身体和脸的同一个人。其次,我们引入了一个新的概念,新的语义和几何信息源,BFJ大大降低了身体和脸的检测对的难度 既然问题是不-然而,我们设计了一个名为对数平均未匹配率(mMR-2)的新指标来评估关联性能,并通过注释每个人脸框来扩展CrowdHuman和CityPer- sons基准。实验表明,我们的BFJ探测器可以保持状态的-在一阶段和两阶段结构上的行人检测中的艺术表现,同时大大优于各种身体-面部关联策略。代码将在https://github.com/AibeeDetect/BFJDet 上提供。1. 介绍行人检测是计算机视觉领域的一个长期研究课题。对场景中的个体进行准确定位可以有效地促进识别、再识别和跟踪等下游过程。通过深度学习的发展,基于卷积神经网络的方法[20]已经显著提高了对MS-COCO [23]等一般物体和人群等行人的检测性能。*同等缴款。†Junfeng在Aibee实习期间完成的工作(Fpc@ jµYj3jbl@Fpc@ jµYj3jbl@(cMj33 mp$chjµgS(b)主体jµYj3jbl@图1.在野外检测具有关联面部的行人的挑战(a)绿框(摄像机一侧)和蓝框(摄像机背面)中行人的脸是不可见的。(b)虽然3人的面部清晰可见,但他们的身体却不见了(c)在拥挤的场景中身体和脸部之间的不匹配。人[30],导致应用级使用的能力,如视频监控和身份认证。对于行人来说,面部是语义上最具区别性的部分。所以把身体和脸结合起来就很有意义了。然而,对于联合检测,存在三个主要障碍。首先,并非所有人的身体和面部都是完全可见的,并且并不总是产生一对一的对应。如图图1a中,绿框中的人在摄像机的一侧,而蓝框中的人在摄像机的背面,他们的脸都看不见。这种现象使得从一个建议[4]中联合回归体框和面框的简单方法变得不切实际。图在图1b中,三个人具有视觉上清晰的面部,而他们的身体由于严重遮挡而几乎没有被观察到这种各向异性限制了另一个直观的管道,即首先检测身体,然后从中找到面部(我们将其描述为cas-2960cade模式),因为这将严重影响面部回忆。第三种解决方案是分别检测人体和人脸然而,在拥挤的场景中,这种方法(我们将其描述为位置模式)会导致严重的误匹配,因为许多面部落入其他人的身体区域(图11)。1c)。为了克服这些障碍,我们提出了一种新的框架工作命名为身体-面部关节(BFJ)检测器。在我们的方法中,身体和脸被视为两个独立的类别,并并行检测。通过这种设计,可以固有地避免不响应问题,并且两个类别都保持良好的性能,因为它们不依赖于彼此(例如共享相同的预定义框)。然后,从形貌和几何层次上进行了合理的关联.首先,一个额外的分支连接到检测器的末端,为检测到的所有对象生成嵌入。我们提出了一个Em- bedding匹配损失(EML)学习的最佳嵌入空间的身体和脸从同一行人是彼此更接近。其次,基于头部经常与身体或面部一起出现的统计事实,我们引入了一个新的概念:“头钩”是指每个主体和面的附属头部的中心点。根据信息理论[29],不同的信息来源往往提供互补性。在关联过程中,我们在上述特征级(嵌入)和空间级(头钩)的指导下匹配身体和面部。到目前为止,既没有度量来评估身体-面部匹配质量,也没有已经完成配对身体和面部的注释的基准。为了验证我们的方法,受行人检测中的对数平均未命中率(MR−2)[8]的启发,我们设计了一个名为对数平均未命中匹配率(mMR−2)的新度量在身体和脸的关联中。此外,我们在两个公共数据集中仔细注释了每个行人的人脸框:[30]人与人之间的关系[38]。实验结果表明,BFJ算法在级联模式和位置模式下的性能都优于直观方法,且有较大的裕度。总之,我们的贡献有两个方面:1)提出了一种联合体脸检测方案,该方案为每个行人输出体脸对,在检测和体脸关联方面都表现出很强的性能。2)据我们所知,我们是第一个系统地研究身体人脸联合检测的性能。因此,我们设计了一个原则性的度量来评估身体 - 人 脸 关 联 的 质 量 。 我 们 在 CrowdHuman 和CityPersons中对人脸进行注释,构建了两个新的大规模联合身体人脸检测基准。2. 相关作品行人检测。 大多数早期方法行人检测是基于部分的[25,27,40,31,41]。在这些方法中,找到足的基本逻辑是检测它们的随着深度学习驱动的对象检测的快速发展[12,28,21,1,22],许多强大的基于CNN的pedes-trian探测器已经出现[32,39,34,24,5,35],取得了有希望的结果。近年来,研究者们在拥挤问题上投入了大量的精力,这也给体脸联想任务带来了巨大的挑战。 比如说,[32]和[39]提出了具体的损失函数,以约束更接近相应的地面实况的建议,增强重叠个体之间的区分。CaSe[34]使用一个新的分支来计算感兴趣区域(RoI)中的行人数量,OR-CNN [39]构建了一个部分遮挡感知RoI(PORoI)池化操作来获得身体可见性的先验信息一组工作集中于减轻非最大值抑制(NMS)的严重重叠对象的不足Adaptive-NMS [24]引入了一种自适应机制来动态调整NMS中的阈值,从而在人群中实现更好的召回。在[11]和[16]中,NMS利用较少遮挡的可见框来引导选择完整框,从而本质上避免拥挤问题。最近,有其他方向来解决拥挤的挑战。CrowdDet [5]提出了一个进行多个预测的建议,并使用专门设计的Set-NMS来解决严重重叠的情况。在[35]中,Beta分布被用于建模人的满盒和可见盒之间的关系。身体-头部关节检测。头部作为人体的重要结构部位,在识别人的过程中起着至关重要的作用。一些最近的工作[37,4,3]集中于身体-头部关节检测以更好地处理遮挡,因为头部可以向身体提供补充的空间信息。JointDet [4]使用统计比率生成头部建议以预测身体建议,然后使用判别模块来匹配它们。在双锚点R-CNN [37]中,身体和头部的锚点同时产生并相互交叉优化PedHunter [3]采用不同的方法在注意力模块中编码头盒。尽管看起来相似,但身体-面部联合检测更具挑战性,因为身体和面部不是一对一的对应关系。与以前的范例相比,我们选择了一个自下而上的方案,首先独立地检测它们,然后进行合理的关联。嵌入式学习。作为一种有效的建模策略,嵌入已被广泛用于图像检索[10,33],图像字幕[13]和短语定位[17]等任务。在[26]中,提出了一种关联嵌入除此之外,CornerNet [19]将关联嵌入的思想引入对象检测。通过从同一个对象中提取角嵌入2961(b)(b)(b)(b)第(1)款我ΣΣNkΣNΣΣK我我KK2ki=1j =1,jKMkNk我JKK通过在个体之间投射和推动它们,可以在热图中的峰之间直接生成边界框,而不是繁琐的滑动窗口方案。此外,在分割领域,嵌入也用于将像素分组为不同的对象[36],从而促进单次结构中的实例级分割。受[26]的启发,我们使用嵌入机制来匹配身体和面部对在我们的方法中,每个检测到的实例(身体或面部)都有一个嵌入向量。这些嵌入根据他们的距离被分组为不同的行人。3. 方法姿态估计相反,我们利用嵌入来确定一对身体和面部是否来自同一个行人。如图所示在图2中,嵌入模块充当并行分支,为每个实例产生维度dim的嵌入在两级检测器中,预测器是dim=32的全连接层,而在一级检测器中,嵌入由膨胀= 2且dim=16的膨胀卷积层产生。下面我们介绍嵌入匹配损失(EML),以从相同的行人中提取嵌入,并且以其他方式将它们在个体之间分开。符号。设G是所有基本事实的集合:(b)第(1)款(f)第(1)款(b)第(1)款(f)第(1)款(b)第(1)款(f)第(1)款如图2,我们扩展了经典的一阶段和两阶段检测框架的头部结构G={(g1 ,g1 ),(g2 ,),(,g3),...,(gn,gn)},其中(g(b),g(f ))表示用于所述对象的体框和面框子模块。首先,设计一个额外的分支来生成ii i检测到的所有实例的嵌入。然后,添加一个新的预测器来估计附接到每个身体和面部的头部的中心(头部钩)。在将身体和面部检测为两个独立的类别之后,采用一种新的关联模块来使用嵌入特征和预测的头部钩来建立它们的对应关系。-th行人。值得注意的是,在真实场景中,某些身体或面孔可能会缺席(表示为“身体”)。在基于锚点的检测框架中,将存在对应于第k个行人gk的地面实况主体(类似地,对于面P(g(f) 的 一 组 建 议P(g (b)):P(g)={p ∈ P|IoU(p得双曲余切值.n}(1)ROI12cls(身体/面部)箱形(体/面)其中P是所有提议的全集,并且η表示重叠阈值。对于每个方案p(b),我们知道预测l2-归一化嵌入e(b)∈Rdim.两级1024d头部钩中心牵引损失我. 我们要拉到的提案配对121024d嵌入(身体/面部)昏暗包括三种情况:身体对身体(bb)、面对面(ff)和身体对面对面(bf)。对于对称的bb和ff情形,由于它们的几何位置是自然聚集的,所以它们的几何位置是对称的。高×宽×256高×宽×256高×宽×256根据Eq. 1,我们设计的损失重量平滑地转移到距离相对较远的对假设dij为一期这两个建议(通过gt框的高度标准化),我们通过最小化将它们拉到一起:MkMkL拉力bb=1M2i(二)高×宽×高×暗ki=1j=1,j i图2. BFJ检测器的检测模块。 对于conve-然而,我们只绘制了头部结构,而骨架的前结构,FPN [21]和RPN [28]被省略。本处提供Lpullff=1Σ我(三)为每个实例生成嵌入用蓝色绘制,而用于估计头钩的新预测器用红色绘制。损失其中,Mk和Nk是所选从P(g(b))和P(g(f))(我们选择前3个方案在虚线框中,其中CE、FL和kSL1表示原始交叉熵损失、焦点损失和平滑L1损失,而EML和AL表示新设计的嵌入匹配损失和角度损失。3.1. 嵌入匹配人脸两两匹配的一个关键挑战通过以降序对IoU值进行排序)。对于非对称bf情形,不存在其它两种情形的几何聚集效应。实际上,在拥挤的场景中,一个人的身体可能会更靠近另一个人的脸。因此,我们删除了距离感知权重,并直接基于嵌入特征提取它们:MkNkLpullbf=1e(b)−e(f)2,(4)培训×4cls(身体/面部)FL箱形(体/面)×4SL1扩张卷积×4头钩中心SL1 + AL嵌入(身体/面部)EML培训CESL1SL1 + ALEMLK我J和body boxes的区别在于Nk伊季报(b)第(1)款e−2e(b),J(f)第(1)款e−e2∥,2962检测输出为了缓解这个问题,我们扩展了学习关联嵌入[26]的想法,该想法最初是为了对多人中的关节进行分组而提出的i=1j =1将它们放在一起,拉动损失可以定义为:L拉力=µL拉力bf+β(L拉力bb+L拉力ff),(5)k k k k2963∗���∗ ������ΣΣ|G|GKL∈MkMl我JKLNkNl我J头钩预测器的损失函数组成为:KLKLKLKL|G|K|G|2KL其中,我们将μ设为1.0,将β设为1.5。推输。对于不同的行人,我们的目标是把他们的嵌入。类似地,还有三种情况,如在拉动损失。然而,由于身体-身体(bb)或脸-脸(ff)情况中的两个嵌入来自不同的人,因此距离感知加权变得不必要。因此,我们用一个统一的公式来表示这三种推项:预测的头部钩h和地面真实值h*之间的L1损失。然而,这种绝对损失将由大规模人体主导,导致训练中的非鲁棒性能因此,我们进一步限制了向量v从b*到h和一个v*所跨越的角度从b到h。 形式上,我们引入角损失(AL)通过计算它们的叉积并最小化归一化幅度:L推力bf=Mk Nl1max(0,δ−e(b)−e(f)2),(6)损失al= sin(θ)=v×v∗.(十一)klMkNlI ji=1j =1Mk Mlv采用损失率有两个优点。 一、棱角L推bb=1ΣΣmax(0,δ−e(b)−e(b)2),(7)i=1j =1测量自然是尺度不变的,使得训练更适合小型机构。 第二,损失是Nk Nl当v接近v* 时,它是单调的Lpushff=1ΣΣmax(0,δ−e(f)−e(f)2),(八)i=1j =1当v和v*平行时,最小值为0 总而言之其中δ是裕度(我们默认将δ设置为2),并且Mk和Nl遵循牵引损耗中的类似设置。完成的推动损失则定义为:L推力=µL推力bf+β(L推力bb+L推力ff),(9)损耗钩=α损耗sll+γ损耗al,(12)其中α和γ是加权系数。我们发现只要设置α=2。0且γ=1。0产生相当好的结果。总之,训练BFJ检测器的总损失是一个简单的问题。其中,权重μ和β与等式中的相同。五、全部损失给定上述L拉和L推的项,添加损失emb(等式10)、损失钩(等式10)、损失钩(等式11)12)和常规检测损失(由用于检测的交叉熵损失组成)。K我们可以将EML函数写成如下:k1分类和箱回归的smoothl1损失)。|G||G||G|损失=σ·1ΣL pull+ τ·1Σ ΣL push。 (十)k=1k=1l =1人体头部钩ℎℎL k在这个等式中,是集合的大小 ,表示 地面实况中所有行人的总数。σ和τ是加权系数。3.2. 头钩预测给定一组预测的身体和面部框,直接建立它们的几何对应是具有挑战性的,因为它们产生相当不一致的几何属性。在分析了CrowdHuman和CityPersons等知名数据集的统计数据后,我们直观地观察到,每个行人的头部几乎总是存在的。换句话说,只要身体或脸存在,头就很可能出现。受此观察的启发,我们添加预测器以回归附接到每个身体和面部的附属头部的中心点,并将其用作连接身体和面部的如图2,该预测器是建立一个典型的回归结构和头部中心表示为hR2是来自同一建议。在训练过程中,我们假设地面真实附属中心h*与相关身体b*或脸f*的地面真实中心一起给出。让我们首先考虑如图所示的头钩对身体b * 的约束。3和面f * 的情况遵循类似的结论。简单的目标是最小化平滑���∗面部头钩ℎ∗���∗������ℎ���∗图3. 角度损失。我们把身体、脸和头分别涂成蓝色、绿色和红色。实线框表示地面实况,而虚线框表示检测结果(对于头部,实际上仅预测中心点而不是边界框)。向量v(或v*)是从身体(上方)或脸(下方)地面真实的中心点到头钩构造的。3.3. 结盟进程本节探讨了嵌入特征和头钩的使用,寻求它们在体-面关联中协作的最佳实践。在关联之前,我们首先使用阈值c_th=0.3来过滤具有低识别置信度的身体和面部。由于头部的几何中心与ℎ∗ℎ���∗���∗ℎ∗ℎem2964人脸和身体的嵌入位于不同的特征空间,我们采用了先计算2965BFijijBF每个cue 为了将距离转换为相似性表示,我们通过径向基函数sij=e-dij馈送每个归一化距离值。在计算m个身体和η个面部的所有对的相似性值Sij床和头钩位置分别为:Se=(Se)∈Rm×n,SH=(SH)∈Rm×n,其中每个位置上的元素从其自身的角度指示特定身体-面部对的相关性。此外,为了利用来自两个不同来源的信息,如前所述,问题转向寻找最佳策略来融合两个矩阵Se和SH。融合(等式13)P“图4. 关联过程。我们选择图像中的两个行人来显示细节。身体(图像中的实线框)由彩色正方形表示,而面部(图像中的虚线框)由彩色圆圈表示。通过考虑平均置信度(矩阵P¯bf)融合嵌入特征Se和头钩Sh的两个相似性矩阵。一般来说,头部钩子进行位置引导,而嵌入特征提供语义信息。从经验上讲,当盒子预测清晰时,位置引导往往是准确的,通常包括摄像头附近的行人,结构完整且不拥挤。我们发现,这种清晰的概念在很大程度上可以通过从检测模型导出的置信度(分类得分)来表示:只要置信度高,则预测是清楚的。按照这种逻辑,由嵌入特征提供的语义线索被期望在更复杂和混乱的情况下发挥重要作用,例如,当行人在人群中并且他们的面部不能通过头部钩距离容易地分配到身体中时。基于上述假设,我们设计了一种融合策略(如图所示)。4)如果预测清楚,则将相似度值移位到Sh,否则移位到Se:S=P<$$>λ<$Sh+(J−P<$$>λ)<$Se,(13)[。]◦λ是λ的元素级幂(我们默认将λ设置为2)。利用身体和面部之间的相似性矩阵S,关联过程是直观的:对于每个身体,选择最大相似度的脸。考虑到并非每个身体都有相关联的面部的事实,我们设置相似性阈值s_th。 如果匹配的人脸的相似度值低于sth,则认为该身体没有可见的人脸。4. 实验我们进行实验以从两个角度系统地评估身体-面部联合检测的性能:目标检测和关联质量。数据集。我们的基准数据是建立在两个公共的行人检测数据集。在CrowdHuman [30]中,有15000张图像用于训练,4375张图像用于验证,5000张图像用于测试。每个行人的注释包括三个框:两个分别用于身体的可见区域和整个区域,一个用于头部。按照这些注释,我们手工标记面部框,用于训练和验证集上的所有pedes-trians,其面部可以被看到。CityPersons [38]数据集是Cityscapes [6]的一个子集,仅包含人物注释。分别有2975、500和1525个图像用于训练、验证和测试,其中所有行人都由可见的完整框注释。由于测试集被保留,我们在训练集和验证集上构建人脸基准。在[4]中,作者为此数据集提供了头盒,但注释尚未发布。因此,我们为每个行人注释头部和面部。在我们的方法中,我们忽略可见的主体框,只使用完整的框。指标. 对于检测性能,我们采用两个常用的度量:平均精度(AP)[9](越高越好),以及在[10- 2,100]短范围内的每图像假阳性(FPPI)的对数平均未命中率。[8][9][10][11][12][13][14][15][16][17][18][19 对于身体-面部关联-操作性能,没有现有的度量。受MR−2原理的启发,我们提出了mMR−2,它是从[10−2,100]中身体-面部对的FPPI上的对数平均未匹配率中提取的。mMR−2显示了不匹配的身体-面部对的比例。 用于一对相关联的身体和面部,匹配的状态根据以下三个条件的满足来确定:1) 面部框具有高于0.5的IoU,其中地面实况面部框。2) 主体盒具有高于0.5的IoU,具有地面实况主体盒。这里,矩阵P¯bf由身体和面部的平均置信度值以及索引i和j组成,J是大小为m×n的单位(全1)矩阵。操作者表示逐元素乘法,而运算符3) 两个地面实况盒子属于同一个人。否则,该状态将被视为不匹配。基于这个明确的定义,我们可以计算未命中0.80.60.90.70.550.500.450.70✓✓0.600.500.400.700.90.60.70.800.650.80.850.702966不×特定FPPI点上的匹配率(mMR):Nmp方法两级MR−2AP@0.5mMR−2身体/脸mMR= 1−,(14)Np其中,Nmp是匹配对的数量,并且Np表示对的总数因此,mMR-2的最终值可以通过对FPPI范围内的所有mMR值进行对数平均来自然地获得。基 线 关 联 方 法 。 如 第 1. 我 们 将 直 接 级 联 模 式(CAS)和位置模式(POS)作为体脸关联的两种基线方法。对于级联模式,连续训练相同结构的两个检测器,一个用于检测身体,另一个用于检测使用身体框裁剪的每个子图像上的面部对于位置模式,我们使用相同的身体和面部的检测方案,在BFJ检测器。在获得这两个类别的盒子后,我们摆出姿势一期身体/脸身体-面部关联作为线性分配问题。具体地,首先计算每个身体和面部之间的面上相交(IoF)作为分配成本。IoF=|箱体箱面|,(15)|阴螺纹接头表面|利用这些IoF值,我们构造大小为m n的成本矩阵D,其中m和n分别是身体和面部数量。然后,使用高效的匈牙利算法[18](由[2]首次引入用于对象检测)来解决该分配问题并获得身体-面部关联。此外,由于我们在BFJ检测器中使用头部注释,因此我们通过添加头部来扩展POS基线。在该方法中,身体、头部和面部被检测为三个独立的类别。使用上面的匈牙利算法,我们首先匹配身体-头部对,然后匹配头部和面部对,其中使用头部作为桥梁将身体和面部相关(模拟我们的BFJ检测器中的头部挂钩思想)。我们将这种方法描述为带头部的位置模式(POSH)。实验设置。我们在两阶段和一阶段检测框架上进行了实验。对于两阶段结构,我们选择具有FPN[21]的更快R-CNN [28],其中RoIAlign [14]用于特征聚集。对于一阶段结构,我们采用RetinaNet [22]作为代表。FPN基线和RetinaNet都使用在ImageNet [7]上预训练的ResNet-50 [15]作为骨干。此外,我们在Crowd-Det [ 5 ]上实现我们的方法,Crowd-Det [5]是仅使用全盒的最先进的检测器。我们在8个Nvidia V100 GPU上训练网络在CrowdHuman数据集上,每个图像的短边被调整为800,长边被限制为1400。训练过程包含30k次迭代,从初始学习率0.02(FPN)或0.01(RetinaNet),并且在15k和20k iters上分别减少0.1在CityPersons上,考虑到新注释的面部的平均尺寸非常小,所有图像都是训练样本大小为(1536×3072),输入规模为1.5×。在培训中,我们使用表1. CrowdHuman验证集上的结果。表中所有数字均以百分比(%)表示。CAS:级联模式,POS:位置模式,POSH:头部定位模式。对于前5k次迭代,初始学习率为0.02(FPN)或0.01(RetinaNet),并在接下来的两组2k次迭代中将其连续减少0.1。请参考我们的代码以获得等式中的相似性阈值s_th和σ,τ的详细设置。10个。4.1. 关于CrowdHuman表. 1显示了CrowdHuman的主要结果[30]。首先,通过增加BFJ模块,不会影响人体和人脸的原始检测性能(“+POS”行中的检测结果在FPN基线上,我们的BFJde-在 mMR−2 中 , tector 优 于 CAS 、 POS 和 POSH 方 法14.7%、13.5%和13.2%。在CAS方法中,虽然关联问题被固有地回避,但是仍然存在两个问题:首先,面部检测性能(AP和MR-2)将因与上游探测器里失踪的尸体第二,如果多多个人脸出现在一个人体区域(经常发生在拥挤的场景中),人脸检测器无法区分它们。在P0S方法中,由于仅IoF信息用于建立相关性,所以它几乎不能避免人群中的误匹配。POSH的第三基线表明人脸检测性能明显下降。我们认为这是由于头部和面部的锚点分配冲突造成的。最先进的Crowd-Det [5]的结果显示出类似的趋势,其中所提出的方法的性能超过基线,考虑到mMR−2 中 的 稳 定 裕 度 ( 分 别 为 13.8% 、 12.2% 和11.9%)。如表的最后三行所示1、我们的BFJ检测器也可以在一级RetinaNet [22]检测器上工作,其中mMR−2分别优于三个基线11.3%,10.0%和10.7%FPN + CAS43.0/57.385.1/59.367.2FPN + POS43.5/54.387.8/70.366.0FPN + POSH45.2/57.186.9/61.165.7FPN + BFJ43.4/53.288.8/70.052.5CrowdDet + CAS41.7/57.390.5/60.366.1CrowdDet + POS41.9/54.190.7/69.664.5CrowdDet + POSH42.0/57.190.0/62.164.2CrowdDet + BFJ41.9/53.190.3/70.552.3RetinaNet + CAS52.6/67.180.1/53.275.0RetinaNet + POS52.3/60.179.6/58.073.7RetinaNet + POSH55.6/68.375.5/41.174.4RetinaNet + BFJ52.7/59.780.0/58.763.72967FPN + BFJ✓✓✓✓66.4(POS)55.754.252.5RetinaNet + BFJ✓✓✓✓73.8(POS)68.964.563.7表2.CrowdHuman确认集上嵌入引导(Embed)和头钩(Hook)引导的消融研究。4.2. 消融研究协会指导。我们首先进行详细的消融,以验证两种联合引导方式的有效性:所述嵌入模块和头钩模块。表. 2展示了CrowdHuman上的比较结果[30]。为了公平起见,POS基线中使用的结果框(表中的第1行和第5行)由具有BFJ模块的检测器产生,这与其他行中的方法相同。总之,通过逐步添加这两个模块,关联质量得到了持续的改善在FPN上,嵌入式引导可以带来图5.FPN探测器的头钩(第二行)和嵌入(第三行)的可视化身体和脸分别用正方形和圆形表示。mMR−2改善10.7%(66.4%至55.7%)位置模式独立。进一步分析表明这一进展主要是由有效的感知语义的身体-面部相关性,这得益于可学习的嵌入。我们进一步在图中对嵌入进行基于PCA的可视化。5(第3行)。很明显来自同一个脚的嵌入物三角形明显地组合在一起。以类似的方式,在单独的头钩引导下,mMR−2可以提高到54.6%。图中的第二行。5展示了模型预测的头部钩。我们发现,头钩之间的距离往往比人脸与身体的IoF,可以提供更准确的关联参考。此外,在Eq. 13,mMR−2可以进一步降低到52.5%。 它验证了我们的假设这两种类型的指导作用,以互补的方式,可以交叉优化,通过组合。此外,两个模块的相对独立性提供了所提出的方法的灵活性。例如,如果我们没有附加的head注释,嵌入模块仍然可以自己工作。RetinaNet上的结果也得出了同样的结论,其中改进更为显著。角度损失。表. 3显示了角丢失的消融研究在FPN基线中,通过增加角度损失,mMR−2获得1.2%的改善(53.7%至52.5%),而在RetinaNet中,改善为1.1%(64.8%至63.7%)。结果证实了我们的假设,即angu-表3. CrowdHuman确认集上的角度丢失(AL)消融研究。SL1表示原始平滑L1损失。较大的距离表现出良好的尺度鲁棒性,并促进头部钩预测。目视比较。图6分别对所提出的方法与CAS、POS和POSH基线进行直观的视觉比较。 通过使用我们的BFJ检测器,可以有效地解决或减轻典型的不良情况,如在拥挤的场景中的误匹配,人脸错过召回由于不响应更多的视觉比较请参见4.3. 关于CityPersons表. 4显示了CityPersons上的实验[38]。根据[32]中的策略,报告了合理(闭塞35%)、部分(10%闭塞≤35%)、裸(闭塞≤10%)和重度(闭塞>35%)四个子集的结果。<<在FPN中,BFJ探测器比mMR−2的三个基线分别高出3.1%、0.8%和2.5%。方法嵌入HHookmMR−2/%方法SL1ALmMR−2/%FPN + BFJ✓53.7✓✓52.5RetinaNet + BFJ✓64.8✓✓63.72968CASPOSPOSHBFJ图6.分别在CAS、POS、POSH基线和我们的BFJ的FPN探测器上进行视觉比较具有相同颜色的实心框表示一对相关联的身体和面部虚线框表示未成功关联的检测到的身体或面部方法AP@0.5原因able部分裸重MR−2mMR−2MR−2mMR−2MR−2mMR−2MR−2mMR−2FPN + CAS81.2/62.810.2/23.135.810.5/19.737.36.6/22.537.051.5/39.560.5FPN + POS80.6/65.510.5/20.133.510.4/18.732.76.6/20.034.151.2/38.656.6FPN + POSH81.5/63.210.6/22.535.210.3/20.535.66.5/22.836.350.8/38.558.1FPN + BFJ84.4/68.010.6/17.632.710.8/15.130.66.4/18.733.050.4/26.353.5RetinaNet + CAS78.8/35.713.5/33.543.714.2/28.144.57.2/30.840.455.0/38.070.0RetinaNet + POS78.5/35.313.4/25.540.014.4/23.842.87.4/25.038.755.8/36.667.0RetinaNet + POSH78.1/31.513.6/32.843.514.5/30.144.67.5/29.940.255.6/38.369.3RetinaNet + BFJ79.3/36.213.6/23.539.514.3/21.241.57.2/24.438.555.6/35.163.1表4. CityPersons验证集上的结果。斜线/两侧的值分别用于body和face。表中所有数字均以百分比(%)表示。分别在合理子集中。而在重度亚组中,该优效性可扩展至7.0%、3.1%和4.6%。这些结果假设,我们的BJF检 测 器 有 一 个 解 决 在 拥 挤 的 场 景 失 配 的 能 力 。RetinaNet上的结果显示了类似的趋势,这表明了相同的结论。5. 结论本文提出了一种新的BFJ框架,解决了一个特殊而重要的身体人脸联合检测任务。我们该方法不仅保持了与经典的一步/两步检测框架的良好兼容性,而且引入了利用嵌入和头钩来引导人体和人脸关联的独创性思想,取得了良好的性能。作为开创性的工作,我们设计了一个新的名为mMR-2的指标,用于评估关联性能并启动身体-面部关节的新基准检测任务在未来,BFJ框架可以进一步扩展以解决其他实例部分联合检测任务(例如,车身和车牌),并改进了具有部件对应性的结构物体检测。2969引用[1] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn:深入研究高质量的目标检测。在IEEE计算机视觉和模式识别会议论文集,第6154-6162页[2] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中,第213-229页Springer,2020年。[3] Cheng Chi,Shifeng Zhang,Junliang Xing,Zhen Lei,Stan Z Li,and Xudong Zou.Pedhunter:拥挤场景中的遮挡鲁棒行人检测器在AAAI人工智能会议论文集,第34卷,第10639- 10646页[4] Cheng Chi,Shifeng Zhang,Junliang Xing,Zhen Lei,Stan Z Li,and Xudong Zou.用于联合头部和人体检测的关系学习。在AAAI人工智能会议论文集,第34卷,第10647-10654页,2020年。[5] Xuangeng Chu,Anlin Zheng,Xiangyu Zhang,and JianSun.拥挤场景中的检测:一个建议,多个预测。在IEEE/CVF计 算 机 视 觉 和 模 式 识 别 会 议 论 文 集 , 第12214-12223页[6] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition,pages 3213[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[8] Piotr Dollar,Christian Wojek,Bernt Schiele,and PietroPerona. 行 人 检 测 : 对 最 新 技 术 水 平 的 评 价 。 IEEETransactionsonPatternAnalysisandMachineintelligence,34(4):743 -761,2011.[9] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303[10] 安德里亚·弗罗姆,约拉姆·辛格,费莎,和吉坦德拉·马力.学习全局一致的局部距离函数用于基于形状的图像检索和分类。2007年IEEE第11届计算机视觉国际会议,第1IEEE,2007年。[11] Nil sGahlert , NiklasHanselmann , UweFrank e ,andJoachimDenzler.可见性引导的nms:在拥挤的交通场景中有效提升arXiv预印本arXiv:2006.08547,2020。[12] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。[13] Yunchao Gong , Liwei Wang , Micah Hodosh , JuliaHocken-maier,and Svetlana Lazebnik.使用大型弱注释照片集改进图像-句子嵌入欧洲计算机视觉会议,第529Springer,2014.[14] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[16] Zhida Huang , Kaiyu Yue , Jiangfan Deng , and FengZhou.用于人群行人检测的可见特征引导。arXiv预印本arXiv:2008.09993,2020。[17] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在Proceedings of the IEEE conference on computervision and pattern recognition,pages 3128[18] 哈罗德·W库恩指派问题的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功