没有合适的资源?快使用搜索试试~ 我知道了~
引文:张红欣,池丽英。端到端空间变换人脸检测与识别。虚拟现实智能硬件,2020 2(2):119-131DOI:10.1016/j.vrih.2020.04.002虚拟现实智能硬件2020年第2期·文章·端到端空间变换人脸检测与识别洪志汉*,李永智浙江大学CAD CG国家重点实验室,浙江杭州310058*通讯作者,zhx@cad.zju.edu.cn投稿时间:2019年11月19日修订日期:2020年3月24日接受日期:2020年3月30日摘要背景在过去的几十年中,已经提出了几种具有优异性能的人脸检测和识别方法。传统的人脸识别流水线包括:(1)人脸检测,(2)人脸对齐,(3)特征提取,和(4)相似度,它们彼此独立。单独的面部分析阶段导致冗余的模型计算,并且难以用于端到端训练。方法本文提出了一种新的端到端可训练卷积网络框架用于人脸检测和识别,其中直接学习几何变换矩阵来对齐人脸,而不是预测人脸标志。在训练在这个阶段,我们的单个CNN模型仅由面部边界框和个人身份进行监督,这些信息可以从WIDER FACE和CASIA-WebFace数据集中公开获得。我们的模型在人脸检测数据集和基准(FDDB)和野生标记人脸(LFW)数据集上进行了测试。结果人脸检测任务的召回率为89.24%,人脸识别任务的正确率为98.63%。关键词人脸检测;人脸识别;空间变换;特征融合1引言随着VR和AR应用的快速发展,人脸检测和识别得到了广泛的关注。人脸检测在计算机视觉和模式识别中起着重要的作用,因为它的基本面部分析阶段,包括人脸识别,年龄/性别识别,情感识别和人脸变换。自从Viola和Jones提出了实时对象检测框架以来,已经提出了几种人脸检测方法[1]。然而,人脸检测遇到了许多挑战,如光照,姿态,旋转和遮挡。在过去,这些挑战是通过组合不同的模型或使用不同的手工制作的功能来解决的。近年来,卷积神经网络(CNN)已被用于在计算机视觉任务中实现更高的性能[2,3]。常见的人脸识别方法使用具有已知身份的人脸来训练分类模型,并将中间层视为特征表达。然而,人脸并不总是正面的,因此,重要的是提取空间不变的功能,从人脸补丁,使用largepose变换。几乎所有的方法都使用面部标志预测器[4- 9]来定位面部标志的位置。随后,他们通过拟合之间的几何变换来执行面部对齐,2096-5796/©版权所有2020北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。www.vr-ih.com虚拟现实智能硬件2020年第2期预测的面部标志和预定义的标志。人脸识别的常用流程包括:(1)人脸检测,(2)人脸对齐,(3)特征提取,(4)相似度计算,这些流程相互独立。几种方法[10- 12]都集中在如何有效地从人脸块中提取特征,以使用不同的损失函数[13,14]在特征空间中使类内更接近和类外更远。然而,单独的面部分析阶段会导致冗余的模型计算,并且难以用于端到端训练。由于联合学习可以提高单个任务的性能,例如联合面部检测和对齐[6],因此已经提出了许多用于面部分析的多任务方法[6,15,16]。本文提出了一种新的端到端可训练卷积网络框架,用于人脸检测和识别。所提出的框架受益于Faster R-CNN[17]框架的强大对象检测能力。在所提出的框架中,面部标志预测和对齐阶段被空间Transformer网络(SVM)[18]取代,其中获得几何变换矩阵以对齐面部而不是预测面部标志。与面部标志点预测网络相比,神经网络更小,几乎对任何特征都更灵活,这使得网络具有端到端的可训练性。此外,人脸检测和识别任务可以共享共同的低层特征,以减少不必要的特征计算。这种端到端网络提高了性能,并且易于扩展到多任务问题。本文的贡献如下:(1) 提出了一种新的端到端可训练卷积网络框架,用于人脸检测和识别。在该框架中,人脸对齐使用了最小化。它是可训练的,不需要由标记的面部标志来监督。(2) 在所提出的框架中,检测部分,识别部分,并共享共同的低级特征,这使得模型更小,减少了不必要的计算。(3) 单个CNN模型仅由面部边界框和个人身份监督,这些信息可从WIDER FACE[19]和CASIA-WebFace[20]数据集中公开获得。当该模型在人脸检测数据集和基准(FDDB)[21]和野生标记人脸(LFW)[22]数据集上进行测试时,它在FDDB数据集上的召回率为89.24%,在CASIA数据集上的准确率为98.63%。本文的组织结构如下。第二节介绍相关工作。第3节介绍了拟议的框架。第4节给出了实验结果。第5节总结了本文的简要讨论和未来的工作。2相关工作近几十年来,人脸检测技术得到了迅速发展。2001年,Viola和Jones提出了一个级联Adaboost框架,使用Haar类特征进行实时人脸检测[1]。近年来,CNN在计算机视觉和模式识别方面显示出了强大的能力。已经提出了许多基于CNN的对象检测方法[2,3,17,23- 26]。Ren等人改进了基于区域建议的CNN方法,并提出了更快的RCNN框架[17]。Faster RCNN框架引入了锚点方法,使区域建议成为CNN分类问题,可以在训练阶段在整个网络中进行训练。端到端可训练的Faster R-CNN网络速度更快,功能更强大,使用VGGnet在VOC 2007数据集中实现了73%的mAP。其他研究[27- 29]使用Faster R-CNN框架来解决各种人脸检测问题,并取得了令人鼓舞的结果。2.1人脸识别人脸识别任务将对齐的人脸作为输入。经过相似度分析后,120HONGXINZHANGETALL:用于功能数据和重新编码的扩展空间变换,其中通过将面部特征点映射到预定义的特征点模板来获得相似性矩阵。在减少面部姿态差异,特别是滚动旋转(绕Z轴旋转)之后,然后从归一化的面部获得通用表示。Huang等人表明,在提取面部表示之前执行相似性变换可以在LFW数据集上提高1%的准确性[22]。FaceNet将人脸图像分割成几个小块,将它们送入独立的网络,并将特征集成为最终表示。然而,其他方法将完整的图像馈送到一个单独的精细网络中。前者考虑了人脸的不同区域,而后者则侧重于更好的网络设计和更严格的损失函数:基于分类的损失和基于度量的损失。此外,硬挖掘和平衡的数据分布提高了人脸识别性能。2.2联合学习人脸识别系统的流水线顺序地将人脸检测、人脸对齐和人脸识别组合为单独的部分。这是次优的,因为这三个部分相互依赖,但不能一起优化。多任务学习在自然语言处理[30,31],神经机器翻译,属性分类[32,33],人员重新识别[33],分割等方面都有所改进,在不忽视任务之间联系的情况下,联合学习可以利用相互关系,使任务相互受益。Chen等人首先对人脸检测和对齐的联合学习进行了研究[34]。Zhang等人将人脸分类和地标回归结合为级联的单浅层网络[6]。Deng等人在WILDER FACE数据集上手动注释了五个地标,并训练了一个一次性的RetinaNet人脸检测器,该检测器将框和地标一起输出,使用无监督的密集回归分支来提高性能[35]。Ranjan等人提出了HyperFaceto同时处理人脸检测,面部标志定位,头部姿势估计和性别识别,但人脸识别除外[15]。此外,Ranjan等人提出了一种一体化网络,可以处理不同的面部任务,包括面部识别[16]。但是,输入面被裁剪并与原始图像对齐。因此,一体化网络不能有效地执行面部检测任务。2.3空间Transformer网络Jaderberg等人引入了一个新的可学习模块,空间Transformer,它明确允许在网络中对数据进行空间操作[18]。空间Transformer直接学习输入特征映射的最佳几何变换,并变换特征以使其对于旋转、缩放和平移具有鲁棒性。它直接对变换参数进行回归,并且只受最终识别目标的监督。它被广泛用于文本检测和识别[36,37],人员re-id[38]和人体姿势估计[39]。受Numbers的启发,Zhong等人提出了一种单一的识别模型,该模型将未对齐的人脸作为输入,并用Numbers代替归一化[40]。此外,Wu等人提出了一种递归空间Transformer,用于更准确的人脸识别[41]。在本文中,我们将人脸检测和识别任务结合到一个网络中。由于递归是一个即插即用的模块,并且反向传播梯度,因此它是检测和识别部分之间的桥梁。识别部分将对准的特征而不是对准的面部图像作为输入。这两个部分在训练和测试策略方面都有共同的底层特征,这对于训练和减少乘加触发器非常重要。3方法提出了一种用于人脸检测和识别的新型端到端可训练卷积网络框架,121虚拟现实智能硬件2020年第2期提出了在该框架中,几何变换矩阵是通过迭代获得的人脸对齐,而不是预测的面部标志。与面部标志点预测网络相比,它更小,几乎对任何特征都更灵活。这使得网络具有端到端的可训练性,使得人脸检测和识别任务可以共享共同的低级特征,并减少不必要的特征计算。所提出的架构中的检测部分基于Faster R-CNN框架,这是一种最先进的对象检测器。同时,识别部分基于简化的残差网络(ResNet)[43]。3.1架构通常,面部识别系统需要裁剪的面部块作为输入,其是预先训练的面部检测器的结果。然后,深度CNN处理裁剪的面部并获得识别任务的可区分特征。人脸识别任务的常见流程包括以下阶段:(1)人脸检测,(2)人脸对齐,(3)特征提取,(4)相似度计算。然而,单独的阶段导致冗余的模型计算,并且难以用于端到端训练。在这项工作中,人脸检测和人脸识别任务共享共同的低级特征。在人脸对齐中使用递归,模型变得端到端可训练,因为计算了梯度,并且可以向后计算。在本节中,整个体系结构分为三个部分进行描述。第3.2节描述了检测部分。3.3节介绍了识别部分,而3.4节描述了识别部分。3.2检测部我们使用基于Faster R-CNN框架[29]的VGG-16网络[42]作为人脸检测的预训练模型。该网络在ImageNet[44]上进行了图像分类的预训练,以便我们可以受益于不同对象类别的各种图像表示。区域建议网络(RPN)是一种完全卷积的网络,使用VGG网络的卷积结果来预测锚点的边界框和无对象分数。锚被定义为不同的尺度和比例,以获得平移不变性。然后,RPN输出一组最有可能成为目标的建议区域。在最初的Faster R-CNN框架中,ROI Pooling算子将从卷积特征映射中提取的建议区域的特征池成固定大小。然后,完全连接的层预测边界框的偏移和建议区域的分数。在所提出的方法中,将RISK[45]应用于ROI池层和全连接层之间的区域特征变换。使用矩阵变换来获得使输入特征空间不变的变换矩阵。它是灵活的,可以在任何卷积层中采用,而不会在训练和测试中产生明显的成本。在检测网络中,预测器共享建议区域的特征以回归变换矩阵参数,并且变换操作使用预测的参数来变换输入特征。然后将变换后的输出特征传递给分类和回归。3.3空间Transformer网络虽然CNN在特征提取方面取得了良好的性能,但它对输入数据的空间不变性并不有效。对于人脸分析问题,输入人脸可以在各种不同的条件下获得,例如不同的尺度和旋转。为了解决这个问题,一些方法使用大量的训练数据来覆盖不同的条件。然而,几乎所有的方法都使用面部标志预测器来定位122θ=100我我我我我SIy=τlt=111213我ytHW我我简体HWh= 1W = 1个我我我我θθθX我HONGXINZHANGETALL:用于功能数据和重新编码的扩展空间面部标志的位置这些方法通过拟合预测的面部标志和预定义的标志的位置之间的几何变换来执行面部对准。然而,由DeepMind提出的空间数据模型[18]允许在网络内对数据进行空间操作。Rectangle从特征映射本身学习平移、缩放、旋转和更通用的扭曲的不变性,而无需额外的训练监督。由于梯度可以计算,并且向后计算是可能的,因此整个框架变得端到端可训练。实验表明,该算法能够学习变换不变性,减少不必要的计算.对于输入特征图,U∈RH×W×C,可以将点视为特征图的变换结果。与θ对齐的特征。同时,对于不同的变换类型,θ可以具有不同的格式。在在我们的方法中使用仿射变换,θ是由下式给出的2 × 3矩阵:α-sinα tααcosα t2α(一)其中,α表示旋转角度,t1、t2表示平移。输入特征图中的像素是原始点,表示为(xs,ys),输出特征图中的像素是目标点点,表示为(xt,yt)。当量(2)示出逐点2D仿射变换。s θ iiθ21θ22θ23在输入特征图U的每个通道上应用采样核以获得输出特征图V中的对应像素值。使用双线性采样核,该过程被给出为Vi=∑∑Uhwmax,1x,1ys-h(3)h= 1w= 1根据Chen等人的研究[45],很容易计算U,x和y的偏导数,以减少损失并更新参数。梯度定义为Vi=∑H ∑Wmax(0,1-|xs-w|)max (0,1-|ys-h|)Vi=∑H ∑WU我最大值(0,1-|y s-h|)g(w,x s)xsh= 1w= 1hw iixs≤wxs+ 1<我我(五)g(w,xs)= -1, xs-1wxs<<(六)、类似于等式(5)对于BZVi埃克塞特0,否则3.4识别部分在得到检测框后,将过滤后的框送入识别部分。同时,在识别部分之前添加另一个模板以对齐检测到的面部。ROI Pooling算子从共享特征图中提取检测框中的特征。预测器预测变换参数并将变换应用于区域特征。整个网络是端到端可训练的,仅由公开数据集的人脸边界框和个人身份进行监督所提出的方法的架构如图1所示。VGG-16网络特征提取器包括13个卷积,并输出512个称为conv5的特征图。RPN网络是一个完全卷积的网络,它输出建议区域的候选框。ROI Pooling算子然后从conv5特征图中提取建议区域的特征,并将其大小调整为7×7,123(二)(四)我虚拟现实智能硬件2020年第2期与预训练VGG模型中的卷积输出大小相同。用于检测的卷积层包括具有输出= 20、内核大小= 5、步幅= 1的卷积层、具有内核大小= 2的池化层、以及具有hwei ght=0、bias=100010T的full-connectedlayerinitialize d。该算法通过设置四个完全连通的层来对建议区域进行分类,并对边界框进行回归。Softmax损失层和L2损失层用于监督检测训练。用于识别的卷积层包括输出= 20、内核大小= 5、步幅= 1的卷积层、内核大小= 2的池化层以及初始化为相同的全连接层。图1拟议网络的架构由两部分组成。MNet是用于提取共享特征和检测特征的主网络,SNet是用于从共享特征提取面部特征以用于识别个人身份的次网络。 RPN使用MNet特征来生成candidata eregions。STN从输入特征中提取SNet使用来自检测到的面部区域中的共享特征的变换特征来输出面部特征。在所提出的框架中,MNet和SNet可以是任何CNN网络,例如,VGG-16架构[42]用于MNet,ResNet[43]用于SNet。由于ResNet可以处理大多数机器学习问题,我们使用ResNet来提取可区分的面部特征,由于特征共享,ResNet可以简化。它产生一个512维的输出特征向量,可以捕获稳定的个体特征。受Wen等人的启发。[14],我们使用中心损失函数和Softmax损失来进行识别识别特征的合作学习。4实验我们进行了几个实验来证明所提出的方法的有效性。对于特征共享,我们共享了不同的卷积特征,以比较减少的损失,人脸识别准确率和测试时间。最后,我们比较了我们的方法与其他方法的人脸检测召回率和人脸识别的准确率。4.1实现细节整个管道都是用Python实现的。CNN使用Caffe框架在TitanXPascal GPU上训练[4]。我们使用base_lr=0.1,momentum= 0.9,lr_policy=step,gamma= 0.1,stepsize= 20000。为了在一批中训练更多的面孔,我们设置iter_size= 32,max_iter为100000。RPN训练的批量大小为300,阳性重叠设置为0.7。由于不同的训练目标,两个数据集产生了不同的loss_weight用于向后处理,如表1所示。检测部分经过训练,在前50000次迭代中产生准确的检测结果。与此同时,和识别部分都是在接下来的30000次迭代中训练的,而检测和识别两部分都接受了培训, 在过去 20000迭代此外,我们修复了表1 WIDER FACE和CASIA-WebFace数据集针对不同目标检测 网络 参数 训练,识别网络。培训过程如图2所示。124减肥WIDER FACE(Yang etal.[19])CASIA-WebFace(Yi etal.[50])RPN1.00.0检测1.00.5认证0.01.0HONGXINZHANGETALL:用于功能数据和重新编码的扩展空间在 WIDER FACE 数 据 集 和 CASIAWebFace数据集上训练网络花了大约7天的时间。大约花了2第一个50000 次迭代的检测训练需要30天,联合训练需要3天,最终识别任务需要2天。对于1000×750的图像大小,大约花了1ms 为 STN向前。 的 特征图2训练阶段。检测网络在80000次迭代之前训练,识别网络在50000次迭代之前训练。表2单人脸识别模型在LFW数据集上的比较每个面的提取时间如表2所示。4.2数据集4.2.1人脸检测方法DeepID(Sun etal.[9])VGGFace(Parkhietal.[51])我们的方法LFW准确度(%)97.4597.2798.63WIDER FACE[19]训练集用于训练,FDDB[21]数据集用于测试。WIDER FACE数据集是一个公开可用的人脸检测基准数据集,包括32203张图像中的393703张标记人脸。FDDB包含5171个带注释的面孔,这些面孔来自于野生面孔数据集的2845张图像。4.2.2人脸识别该模型在CASIA-WebFace数据集上进行了训练,该数据集包含10575名受试者和从互联网上获得的494414张图像,以及LFW[22]数据集,该数据集包含从互联网上获得的13000多张面部图像。批量中图像数量的增加可以提高模型的泛化能力。尽管Faster R-CNN网络框架可以使用任何大小的图像作为输入,但它失去了同时处理多个图像的能力。一些方法使用裁剪的图像来提高训练效率。然而,为了保留任意输入的能力,从CASIA-WebFace数据集中随机选择的图像被组合。通过将12幅图像拼接成3行,原始图像尺寸为250×250。对于每行中的四个图像,最终目标训练样本大小为1000×750。拼接图像的示例如图3所示。图3所提出的方法中的额外训练数据集。4.3共享特征在常见的人脸识别流水线中,人脸对齐被应用于原始输入人脸块。图4显示了人脸的空间变换结果,这证明了ESTO有能力学习合适的变换。由于可以将卷积层插入到任何卷积层中以对齐特征,因此我们共享了人脸检测和人脸识别任务的特征。在最初的检测框架中,第一个125虚拟现实智能硬件2020年第2期图4 CASIA-WebFace数据集的空间转换结果。上面的数字是原始的面部补丁。下面的图像是转换后的结果。使用五个卷积块来提取用于面部检测任务的特征。我们设计了几个训练实验来共享不同的特征,并在FDDB和LFW数据集上测试了结果。图5示出了特征共享。共享的特性包括VGG-16结构的conv 1、conv 2、conv 3和conv 4。对于每个实验,通过切割相应的卷积层来简化识别网络。共享层越深,识别网络就越小图6显示了共享特征在训练阶段的损失减少。它表明,深度共享功能有助于快速的损失收敛。图7显示了不同人脸检测算法的FDDB结果,一些检测结果如图8所示。表3显示了不同模型的LFW结果。该模型在具有conv3特征的LFW数据集上具有98.63%的准确率,优于使用原始图像块。当共享变得更深时,由于用于提取可区分的面部特征的识别中的卷积层减少,准确度降低。图5共享的特征用粗体框表示,识别网络中删除的卷积层用虚线框表示。根据我们的实验,共享conv3优于其他选项。4.4应用人脸检测和识别广泛应用于基于AR的设备,如AR眼镜(图9)。该设备捕获人,在人的面部附近显示跟踪框,并显示他们的信息。它处理相机帧并实时反馈结果。由于AR设备是便携式的,来源有限,因此应考虑模型大小和总乘加计数(MAC)。这种方法可以减少由于共享卷积特征映射而导致的失败。此外,该方法灵活,并结合了新的轻量级126图6不同参数训练过程中的识别损失HONGXINZHANGETALL:用于功能数据和重新编码的扩展空间网络[52- 59]为资源受限的平台而设计。5结论在这项工作中,提出了一种新的端到端的人脸检测和识别任务的可训练框架,其中,人脸识别用于对齐特征图,而无需额外的人脸对齐阶段。人脸检测和识别网络共享一个共同的低层特征,因此它们可以相互受益。实验表明,该算法可以取代人脸特征点预测阶段,共享共同特征可以导致更快的收敛速度和更高的准确率。图7与Cascade- CNN[47],FastCNN[48],Adaboost[1]和NPD[49]相比的FDDB结果。在FDDB和LFW数据集上对单一模型进行了测试。结果表明,单一模型优于两个单独的模型。图8FDDB数据集上的检测结果示例。表3不同份额转换LFW结果(%)测试时间(ms)无股份98.068.3分享conv198.107.8分享conv298.237.2分享conv398.636.6分享conv498.136.3图9AR眼镜和AR应用。在未来,我们将把这种方法扩展到其他面部目标预测任务,并使网络规模更小,以加快训练和测试阶段。引用[1]张文辉,张文辉.鲁棒的实时人脸检测。国际计算机视觉杂志,2004,57(2):137-154 DOI:10.1023/B:VISI.0000013087.49260.fb127虚拟现实智能硬件2020年第2期2[10]李文,李文,李文.只需查看一次:统一的实时物体检测。2016年IEEE计算机视觉与模式识别会议(CVPR)拉斯维加斯,NV,美国,IEEE,2016,779-788 DOI:10.1109/cvpr.2016.913Redmon J,Farhadi A.Yolo9000:更好,更快,更强。arXiv,2016 DOI:10.1109/CVPR.2017.6904任S,曹翔,魏勇,孙杰。通过回归局部二值特征进行人脸对齐。IEEE Transactions on Image Processing,25(3):1233-1245DOI:10.1109/TIP.2016.25188675任世强,曹晓冬,魏永春,孙军。基于局部二值特征的3000 FPS人脸对齐算法。2014年IEEE计算机视觉和模式识别会议。Columbus,OH,USA,IEEE,2014,1685-1692 DOI:10.1109/cvpr.2014.2186张国平,张志平,李志芳,乔英.使用多任务级联卷积网络的联合人脸检测和对齐。IEEE Signal ProcessingLetters,2016,23(10):1499DOI:10.1109/lsp.2016.26033427Zhang Z,Luo P,Loy C,Tang X.基于深度多任务学习的人脸标志点检测。计算机视觉ECCV 2014,2014DOI:10.1007/978-3-319-10599-4_78邓志平,李克,赵庆军,陈华. Face landmark localization using a single deep network//Biometric Recognition.Cham:Springer International Publishing,2016,68DOI:10.1007/978-3-319-46654-5_89孙英,王晓刚,唐晓奥.用于面部点检测的深度卷积网络级联。2013年IEEE计算机视觉和模式识别会议。关闭KY,USA. IEEE,2013,3476DOI:10.1109/cvpr.2013.44610梁维英,陆建,王刚.使用深度PCA进行人脸识别。2013年第九届信息、通信信号处理国际会议。中国台湾省台南市,2013年DOI:10.1109/ICICS.2013.678277711陆建伟,梁维英,王刚,穆林,联合特征学习人脸识别。IEEE Transactions on Information Forensics andSecurity,2015,10(7):1371DOI:10.1109/tifs.2015.240843112放大图片作者:J.通过广义判别分析使用深度神经网络进行特征提取。IEEE Transactions on Neural Networks andLearning Systems,2012,23(4):596DOI:10.1109/tnnls.2012.218364513张X,方振元,温元东,李振锋,乔勇。长尾深度人脸识别的范围损失arXiv,2016 DOI:10.1109/ICCV.2017.57814文永东,张国平,李志锋,乔勇。一种用于深度人脸识别的区分性特征学习方法。Cham:Springer InternationalPublishing,2016,499DOI:10.1007/978-3-319-46478-7_3115杨伟,王伟,王伟. Hyperface:一个深度多任务学习框架,用于人脸检测、地标定位、姿势估计和性别识别。arXiv,201616吴文辉,李文辉,李文辉.用于人脸分析的一体化卷积神经网络。第12届IEEE International Conference onAutomatic Face Gesture Recognition(IEEE国际人脸手势识别会议)IEEE,2017,17-24 DOI:10.1109/FG.2017.13717Ren S Q,He K M,Girshick R,Sun J. Faster R-CNN:使用区域建议网络进行实时对象检测。IEEE Transactionson Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149 DOI:10.1109/tpami.2016.257703118[10]杨文,王文,王文.空间Transformer网络。在:神经信息处理系统的进展,2015年19杨松,罗平,普来伊,唐晓。宽脸:人脸检测基准。计算机视觉与模式识别(CVPR)2016年,5525128HONGXINZHANGETALL:用于功能数据和重新编码的扩展空间DOI:10.1109/CVPR.2016.59620易东,雷智,廖S,李世智。从头开始学习面部表征。arXiv预印本arXiv:1411.7923,201421Jain V,Learned-Miller E G. Fddb:无约束环境下人脸检测的基准测试。麻省大学阿默斯特分校技术报告,2010年DOI:10.1007/978-3-319-46448-0_222黄G B,拉梅什M,伯格T,Learned-Miller E.标签的面孔在野外:研究人脸识别的数据库 in unconstrained无约束environments环境.马萨诸塞大学,阿默斯特,2007年23刘W,安古洛夫D,埃尔汉D,塞格迪C,里德S,傅C Y,伯格A C. Ssd:单发多盒探测器。Cham:Springer,2016,2124Dai JF,Li Y,He K M,Sun J. R-fcn:基于区域的完全卷积网络的对象检测。在:神经信息处理系统的进展。2016年,第37925Girshick R,Donahue J,Darrell T,Malik J.基于区域的卷积网络用于准确的对象检测和分割。IEEE Transactionson Pattern Analysis and Machine Intelligence,2016,38(1):142-158 DOI:10.1109/tpami.2015.243738426吉希克河快速r-CNN。在:IEEE计算机视觉国际会议论文集IEEE,2015,14401448DOI:10.1109/ICCV.2015.16927郑宇,朱春,卢克,薄伽瓦图拉,黎泰宏,萨维德斯。面向无约束人脸检测的深度学习框架。IEEE第8届生物统计学理论、应用和系统国际会议(BTAS)IEEE,2016DOI:10.1109/BTAS.2016.779120328姜H,勒内-米勒E.使用更快的R-CNN进行人脸检测。第12届IEEE自动人脸手势识别国际会议(FG 2017)。IEEE,2017,650DOI:10.1109/FG.2017.8229孙晓冬,胡培春,海世春。使用深度学习的人脸检测:一种改进的更快的RCNN方法。 神经计算,2018,299:42DOI:10.1016/j.neucom.2018.03.03030张文忠,张文忠,张文忠.联合多任务模型:为多个NLP任务生长神经网络arXiv预印本arXiv:1611.01587,2016DOI:10.18653/v1/D17-120631李文辉,李文辉,吴宏泰.交互式多任务学习网络,用于端到端基于方面的情感分析。arXiv预印本arXiv:1906.06906,2019DOI:10.18653/v1/P19-104832陆永熙,库马尔A,翟S F,程Y,贾维迪T,弗里斯R.多任务网络中的完全自适应特征共享及其在个人属性分类中的应用。2017年IEEE计算机视觉与模式识别会议(CVPR)Honolulu,HI,IEEE,2017,5334DOI:10.1109/cvpr.2017.12633张文辉,张文辉.属性一致的人再识别的联合学习。在:Agapito L,Bronstein M M,Rother C,编辑,计算机视觉ECCV 2014研讨会。Cham:Springer International Publishing,2015,134DOI:10.1007/978-3-319-16199-0_1034陈丹,任S,魏英,曹翔,孙杰。联合级联人脸检测与对齐。参加:欧洲计算机视觉会议。Springer,2014,109DOI:10.1007/978-3-319-10599-4_835[1]邓军,郭军,周勇,于军,柯夏I,扎菲里乌S. Retinaface:野生环境中的单阶段密集面部定位。arXiv预印本arXiv:1905.00641,201936放大图片作者:J. STNOCR:用于文本检测和文本识别的单一神经网络。arXiv预印本arXiv:1707.08831,201737郑志,刘X,白F,牛Y,蒲S,周S。面向语义的文本识别。CoRR,abs/1711.04226,2017129虚拟现实智能硬件2020年第2期DOI:10.1109/CVPR.2018.0058438Luo H,Fan X,Zhang C,Jiang W. Stnreid:深度卷积网络与成对空间Transformer网络,用于部分人员重新识别。IEEE Transactions on Multimedia,2020DOI:10.1109/TMM.2020.296549139方H,谢S,陆C. RMPE:区域多人姿态估计。在:IEEE计算机视觉国际会议论文集。IEEE,2017,2334DOI:10.1109/ICCV.2017.25640钟毅,陈杰,黄B.通过对齐学习实现端到端的人脸识别。IEEE信号处理快报,2017,24(8),1213DOI:10.1109/LSP.2017.271507641吴文良,阚敏宁,刘翔,杨永,单世刚,陈晓琳.递归空间Transformer(ReST)用于无干扰人脸识别。2017年IEEE计算机视觉国际会议。威尼斯,IEEE,2017,3772-3780 DOI:10.1109/iccv.2017.40742Simonyan K,Zisserman A.用于大规模图像识别的极深卷积网络。arXiv预印本arXiv:1409,201443何克,张X,任S,孙杰,深度残差学习图像识别。计算机视觉与模式识别(CVPR)IEEE,2016,77044邓J,董W,Socher R,李林J,李K,李F. Imagenet:一个大规模的分层图像数据库。计算机视觉与模式识别(CVPR),2009,248DOI:10.1109/CVPR.2009.520684845Chen D,Hua G,Wen F,Sun J.用于高效人脸检测的监督Transformer网络。参加:欧洲计算机视觉会议。Cham:Springer,2016,122-138DOI:10.1007/978-3-319-46454-1_846[10]杨文,杨文. Caffe:用于快速特征嵌入的卷积架构。第22届ACM多媒体国际会议论文集。 ACM,675-67847李宏新,林志,沈晓华,白德杰,华国.一种用于人脸检测的卷积神经网络级联。2015年IEEE计算机视觉和模式识别会议(CVPR)。Boston,MA,USA,IEEE,2015,5325-5334 DOI:10.1109/cvpr.2015.729917048Triantafyllidou D,Tefas A.一种用于大视觉数据中人脸检测的快速深度卷积神经网络。大数据的进展,2017,61DOI:10.1007/978-3-319-47898-2_749廖S,Jain A K,Li S Z.一种快速准确的无约束人脸检测器。IEEE transactions on pattern analysis and machineintelligence,2015,38(2),21150孙毅,王X,唐X.从预测10000个类中深度学习人脸表示。计算机视觉与模式识别(CVPR)IEEE,2014,1891DOI:10.1109/TPAMI.2015.244807551Parkhi O M,Vedaldi A,Zisserman A.深度面部识别在:BMVC,2015DOI:10.5244/C.29.4152Tan M,Le Q V. Efficientnet:Rethinking Model Scaling for Convolutional Neural Networks. arXiv预印本arXiv:1905.11946,201953[10]杨文,李文.反向残差和线性瓶颈:用于分类、检测和分割的移动网络。arXiv预印本arXiv:1801.04381,2018DOI:10.1109/CVPR.2018.0047454[10]张文辉,张文辉. Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861,201755Howard A,Sandler M,Chu G,Chen L,Chen B,Tan M,Wang W,Zhu Y,Pang R,Vasudevan V,Le Q V,Adam H.搜索mobilenetv3 CoRR,abs/1905.02244,2019。8DOI:10.1109/ICCV.2019.00140130HONGXINZHANGETALL:用于功能数据和重新编码的扩展空间56吴B,戴X,张P,王Y,孙F,吴Y,田Y,Vajda P,贾Y,Keutzer K. Fbnet:Hardware-aware efficient convnetdesign via differentiable neural architecture search. IEEE/CVF计算机视觉与模式识别会议(CVPR)IEEE,2018,10726DOI:10
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功