没有合适的资源?快使用搜索试试~ 我知道了~
1基于交互式指导的何毅1石佳源2王传2 <$黄 海滨2刘佳明2李冠斌3刘 日升1王珏21大连理工大学,{heyi@mail.,www.example.comdlut.edu.cn2旷视科技, {shijiayuan,wangchuan,huanghaibin,liujiaming,wangjue}@ megvii.com3中山大学,liguanbin@mail.sysu.edu.cn摘要输入GMM UNet Ours GT在本文中,我们提出了一种新的数据驱动的方法,从一个单一的人体肖像图像的鲁棒的皮肤检测。与以往的方法不同,我们将人体作为一个弱语义指导到这个任务中,考虑到获取大规模的人类标记的皮肤数据通常是昂贵和耗时的。具体来说,我们提出了一个双任务神经网络的联合检测皮肤和(一)(b)第(1)款23.83% 82.05% 89.14%83.01% 84.15% 89.89%通过一种半监督学习策略。双-任务网络包含一个共享的编码器,但有两个解码器(c)第(1)款分别用于皮肤和身体。 对于每个解码器,其输出也是一种引导,引导着两个人。60.80%89.32%93.44%解码器相互引导。广泛的实验被证实-展示了我们网络的有效性,(d)其他事项实验结果表明,我们的网络,在皮肤检测方面的工作优于现有技术。85.97%86.59%90.04%1. 介绍皮肤检测是从图像和视频中找到肤色像素和区域的过程这是一个非常有趣的问题,通常用作进一步应用的预处理步骤,如人脸检测,手势检测,Web内容的语义过滤等[5,21,2,13,9]。皮肤检测已被证明是相当具有挑战性的皮肤外观的大变化,这取决于其自身的颜色属性和照明条件。以前的方法,如[8,31],试图在不同的颜色空间中对皮肤颜色建模,并在这些空间中训练皮肤分类器然而,这些方法严重依赖于肤色的分布,并且不涉及语义信息,它们的性能受到限制。近年来,随着深度神经网络的发展,已经提出了通过适应用于其他检测任务的网络来进行皮肤检测的方法[12,4,22]。虽然这些DNN平等贡献者†通讯作者图1.皮肤检测结果通过我们的方法与解决方案传统的高斯混合模型(GMM)。交-并(IoU)率表明我们的方法具有更好的性能。皮肤检测方法显示出有希望的准确性改进,但是它们仍然受到带注释的皮肤数据的限制,所述带注释的皮肤数据收集起来昂贵且耗时。为此,我们建议通过引入身体检测作为指导来改进皮肤检测如果身体面罩是可用的,则其可能促进双重皮肤检测。首先,它为皮肤检测器提供了先验信息,其中皮肤的概率较高。其次,在检测到皮肤掩模之后,它可以过滤掉背景中的同时,以皮肤掩模为指导,身体检测器也提供了更多的信息。为了实现相互指导方案,我们设计了一个双任务神经网络,用于联合检测皮肤和身体。整个网络包含一个共享的编码器,但皮肤和身体检测分别两个解码器。每个解码器的输出将被馈送到21112112另一个以形成如图2(a)所示的循环回路。两个检测器的共享编码器将从输入图像中提取共同的特征图,考虑到两个任务的相似性和网络的紧凑性。这种结构使我们能够在不增加注释训练数据的情况下训练皮肤检测网络,而只是简单地添加人体遮罩数据集,这更容易获得。由于两个数据集分别包含两种类型的地面实况,即数据样本具有目标皮肤掩模或身体掩模,我们用新设计的损失和定制的训练策略以半监督方式训练网络。实验结果证明了我们网络中所有新技术的有效性,定性和定量评估也表明,我们的网络在皮肤检测任务中优于最先进的方法,如图1,5和表1所示我们还建立了一个新的数据集,由5,000个带注释的皮肤面具和5,711个带注释的身体面具组成,可以在接受本文后发布用于未来的研究。总结一下,我们的主要贡献是:• 提出了一种新的具有相互指导的统一双任务神经网络,用于皮肤和身体的联合检测,可以提高两个任务的性能,特别是皮肤• 一种新设计的损失和定制的训练策略,在半监督的方式,它表现得很好的情况下,失踪的地面真相信息。• 一个新的数据集,包含皮肤和身体注释的面具,以证明我们的网络的有效性,并促进社区未来的研究。2. 相关工作皮肤检测和分割。 皮肤检测在过去的二十年中一直在研究。现有的方法可以分为三类,即:在颜色空间上明确定义边界模型[16,8,19,20,24](阈值),应用传统的机器学习技术来学习肤色模型[17,30,31],以及使用深度神经网络来学习用于皮肤分割的端到端模型[1,29,16,23,3]。阈值化方法集中于在像RGB、YCbCr、HSV的颜色空间中定义指定区域,使得落在区域中的像素被认为是皮肤。然而,在颜色空间中皮肤像素和非皮肤像素之间存在显著的重叠,例如背景中的许多对象(诸如墙壁、布)也可以具有相似的颜色。传统的机器学习技术还涉及生成和判别模型来预测像素属于皮肤的概率,这也可以考虑像纹理这样的尽管如此,这些模型通常由于其有限的学习能力而遭受低准确性关系的早期的基于神经网络的方法通常采用多层感知器(MLP),其分类精度仍然有限。近年来,全卷积神经网络(FCN)广泛应用于图像分割任务[18],因此皮肤检测自然成为其应用[32]。然而,基于FCN的分割通常需要在训练阶段进行大规模的强监督,这限制了高质量模型的容易训练。在[26]中,将条件随机场作为端到端图像分割任务的损失与这些方法不同,我们的方法可以利用身体分割的额外数据集,这通常更容易获得,以提高基于CNN的皮肤检测器的性能。多任务联合学习。 多任务学习(MTL)已经成功地用于机器学习的所有应用,从自然语言处理[6]和语音识别[7]到计算机视觉[10]。它通常通过在所有任务之间共享隐藏层来应用,同时将几个特定于任务的输出层作为分支。一些多任务网络通常通过共享编码器学习共同特征图,以便潜在地同时提高所有任务的性能。例如,[15]利用三分支网络在统一的框架中解决语义分割,实例分割和深度预测。有更多的多任务网络存在解决一个复杂的任务,其中所有的输出任务指定的网络融合进一步处理。例如,[28]提出了一个包含两个子网络的网络,它们联合学习视频修复任务的空间 在[11]中,Han et al.将形状完成任务分解为两个子任务,分别重构全局和局部结构,然后融合在一起。这些方法通常涉及从一个分支到另一个分支的指导,以减少学习难度。我们的方法遵循了类似的思想,而网络的两个分支可以相互指导,从而提高皮肤检测的性能,通过在网络中的循环。3. 算法我们的方法建立在双任务全卷积神经网络之上。它将单个RGB图像I作为输入,并产生皮肤OS和身体OB的概率图作为输出。该网络包含两个解码器DS,DB在单独的分支,分别用于皮肤和身体的检测任务这两个解码器共享一个共同的编码器E,其提取I的特征图作为EI。输出OS与EI一起被馈送到另一个分支中的体DB的解码器,反之亦然。对于任一解码器,来自另一分支的输出充当用于解码的引导2113BκκSκ(a) 我们的双任务网络与相互指导(b)我们的网络解耦为两个阶段,以便于分析图2.我们的双重任务网络的结构与相互指导。(a)原有的网络结构具有相互指导的回路。(b)为了便于分析,将网络解耦为两级。任务,使双重任务相互指导。网络结构如图2(a)所示。图4.总而言之,整个网络可以写如下。3.1. 相互指导的网络我们的网络是一个双向引导的双任务网络,由于其结构中含有信号环,因此可以看作是一个递归网络。为了便于分析,• 阶段1• 阶段2.GS=eB,GB=eSOS=DS(EI,GS),OB=DB(EI,GB).′=OB,G′=OSO′=DS(EI,G′),O′=DB(EI,G′)如图2(b)所示,我们将原始网络解耦为没有环路的两级为了区分这两个阶段中的符号,我们相应地使用X表示阶段1,使用X′表示阶段对于非线性,我们使用κ∈ {S,B}来表示皮肤或身体的模块或变量。这里皮肤指的是到整个身体皮肤区域的像素,并且身体是皮肤的超集,其还包括头发、衣服等的像素。一组{Xκ}表示XS和XB,因此{Dκ}表示DS以DB为例。在阶段1中,我们为解码器{Dκ}提供指导{Gκ},并产生输出{Oκ}作为中间结果。然后,我们在第2阶段向解码器提供{G′},并产生最终输出{O′}。对于两个阶段,输入I以及E和{Dκ}中的权重是相同的,而制导S S B B其中,eS和eB是在第1阶段中作为指导提供的信号,在本文中的大多数情况下,它们通常被设置为0 对于E和{Dκ}的结构,我们采用了标准UNet [22]架构,包括E中的4个下采样块和D κ中的4个上采样块。输入I的大小为5122×3,因此E和Dκ,即 EI的尺寸为322×1024。 我们还应用了一个编码器的结构与E相同,但每层的通道数为指导{Gκ}的一半,以确保其提取的特征可以很好地连接到EI,在它们被馈送到Dκ之后。对于每个完全卷积层,内核size设置为3×3,后面是BatchNorm和ReLU层。在两个阶段中通常是不同的,即Gκ’对于在检测到初始结果{0κ}的情况下,解码器被κ∈ {S,B}。这是因为在第一阶段,通常我们提供的信息非常有限,甚至没有,而在第二阶段,我们检测到的初始结果{Oκ}可以作为指导。此外,本文还设计了一个共享编码器E而不是两个独立的,不仅为了减少冗余,而且基于以下两个解释。首先,尽管两个任务的训练数据具有不同的基础真值,但输入RGB图像具有非常相似的统计数据。其次,提取的特征图也存在一些共同的属性,这两个任务所需的,如鲁棒性区分人类前景和非人类背景。实验结果表明,该共享编码器可以通过查看更多数据和学习共同特征来提高皮肤检测的性能,如表1和图2所示提供了更多有用的信息指导,第二阶段检测。3.2. 学习算法我们学习算法的目标是训练一个双任务CNN,它可以端到端检测皮肤和身体,这远非简单。一方面,对于皮肤检测任务,缺乏足够的训练数据是一个常见的问题,并且人工标记通常非常昂贵和耗时。另一方面,对于人体检测,由于近年来的广泛研究,其数据相对更容易获得。因此,在我们的问题设置中,对于每个数据对,它只包含皮肤或身体的地面真值掩码,记为MS或MB。由于很少有这样的训练数据三元组(I,MS,MB)提供,它自然使训练GG2114SκκSB我们的网络是一个半监督的任务,这是通过我们设计的半监督损失和我们采用的几个训练细节来实现的。3.2.1半监督损失我们新设计的半监督损失包括三个部分,包括强监督和弱监督的。前者是输出和地面真实值之间的交叉熵损失;后者包括CRF损失和皮肤输出和身体输出之间的加权交叉熵(WCE)损失交叉熵损失如前所述,提供给我们问题的训练数据是具有皮肤或身体基础事实的数据对。对于具有MS的数据样本,我们可以得到-输入CE91.73%CE+WCE92.76%分别计算MS与其输出OS、O′之间的交叉熵损失,使其对皮肤检测任务具有较强的监督作用。类似地,它也适用于具有MB的数据样本,使得我们产生交叉熵损失的四项之和:图3.弱监督损失改善了检测结果。红框和箭头:在涉及CRF损失的情况下,毛发和头部之间的区域倾向于用相同的标签分类,从而导致毛发区域被去除。绿色方框和箭头:在涉及身体引导和WCE损失的情况下,虚警区域,即,背景被移除。该IoU列在相应的-ΣLce=Σlκ·Lce (x,Mκ)(1)结果。(Best彩色视图)κ∈{S,B}x∈{Oκ,O′}其 中 Lce ( x , y ) =x·log ( y ) + ( 1−x ) ·log(1−y)。在这里,我们使用标签符号lκ来表示当前数据样本是否具有地面真值Mκ。例如,如果数据样本仅具有MS,则IS=1,IB=0,反之亦然。lκ用作开关,用于启用或不启用损耗的贡献这一概念也适用于本文的其余部分如果检测到较低概率的皮肤,则不成立,因为像素可能属于非皮肤区域,如衣服或头发,其中身体概率仍然很高。为了刻画上述关系,我们计算皮肤和身体概率之间的交叉熵损失,然后用皮肤概率本身,即 Lwce(x,y)=x·Lce(x,y),其中x∈ {OS,O′},y∈ {OB,O′}.因此,总WCE通用报告格式损失。对于具有单一类型的地面真值的数据样本,其输出之一可以有助于交叉熵S B损失计算为ΣLwce=′Lwce(x,y)(3)′而另一个人却不能。在这个案例中,我们涉及到一个通用报告格式损失见[27]。通过计算给定图像I和掩模Oκ的CRF,CRF损失可以约束I中具有相似颜色的相邻像素倾向于在Oκ中具有一致的标签。在大多数情况下,当强监督不可用时,此属性可能会细化输出掩码。同样,CRF总损失可写为x∈{OS,OS},y∈{OB,OB}CRF和WCE是两种监管不力的损失。与交叉熵损失作为强监督相比,它们对皮肤和身体检测任务的影响较弱,最终提高了性能。综上所述,我们的半监督损失是ΣLcrf=Σ(1−lκ)·Lcrf(x,I)(2)L=Lce+λ1·Lcrf+λ2·Lwce(4)其中LCRFκ∈{S,B}x∈{Oκ,O′}其中W是以下的亲和矩阵:其中λ1和λ2是平衡超参数。我们将λ1设为0。0001和λ2到0。001在实验中图3示出了一个示例,以揭示I和S是扁平Oκ的列向量。 我们请读者可以到[27]了解更多关于CRF丢失的细节。WCE损失。对于同一图像,皮肤掩模应该被其身体掩模体引导90.75%CE+CRF91.04%CE+CRF+WCE(我方)2115覆盖也是先验知识。在输出OS,O′和OB,O′中应保持一致性。对于以高概率皮肤分类的像素,其还应当具有高概率身体。这CRF和WCE损失,更多讨论见第4.3.2节。3.2.2培训详情双任务联合学习。我们的网络是由Adam Optimizer训练的,其中每个分支在每次迭代中都是专门处理的,而它们是联合学习的。2116κBκS皮肤/身体IoU0.65e表1.在我们的验证数据集(黑色)和Pratheepan Face数据集(蓝色)上评估IoU,IoU Top-1率,精度和召回率,通过平衡数据集(#skin,#body=5k)(顶部)和非平衡数据集(#skin=1k,#body=5k)(底部)进行训练。(b)77.79% 85.18%双重任务 对于偶数和奇数迭代,我们分别用MS和MB来馈送数据样本,即.(I,MS,MB=0,IS=1,IB=0)或(I,MS=0,MB,IS=0,IB= 1)。给定每个数据样本,由于标签lκ(κ∈ {S,B})的存在,在一个分支中计算其交叉熵损失,在另一个分支中计算CRF损失随着训练的进行,阶段1{Oκ}的输出逐渐为阶段2提供指导。 同时,随着越来越多的图4.相互指导。上图:曲线1-4:通过我们的双任务网络检测到的皮肤和身体面罩的IoU,关于时期的数量,在有或没有相互指导的情况下进行训练曲线5:我们的网络在微调版本中检测到皮肤IoU下图:两个例子显示了我们的网络检测到的掩码,(第3栏)或与(第4栏)相互指导。第2栏显示了用作引导的身体面罩。(I,GS,GB)和(I,G′,G′),到唯一的地面真值从{Oκ}的信息指导,检测难度S B对于第2级中的解码器,{O′}预计将变得越来越准确。MS(如果IS= 1)或MB(如果IB= 1)。为了实现这一目标,我们梯度停止方案,以禁用反向传播κfromG′,G′到它们在阶段1中的相应解码器B SFinetune 为了开发具有相互指导的双任务网络的潜力,在训练期间必须小心在实践中,我们首先通过在-仅在{Oκ}上旋转损失由于现阶段缺乏指导,我们用Gκ=Eκ=0,κ∈{S,B}代替。随着网络的收敛,输出{Oκ}趋于变得信息丰富,但精度仍然有限。我们在第二阶段进一步进行培训我们喂从而避免输出{Oκ}趋于平凡地回归像{Eκ}这样的值。同时,半监督损失还涉及用{O′}计算的损失。随着训练的继续,解码器逐渐获得在两个阶段中,他们可以容忍地处理各种指导,而在信息指导下,他们可以表现得更好。我们在4.3节中证明了两阶段训练策略、相互指导和梯度停止方案的有效性。解码器{Dκ}与{G′},其中G′由以下获得:κ κ4。实验结果以下方式。对于具有Msi=0且lS=1,G′ 设置为MS;否则,G′ =OS。类似B′B4.1. 数据集和实施详细信息规则也适用于GS,即.′=lS·MS+(1−lS)·OS′=lB·MB+(1−lB)·OB该策略确保我们将最可信的数据作为指导馈送给解码器,以避免不正确的指导数据的误导,特别是如果Oκ是低质量的。此外,由于指南在这两个阶段,即Gκ/=G′,两个阶段中共享权重的解码器必须拥有以下能力:用不同的指导回归相同的数据样本,即我们的数据集由10,711个RGB图像组成,其中5 , 000 个 具 有 人 类 注 释 的 皮 肤 掩 模 MS ( IB=0 ,IS=1),其余的具有身体掩模MB(IS=0,IB=1),记为DS和DB。 原始RGB图像是从互联网上收集,我们将它们调整为5122分辨率。我们随机抽取了470个DS样本和475个DB样本,建立了两个验证数据集。在训练过程中,我们通过运行-对原始数据样本进行动态翻转、裁剪和剪切,我们的代码是用TensorFlow开发的,整个训练大约在GG值曲线1:皮肤,w/o。相互指导ce(*)曲线2:皮肤,曲线3:身体,曲线4:身体,W.相互指导w/o。相互指南W.相互指导行政长官,从scNCE行政长官,培训从Ratch划痕时代曲线5:皮肤,W.相互指导CE,微调,从(*)IoU(%)IoU Top-1(%)精密度(%)召回率(%)[第16话]50.84/60.201.06/0.0059.30/65.3181.75/89.58GMM [14]50.06/60.462.34/0.0053.45/62.3689.31/91.500.80Chen等人阿尔55.77/62.050.43/3.1274.31/72.5070.94/79.18Zuo et. [第32话69.94/79.810.21/0.0084.38/88.9780.31/88.03UNet [22]75.59/85.5015.53/28.1389.38/93.4283.14/90.910.75ResNet50 [12]75.44/84.3311.49/12.5088.77/92.1982.97/90.72Deeplab-v3-ResNet50 [4]75.97/85.8810.64/6.2586.98/92.5185.58/92.48Deeplab-v3-MobileNet [4]73.66/83.967.02/9.3887.16/91.9182.48/90.480.70我们81.18/87.9051.27/40.6390.01/95.2389.01/92.08GMM [14]50.06/60.465.74/6.2553.45/62.3689.31/91.500510152025Chen等人阿尔51.44/62.431.28/6.2576.11/76.3663.18/77.89输入体引导w/o。相互指导W. 互导GTZuo et. [第32话63.98/73.910.85/0.0081.28/85.1974.99/82.88UNet [22]69.62/79.6216.81/18.7583.96/89.5580.61/87.87ResNet50 [12]66.03/77.977.66/3.1284.73/88.3074.82/86.87Deeplab-v3-ResNet50 [4]69.04/76.6312时34分/12时50分81.81/86.1981.34/87.39(一)Deeplab-v3-MobileNet [4]67.95/77.636.60/9.3881.92/86.9379.90/87.59我们75.29/81.8945.53/43.7587.34/92.5884.64/87.5163.79%81.93%IoU(%)IoU Top-1(%)精密度(%)召回率(%)[第16话]50.84/60.203.19/0.0059.30/65.3181.75/89.582117Chenetal'sZuoetal'sUNetResNet50DeepLab-v3(ResNet50)DeepLab-v3(MobileNet)我们的GT(一)59.42% 68.19% 56.95% 64.88% 61.32% 72.64% 37.11% 44.08% 82.15%(b)第(1)款16.04% 84.55% 18.09% 62.88% 80.42% 84.61% 72.39% 66.47% 91.23%(c)67.77% 77.44% 50.90% 54.45% 52.43% 68.39% 75.95% 50.75% 88.78%(d)69.86% 65.22% 32.79% 56.98% 43.25% 42.92% 60.62% 53.79% 79.42%(e)41.28% 71.65% 29.03% 57.90% 76.79% 71.35% 84.21% 76.04% 85.97%(f)62.52% 67.19% 60.35% 61.55% 73.66% 67.17% 71.45% 67.71% 83.87%(g)22.14% 21.98% 1.49% 51.36% 57.86% 53.98% 53.41% 49.06% 88.88%(h)53.73% 45.47% 64.77% 74.84% 85.19% 82.38% 80.88% 71.57% 88.86%图5.我们的验证数据集上的典型皮肤检测结果,通过各种方法,包括阈值,GMM,Chen等人第1列和第11列显示了输入和地面实况。NVIDIA GeForce GTX 1080Ti GPU支持12小时。我们将在接受本文后向公众发布我们的数据集4.2. 与现有方法的比较我们比较了我们的方法与一些国家的最先进的,包括两个传统的算法和六个NN为基础的方法。[16]是一种像素值阈值化方法,它建立了一些关于像素RGB和HSV颜色的规则来将像素分类为皮肤或非皮肤,而不是软概率图。基于高斯混合模型(GMM)[14]的方法改进了该机制,其中在给定初始皮肤掩码的情况下学习肤色GMM然后,学习的GMM预测每个像素的皮肤概率传统的两种方法都存在缺乏高层次特征的问题它们参与了检测任务,并且它们对光线变化或复杂背景的鲁棒性很差其他六种基于NN的方法是端到端的,在给定RGB图像的情况下产生皮肤概率图,其中差异仅在于网络的结构,即,Chen等人我们用数据集DS对六个网络进行了多次训练,并选择了它们的最佳结果。为了定量地比较我们的方法与它们,我们评估了精确度,召回率和交集(IoU),所有结果,并将其列在表1中。数据显示,在IoU和精度方面,我们的方法优于最先进的皮肤检测方法。对于召回率,我们的方法仅低于GMM方法,GMM方法具有更多的错误2118Chen等人SZuo等人' SChen等人SZuo等人' SChen等人SZuo等人' S图6.IoU曲线,IoU Top-1率相对于概率阈值的曲线,以及我们数据集上的精确度-召回率报警,从而遭受精度差。对于所有验证数据样本的平均IoU,我们的方法平均比第二竞争对手高出约4%。尽管如此,我们通过计算IoU Top-1率,即,在IoU方面,每种方法可以赢得多大比例的数据。我们发现我们的方法在近51%的验证数据中获胜,其他方法都没有可比的性能。我们在图6中显示了IoU、IoU Top-1率和精确度-召回率的曲线。我们还将我们的网络与Pratheepan Face [24]公共数据集上的四个CNN进行了比较,结果也表明我们的方法优于表1中的其他方法(蓝色值)。我们在图5和图1中列出了几种典型的检测到的皮肤掩模进行定性比较,其中示例涵盖各种肤色,复杂的照度,白平衡,背景中的相似颜色,特别是布料等。他们在各种条件下被捕捉到,由休闲相机或在stu-dio。图5(a)是一个穿着海军蓝西装的黑皮肤男子,(h)是一个穿着迷彩服的亚洲女孩,肤色上有斑点,使他们的皮肤很难区分;(b)在妇女的裸露的背部和手臂周围包含白色背景光,以及(g)是暖色风格;(d)(e)(f)包含各种姿势的多个人,特别是在(d)中,三个人(2个靠近,1个远离,具有不同的比例)存在于黄色照明条件下。(c)示出了一个女人拿着一部电话,该电话具有反射性并且遮挡了她手臂的一部分,使得可见的皮肤在空间上是不连续的。这些具有挑战性的条件使得其他方法失败或表现不佳,例如传统的阈值化或阈值化。GMM方法在(g)(h)中完全失败,端到端CNN方法在(a)(f)中工作不稳定。相比之下,我们的方法克服了上述困难,并产生了准确和可靠的结果,特别是在图5(d)中,远处的人看起来太小,无法被人类看到男人的眼睛4.3. 消融研究4.3.1互导我们进一步揭示了相互指导计划的有效性,通过实验有或没有它,都是从头开始训练通过禁用相互引导,即,仅在阶段1中训练所提出的双任务网络,我们在每个时期的验证数据集中绘制皮肤和身体的IoU,直到收敛,如图4所示。从中,我们可以看到,与排除相互指导的情况相比,在涉及相互指导的情况下,皮肤和身体的IoU可以在同一时期提高到更高的值。请注意,即使对于没有相互指导的情况,我们的网络也达到了76。74%的IoU,仍然高于最先进的单任务CNN解决方案,如表1所示(顶部,黑色值)。 这是由于我们的网络具有共享编码器E的结构,这使得能够从额外的身体数据中学习。我们还在图4(a)(b)中显示了两种方法的两个皮肤检测结果,以进行视觉比较。在这两个例子中,没有相互指导的网络由于错误警报((a)中的沙发)或错误检测((b)中的手)而产生在涉及身体引导的情况下,通过校正假阳性像素和误检测像素来提高性能。4.3.2弱监督损失我们还证明了我们引入的弱监督损失的有效性,通过禁用其中一个或两个。我们发现,尽管与强监督交叉熵损失相比,这两种损失的贡献不显著,但它们确实产生了影响,事实证明,每一种损失都将IoU提高了约0.25%,并且两者都可以提高1.9%,如表2顶部所示。图3示出了一个示例,其中如果不涉及CRF和WCE损失,则存在一些错误分类的背景像素。在这种情况下,WCE生效,因为2119输入w/o梯度停止w. 梯度停止GT58.68%/96.86%/59.82%90.99%/97.44%/93.21%表2.各种损耗组成(顶部)和不同骨干网络(底部)的性能M.G. 是相互指导的缩写(b)第(1)款57.01%/98.30%/57.58%94.52%/96.52%/97.85%检测到的身体掩模监督要被分类为背景的区域。同时,CRF损失弱监督头发和头部之间的区域具有一致的标记,导致头发像素被过滤掉。在启用这两种损失的情况下,最终IoU的性能比仅CE损失版本高出2%。4.3.3不平衡数据集我们还对不平衡数据集进行了比较。在这个实验中,我们从DS中只提取了1k个皮肤样本,以及5k个身体样本DB用于训练。我们还在表1中列出了IoU、IoU Top-1、精度和召回率(底部)。与平衡数据集训练的结果相比,我们的方法的IoU值下降了约6%,但仍明显高于其他方法。我们还将该实验应用于Pratheepan Face数据集[25],并得出了类似的结论4.3.4骨干网我们还探索了嵌入在我们的网络结构中的骨干网络的影响,通过用具有MobileNet骨干结构的DeepLab-v3替换现有的U-Net结构,其参数数量约为UNet的60%。实验结果表明,在这种较小的网络中,可以获得较低的IoU,但可以释放更多的相互引导能力。更多比较详情见表24.3.5培训战略梯度停止。我们还进行了一个实验,以检查梯度停止的必要性图7显示了两个示例。从它们中,我们看到,在禁用梯度停止的情况下,检测到的皮肤掩模往往具有高精度但低召回率,这更可能是像eκ=0这样的微不足道的结果。这是我们网络的局部最小值,由第1阶段中的设置Gκ=eκ=0当你-梯度停止被启用,我们保持梯度不被反向传播到{Oκ},使得平凡的局部最小值不能被容易地达到。初始制导eS,eB。我们还进行了 一次实验-图7.在没有(列2)或有(列3)梯度停止的情况下训练的皮肤检测结果结果下的三个值分别是IoU(黑色)、Precision(红色)和Recall(蓝色)。具体地,eB是身体边界框掩模,eS是通过GMM的皮肤检测结果我们还从头开始用相互指导训练我们的该值高于生产的80.11%通过{eκ=0}的版本,这意味着通过在第1阶段提供更多的信息指导,我们的网络可以更容易训练。Finetune 我们还比较了从头开始训练和微调版本之间的网络性能,如图4顶部的曲线2和5所示。在finetune的参与下,我们的网络在验证数据集中获得了更高的平均IoU5. 结论我们提出了一种新的数据驱动的方法,鲁棒的皮肤检测从一个单一的人体肖像图像。为了实现这一目标,我们设计了一个双任务神经网络的皮肤和身体的联合检测。我们的双任务网络包含一个共享的编码器,但两个解码器,分别为两个任务。两个解码器以相互引导的方式工作,即,皮肤或身体解码器的输出也用作提高其对应物的检测性能的指导。此外,我们的网络可以以半监督的方式进行训练,即我们不要求在一个训练数据样本中存在两种类型的基本事实。它是通过一个新设计的半监督损失的建议。我们进行了广泛的实验,以证明相互指导,半监督损失和各种训练策略的有效性结果还表明,我们的方法优于国家的最先进的皮肤检测。确认国 家 自 然 科 学 基 金 部 分 资 助 项 目 : 61672125 号61702565号U1811463.我们也感谢匿名评论者以“道”为导向,以“道”为导向。0}。这张纸的一部分。CE(强)CRFWCEIoU(%)C79.28CC79.48CC79.52(一)CCC81.18我们的(DeepLab-v3-MobileNet)(%) 我国(UNet)(%)按方法列出的IoU增益(%)w/o。M.G.75.1576.56↑1.41W. M.G.79.0280.11↑1.09M.G.的IoU增益↑3.87↑3.55−2120引用[1] Hani K Al-Mohair,JM Saleh和SA Saundi。颜色空间对使用intel- ligent系统进行人体肤色检测的影响。2013年第一届WSEAS图像处理和模式识别国际会议(IPPR2[2] 道格拉斯·柴,孙林丰,和阿卜杜勒萨拉姆·布泽杜姆.用于人机通信中人脸定位的肤色检测。在第六届信号处理及其应用国际研讨会论文集(Cat. No. 01 EX 467),第1卷,第343-346页。IEEE,2001年。1[3] 李晨,周继流,刘志明,陈伟,熊国庆。一种基于神经网络的皮肤检测器。在IEEE 2002年国际通信、电路和系统会议会上,第1卷,第615-619页。IEEE,2002年。二、五、六[4] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议(ECCV)的会议记录中,第801-818页,2018年。一、五、六[5] Wei Chen,Ke Wang,Haifeng Jiang,Ming Li.用于人脸检测和分割的肤色建模:重新审视和新的方法。多媒体工具和应用,75(2):839-862,2016。1[6] Ronan Collobert和Jason Weston自然语言处理的统一架构:具有多任务学习的深度神经网络。第25届国际机器学习会议论文集,第160ACM,2008年。2[7] 李登、杰弗里·辛顿和布莱恩·金斯伯里。用于语音识别及相关应用的新型深度神经网络学习:概述。在2013年IEEE声学、语音和信号处理国际会议上,第8599-8603页。IEEE,2013。2[8] CE Erdem,Sezer Ulukaya,Ali Karaali,and A TanjuErdem.结合haar特征与肤色分类器的人脸侦测。2011年IEEE声学、语音和信号处理国际会议(ICASSP),第1497-1500页。IEEE,2011年。一、二[9] Ruogu Fang , Samira Pouyanfar , Yimin Yang , Shu-Ching Chen,and SS Iyengar.大数据时代的计算健康信息学:调查。ACM Computing Surveys(CSUR),49(1):12,2016. 1[10] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。2[11] Xiaoguang Han , Zhen Li , Haibin Huang , EvangelosKalogerakis,and Yizhou Yu.使用深度神经网络进行全局结构和局部几何推断的高分辨率形状完成。在IEEE国际计算机视觉会议论文集,第85-93页,2017年。2[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。进行中-IEEE计算机视觉和模式识别会议的论文集,第770-778页,2016年。一、五、六[13] 亚历杭德罗·詹姆斯和尼库·塞贝。多模态人机交互:一个调查。计算机视觉和图像理解,108(1-2):116-134,2007。1[14] Michael J Jones和James M.统计颜色模型及其在皮肤检测中的应用。International Journal of Computer Vision,46(1):81-96,2002。五、六[15] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在IEEE计算机视觉和模式识别会议论文集,第7482- 7491页,2018年。2[16] 尤尔·科瓦奇,彼得·皮尔,弗兰克·索利纳. 人类肤色聚类人脸检测,第2卷。IEEE,2003年。二、五、六[17] 刘琼和彭光正。一种鲁棒的基于肤色的人脸检测算法。2010年第二届国际亚洲控制、自动化和机器人信息学会议 ( CAR 2010 ) , 第 2 卷 , 第 525-528 页 。 IEEE ,2010。2[18] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集,第3431-3440页,2015年。2[19] 瓦莎·波瓦尔,阿姆鲁塔·库尔卡米,雷努卡·洛卡雷,艾什·瓦利亚·隆卡.皮肤检测用于法医调查。2013年计算机通信和信息学国际会议,第1-4页。IEEE,2013。2[20] 姜强荣和李华兰。复杂彩色图像中的鲁棒人脸2010年第二届IEEE国际信息管理与工程会议,第218-221页。IEEE,2010。2[21] Siddharth S Rautaray和Anupam Agrawal。用于人机交互的基于视觉的手势识别:调查。Artificial IntelligenceReview,43(1):1-54,2015. 1[22] Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-net:用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议,第234施普林格,2015年。一二三五六[23] Ming-Jung Seow,Deepthi Valaparla和Vijayan K Asari。基于神经网络肤色模型的人脸检测。2003年第32届应用图像模式识别研讨会。诉讼第141-145页。IEEE,2003年。2[24] 谭文君,戴高阳,韩素,冯紫依。基于ycb'cr'颜色空间椭圆拟合肤色建模的手势分割2012年第24届中国控制与决策会议(CCDC),第1905-1908页。IEEE,2012。二、七[25] Wei Ren Tan,Chee Seng Chan,Pratheepan Yogarajah,and Joan Condell.一种
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功