没有合适的资源?快使用搜索试试~ 我知道了~
家庭照片分类的新方法:基于几何和分数熵的特征提取与卷积神经网络分类
专家系统与应用:X 3(2019)100008基于几何和分数熵的家庭照片分类[10]杨文,胡天萍,胡晓刚.贾拉卜,Rabha W. Ibrahima, Michael Blumensteinc, Tong Lub, Mohamad Nizam Bin Ayubaa马来西亚吉隆坡马来亚大学计算机科学和信息技术学院b南京大学软件新技术国家重点实验室c澳大利亚悉尼科技大学工程与信息技术学院Ar ticlei n f o ab st ract文章历史记录:2018年11月11日收到2019年4月14日修订2019年7月3日接受在线预订2019年7月5日保留字:面部识别面部点面部几何特征分数熵卷积神经网络家庭照片分类由于社交媒体的力量和影响,未解决的实际问题,如人类身份验证,亲属关系识别,以及从大型集合中聚类家庭照片,最近受到了研究人员的特别关注。在本文中,我们提出了一个新的想法,家庭和非家庭照片分类。与探索人脸识别和生物特征的现有方法不同,所提出的方法探索了一种新的分数熵分类方法所给出的面部几何特征和纹理的优势。几何特征包含人脸关键点的空间和角度信息,具有空间和方向的一致性。纹理特征提取图像中的规则模式。然后,所提出的方法结合了上述属性,在卷积神经网络(CNN)的帮助下,以一种新的方式对家庭和非家庭照片进行分类。我们自己以及基准数据集上的实验结果表明,所提出的方法在分类率方面优于最先进的方法。© 2019作者由Elsevier Ltd.发布。这是CC BY-NC-ND许可下的开放获取文章。(http://creativecommons.org/licenses/by-nc-nd/4.0/)的网站上进行了介绍。1. 介绍Face- book 、 Google+ 、 Twitter 、 Instagram 、 Flicker 和WhatsApp 等 通信 技 术 的发 展 帮 助人 们 快 速互 联 (Zhen ,Caiming,Caixian,2018)。其中一个例子是社交网络的照片共享服务。透过利用先进的移动数码相机技术,人们可以在发现有趣的事物时轻松拍照,并将其上传至社交媒体平台,与朋友、家人和同事分享激动人心的时刻(蔡、许、柏丽、李、李,2014)。因此,人们可以期待大量的收藏,这是显而易见的,因为根据Cai等人(2014)的报告,上传的照片数量此外,多媒体技术及具成本效益的闭路电视摄像机的发展,使监控应用可产生更大规模的多元化图像或视频∗通讯作者。电子邮件地址:asadzadeh@um.edu.my(硕士)Kaljahi),shiva@um.edu.my(P.Shivakumara ) , htp@smail.nju.edu.cn ( T.Hu ) , hamidjalab@um.edu.my(H.A.Jalab),rabhaibrahim@um.edu.my(R.W.易卜拉欣),迈克尔.布卢门斯坦@uts.edu.au(M。Blu-menstein),lutong@nju.edu.cn(T.Lu),nizam_ayub@um.edu.my(M.N.B. Ayub)。这导致了一个具有高度多样性和非结构化数据的巨大集合(Shen,Liu,Shih,Hong,2009)。例如,从我们的数据集中选择的一些家庭和非家庭照片的样本图像分别显示在图1(a)和(b)中,我们可以看到每个图像都有自己的各种前景(面部区域)和背景信息。在这种情况下,单独的面部识别可能不足以识别家庭或非家庭照片。这是因为开发的识别方法可能无法很好地处理包含多种情绪,姿势和动作的面部图像。这使得寻找同一家庭的照片变得复杂和具有挑战性。因此,家庭照片分类/识别可以在寻找解决未解决问题的解决方案方面发挥至关重要的作用,例如人口贩运,亲属识别以及识别/定位难民的问题(Robinson,Shao,Wu,Gillis,Fu,2018)。因此,迫切需要开发一个智能专家系统来应对上述挑战。有一些基于生物特征识别人类,面部表情和情绪的方法,可用 于 家 庭 和 非 家 庭 图 像 识 别 ( Haghighat , Zonouz ,&Mottaleb,2015; Mehta,Ramnani,&Singh,2018)。然而,生物识别系统的一个主要挑战是特 征 的可变性-https://doi.org/10.1016/j.eswax.2019.1000082590-1885/© 2019作者。出版社:Elsevier Ltd这是一篇CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)的网站上进行了介绍。可在ScienceDirect上获得目录列表专家系统与应用:X期刊主页:www.elsevier.com/locate/eswax2M.A. Kaljahi,P.Shivakumara和T.Hu等人专家系统与应用:X 3(2019)100008图1.一、从我们的数据集中选择的家庭和非家庭照片的样本图像。每个人的生物特征。例如,人类的脸是复杂的,随着时间的推移而变化的特征。此外,面部特征由于光照、头部姿势、面部表情、化妆品、老化和由于胡须或眼镜的遮挡的变化而改变(Haghighat等人,2015年)。此外,大多数方法需要裁剪的面部图像以实现更好的结果(Haghighat等人,2015; Mehta等人,2018年)。因此,基于识别的系统可能不适合家庭和非家庭照片分类,因为图像可能具有不受约束的背景和具有多种情绪或表情的多个面部(Wang等人,2017年)。因此,我们可以得出结论,我们需要一个专家和强大的系统,可以处理背景复杂性和具有不同情绪和表情的多个面孔的问题。在 这 项 工 作 中 , 我 们 建 议 根 据 Wang , Guo , Rohith 和Kambhamettu(2015年,2017年)中定义的家庭和非家庭图像的特征找到家庭和非家庭照片分类的解决方案。就家庭照片而言,预计• 照片将有父母和他们的孩子要么坐着或站在级联顺序。它不应包含不同家庭的人,即一个以上的家庭。• 图片中的人数应超过3人,包括父母和一个孩子。• 可以在室内和室外区域拍摄照片,例如房屋,风景,公园和有人在场的旅游场所。换句话说,图像可以具有任何背景的人。在非家庭照片的情况下,预计• 照片必须有几乎相同年龄的人,并且预计不同家庭的人,例如,朋友和同事可能会在场。• 图片中的人物数量至少应为3人• 图像必须有不同的姿势和任何顺序与任何背景,其中可能包括室内和室外场景的人。2. 相关工作为了克服基于聚类的系统的局限性,使用无监督特征(诸如聚类、分组和父母与孩子的面部之间的相似性)以及个人特征( 诸 如 年 龄 、 种 族 和 性 别 ) 的 方 法 ( Dandekar 等 人 ,2014a)已开发。Ng,Zheng,Chan和Yeung(2011)提出了个人照片集的社会关系发现和面部注释。该方法探索了集成RBFNN与成对社会关系的结合作为识别人的背景。然而,该方法需要面部注释和参数调整以用于社会关系识别。此外,该方法的重点不涉及家庭和非家庭形象分类;而是探索一般的社会关系。Dandekar等人(2014 b)提出了从父母和孩子的面部图像中验证家庭关系。该方法使用本地二进制模式的功能和儿童和父母的脸之间的相似度。该方法遵循传统的特征提取和分类器来实现结果。然而,该方法适用于裁剪后的人脸图像,而不适用于具有多张人脸、多个情绪、多个表情以及复杂背景的图像。此外,该方法的主要目标是匹配儿童Xia,Pan,and Qin(2014)提出了一种基于照片的人脸聚类方法,该方法探索了光谱特征、相似性特征、最小代价流和聚类。所提出的特征是从裁剪后的人脸图像中提取的。该方法的主要目标是找到共享相同面孔的图像。这个想法适合于对个人收藏进行分组,但不适合家庭和非家庭图像分类。Qin,Tan和Chen(2015)提出了三主体亲属验证,以了解家庭的核心。办法提出孩子和父母之间有一定程度的相似性,三角关系。为了实现这一点,该方法使用相对对称双线性模型来估计相似性。为了改善结果,该方法考虑了空间信息。只要识别方法能提供令人满意的结果,这种方法就很好;然而,基于识别的方法可能不是M.A. Kaljahi,P.Shivakumara和T.Hu等人专家系统与应用:X 3(2019)1000083对于受严重光照、姿势和动作影响的图像是鲁棒的。Dai,Carr,Sigal和Hoiem(2015)提出了从照片集中识别家庭成员的方法。该方法提出了一种基于概率CRF的无监督EM联合推理算法.所提出的模型识别所有检测到的人脸的角色分配以及它们之间的相关成对关系。所提出的模型的性能取决于人脸检测和识别的成功;然而,当图像暴露于开放环境时,用于查找关系的提取的生物计量特征可能不太可靠。此外,主要目标是确定家庭成员之间的关系,但该方法并不侧重于家庭和非家庭分类。Robinson et al.(2018)提出了野生家庭的视觉亲属识别。这种方法探索了用于人脸验证、聚类和提高基线分数的深度学习。该方法涉及多模态标记以优化注释过程。这包括从家庭照片中收集的面部信息和元数据。值得注意的是,尽管该方法探索了用于亲属关系识别的最近强大的深度学习方法,但它仍然限于家庭照片,而不是非家庭照片。Wang et al.(2015,2017)提出了利用几何和外观线索来识别家庭照片。该方法识别图像中每个面部的面部点。该方法以人脸点为基础,构造多边形来研究图像中人脸的几何特征。由于家庭和非家庭图像中人的身高差异和人脸的排列方式不同,该方法得到不同的多边形来研究几何特征。它估计成对的关系,如亲属关系识别,并使用k均值聚类生成一个码本。此外,提取每个组的相似度,以在SVM分类器的帮助下对家庭和非家庭照片进行分类。然而,当图像中的人的高度不遵循分层布置时,分类可能不准确。此外,人们可能期望非家庭成员可以具有相同的安排和高度。根据上述讨论,我们可以断言,一些方法已经解决了家庭和非家庭照片分类或识别,但大多数方法都集中在基于面部检测和识别的亲属关系识别上。这些方法可能不适用于我们可以看到具有多种情绪,姿势和动作的面部图像。解决家庭和非家庭分类的方法仅探索前景信息(面部信息)以实现其结果。这对于具有简单背景的图像很好,但对于具有复杂背景的图像则不好,在非家庭照片的情况下,我们可以期望开放的场景和户外环境。因此,我们可以得出结论,迫切需要一种准确的方法来区分家庭和非家庭照片因此,我们提出了一种新的方法,该方法探索了面部关键点的空间和角度信息以及分数熵特征的优势,用于家庭和非家庭图像的分类。如从相关工作中所注意到的,面部的面部点和几何特征在识别家庭成员(包括亲属关系/关系)中起着至关重要的作用(Wang等人,2017年,2015年)。基于这一观点,本文提出了一种新的人脸几何结构研究方法--空间特征和角度特征,该方法能够捕捉人脸区域在空间和方向上的一致性。此外,为了提高特征的区分能力,该方法探索了图像中的规则模式。据观察,一般来说,家庭照片中的人的站立或坐下安排遵循规则模式,例如特定的顺序,而非家庭照片可能不遵循这些模式。为了提取这样的观察,我们提出了一种新的分数熵特征来研究面部区域的纹理以及背景(面部区域除外),图像.空间信息、提取面部几何结构的角度以及提取面部和背景区域的纹理的分数熵的组合产生特征向量。此外,特征向量被传递到卷积神经网络(CNN)以克服上述挑战。这项工作的贡献是双重的。(1)通过人脸区域的几何结构,探索空间和角度特征,提取空间和方向的相关性。(2)引入分数熵提取人脸和背景区域的纹理,提取图像中的规则模式3. 该方法我们从引言和相关工作部分注意到,面部特征对于区分家庭和非家庭人员很重要。因此,我们建议探索相同的方 法 来 寻找面部关键点(嘴,鼻子,左右眼和眉毛),以输入家庭和非家庭图像(Ren,Cao,Wei,&Sun,2014)。面部点之间的空间关系和角度为识别同一家族的成员或区分非家族成员提供了独特的线索。基于此,本文提出了一种基于长轴和短轴的人脸关键点空间和角度特征提取方法。Wang等人(2017)指出,家庭图像中的面部外观与人的空间排列的独特模式(规则模式)具有高度相似性,而在非家庭的情况下,人们不能期望面部与人的排列中的规则模式(由于人的排序的随机性而导致的不规则模式)之间具有如此高的相似性。为了提取这样的观察,我们建议估计面部关键点之间的距离相对于各自的面部图像的长轴和短轴,这给出了空间相干性。以同样的方式,我们还估计了各个人脸图像的人脸关键点之间的角度,这给出了方向相干性。空间和方向相干性一起提取人脸图像的几何特性。然而,几何特征仅限于面部区域。为了从前景和背景(除了人脸区域)中提取规则模式,我们进一步探索分数熵,提取区域中的纹理特征。该方法结合了几何特征和分数熵的优点,成功地对家庭图像和非家庭图像进行了分类。该方法提取了8个距离和24个角度的fea,使用面部关键点和来自面部区域的分数熵的两个特征和背景信息(除了面部区域)的纹理。因此,对于每个输入图像,它给出了包含26个特征(8+ 16+ 2)的特征向量。此外,特征向量被 馈送 到卷 积神 经网 络( CNN ) 进行 分类 (McAllister ,Zheng,Bond,Moorhead,2016)。所提出的方法的总体步骤如图2所示。在图2中,P1至P68是由面部检测方法(Ren等人,2014),并且基于这些点,相同的方法使用所有68个点来检测五个面部关键点,即,左眉毛(B1)、右眉毛(B2)、左眼(E1)、右眼(E2)、鼻子(N)、嘴(M)和质心。估计每个面部的面部关键点(d)之间的距离,并且最终所提出的方法计算图像(D)中所有面部(f)的所有8个特征的平均值,这给出了8个特征的向量类似地,估计面部点之间的角度(θ)图像(γ)中所有人脸的所有角度,这给出了一个16个特征的向量。对于人脸区域和背景区域,该方法提取每个非重叠块(B )的分数熵。所有块的分数熵的均值(MT )和方差(VT)被认为是包含特征的特征向量。4M.A. Kaljahi,P.Shivakumara和T.Hu等人专家系统与应用:X 3(2019)100008,r rd=X-X+Y-Y(2)()r rr ri=1、i=1图二. 建议方法的流程。上述观察结果如图3所示,其中我们绘制了图3(a)所示的家庭和非家庭图像的距离/角度特征与距离/角度值方差的从图3(b)和(c)注意到,对于空间和角度特征,表示家族的线行为比表示非家族的线行为更平滑。这证实了家庭图像中的面部外观没有太多变化,而非家庭图像中的面部外观变化很大。从图3(c)所示的角度特征的图示中可以得出相同的结论。这促使我们使用空间和角度特征进行家庭和非家庭图像分类。空间和角度特征提取过程的每个步骤的详细解释将在后续章节中讨论。3.1. 面部关键点的几何特征对于给定的输入图像,所提出的方法使用经由局部二进制特征的回归的面部对准来检测面部关键点,即嘴、噪声、左眼和右眼以及眉毛(Ren等人,2014年)的报告。该方法基本上提出了一个更好的学习-Ren et al.(2014).选择这种方法的原因是,据说是通用的,有效的和准确的寻找面部关键点。此外,它可以处理部分遮挡和扭曲的问题。这是合理的,因为建议的工作考虑了具有复杂背景和多样化内容的家庭和非家庭图像。上述方法的样本结果在图4中示出,其中(a)给出了输入图像的候选点检测的结果,而图4(b)示出了家庭和非家庭图像的面部关键点的样本。从图4(b)中可以注意到,尽管图像受到失真和质量差的影响,但该方法成功地找到了关键点设B1、B2、E1、E2、N和M是由该方法给出的中心点(Ren等人,2014),其分别表示左和右眉毛、眼睛、鼻子和嘴。在图5中,对于从图4所示的图像中选择的家族和非家族面部,手动标记这些点。为了提取空间特征以研究几何特征,所提出的方法使用如等式中所定义的面部区域的候选点来找到质心。(1),其中m是由 该 方 法 给 出 的候选点的 数量 (Ren等人,2014年)的报告。基于方法。它的工作原理是基于“局部性”原则的学习。该原理被定义为:对于在给定阶段定位某个地标,最具鉴别力的纹理信息位于. .MXiM.我是我的朋友M在来自所述估计阶段的所估计的地标周围的局部区域中。形状上下文提供了其他地标的位置通过这些观察,该方法首先学习内在特征,以独立地对每个地标的局部纹理进行编码;然后执行联合回归以合并形状上下文。该方法首先学习局部特征映射函数,以生成每个地标的局部二进制特征在这里,它使用标准的回归随机森林来学习每个局部映射函数。然后,它连接所有的本地功能,以获得映射函数。它通过线性回归学习线性投影。这个学习过程是重复的阶段,一级一级的级联方式。在此基础上,利用全局特征映射函数、全局线性该方法可以有效地加强全局形状约束,以减少局部误差。在测试阶段的情况下,直接预测形状增加并应用于更新当前估计的形状。有关实施的更多详细信息,借助于质心(XC,YC),该方法绘制一个椭圆,以找到长轴和短轴,如图6(a)和(b)所示,分别用于族面和非族面。所提出的方法在垂直于家庭和非家庭图像的每个关键面部点(B1,B2,E1,E2)的方向上移动,直到其分别到达如图6类似地,所提出的方法在垂直于家庭和非家庭图像的每个关键点的方向上移动,直到其到达如图6(a)和(b)中的第三图示所示的最小轴然后,该方法找出面部关键点之间的距离,点r ={B1,B2,E1,E2}以及r中的长轴和短轴的相应像素r={major,minor},其在等式(1)中定义。 (2),其对于每个面i输出8个距离dk,k ={1,2,.,8}:我2 2K相对于长轴和短轴提取距离特征,以使特征对不同旋转具有鲁棒性(XC,YC)=(一)M.A. Kaljahi,P.Shivakumara和T.Hu等人专家系统与应用:X 3(2019)1000085图3.第三章。 用于提取几何特征(空间+角度)的提示,用于家庭和非家庭照片分类。换句话说,如果输入图像在不同的方向上旋转,该功能仍然可以很好地工作。对于这一步,我们只考虑四个面部关键点(即B1、B2、E1和E2)进行距离计算,因为嘴(M)和鼻子(N)对距离的贡献不大。在Eq中定义为d。(3)对于每个输入图像,产生平均距离vec tor Df,其中f是面的数目:.FDi=因为M和N点位于短轴上请注意,垂直距离是通过查找Di=1KF(三)人脸关键点与人脸图像像素短轴/短轴该步骤通过考虑到关键点的长轴和短轴的几个左右像素来找到许多距离。然后选择长轴/短轴的像素与关键点之间产生最小距离的像素。我们认为最小距离等于垂直距离。由于输入图像包含许多人脸,并且人脸的数量是不可预测的,因此所提出的方法计算输入图像中所有人脸的8个相应距离d为了使几何特征鲁棒,我们还提出了cal-计算人脸关键点之间的夹角,研究人脸区域的结构。这是因为,随着面部形状的变化,面部关键点之间的角度也会变化。为了提取这样的观测结果,我们使用B1-B2-E1-E2构造一个矩形, 同样,本文提出的方法分别用B1-B2-N,B1-B2-M,E1-E2-N,E1-E2-M构成三角形,如图1所示。 6(c),这给十二个角度。总的来说,所提出的方法获得86M.A. Kaljahi,P.Shivakumara和T.Hu等人专家系统与应用:X 3(2019)100008J.=||..Ji= 1j,yF图四、 用于家庭和非家庭图像的面部关键点检测(Ren等人, 2014年)的报告。cosγjXJ=v,sinγjyJ=vJ(八)γArctansinγj(9)jcosγJ图五. 标记家庭和非家庭图像的六个面部关键点图 四、空间+16个角度=24个几何特征,用于家庭和非家庭图像分类。设A(xA,yA),B(xB,yB),C(xC,yC)为ABC三角形的坐标。ABC三角形的内角B可以按照等式2中的定义计算。(4)和(5)。 当量(4)计算一个向量,B和A称为ed−A→B,C和B之间的vectorbe类似地称为edC−→B。 角度θB由等式(5)通过将四个变量计算为一个变量,其中AByAB当−A→B时,C−→B是xABy AB两个向量的标量点积。类似地,所提出的方法估计矩形和其他三角形的角度。−A→B=B−A,C−→B=C−B(4)该方法通过计算距离的平均值来提取空间特征,通过计算角度的平均值来提取角度特征。计算平均值的原因是为了扩大家庭和非家庭图像之间的差异。如在引言部分中所讨论的,家庭图像具有几乎相同的面部外观的人,而非家庭图像具有不同面部外观的人。这是有效的,因为人们可以预期来自同一家族的面部的外观之间的高度相似性。对于非家庭图像可能不正确。此外,家庭和非家庭图像可以具有任意数量的面部,图像中的面部数量应该超过3人。在这种情况下,家庭的平均特征没有太大的区别,而对于非家庭,平均特征有很大的区别。由于家庭中的面部外观与非家庭图像中的面部外观相比具有高度的相似性,因此预期平均值对于家庭图像给出几乎相同的值,而对于非家庭图像,我们不能总是预测相同的值。此外,为了使空间和角度特征不随人脸数目而变化,该方法考虑了平均值以获得更好的结果。θB=Arctan2 ..xAByAB。,−A→B.C−→B−(五)3.2.分数熵特征提取xAByAB由于我们可以在单个输入图像中预期许多人脸,因此我们建议考虑相应16个角度的角度的平均值。为了平均f面的各个角度,计算圆平均值。首先,由于角度{θ1,θ2,. . .,θj},j= 16定义在圆坐标系上,则坐标系应根据等式2改变为矩形坐标系。 其中θ i是图 像 中 第 i 个 面 的第j个角度θ。然后,如等式1中所定义的,计算合成矢量及其方向。(7)(8)分别。最后,所有f 个 面的 第 j 个 角 度 的 计 算 定义如 下 :(九)、如在引言部分中所提到的,发现除了面部区域之外的其他区域也提供了用于区分家庭和非家庭图像的线索。然而,前一步骤不探索除面部区域之外的其他区域。因此,受Ibrahim,Moghaddasi,Hamid和Noor(2015)中的方法的启发,其中分数微积分已用于研究拼接图像中的纹理,本节探索了一种新的基于Tsallis分数熵的纹理(Tsallis et al.,2009年),用于研究家庭和非家庭图像中背景和面部区域的变化。Tsallis分数熵的概述如下所示Tsallis分数熵(Tsallis等人,2009)衡量作用于随机变量估值的不确定性的大小.Fcosθ iJ.Fsinθ iJ或者是随机过程的结果一般离散形式(六)这个熵在Eq中给出。(十)、=XM.A. Kaljahi,P.Shivakumara和T.Hu等人专家系统与应用:X 3(2019)1000087=i= 1jFx2+y2(7)ββ−1我,T(ρ)(x)=1 .1−。ρβ(x)π,(10)v =JJJ我8M.A. Kaljahi,P.Shivakumara和T.Hu等人专家系统与应用:X 3(2019)100008,的。ΣΣΣZ轴、.Σ、ZΣΣΣ2(q−1)CQ .图六、 基于人脸点的几何特征用于家庭与非家庭图像的鉴别。哪里 ρ是 的 q-高斯在我们的讨论中,设β=q,则我们得出结论:β/=1是熵的分数幂,1/(β− 1)是图像的容量。q-高斯分布是在适当的限制下从Tsallis熵的增长上升的概率分布。它的正式功能定义如下:Tβ,β(x)=βCβ(β−1)1−i=11+(1 −β)。−βxi2β1−β(十五)等式式(11)-(13),其中C q是归一化因子。其中Z是图像中的像素总数。 拟议βΣρ(x)=e−βx2,(11)该方法根据输入图像的频率细节计算Tsallis分数熵,从而给出一个纹理属性来研究图像的结构Tsallis分数阶正整数的优点.β-淀粉样蛋白 。βΣΣ122熵是它对非纹理区域(低频)敏感e q− x=1+(1−q)−x你好3−q1−q,q/=1,(12)此外,它还可以锐化重新绘制中纹理细节的任何变化gions,其中像素值急剧变化(高频)。Tsallis分数熵的示例说明,Cq=,q−1第1章(十三)q−1非家庭图像如图所示 。 7,在 那里我们可以看到所有的由背景中的边缘表示的主导信息,由于变量是在图像中具有正值的像素,最大熵方法,导出了q-指数分布。 应用等式(11)-(13)在(10)中,我们有以下的根-分数熵的一般公式:面部区域被加亮。 图 8、明确的区分Tsallis分数熵纹理特征对fam的识别能力家庭和非家庭的形象。因此,对于由Tsallis分数熵纹理给出的特征矩阵,我们首先将输入im.QM.A. Kaljahi,P.Shivakumara和T.Hu等人专家系统与应用:X 3(2019)1000089Tβ,q(x)=βCq(β−1).1−.i=11+(1 −q)。−βxi2β1−q(十四)将图像分成大小为a×a像素的块,然后计算每个块的Tsallis分数熵。对于输入图像的所有块,计算10M.A. Kaljahi,P.Shivakumara和T.Hu等人专家系统与应用:X 3(2019)100008--Kβ,ββ,ββ,β图7.第一次会议。 家庭和非家庭图像的分数熵特征。大量的样本用于训练和标记样本,我们更喜欢使用所提出的特征和CNN的组合,而不是使用最近的深度学习模型的原始像素。所提出的工作的主要目标是提出功能,可以分类的家庭和非家庭的照片。因此,建议的特征被馈送到预定义的CNN分类器,可在网上(阿罗拉苏曼,2012)在这项工作的分类。对于分类器的学习参数,我们遵循10重交叉验证程序,将数据集分为训练和测试组件。训练样本用于学习和调整分类器的参数,测试样本用于评估。所提出的用于对家庭和非家庭图像进行分类的方法的完整算法步骤如下所示。算法:所提出方法10:m:I=输入图像,m={1,...,68},由Ren等人给出的点集。(2014年)11:f←面数12:对于i=1到f做13:(XPm, YPm)←面部点14:B1,B2,E1,E2,N,M,C←面部关键点,包括眉毛,眼睛,鼻子,嘴巴和中心的所有关键点,分别。15:(A major,A minor)←(x c,y c),如等式中所定义。(1)十六日:d→i←{B1,B2,E1,E2}&{Amajor,Aminor}:d→i在Eq中定义。(2)十七:Kθ→i←{B1,B2,E1,E2,N,M}:θ→i(1×8)如在Eqs中定义的。(4)(5)J十八日:端(1×16)十九日:二十:D<$k←是指(d→):D→(1×8),定义见等式(三)γ<$j←循环平均值n(θ→j):→γ(1×16)asdefinedisEqs. (6)-(9)图8.第八条。 家庭和非家庭图像的分数熵特征直方图。.分别输出纹理特征MT和VT。所提出的Tsallis分数熵算法的伪码描述如下:第二十一章:MT,V T←分数熵特征提取,如上算法二十二:−f−e−a−tu−→re(1×26)<$D<$||M T||MT||VT//F inalfeaturev ectorhaving尺寸,1×26。23:CNN分类//家庭和非家庭照片的4. 实验结果为了实验,我们通过收集创建了自己的数据集-从社交媒体,如Facebook,Flickr,Instagram的图像算法:分数熵特征提取1:β:I=输入图像,a=3;β=0.5 2:对于每个输入图像,我做3:{B1,B2,从我们自己的相机。该数据集包括室内/室外场景和3-25人的图像。此外,该数据集还包括不同文化的家庭和非家庭照片,如印度教和中国,以及现代风格的家庭/非家庭照片。这使得数据集对实验具有挑战性为5:T(B i3×3)←I//分数熵的计算定义如下:将数据标记为家族或非家族,我们遵循当量其 中,i表示3×3维的第i个块。第六章:结束7:MT←平均值(T Bi ),i={1,2,8:V T←方差(T Bi ),i={1,2,第九章:端在图9(a)-(c)中示出了家庭和非家庭图像的空间、角度和纹理特征的特征分布然 后 将 连 接 的 特 征 传 递 到 完 全 连 接 的 卷 积 神 经 网 络(CNN),用于对家庭和非家庭图像进行分类(McAllister等人,2016年)。受该方法(Nanni,Chidoni,Brahnam,2018)的启发,其中提到手工特征和CNN集成的组合比使用输入图像的原始像素进行生物图像分类的GoogleNet,ResNet50等深度学习工具提供更好的结果,我们探索了将所提出的特征与CNN结合用于家庭和非家庭图像分类的相同想法。由于拟议的工作不提供Gallagheret al.(2009),Wang et al.(2017,2015)中建议的说明。此外,数据集包括一个家庭的一张照片。换句话说,数据集没有同一家庭的多张照片。总的来说,我们的数据集由388张家庭图像和382张非家庭图像组成,总共有770张图像。为 了 证 明 所 提 出 的 方 法 是 有 效 的 , 我 们 还 考 虑 了 从Gallagher等人的公开数据中收集的基准数据集。(2009),Wang et al. (2017,2015)。该公开数据提供了大量图像,其包括包含家庭和非家庭类别的许多照片和图像组。因此,我们选择了相关的家庭和非家庭图像,并根据Gallagher等人(2009),Wang等人(2017,2015)中的说明手动标记这些图像。我们把这个数据集作为基准数据集,它包括1790个家庭和2753个非家庭图像。总共有4543张图像,比Haghighat等人考虑的数据集大。(2015),Mehta et al. (2018年)。总的来说,我们考虑了5263张(770张来自我们的数据集,4543张来自基准数据集)图像用于这项工作的实验。我们和基准数据集的家庭和非家庭照片的样本图像分别显示在图10(a)和(b)中,我们可以看到类内和类间的变化。从 图中 也可以看出。 10的M.A. Kaljahi,P.Shivakumara和T.Hu等人专家系统与应用:X 3(2019)10000811=图9.第九条。提出的用于家庭和非家庭图像分类的特征分布。见图10。 我们的数据集和基准数据集的样本图像(Gallagher et al,2009)。家庭和非家庭图像具有室内和室外场景作为背景。同样真实的是,如图10所示,对于家庭按等级顺序和对于非家庭按非等级顺序的人的身高分布不一定真实。表1列出了我们和基准数据集的详细统计数据,其中我们分别计算了等式1中定义的比率(E1和E2)。(16)和(17)使用具有室内的计数图像身高命令表1中的比率指示我们的数据集比基准数据集复杂得多,因为我们的数据集关于室内背景的比率和分层顺序大于基准数据集的比率。请注意,在Eqs。(16) 以及(17),total表示如表1中括号中给出的数据集的大小。和户外场景,以及分层或非分层的人E户外(家庭)+室内(非家庭)1总(十六)12M.A. Kaljahi,P.Shivakumara和T.Hu等人专家系统与应用:X 3(2019)100008=表1我们的统计数据以及用于家庭和非家庭图像分类的基准数据集数据集系列非系列(共计)室内户外分层非分层室内室外分层非分层E1E2我们的(770)255133273115201 18211027243.3729.22基准(4543)11726181378412924 1829513224033.9420.36ENon− Hierarchical(family)+Hierarchical(non− family)2总(十七)为了表明所提出的方法是优越的比较对于现有的方法,我们实现了两种最先进的方法,即Wang等人(2015),其探索了面部几何特征和基于面部外观模型的特征。特征被传递到SVM分类器,用于家庭和非家庭图像分类。请注意,Wang等人(2017)扩展了相同的概念,并改进了结果,用于家庭和非家庭图像分类。然而,这两种想法都只关注面部区域以获得结果;这些也忽略了背景线索。为了衡量所提出的和现有的方法的性能,我们生成了家庭和非家庭分类的混淆矩阵以及分类率。分类率(CR)被定义为通过所提出的方法正确分类的图像数量(R)除以类中的图像总数(MG),如等式中所定义。(18).计算混淆矩阵对角元素的平均分类率(ACR),以评估所提出的方法和现有方法的整体性能。在这项工作中,我们进行了10倍交叉验证,以选择训练和测试样本的数量。该标准将整个数据集划分为10个大小相等的子折叠。对于每次迭代,来自每个子折叠的图像被视为测试样本,而来自其他子折叠的图像被视为用于分类的训练样本,这导致10个子折叠中的一个子测试折叠的混淆矩阵。这个过程表明,选择的训练样本用于训练分类器,测试样本用于评估。以这种方式,该过程在每次迭代时将每个子折叠视为测试样本,这导致10个混淆矩阵,即10倍。所有10个混淆矩阵的平均值被认为是在这项工作中用于评估的最终混淆矩阵。RCR=MG(18)4.1. 评估拟议的分类该方法包括三个关键步骤,即提取基于空间/角度的几何特征和基于分数熵的纹理特征,用于分类家庭和非家庭图像。为了评估每个关键步骤的贡献,我们分别对我们的数据集和基准数据集进行了实验,以计算平均分类率。表2中报告的结果表明,与我们的数据集和基准数据集的单个特征相比,组合的空间+从表2还注意到,对于两个数据集,基于角度的特征的ACR优于空间,但低于空间+角度。这表明基于角度的特征优于基于空间的特征,并且组合优于两个单独的特征。这是可以理解的,因为空间结构本身不足以处理复杂背景的问题,因为它仅提取8个特征。然而,改善略有不同。因此,我们可以得出结论,空间和基于角度的功能同样有助于实现最佳结果。在这项工作中,我们提取了基于分数熵的纹理特征的整个图像,其中包括面部区域和背景信息。我们进行了仅针对面部区域(FEF)、背景(FEB)和整个图像(FEW)计算分类率的实验,以分别识别面部区域和背景信息的有效性。注意事项:通过面部点检测检测到的面部区域被认为是前景,并且该区域的其余部分被认为是用于实验的背景。表3中报告了我们的数据集和基准数据集的FEF、FEB和FEW结果。从表3中观察到,对于两个数据集,与FEB相比,FEF在ACR处是最好的。这表明,与背景相比,面部区域贡献更多。这是合理的,因为有时家庭和非家庭照片可能共享背景的属性。从表3中基准数据集的FEB结果可以明显看出,其中大多数家族图像被错误分类为非家族图像。这表明家庭图像的背景特征与非家庭图像的背景特征重叠。然而,与FEW相比,单独的面部区域不足以实现最佳ACR。因此,我们可以得出结论,前景和背景的特征对于实现最佳分类结果很重要。从表2和表3中注意到,空间+角度和FEW是与我们的数据集和用于家庭和非家庭图像分类的基准数据集上的单个特征相比,为了确定最佳组合,我们对以下组合进行了实验:Spatial+ FEF,Spatial+ FEB,空间+FEW,如表4所示,角度+FEF,角度+FEB和角度+FEW,如表5所示。当我们看对于我们的数据集和基准数据集,表4和5中的所有组合,空间+FEW和角度+ 它是合理的,因为空间+FEW和角度+FEW包括面部区域和背景信息的特征。因此,为了获得最佳结果,我们提出了空间+FEW和角度+FEW的组合,这是所提出的方法,表6中报告了我们的数据集和基准数据集的结果。当我们将Spatial+ FEW和Angle+ FEW的ACR与所提出的方法(Spatial+ Angle+ FEW)的结果进行比较时,针对我们的数据集的相应三个实验的ACR几乎相同。这是因为所提出的方法已经基于我们的数据集进行了改进。然而,当我们在基准数据集上比较Spatial+FEW、Angle+FEW和所提出的方法的ACR时,与Spatial+ FEW和Angle+ FEW相比,所提出的方法因此,我们可以得出结论,该方法能够处理复杂的数据集。从所提出的方法在我们的数据集和表6中报告的基准数据集上的ACR观察到,与我们的数据集相比,所提出的方法在基准数据集上得分很高。原因是我们的数据集包括不同
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功