照明条件对CNN训练下的年龄预测结果的影响

87 浏览量更新于2024-01-09 收藏 716KB PDF 举报

CNN训练

训练数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 6（2020）195www.elsevier.com/locate/icteCNN训练用于照明条件下的年龄组预测张敬臣（博士）Kang，Hansol Kang，Hyeokchan Kwon韩国大田忠南国立大学计算机科学与工程系接收日期：2020年2月24日;接收日期：2020年4月5日;接受日期：2020年5月6日2020年5月12日在线提供摘要使用给定训练数据集训练的CNN模型通常在没有添加照明的测试中显示出良好的准确性。在在本文中，我们表明，年龄组预测在一个增加的照明条件下的准确性显着下降的结果。我们的测试是在办公室照明条件下通过相机拍摄的彩色打印测试照片上进行的。我们还展示了应用几种可能的训练选项来缓解精度下降的结果，例如使用灰度或RGB图像，图像对比度和亮度抖动的严重程度，以及训练数据的增强c2020年韩国通信与信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：年龄组预测; CNN训练;附加光照条件1. 介绍使用给定的训练照片数据集训练的CNN（卷积神经网络）模型的测试通常在没有添加照明的情况下对给定的照片测试数据集文件进行测试时显示出良好的准确性。由于训练数据集是在各种光照条件下获得的，因此测试似乎必须在任何光照条件下都能产生良好的结果。然而，在不同的或增加的照明条件下进行测试会导致准确度显著下降，这似乎是很自然的。不同的或添加的照明条件包括测试涉及相机的真实世界照明环境。模拟这种环境而不改变测试数据集的一种方法是在照明条件下对用相机捕获的彩色打印照片测试数据集进行测试。我们对著名的具有挑战性的数据集Adience[1]进行了年龄组预测测试，用于性别和年龄组预测。最近，Adience数据集的精确年龄组预测准确度似乎增加了60%[2]。VGG1- 16 [3]用IMDB2-Wiki初始化[4]，∗ 通讯作者。电子邮件地址：sun@cnu.ac.kr（K.Jhang），gksthf3178@naver.com（H.Kang），gurcksdl351@gmail.com（H.Kwon）。1 牛津大学视觉几何组2 互联网电影数据库同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2020.05.001使用适当的面部对齐方案，显示出超过62%（95%）的精确（1-off）准确度[5]。我们对打印的测试数据照片进行的测试显示，准确率约为40%，即约20%的下降。这一结果可能来自不同的反射率、照明和相机属性[6]。希望本文能对这一问题有所启发。据我们所知，似乎还没有提出的论文处理精度下降所造成的增加照明到目前为止。在第3节中，我们展示了在这样一个附加的照明条件下，测试中的精度下降是如何发生的。通过可视化方案，我们证明了与受增加的照明影响的火车照片相对应的特征点偏离相应的年龄组。此外，我们还展示了应用训练相关选项的结果，这些选项用于降低精度下降，例如使用灰度或RGB图像，图像对比度和亮度抖动的严重程度，以及训练数据的增强。在第2节中，我们简要介绍了我们实验中使用的resnet50 [7]。在最后一节中，我们总结了本文的一些可能的未来工作。2. ResNet502.1. Resnet的一般结构随着CNN层的深入，训练和测试过程中的误差会变得相当大。作为解决这个问题的一种方法，他们建议剩余的2405-9595/2020韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。196K. Jhang，H.Kang和H.Kwon/ICT Express 6（2020）195××图1.一、剩余网络的构建块。图二. 在办公室照明条件下拍摄试验/列车数据照片的设置。表1Resnet结构和复杂性。来源：摘自[6]。普通res50 res101Block2 【1× 1（64）、3× 3（64）、1×1（256）】×3 ×3区块3 [1× 1（128），3× 3（128），1× 1（512）]×4 ×4区块4 【1× 1（256）、3×3（256）、1 × 1（1024）】×6 ×23区块5 【1× 1（512）、3×3（512）、1 × 1（2048）】×39×39浮点数3.8×107.6 × 10[7]如图所示的跳跃连接。1.一、当这样使用连接，可以解决由于加深CNN 层而引起的梯度消失问题。名称“resnet”后面的数字表示卷积层的数量。残差网络由5个连续的块组成，其中块1是7× 7卷积。filter和从'block2'到'block5'的后续块filters. resnet50和resnet101中这些块的结构和复杂性可以总结为表1所示。例如，我们可以看到resnet50的第二个块由三个子块组成，具有62个1× 1 conv。过滤器，643 ×3转化率过滤器，和256 1× 1 conv. filters.在第5块之后，通常使用全局平均池化层和全连接层进行分类。图3.第三章。图 1 的实验设置的使用。二、2.2. Resnet50用于年龄组预测与VGG 19 [3]相比，Resnet50具有相对较少的滤波器（3.8 109 FLOP）和良好的性能，19.6 109 FLOPS。我们选择resnet50进行实验，因为它具有相对较小的FLOP和较短的年龄组预测训练时间。此外，在论文[8]中，比较了代表性的深度学习架构，resnet 50具有相对较小的FLOP，但与resnet 101，resnet 152相似的性能，并且在1000个对象识别任务中比VGG-16和VGG-19的此外，我们将L2约束的softmax损失函数应用于resnet50 [9]，因为它与具有简单交叉熵损失的resnet 50相比提高了1%-2%的精度3. 实验在我们的年龄组预测中使用的数据集是Adience [1]。照片标有女性或男性及其年龄组。0-7岁年龄组分别对应于0-2岁、4-6岁、8-13岁、15-20岁、25-32岁、38-42岁、48-53岁和60岁以上的年龄范围。作为训练数据的照片总数超过1.2万张，作为测试数据的照片总数约为4千张。为了简化实验，我们只选择Adience数据集的五次交叉验证中的一次。实验的目的不是将平均准确率与其他方法进行比较，而是观察照明条件对训练和测试的影响。图 2是一种实验设置，用于获得后续实验的照明添加测试或训练数据。如图3所示，该过程可以被称为在办公室照明条件下（约600勒克斯），我们使用PC摄像机拍摄了彩色打印在A4纸上的列车和试验数据照片，如图2所示。这些照片是以垂直于片材的角度拍摄的，并且片材被放置成使得反射的影响尽可能小。此外，由于人脸检测算法有时会导致错误，并且照片的位置固定在A4纸上，因此未采用人脸检测算法。如图2、图片上印了六张照片右侧的A4纸直接用相机拍摄，并显示在左侧的PC显示器上。当拍摄的照片来自Adience测试（列车）数据时，它们将被保存并用作彩色打印的测试（列车）数据。K. Jhang，H.Kang和H.Kwon/ICT Express 6（2020）195197∼∼表2使用Adience测试数据集进行正态模型实验acc sd 1off sdgr-tagjgr-cj 60.08 0.34 91.44 0.19gr-cj2 61.71 0.38 92.32 0.16刚果民主共和国政府rgb-cj 60.93 0.33 93.64 0.19rgb-cj2 61.32 0.46 93.84 0.16图四、为实验生成了两种模型。对于年龄组预测实验，python2.7与pytorch版本1.0.1一起使用。resnet50的输入图像可能不同，但使用pytorch变换将其大小调整为（96，128）。交叉熵损失用于损失函数。权重衰减因子设置为0.0001，动量设置为0.9，学习率设置为0.001。学习resnet50模型从预训练的resnet50开始，并使用100多个epoch进行进一步的训练。我们生成两种模型，即正常模型和扩展模型，如图4所示。正常模型基于Adience原始训练数据集，但扩展模型基于Adience训练数据集，并使用彩色打印的训练数据集进行扩展。出于这个原因，以显示更少的精度下降，特别是当在测试中使用彩色打印的测试数据时。每一种都包括使用六种不同训练选项获得的六个模型，即两种图像类型（RGB（'rgb'）或灰度（'gr'））和对比度和亮度的三个抖动水平（'cj'，'cj'和'cj2'）的组合。缩写基于两种模型，我们进行了四个测试如图5、如果N意味着没有照明和我。光照和D.代表数据。每个测试结果将显示在相应的表格中。第一次和第二次测试是用正常模型完成的，即没有光照影响训练数据，而第三次和第四次测试是用扩展模型完成的，即照明影响的训练数据。第2次和第4次测试针对受照明影响的测试数据，即彩色打印的测试数据，而第1次和第3次测试针对无照明影响的测试数据，即原始Adience测试数据。第一个实验是使用Adience原始训练数据和测试数据，即没有光照影响的环境。实际上，这是通常文献[2，4，5]所假设的环境的图五、基于两种模型进行了四次测试。表3使用彩色打印的测试数据集进行正态模型的实验ACCSD1offSD格赖季39.550.0978.310.07GR-CJ45.530.1184.000.08gr-cj248.160.1086.270.06rgb-cnj39.990.0979.260.09RGB-CJ46.960.1086.680.08RGB-CJ246.650.0986.050.06影响设置。在表2中，“acc”（“1 off”）表示准确度（1-off准确度），“sd”表示20次测试获得的标准偏差。如表2所示，训练中使用的图像类型不会产生很大的差异。然而，使用RGB或灰度类型的图像以及对比度和亮度的抖动会导致显著的精度提高。使用训练选项“gr-cj 2”和“rgb-cj 2”获得的正常模型所实现的准确度当我们使用训练良好的分类器时，属于同一类的训练数据照片对应的特征点通常彼此靠近，并在n维空间中形成一组点。我们关心的是，看看受增加的照明影响的训练数据照片的特征点偏离相应的组有多少。对于这种可视化，我们形成了一个小数据集，其中每个类包含100多张以相同方式捕获的照片，图用摄像机拍摄一张彩色打印的同班级训练资料照片。我们利用t-SNE3 [10]来可视化受添加的照明影响的每个类别中的训练数据的偏差。表示原始训练数据照片的基点组以相同的深天蓝色着色，但具有不同的标记，如图6所示。为了使基本组更容易看到，我们用红线包围它们，并用红色的组号注释它们。受光照影响的特征点根据它们的组以不同的颜色和不同的标记着色。为了进一步说明，我们用蓝色线条包围它们，并用蓝色的组号注释它们。如图所示图6、光照影响照片的几乎每个特征点似乎都偏离或远离相应的基组位置。第一次测试的目的是检查六个培训选项示于图 4在无光照条件下也能提高精度198K. Jhang，H.Kang和H.Kwon/ICT Express 6（2020）195见图6。特征点（由正常模型生成）与相应基本组的偏差的t-SNE可视化。(For解释在该图图例中对颜色的引用，读者可以参考这篇文章的WEB版本）。见图7。特征点（由扩展模型生成）与相应基本组的偏差的t-SNE可视化。表4使用Adience测试数据集进行扩展模型的实验ACCSD1offSD格赖季58.20.4488.460.29GR-CJ60.740.3889.460.24gr-cj261.520.3289.90.18rgb-cnj58.10.3889.340.2RGB-CJ61.510.2392.050.24RGB-CJ261.820.3291.780.2如果我们使用扩展的模型，偏差将被减轻。图7示出了基于扩展模型的特征点的偏差的可视化。图中的偏差。 7并不严重。用于图1和图2的模型训练的训练选项。6和7是第二次测试是查看正常模型在受照明影响的测试数据（即彩色打印的测试数据）上的准确度下降。彩色打印的测试数据是从Adience测试数据集中为每个年龄组随机选择的72张如表3所示，与第一次使用不受光照影响的测试数据集进行测试相比，年龄组预测准确率下降了约20%。无论选择何种图像类型，精度下降都类似，如图所示在“gr-bj”和“rgb-bj”中。然而，使用对比度和亮度抖动的图像带来了5%-8%的精度提高相比，'cnjj'的情况。使用灰度图像表5使用彩色打印的测试数据集进行扩展模型的实验ACCSD1offSD格赖季44.440.181.760.08GR-CJ49.030.1185.220.06gr-cj248.360.0985.410.05rgb-cnj40.760.0880.770.08RGB-CJ46.240.0984.680.07RGB-CJ246.930.1185.920.07与“cj2”选项一起导致最好的精度，即最小的精度下降。然而，它远远低于通常的准确度60%。这表明了考虑实际测试光照条件的训练模型的必要性。另一个可能的训练选项是增加更多受光照影响的训练数据，从而扩展模型。扩展模型是通过添加摄像机捕获的每个年龄组的彩色打印的120张训练数据照片来获得的。第三个测试是看看扩展模型是否可以保持准确性，尽管增加了光照影响的训练数据。表4显示了扩展模型与原始测试数据集的实验结果正常模型和扩展模型在Adience测试数据集上显示出相似的准确性，无论是否添加训练数据，如表2和表4所示。然而，就一次性准确度而言，正常模型更好。第四个也是最后一个测试是看看与正常模型相比，扩展模型是否可以在受光照影响的测试数据上获得更好的准确性。表5显示了扩展模型在彩色打印测试数据上获得的精度。我们可以比较表3中的正态模型和表5中的扩展模型的精度。使用“gr-mjj”选项训练的扩展44.44比相应的正常模型。此外，灰度图像上的抖动这表明了扩展模型的有效性。总体而言，扩展模型（'gr-cj'和'gr-cj 2'）显示出更好的准确性提高，特别是在灰度图像上使用抖动选项训练的模型中。虽然由于每个年龄组仅添加了120张照片，因此与正常模型相比的准确性提高似乎很小，但在类似的测试照明条件下拍摄的完整训练照片数据的添加预计会大幅提高准确Adience数据集中男性和女性的照片数量是平衡的，但年龄组之间的照片数量并不平衡。特别是年龄组4，即年龄范围25-32，占训练集中总照片的约1/4。我们需要确保分类器不会通过检查混淆标记将所有预测分类到年龄组4。表5显示了表2中“gr-cj 2”选项的正态模型的混淆矩阵在表6中，T0-T7表示真实年龄组0-7，P0-P7表示对年龄组0-7的预测。例如，将真实年龄组0预测为组0（1）的概率为0.76（0.22）。因此，每列的和总是1。如表6所示，对年龄组4的预测集中不会发生。K. Jhang，H.Kang和H.Kwon/ICT Express 6（2020）195199表6表2的模型“gr-cj 2”的混淆矩阵T0T1T2T3T4T5T6T7P00.760.120000.0100P10.220.690.040.010.0100.010.01P20.010.180.690.110.050.0100.01P300.010.170.310.110.070.040.03P4000.10.530.650.350.160.01P50000.020.160.450.430.12P60000.020.020.080.260.26P700000.010.040.10.564. 总结和今后的工作我们生成了两种用于年龄组预测的CNN模型。一种是不考虑光照添加的普通模型，而另一种是基于添加光照影响的训练数据（即彩色打印的训练数据）的扩展模型。正如我们所预期的那样，扩展模型在光照影响的测试数据集上的测试精度下降比正常模型要小。每种模型都包括使用六种训练选项训练的模型，即两种图像类型（RGB和灰度）和图像上的对比度和亮度的三种抖动水平（无抖动，抖动，更严重的抖动）的组合。在大多数情况下，抖动似乎有助于改善精度下降相比，没有抖动的情况下，在两种模型。我们观察到，抖动显然有助于提高测试的准确性，即使是在Adience原始测试数据上。在RGB和灰度之间选择训练图像类型通常在准确性提高方面表现出很小的差异。然而，灰度训练图像的选择结合训练图像上的抖动选项显示出比相应的RGB选项的选择更好的准确性，特别是在扩展模型中。即使在每个年龄组添加彩色打印的120张照片训练的扩展模型中，准确性的提高似乎很小，但随着受测试照明条件影响的完整训练数据照片需要进一步研究如何自动生成与测试光照条件下拍摄的效果相同的训练数据照片。另一个研究主题是寻找或选择合适的光照不变特征，希望和有效地用于减少精度下降。CRediT作者贡献声明张国胜：写作-初稿，概念化，方法论，软件，调查，可视化。Hansol Kang：数据管理。Hyeokchan Kwon：数据固化。竞合利益作者声明，他们没有已知的可能影响本文所报告工作引用[1] E.艾丁格河Enbar，T. Hassner，未过滤人脸的年龄和性别估计，IEEE Trans.Inf.Forensics Secur。9（12）（2014）2170 - 2179，www.example.com。[2] S. Hosseini，N.I. Cho，GF-CapsNet：使用gabor jet和capsule网络进行面部年龄，性别和表情识别，见：Proceedings -14 th IEEEInternationalConferenceonAutomaticFaceandGestureRecognition，FG2019，2019，http://dx.doi.org/10.1109/FG.2019.8756552。[3] K. Simonyan，A. Zisserman，Very deep convolutional networks forlarge-scale image recognition ， 2014 ， [Online] 。可查阅： http ：//arxiv。org/abs/1409.1556。[4] R.罗特河赫夫特湖Van Gool，DEX：从单个图像中对表观年龄的深度预期，在：Proc. IEEE Int. Conf. Comput 。可见， vol. 2015-Febru，2015，pp. 252http://dx.doi.org/10.1109/[5] W.萨梅克A. Binder，S. Lapuschkin，K.R. Muller，理解和比较用于年龄和性别分类的深度神经网络，在：Proceedings - 2017 IEEEInternational Conference on Computer Vision Workshops，vol. 2018-January，ICCVW2017，2017，pp.1629http://dx.doi.org/10.1109/ICCVW.2017.191[6] G.D. Finlayson，计算机视觉中的颜色和照明，Interface Focus 8（4）（2018）http://dx.doi.org/10.1098/rsfs.2018.0008。[7] K.他，X。Zhang，S. Ren，J. Sun，Deep residual learning for imagerecognition ， in ： Proceedings of the IEEE Computer SocietyConference on Computer Vision and Pattern Recognition，vol. 2016-December，2016，pp. 770http://dx.doi.org/10.1109/CVPR.2016.90[8] S.比安科河卡代内湖，澳-地Celona，P. Napoletano，代表性深度神经网络架构的基准分析， IEEE Ac-cess 6 （ 2018 ） 64270http://dx.doi.org/10.1109/ACCESS.2018。2877890[9] R.兰詹角卡斯蒂略河Chellappa，L2约束softmax损失识别人脸验证，2017，[在线]。可用：http：//arxiv.org/abs/1703.09507网站。（访问日期：2020年2月19日）[10] 杨文，张文，等. 马赫学习. Res. 9（2008）2579

下载后可阅读完整内容，剩余1页未读，立即下载