基于迁移学习和数据增强的口罩分类视觉转换器

89 浏览量更新于2023-12-10 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用17（2023）200186使用具有迁移学习和数据增强的亨泽尔·DJahja，Novanto Yudistira信息学系，计算机科学学院，Brawijaya大学，Jalan Veteran 8，Malang，65145，Malang，IndonesiaA R T I C L E I N F O A B S T R A C T保留字：掩膜分类视觉转换器转移学习数据增强COVID-19疫情扰乱了社会的各个层面。口罩的使用对于预防通过识别使用口罩的人的图像来防止COVID-19的传播。虽然只有23.1%的人正确使用掩码，人工神经网络（ANN）可以帮助分类使用好的掩码，以帮助减缓新型冠状病毒的传播然而，它需要一个大的数据集来训练一个人工神经网络，正确使用口罩。MaskedFace-Net是一个合适的数据集，由137016个数字图像组成，具有4个类别标签，即Mask，Mask Chin，Mask Mouth Chin和Mask Nose Mouth。Mask分类训练利用Vision Transformers（ViT）架构和迁移学习方法，使用ImageNet-21 k上的预训练权重，并进行随机增强。此外，20个时期的训练超参数，学习率为0.03的随机梯度下降（SGD）优化器，批量大小为64，高斯累积分布（GeLU）激活函数和交叉熵损失函数被应用于三种ViT架构的训练，即Base-16，Large-16和Huge-14。此外，进行了有和没有增强和迁移学习的比较。这项研究发现，最好的分类是使用ViT Huge-14的迁移学习和增强。在MaskedFace-Net数据集上使用该方法，研究在训练数据上达到了0.9601的准确率，在验证数据上达到了0.9412，在测试数据上达到了0.9534。这项研究表明，使用数据增强和迁移学习训练ViT模型可以改善掩码使用的分类，甚至比基于卷积的残差网络（ResNet）更好1. 介绍于COVID-19疫情期间，经济、医疗资源及各类行业扰乱了受影响社区的健康及发展。在COVID-19首次出现时，受感染最严重的两个国家（中国和韩国）建议使用口罩来减少冠状病毒2（SARS-CoV-2）的传播（Feng et al.，2020年）。在冠状病毒2首次出现时，口罩的使用在几个国家都存在争议。然而，先前对呼吸道疾病（如H1N1）的研究表明，使用口罩可以显著减少病毒的传播（Cowling et al.，2010年）。此外，还研究了冠状病毒2的传播表明，戴全面罩可以延迟流感的传播（Brienen等， 2010年）。使用口罩的人可以减少病毒传播，但如果口罩使用不当，可能会增加冠状病毒2型传播的风险（世界卫生组织通讯作者。电子邮件地址：yudistira@ub.ac.id（N. Yudistira）。https://doi.org/10.1016/j.iswa.2023.200186组织，2020年）。然而，在日本社会中进行的一项研究中，只有23.1%的人正确使用口罩（Machida等人，2020年）。因此，对口罩使用的监督是必要的，因为实施强制性口罩规定的地区已经看到感染冠状病毒2的病例减少（Van Dyke等人，2020年）。人工神经网络（ANN）可以通过图像识别来帮助分类掩模的使用，方法是通过反复处理图像层来学习各种图像的提取特征。ANN将随着数据集的大小和唯一性而递增地提供最佳性能（Shahinfar等人，2020年）。通过一些研究，我们发现Masked Face-Net数据集（Cabani等人，2021年）是本研究的最佳选择。它由137016张使用面具的数字图像组成，有4个类别标签：面具，面具下巴，面具嘴巴下巴和面具鼻子嘴巴。与Wang等人使用的数据集相比。（2020）Masked Face DetectionDataset（MFDD）仅由24771张蒙面人脸图像组成，而真实世界的蒙面人脸识别接收日期：2022年4月14日;接收日期：2022年11月25日;接受日期：2023年1月14日2023年1月20日在线提供2667-3053/© 2023作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applications*H.D. Jahja，N.尤迪斯拉和苏特里斯诺智能系统与应用17（2023）2001862（RMFRD）仅由95000张图片组成，但Masked Face-net具有更大范围的年龄、种族和民族变化，因为它是从Flickr-Faces-HQ数据集收集的（Karras等人，2018年）。自从发表了关于应用于文档识别的基于一致性的学习的论文（Lecunet al.，1998年），卷积神经网络（CNN）已经成为图像识别的标准。从那时起，已经发表了各种论文，以击败诸如ImageNet（Deng et al.，2009年）。几乎所有最先进的论文都是基于卷积神经网络的主干，例如Inception （ Szegedy et al. ， 2014 ）、 VGG （ Simonyan Zisserman ，2015）、ResNet（He等人，2015年）和最新的E cncientNet（谭乐，2019年），它击败了所有以前的CNN架构。多年来，图像识别的趋势一直在训练中使用的层上更深入（Alzubaidi等人，2021年），这意味着它需要更多的计算资源，从而导致在有限的资源下人工神经网络研究的效率低下。Yudistira进行的另一项研究等人（2020）表明，人工神经网络中的层数越多，将对列车产生影响时间。这将不利地影响计算时间的效率特别是对于大数据集处理。然而， Vision Transformer （ ViT ）（Dosovitskiy等人，2020），另一个已被证明更快的模型架构在性能上与E EscientNet相当，而计算速度快5倍。ViT使用纸张中使用的注意力机制来工作注意力就是你所需要的一切（Vaswani等人，2017），将嵌入的图像的小块标记定位到注意力机制，然后通过多层感知器层对每个类进行分类。如果我们从头开始训练，训练ANN可能会很复杂。一种可以应用的方法是使用迁移学习。迁移学习使用ANN权重，这些权重之前已经在较大的数据集上进行了训练，并在看不见的数据集上进行了微调。与从头开始创建的模型相比，使用该方法提高了准确性（Barman等人，（3月）。用于迁移学习的预训练权重的基准通常基于最先进的数据集，诸如ImageNet21k（Deng等人，2009年）。ImageNet21k包含超过1400万张图片和2.1万个类别。大量的图像和类别将有助于在训练过程中快速启动可学习的ANN参数，并以极大的准确性开始。ANN性能随着所用数据集的大小而同时提高在训练中（Alom等人，2019年）。此外，数据扩充通过修改表单有助于提高数据集的准确性和质量在插入到模型架构中此外─此外，它还提高了深度神经网络（DNN）的性能，从而提高了模型的泛化能力（Wang Perez，2016）。由于佩戴口罩是限制COVID-19传播的重要解决方案，因此需要为识别任务提出鲁棒模型。在这种情况下，模型应该识别戴面具和不戴面具的人而且，人们戴口罩的方式也各不相同，能否正确佩戴。为了实现这一目标，应该利用人们如何佩戴口罩的大型数据集来训练一个强大的在文献中可获得一些大的掩蔽数据集，如MAasked FAces数据集（MAFA）（Ge等人，2017）、真实世界的面具人脸数据集（RMFD 2）和模拟面具人脸识别数据集（SMFRD）（Wang et al.，2020年）。然而，需要未佩戴或充分佩戴的数据集来解决正确佩戴面罩的问题。教育人们正确佩戴口罩将在社交时增加社会在这项研究中，我们利用了137，016张戴口罩的人的图像的大型数据集，其中有四个口罩使用类别。这些类别包括只覆盖下巴，鼻子和嘴，嘴和下巴的脸，鼻子，嘴和下巴（适当被称为MaskedFace-Net。它有更多的图像和类别，这比以前的数据集更具挑战性。此外，该数据集包含高分辨率的人脸，其地标是通过Haar特征的关键点检测器检测的。利用这些关键点，使用单应性变换的面部到掩模映射生成四种类型的掩模使用。此外，由于大量训练样本和类的复杂性，经过训练的深度网络应该评估其鲁棒性和可解释性，这可以通过观察模型的注意力来进行调查，无论是视觉上的注意力面具或没有。因此，我们的贡献可以总结如下：1. 我们提出了一个视觉Transformer模型，用于大数据集上的四种类型的掩码使用识别。2. 我们证明了具有增强和迁移学习的Vision Transformer变体的性能优于基于CNN的模型，如ResNet。3. 我们表明，视觉上，视觉Transformer出席的掩模面积比其他地区使用GradCAM，这定性保证了性能。2. 相关作品已经进行了研究，对口罩进行分类，以便在 COVID-19大流行。优化口罩使用识别以防止病毒传播的解决方案是一个热门话题。几种冰毒-已经提出ODS来识别从手工制作到深度学习的特征的掩模使用。在少数数据体系中，手工制作的特征由于其健壮性和简单性而被广泛使用。进行实时检测。然而，在大数据体系中，手工制作的特征不如深度学习强大。以前，手工制作的功能使用传统的机器学习算法来学习戴口罩的使用模式。 Nieto-Rodríguez等人（2015年）的研究使用Viola-Jones特征和AdaBoost来检测手术室中的卫生工作者是否佩戴口罩。有一些尝试将机器学习和深度网络结合起来以提高性能，例如Vijitkunsawat和Chantngarm进行的研究（2020年），其中kNN，SVM和深度学习（MobileNet）是投资。门控Loey等人（2021a）提出了一种基于传统ML和DL方法的混合模型，用于人脸面具检测。该混合模型采用ResNet50模型进行特征提取，并使用它们来训练SVM、集成算法和决策树，以将图像分类为掩模和非掩模。后来，HybridFaceMaskNet模型（Bhattacharya等人，2021年）被提出来检测面罩。该模型基于深度学习、手工特征提取器和经典机器学习分类器。由于数据有限，应用深度学习（CNN）和手工特征提取（LBP、纹理Harlick特征和色调矩）技术来提取更鲁棒的特征。然后通过主成分分析（PCA）进行特征选择。最后，使用随机森林分类器完成分类。在深度学习机制中，Jignesh Chowstan等人（2020）在模拟面具的面具或非面具人问题人脸数据集（SMFD）。 Nagrath等人（2021）提出了检测SSDMNV 2和MobileNet骨干网的分类，以检测人脸并对掩蔽/未掩蔽的人脸进行分类。VGG-16的另一个主干被Militante和Dionisio（2020）用来检测口罩。在Bu et al.（2017）中，提出了一种由三个CNN模型组成的级联CNN框架，用于蒙面人脸检测。第一个CNN模型由第二个和第三个CNN模型各使用了七层。三个级联CNN的缺点是计算成本较高。Inamdar和Mehendale（2020）提出了一个名为Face-masknet的模型，用于识别三类口罩使用情况：无口罩、正确佩戴口罩和不正确佩戴口罩。然而，该模型仅使用35张图像进行训练，包括蒙面和非蒙面人脸。基于深度学习的识别可以潜在地实现高性能，这是由于诸如VGGFace2之类的大规模数据集的可用性（Cao等人，2018）和CASIA-Webface （ Yi et al. ， 2014 ），以及架构 DeepFace 的结构（Taigman等人，2014年）。然而，深度学习模型使用这些数据集从完全未覆盖的面部图像中学习特征。与传统的无掩蔽识别（Parkhi等人，2015年），蒙面面部识别是具有挑战性的，由于有限的未覆盖的面部暴露的可用性。在Ejaz et al. （2019年）、H.D. Jahja，N.尤迪斯拉和苏特里斯诺智能系统与应用17（2023）20018632Fig. 1. MaskedFace-Net示例。首先利用Google FaceNet网络对蒙片图像进行特征提取，然后利用支持向量机对候选人的人脸进行识别。他们使用了PCA技术，而Deng等人（2021）的工作使用了基于Facenet深度学习的技术来进行蒙面和非蒙面面部识别。据观察，性能下降了23%和4%至11%的范围内，分别为蒙面面部识别相比，未蒙面面部识别。基于Deng等人（2021），蒙面面部识别准确率平均为72%，而非蒙面人脸图像识别准确率平均是95%。此外，蒙面人脸识别的准确率最高，达到97%，而非蒙面人脸图像识别的准确率在86%到93%之间。在大流行前的时代，最大的障碍是蒙面人脸数据的限制。这证明了屏蔽数据集的可用性低于未屏蔽数据集，导致数据集不平衡。遮挡也被认为是人脸识别的问题之一。Tomás等人（2021年）题为“不正确的面罩-使用CNN和转移学习进行佩戴检测”的研究使用了具有13个类别的人群数据集。Ontinyent医院的一个护士小组进行了手动标记，得到了来自500名用户的3200张图像。为了帮助提高这个小数据集的性能，作者比较了多种方法，如数据增强和迁移学习。他们评估了多种架构的结果，如MobileNet（Howard等人，2017年），具有350万个参数的最小尺寸足迹，而VGG 16（Simonyan Zisserman，2015年）为1.344亿个参数。VGG16使用迁移学习和数据增强产生最佳精度0.834除了模型的大小可以产生更好的性能之外，迁移学习和数据增强的使用总是比没有的表现出更好Loey等人（2021 b）进行的另一项研究使用了真实世界的蒙面人脸数据集（RMFD）（Wang等人，2020年），其中包括5000个面具和90000个未面具的脸的真实世界面具使用相似的脸。Labeled Faces in theWild（LFW）（Kawulok et al.，2016年），其中包括13000模拟蒙面的脸。此外，他们提出了使用混合深度迁移学习模型，使用ResNet50（Heet al.，2015）作为特征提取器。最后，使用支持向量机（CristianiniRicci，2008）和决策树（Breiman等人，1984）形成集成学习（ZhangMa，2012），在RMFD数据集上的测试准确率为99.46%，在LFW数据集上的测试准确率为100%博生和李（2020）题为“使用图像超分辨率和分类网络识别口罩佩戴状况以预防COVID-19”的研究这项研究启发了我们利用迁移学习的工作。另一篇论文制作了一个注释数据集（Loey等人，2021 c），该数据集由853张图像组成，属于3个类别的口罩，没有口罩，口罩佩戴不当。通过使用YOLOv2，这产生了81%的更精确的结果（Redmon等人，2015）和ResNet（He等人，2015）特征提取。Li等人（2012）的研究得出结论，使用注释图像进行概率模型训练的效果应该优于未注释图像。然而，所需的数量--在深度学习研究中，注释图像的误码率很难找到和验证。我们提到的相关工作激励我们将迁移学习和数据增强应用于这项研究，同时使用更大的数据集MaskedFace-Net，这应该会产生更好的性能，并且是第一个这样做3. 方法和解决方案3.1. 数据集我们在前一章中引用的相关工作表明，我们需要大的分辨率和数据集来实现更好的精度，图像的唯一性，并在现实世界的应用中表现得更好我们在这项研究中使用的数据是MaskedFace-Net（Cabani等人，2021年），其中包括4个类别的面具，面具下巴，面具鼻子嘴，面具嘴下巴。该数据集的总数为137016张图像，尺寸为1024 × 1024像素。该数据集是广泛稀疏和非偏见的一个类别，因此我们相信这是最合适的数据集用于本研究。数据集基于闪烁（Karras等人，2018年），通常用于图像生成中生成对抗网络（GAN）的训练数据。此外，MaskedFace-Net的作者使用面部地标检测来检测面部特征，并使用 mask-to-face 映射来在面部上添加面具。图 1 显示来自MaskedFace-Net的样本从左到右，我们在第一列中的面具下巴类别仅覆盖面部的下巴部分;面具鼻子嘴巴，面具使用仅覆盖鼻子和嘴巴;面具嘴巴下巴，覆盖面部的嘴巴和下巴;面具类别，面具使用覆盖鼻子，嘴巴和下巴;。虽然它仅由四个类别组成，但数据集详细、大、稀疏，因此能够用于各种GAN（Karras等人，2018年）。3.2. 视觉转换器Transformer于2017年由Vaswani等人（2017年）在名为Atten- tionIs All You的期刊中引入，以克服递归神经网络（RNN）（Hop field，1982）和长短期记忆（LSTM）（Hochreiter Schmidhuber，1997）模型中的问题。然而，在自然语言处理（NLP）的情况下，这两种模型都存在损失梯度和长训练时间的问题。多年来，图像分类任务一直使用CNN（Lecun et al.，1998年）建筑的支柱。然而，在Dosovitskiy et al.（2020）的论文中，人们发现变形金刚可以用于图像分类研究，计算时间比最新的最先进的卷积架构快五倍，同时保持准确性。ViT不是以前介绍的通常的图像分类架构。图2显示了ViT模型的概述。图像被分割成几个部分的基础上的补丁，已宣布通过分割二维数字图像的过程后的数量。需要将二维数字图像转换为一维矢量。��∈H.D. Jahja，N.尤迪斯拉和苏特里斯诺智能系统与应用17（2023）2001864（）2√图二. ViT模型概述。当量（1）是用于将2维图像改变为1维向量的公式，其中H、W是图像的分辨率，并且C是频道数。然后，它将被转换为一个��闪烁，其中e��是补丁的数量，d��=��闪烁��2。之后，嵌入结果将通过transformers编码器。ViT en-编码器的行为就像编码器机制。我们在 Attention is All You Need（Vaswani et al.，2017年），因为它需要嵌入式输入。然后，通过层归一化对其进行处理（Ba等人，2016），它使用神经元在小批量训练案例中的求和输入分布。均值和方差，然后用于规范化的总和输入，提供了一个巨大的时间优势相比，批量规范化。需要多头自注意力来捕捉图像��(��,��,��)=��(��)��(2)��当量（2）显示了注意力的等式，其中，k是查询或来自嵌入的纯输入值，k是输入的置换，并且k是使用softmax激活的k和k的缩放点积。多头注意包含多个自我注意的串联。图三. 多头注意��(��,��,��)=��(��1,...,��)��（三）如图所示，Eq。（3）人头数目将乘以人头数的价值。这给了变压器编码器最好的特征提取参加的重要部分。与我们在第2节中看到的其他作品不同，大多数特征提取都使用ResNet（He et al.，2015）特征提取器以获得图像的最关键部分。然而，对变压器编码器的自我关注（Dosovitskiy等人，2020年）将得到足够好的结果，而无需另一个特征提取。的transformers编码器的最后一层是一个简单的多层感知器，每个输出都基于我们在数据集中定义的类别，在我们的例子中是四个，利用GeLU激活多层感知器（Hendrycks Gimpel，2016）。然后，我们研究了Transformer模型中的多头注意力结构（图3）。首先，为了计算注意力，我们将Q与K进行比较，以获得V的权重。计算多头注意力的整个过程如下;首先，我们将V，K和Q分开，然后将它们中的每一个转换为密集连接的层- ers（线性）。接下来，我们通过在对重新加权的V求和之前对V重新加权来计算注意力权重。缩放点积注意力的过程执行这些注意力并对V重新加权。最后，连接在一起的Attention头被送入另一个密集连接的层。3.3. 数据增强当使用较大的数据集时，ANN的分类结果变得更好（Shahinfar等人，因为ANN从数字图像中的每个像素中学习。此外，它还可以利用数据增强过程来丰富数据。数据增强是一个使用数字图像处理的过程，它以这样一种方式改变图像，从而将这些数字图像转换为一种新的数字图像形式（Wang&Perez，2016）。Rahadika等人（2021年）的论文中也可以看到数据增强的好处，该论文表明，使用增强对人工神经网络的训练结果有影响，因为数据增强有助于人工神经网络识别各种模式，因此与没有数据增强的情况相比，数据增强显示出更高的准确性和更低的损失值。在数据增强方法中有很多研究来提高ANN的性能。最新的技术状态是AutoAugment（Cubuk等人，2018年），其在批次上应用随机选择的增强的图像。AutoAugment的工作原理是使用搜索算法控制递归神经网络，对数据进行采样和，并使用最佳结果搜索操作的概率。AutoAugment的缺点是这个过程需要很长时间，特别是在大数据集上。存在RandAugment（Cubuk等人，2019）的解决方案，该解决方案消除了对相位中的最佳增强的搜索，使得计算过程快速。通过消除基地的搜索空间H.D. Jahja，N.尤迪斯拉和苏特里斯诺智能系统与应用17（2023）2001865RandAugment算法通过对最佳结果进行分类，并在整个数据集上使用随机分布的应用程序扩增，将搜索空间从1032减少到102。虽然它比AutoAugment快得多，但RandAugment产生的准确性结果与最新的最先进技术相同，并且它不会线性增加搜索空间到数据集大小。3.4. 迁移学习如果在对其他数据集进行微调之前已经使用多个数据集对ViT架构进行了训练，则ViT架构工作得最好（Doso-vitskiy等人，2020年）。使用每个神经元上的预训练权重训练架构并将其调整到另一个数据集的过程称为迁移学习。如果在迁移学习过程中使用的数据集具有相似性，无论是从类别，数字图像类型还是数字图像分辨率，迁移学习都能很好地工作。然而，迁移学习成功的最重要因素是数据的数量和多样性（Weiss等人， 2016 年）。因此，本研究将使用在 ImageNet 上训练过的Transformer视觉架构（Deng等人，2009）数据集，该数据集是包含根据WordNet层次结构的14197122个注释图像的数据集（Russakovsky等人，2015年）。3.5. 加权类别激活映射（grad-cam）多年来，人工神经网络的每一个应用都依赖于人类的专业知识。然而，人工智能的可解释性和可理解性需要部署在现实世界的领域，因为用户需要了解系统的工作原理。因此，可以对其进行充分的测试和参考（Yampolskiy，2019）。Selvaraju et al.（2016）提出了一种使ANN更易于解释的技术。使用ANN的每个训练过程都需要一个梯度来计算更新权重。加权类激活映射使用该获取的梯度通过突出显示最后一层卷积块上的图像的关键区域来产生粗略的定位图。ViT的工作方式不同，因为该架构不使用任何卷积块。相反，我们将处理注意力块的最后一层，这一层不是由标记添加所影响的表1ViT变体。模型补丁层隐藏大小MLP大小头Num.关于ParamsViT Base 16161276830721286毫米ViT Large 16162410244096163.07亿ViT Huge 1414321280512016632 Mil.表2不同ViT尺寸的准确性模型列车确认测试ViT Base 16 0.772179 0.773756 0.818045ViT大号16 0.717461 0.749623 0.766917ViT巨大140.805519 0.816742 0.934586学习，在ImageNet21K上训练的预训练权重（Deng等人，2009），并且在训练期间利用RandAugment的增强方法2019年）。整个实验中使用的硬件规格为RTX 8000、Intel（R）Xeon（R）Gold 6230 R、RAM 255 GiB。4. 实验结果4.1. 比较ViTViT的变体可以在表1中看到，ViT Base 16由16X 16个补丁，12层transformers编码器，768个隐藏大小，transformers编码器中的3072个多层感知器，12个注意力头和8600万个参数组成。ViT Large 16由16×16贴片，24层变压器编码器，1024个隐藏大小，变压器编码器中的4096个多层感知器，16个attentionhead，以及3.07亿个参数的总和。ViT Huge 14由14X 14贴片，32层变压器编码器，1280个隐藏大小，变压器编码器中的5120个多层感知器，16个注意力头，以及6.32亿个参数组成。我们将讨论架构大小对训练、验证和测试数据准确性的影响。表2示出了来自20个时期的训练结果��（）并且对于每个体系结构将采用最高的准确度值的��（1∑∑��（四）结果表明，ViT Huge 14对所有数据集产生最佳结果��⋅��=1��当量（4）显示了计算（��）的方法，其中为��零件，在测试集上具有令人印象深刻的0.93精度。同时，大型变压器16在这三个变压器中性能最差图像和宽度表示图像的宽度。��需要进行此计算，以根据所选层梯度对矩阵X尽管ViT Base 16的尺寸参数是ViT Base 16的三倍多，ViT架构培训和验证阶段的结果，��（（，）=（��∑（）（，））（5）��在图中可以看到时间四、它表明，最高的准确性是��−��由ViT Huge 14架构在20毫秒的时间点获得，精度为0.805519。与其他地区相比，当量（5）乘以通道式Eq.（4）对其活化前进行总结。最后，ReLU（Agarap，2018）激活，它将返回 0，则使用小于0的值。此激活将消除不必要的梯度，以便仅关注图像上梯度映射的最重要部分。3.6. 模型训练ViT架构有多种配置。在训练中将设置恒定的超参数，以防止每个配置的测试结果出现偏倚。在本研究中，我们将保留Dosovitskiy等人（2020）在原始ViT研究中使用的相同设置。用于微调的超参数是批量大小64，学习率0.03，epoch 20，交叉熵的损失函数（Zhang Sabuncu，2018 ），优化器 Stochastic Gradient Descent 和 GeLU （ HendrycksGimpel，2016）激活。对于这项研究，我们从MaskedFaceNet的整个数据集中分别分离了80%，10%和10%大小的训练，验证和测试数据集（Cabani等人，2021年）。转让在14000历元时获得的精度为0.772179的ViT Base 16。��最后，在19毫秒历元获得了0.717461的ViT Large 16的精度。每个ViT体系结构的验证结果与培训结果差异不大。在这种情况下，ViT Huge 14在19��毫秒时获得了最高的精度，精度为0.816742。这高于ViT Base 16架构的0.773756（在13 毫秒时获得）和ViT Large 16架构的0.749623（在20 毫秒时获得）。对测试数据的评估结果表明，ViT Huge 14架构的准确性非常高，与其他ViT架构的0.934586相比。4.2. 提高精度的效果随机增强策略将用于考虑以前工作结果的训练和验证数据集。将使用ViT Huge 14架构，因为该架构在训练、验证和测试集方面具有最佳准确性，从而避免过度拟合。H.D. Jahja，N.尤迪斯拉和苏特里斯诺智能系统与应用17（2023）2001866表3在ViT Huge 14上增强的效果图四、20个时期内不同ViT的准确性。非增强数据集产生与训练数据集相同的结果。我们的结论是，在训练上的增强收敛得比模型列车确认测试增强0.816821 0.821267 0.934586未增加在这个测试中，我们将比较使用和不使用增强的结果，在训练数据上使用我们在第3.6小节中定义的相同设置。从增强和非增强数据的准确度的结果可以看出，在表3中，利用具有增强的数据集获得了更高的准确度，训练数据的值为0.816821，验证数据的值为0.82167，与之相比，没有增强的数据集的训练数据的值为0.805519，验证数据的值为0.816742。在试验数据中获得了可比较的精度，其为0.934586。这表明使用增强处理的原始数据具有相当的性能。所有集合上的增强结果比没有增强的情况下产生更好的准确性。图5示出了应用于ViT训练的增强的逐时期准确度。它表明，那些增强的ViT在13次迭代，与没有增强的训练相比，最好的结果在20秒的时间。对增强和没有增强。4.3. 迁移学习方法为了评估预训练权重的效果，我们比较了使用预训练权重和不使用预训练权重的结果。在本小节中，我们将使用在ViT Huge 14架构上使用ImageNet21K数据集训练的预训练权重，以及已增强的训练和验证数据集。在测试数据集上，比较了使用预训练权重和不使用预先训练的权重的情况在表4中呈现。它表明，在所有20个训练过的时间段中，它的准确率最高。发现使用预训练的权重得到了更高的结果，训练数据的准确度为0.960068，验证数据为0.941176，测试数据为0.953383，而不使用预训练的权重，训练数据的准确度为0.816821，验证数据为0.82167，测试数据为0.934586。图6示出了训练和验证阶段的逐个时期。它表明，与不使用预训练权重相比，使用预训练权重的模型以更好的准确性开始训练从13世纪开始，由于梯度损失，精度有相当大的下降这在模型中并没有发生H.D. Jahja，N.尤迪斯拉和苏特里斯诺智能系统与应用17（2023）2001867表4迁移学习对ViT Huge 14的影响。图五. 增强对准确性的影响。Large 16架构在训练数据上产生最高精度值0.986909，验证数据为0.960030。然而，在这方面，带迁移学习的模型训练验证测试0.960068 0.941176 0.953383无迁移学习0.816821 0.821267 0.934586使用预先训练的权重。从这些结果中，我们可以得出结论，使用预训练的权重比不使用它要好得多4.4. 与基线的在对增强和预训练权重进行各种实验之后，可以看出，同时使用增强和预训练权重可以提高准确性并减少训练、验证和测试中的损失。因此，使用增强和预训练权重的实验将在所有现有架构上进行，并将残差网络架构作为本研究的基准。每个架构的测试结果见表5。结果发现，通过使用预训练的权重和数据增强，根据测试数据，发现架构ViT Huge 14的测试准确度为0.953383，而ViTLarge 16的测试准确度为0.928571，这证明ViT Large 16的架构存在过拟合问题。图7示出了20个时期的训练，所有评估的架构。从训练图和验证图可以看出，ResNet（He等人，2015年）低绩效在认证和培训方面。此外，在18世纪，有一个梯度丢失导致的精度大幅下降4.5. 混淆矩阵最好的测试结果是由ViT Huge 14使用预训练的权重和增强获得的。表6显示了测试数据的混淆矩阵结果这些测试表明，具有增强和预训练权重的 ViT Huge 14 可以很好地分类每个类。 Mask 类预测精度为0.967543，Mask Chin为0.925926，Mask Mouth Chin为0.890701，MaskNose Mouth为0.813953。错误呈现用法的结果似乎很低，假阳性率最高的是Mask Nose Mouth类，分类为Mask，为0.162791。H.D. Jahja，N.尤迪斯拉和苏特里斯诺智能系统与应用17（2023）2001868表5增强和迁移学习的影响。图第六章迁移学习对准确性的影响。表6每个类的混淆矩阵模型列车确认测试ViT Base 16 0.9639290.944947 0.820301面罩面具下巴面具嘴口罩鼻子ViT大号160.986909 0.960030.928571ViT巨大14 0.960068 0.9411760.9533832019年12月15日星期一粤ICP备16016972号-14.6. Grad-Cam结果GradCam（Selvaraju等人，2016）需要在层上的梯度，使得获得目标层的注意。在ViT中，我们将使用架构中最后一个注意力层的梯度来找到图像中的重要部分对于残差网络架构，我们将使用最后一个卷积层。基于表5 ，ResNet 152（He等人，2015）的性能优于ResNet50，我们将使用ResNet50与ViT Huge 14进行比较。图8显示了Mask类的Grad-Cam结果。基于可视化，它表明ViT专注于整个掩模区域，这比ResNet152的注意力更吸引人下巴口电话：+86-021 - 8888888传真：+86-021 - 8888888口罩中国0.000000 0.925926 0.074074 0.000000口罩嘴下巴0.061990 0.032626 0.890701 0.014682口罩鼻口0.162791 0.000000 0.023256 0.813953只关注面具后面的鼻子和嘴巴部分。Mask Chin类的第二行图显示了ViT和ResNet之间的显著差异，其中ViT聚焦于暴露的面部部分，而ResNet152的梯度不聚焦于面部的任何部分。第三行显示Mask Nose Mouth类的Grad-Cam结果。可以发现，ViT的梯度更好地集中在掩模的一部分上，并且看起来比ResNet152更精确。第四行显示Mask Mouth Chin类的Grad-Cam 结果。结果显示， ViT 的渐变聚焦于面具的部分，而ResNet152的渐变聚焦于人的鼻子和眼睛。H.D. Jahja，N.尤迪斯拉和苏特里斯诺智能系统与应用17（2023）20018695. 讨论图第七章增强和迁移学习对准确性的影响。这导致高计算和存储成本。不过有一项研究表明，尽管该模型在计算和记忆方面存在缺陷，我们的模型最初是为一个高计算能力的服务器设计的，由先进的GPU支持Vision Transformer模型。我们提出的面具使用识别模型VisionTrans- former通过在大数据集上训练具有良好的性能。然而，对于8600万个参数，它应该考虑能源效率，主要是当应用于移动外围设备或云服务时，其中培训在云中完成并通过互联网网络实时传输。可以使用能量表征来预测能量效率，以确定数据密集型应用的要求（Comito Talia，2017）。本文提出了一个实验研究的能源消耗行为的数据挖掘算法在移动设备上运行。此外，基于transformer的模型需要使用比CNN更大的数据集进行训练，才能比基于CNN的模型（如ResNet）表现

下载后可阅读完整内容，剩余1页未读，立即下载