基于数据增强的疼痛强度识别

45 浏览量更新于2023-12-09 收藏 2.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志21（2020）241全文基于数据增强的疼痛强度识别Ahmad Al-Qerema约旦，扎卡，扎卡大学，信息技术学院，计算机科学系阿提奇莱因福奥文章历史记录：收到2019年2020年1月20日修订2020年2月19日接受2020年3月24日网上发售保留字：机器学习数据扩充疼痛强度识别功能选择GansA B S T R A C T疼痛被定义为“与实际或潜在的组织损伤相关的痛苦经历，具有感觉、情感、认知和社会成分”，知道所经历的疼痛的确切水平对护理人员做出诊断和制定合适的治疗计划具有关键影响，但可用的方法完全取决于患者的自我报告，这增加了了解患者所经历的疼痛的准确水平的困难。因此，自动化这个过程成为一个重要的问题，但由于获取医疗数据的难度，很难建立一个性能良好的预测模型。生成式对抗网络是一个框架，它通过训练两个网络来生成具有与真实数据相似分布的人工数据;生成器尝试生成与真实样本相似的新样本，而训练器应用传统的监督分类来区分增强样本，最佳情况是训练器无法区分增强样本和真实样本。在这项研究中，我们使用最小二乘生成对抗网络生成数据，并研究在增强之前对数据应用特征选择的效果。此外，该方法在包含不同疼痛水平的多个生物电位信号的数据集上进行了测试。©2020制作和主办由爱思唯尔B. V.代表计算机和人工智能学院-埃及开罗大学。这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍疼痛是神经系统中的一个重要信号，表明人体内出现了问题，需要医生考虑[1]，这是一种刺激性和复杂的感觉，会干扰患者，使其感到不舒服。疼痛受许多不同因素的影响，如年龄和性别[2];它以许多不同的方式和水平出现，如人体特定区域的烧伤，灰烬或刺痛疼痛有两种主要类型;第一种是急性疼痛，这可能是由几种原因引起的，如暴露于受伤或患有疾病。如果这种类型的疼痛背后的原因没有得到适当的治疗，问题会恶化，导致更严重的无法治疗的问题。第二种是慢性疼痛，开罗大学计算机和信息系负责同行审查。制作和主办：Elsevier电子邮件地址：ahmad_qerm@zu.edu.jo由于严重的、未经治疗的损伤、感染或正在进行的疾病如癌症，这种疼痛会伴随患者数月或数年，并且不总是可治愈的，但是医生试图控制它，以便患者可以感觉更舒适。未经治疗的疼痛会对患者及其家人产生重大影响，使他焦躁不安，影响他的性格，引起睡眠障碍，并可能导致抑郁症。为了诊断疼痛的原因，制定适当的治疗计划并了解给予患者的最佳药物剂量，护理人员必须了解患者经历的确切疼痛程度护理人员通常主要依靠患者的自我报告，使用为此目的设计的特定量表来指定他正在经历的疼痛程度。有不同的量表用于识别患者的疼痛水平，最常用的量表是视觉疼痛量表（VAS），由于其简单性而常用，VAS背后的主要思想是要求患者从0到10，其中0代表没有疼痛，10代表可以想象的最严重的疼痛[3]，图1显示了所使用的疼痛水平。VAS有其弱点，特别是对于患有精神疾病的患者，婴儿和创伤患者，他们不能正确使用它，此外，VAShttps://doi.org/10.1016/j.eij.2020.02.0061110-8665/©2020制作和主办由Elsevier B. V.代表开罗大学计算机和人工智能学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com242A. Al-Qerem/ Egyptian Informatics Journal 21（2020）241依赖于病人过去的痛苦经历，而不能发现那些假装痛苦以获得毒品的瘾君子。为了准确地确定疼痛强度水平，研究人员开始基于面部表情和生物电位信号等几个因素自动识别疼痛强度。面部表情被记录的主题，而经历痛苦通过一个控制实验。生物电势信号是在身体中发生的生理过程期间由细胞类型的电化学活动产生的简单电子信号，它们通过将特定类型的传感器附接到皮肤（称为电极）来测量。疼痛识别自动化可以使用数据或两者来完成。在这项工作中，我们将使用包含四个疼痛水平的生物电位信号数据集;这些信号是从肌电图、皮肤电导水平和心电图中获得的，该数据集在第3节中详细描述。疼痛强度水平可以使用基于数据的预测算法进行分类，因为已知给出的数据越多算法的有效性越高[4]。由于数据的敏感性，医疗问题缺乏数据，因此，预测算法的性能受到影响。数据增强算法是在真实数据上进行训练，生成人工（增强）数据，利用这类数据可以显著提高预测算法的性能。最近，生成对抗网络（GAN）由于增强的数据质量以及使用它的广泛应用而GAN训练两个神经网络;生成器和鉴别器一起玩游戏，生成器在真实数据上训练以生成与真实数据分布相同的人工数据，生成的数据与真实数据一起发送到该方法将监督分类应用于真实数据和增强数据，以区分它们。自动疼痛强度识别需要建立一个机器学习模型来预测患者经历的疼痛程度，模型以先前标记的数据为基础，学习如何预测新患者的疼痛程度，数据越多，模型学习得越好。由于所需数据的敏感性，获取医疗数据通常是一个问题，因为它需要人类受试者在医生的监督下暴露于不同程度的疼痛为了克服这一问题，可以使用数据增强技术来生成与真实数据相似的人工数据在这项工作中，我们的目标是提高疼痛强度识别问题的性能，通过使用一种名为最小二乘生成对抗网络（LSGAN）的GAN变体，生成增强的生物电位信号数据，然后使用支持向量机（SVM）算法对疼痛水平进行分类。此外，我们还将实验boruta算法只生成选定的特征对分类精度的影响，最后我们将测试在对最小二乘损失函数进行调整后生成的数据的质量。这项工作的主要目标可归纳如下：Fig. 1. 视觉焦虑量表。1. 使用LSGAN生成人工数据2. 使用SVM分类器提高疼痛强度水平分类的性能3. 实验使用boruta算法仅生成选定特征对分类的影响。4. 实验对最小二乘损失函数进行调整对分类精度的影响。本研究分为五个部分。第一介绍了研究问题和研究方法。第2节介绍了以前在该领域所做的一些工作。第3节解释了生成对抗网络（GANs）框架，第4节介绍了这项工作的方法。第5节概述了本工作中使用的数据集，第6节介绍了实验和结果。2. 背景和相关工作疼痛被[5]定义为了解所经历的疼痛的确切水平对护理人员做出诊断和制定合适的治疗计划具有关键影响，对疼痛的不可靠描述可能导致错误服用，如剂量错误。疼痛水平介于疼痛阈值（患者开始感觉疼痛时）和疼痛耐受阈值（患者无法再忍受疼痛时）之间。通常，疼痛强度测量取决于患者自我报告，最常见的测量是视觉疼痛量表（VAS），其中要求患者从11个级别（0这类措施的问题在于它依赖于患者的意识、沟通和疼痛体验因此，它对创伤和婴儿等病例不起作用因此，必须开发更可靠的测量疼痛水平的方法，例如自动疼痛强度识别。自动疼痛强度识别取决于患者的表情和反射，可以使用记录的面部表情、生理信号或两者来完成识别。最著名的数据集是UNBC-MacMaster肩关节疼痛表达档案数据库[6]和BioVid热痛数据库[7]。2017年，Lopez-Martinez和Picard R. [8]介绍了一种包含两阶段学习的方法，用于10级VAS自动估计。第一阶段是使用递归神经网络（RNN）进行Prkachin和Solomon疼痛强度（PSPI）评分估计，这是来自面部图像的另一种疼痛强度测量，将其馈送到下一阶段。第二阶段需要使用隐藏条件随机场（HCRF）进行VAS估计的每个人的PSPI评分;使用每个人的面部表情的唯一评分对模型进行个性化。所使用的数据集包含25名患有肩部疼痛的受试者;在受影响和未受影响的手臂中进行运动时记录他们的面部。出于评估目的，将数据集分为训练集和测试集，在训练模型上训练模型后，使用类内相关性（ICC）和平均绝对误差（MAE）作为评估指标。并以支持向量回归机（SVR）为基准，对两种算法的结果进行了比较。Zhou J.[9]提出了使用递归卷积神经网络（RCNN）进行自动帧级疼痛强度估计的框架。首先，利用主动外观模型（AAM）将不同姿态的人脸图像包裹到同一个正面姿态。其次，由于从视频中的每一帧单独提取特征在描述动态信息方面有其局限性，A. Al-Qerem/ Egyptian Informatics Journal 21（2020）241243为了从先前帧中提取特征，使用滑动窗口策略从最后，通过修改网络最后一层的损失和激活函数，设计了用于连续值疼痛强度的递归卷积神经网络架构。在训练过程的每次迭代中，采用包含具有相同百分比的所有PSPI水平在评价阶段，采用留一主题策略，计算了平均均方误差（MSE）和乘积矩相关系数（PCC），并与其他方法在同一数据集上的实验结果进行了比较。蒂亚姆·P和Schwenker F. [10]提出了一种基于分层融合架构的个性化疼痛识别系统为了利用所有提取的特征，其中首先对每组特征应用降维，然后将每组剩余特征发送到分类过程，该分类过程包括三层，首先，将每个子集馈送到随机搜索分类器，其次，将结果发送到伪逆映射和多层感知器（MLP）映射，最后，使用第二层的两个分数，伪逆映射产生最终标签。该模型使用Hausdorff距离作为相似性度量进行个性化，以从训练集中的参与者中选择与未见过的参与者相似的该模型的评价遵循留一参与者策略，结果优于基线方法，使用30个参与者。R. Lopez-Martinez[11]在2017年实施了一种基于使用神经网络的多任务学习的方法，该方法考虑了疼痛反应的个体差异，同时仍然可以从其他受试者的数据中学习数据集最初包含原始信号，因此，在将信号馈送到网络之前，从信号中提取特征。至于分类，它被分为每个疼痛水平之间的二进制分类与无疼痛水平实验上提取的每一组特征，并使用10倍交叉验证进行评估，所获得的准确性结果优于其他基线算法。Lopez-Martinez，2018年，[12]提出了一种将疼痛强度识别作为回归问题处理的方法，其中使用了两种类型的递归神经网络（RNN）架构，第一种架构是传统的全连接RNN，它能够捕获时间依赖性，因为输出被反馈到输入端。第二种架构是长短期记忆神经网络（LSTM-NN），它学习长期依赖关系。实验表明，使用皮肤电导特征获得的结果优于其他基线方法，使用三个评估指标;平均绝对误差（MAE），均方根误差（RMSE）和决定系数（R2）。朱耀[13]，在本研究中，作者重点研究了特征处理，由于所用数据集是新的，在从原始信号中提取特征后，使用遗传算法（GA）对提取的特征进行约简，去除冗余和不相关的特征，然后应用主成分分析（PCA），将特征转换到线性不相关的空间中。三种类型的分类，包括线性判别分析（LDA），k-最近邻（KNN）算法，和支持向量机（SVM）的应用和评价单信号数据集，多信号数据集，多学科数据集和多日数据集。Werner P[14]，在本文中，提出了一种方法，从视频和生物医学信号中提取特征，并将其结合在一起对疼痛强度水平进行分类。所提出的分类过程是使用随机森林分类器的早期融合架构;使用相同的分类架构进行测试。此外，网格搜索被用来找到最佳的参数。实验结果评价采用10倍分层交叉验证.通过使用所有的视频和生物医学特征，获得了最佳的整体性能Thiam P.[15]提出了一种方法，用于从视频和信号特征中找出哪种模态在个人独立设置中的疼痛强度识别问题中给出最佳结果。每个模态用于训练基于随机森林的回归模型，最后，所有模态一起用于早期融合模型。所使用的评价指标是平均绝对误差（MAE）和均方根误差（RMSE），实验表明皮肤电导水平（SCL）本身的评价结果最好，而心电图（ECG）的评价结果最差。A. S. F. 蒂亚姆山口[16]，在这项工作中，通过在几种融合架构上进行实验，将音频，视频和信号的三模态采用早期融合和后期融合两种方法，在早期融合中，所有提取的特征都被馈送到单个随机森林分类器。对于后期融合，提出了两种架构，第一，后期融合（A），其中属于同一通道（音频、视频、信号）的提取的特征被级联，然后被馈送到随机森林分类器。第二，后期融合（B），其中属于一种模态的每个提取特征集被馈送到单个随机森林分类器，使用均值和线性判别分析（LDA）来映射两种架构以决定输出。融合架构的评估表明，用户特定的分类优于独立的设置分类。卡切莱·M[17]提出了使用具有不同信息源的不同技术的个性化疼痛强度识别系统，惩罚背后的想法是通过识别训练集中与新测试对象最相似的对象来估计疼痛水平所使用的技术，以找到子之间的相似性属于三个主要群体;第一，元信息，这是一般信息的主题，如年龄和性别。第二，基于距离的测量，属于这一组的建议技术是K-最近邻和Hausdorff距离。最后是基于机器学习的算法，这一组分为基于监督学习的测度、基于非监督机器学习的测度和代理分类。表1显示了在这一领域所做的一些工作;表后描述了每项工作的方法表1疼痛强度识别相关工作。数据增强是一种有效的技术，用于增加样本的数量和多样性，以提高机器学习算法的性能，这类技术主要用于计算机视觉应用。最简单的算法是对现有图像进行变换，例如翻转，裁剪和旋转[19]。这种方法的问题在于，它们不会生成一个全新的样本，只是修改了样本，这就是为什么研究人员开始开发新的算法，以更有效地增强数据。最近Cubuk E. [20]，引入了自动增强方法。AutoAugmentation是一个搜索最合适的数据增强策略的过程;每个策略由许多子策略组成，其中每个子策略包含两个操作，表示一个函数，例如旋转。在这项工作中，强化学习被用来找到最佳的选择组合和函数的顺序，产生神经网络，以提供最佳的准确性。实验表明，该过程可以针对特定数据集进行定制，也可以转移到其他数据集。Zhong[21]，本文实现了一种训练卷积神经网络（CNN）的数据增强方法，称为随机擦除，该方法旨在解决的主要问题是244A. Al-Qerem/ Egyptian Informatics Journal 21（2020）241表1疼痛强度识别相关工作。Num纸名称年类型水平数据集结果（最佳结果）12根据面部表情对自我报告的疼痛强度进行个性化自动估计[8]。递归卷积神经网络回归20172016视频视频VAS（11）PSPIUNBC - McMaster Shoulder PainExpression Archive DatabaseUNBC - McMaster Shoulder PainMAE：（平均值）2.47，(std)零点一八MSE：（平均值）1.54视频中的连续疼痛强度估计[9]。（十六）Expression Archive数据库34用于个性化疼痛水平识别的视频特征的分层组合[10]。用于个性化疼痛识别的2017视频信号4540个参与者数据集BioVid热痛数据库准确度：67.8%准确度：79.98%5生理信号[11]。基于自主神经信号的连续疼痛强度估计2018信号5BioVid热痛数据库[t]R2：（标准）0.226递归神经网络[12]基于生理信号的疼痛2017信号46例受试者准确度：75%7强度[13]。基于视频和生物医学信号的疼痛自动识别2014视频，信号5BioVid热痛数据库准确度：（P0 vs[14]第10段。P4）80.6%8多模态数据融合的个人无关连续2015视频，信号5BioVid热痛数据库MAE：0.849疼痛强度的估计[15]。多模态数据融合用于疼痛强度评估和2017音频，视频，4[18]第十八话准确度：（T0 vs10分类[16]。以人为中心的持续疼痛强度的方法2016生理学信号，视频5BioVid热痛数据库T3）85%[t]准确度：40.48%，从生物生理学渠道评估[17]。MAE：0.892是遮挡问题，并提高CNN的泛化能力。在训练过程中，算法随机选取一个任意大小的矩形区域，用随机值替换原始像素，从而产生更多的遮挡程度。谢青[22]，在这项工作中，数据增强方法应用于半监督学习设置中的未标记数据;这种方法称为无监督数据增强（UDA）。 UDA使模型在训练真实的未标记数据和增强的未标记数据时更加一致，而不是使用随机噪声，UDA使用由先前的数据增强方法产生的更真实的噪声，并且最小化真实数据上的预测与增强数据上的预测之间的KL偏差。Tran T. [23]，在本文中，作者提出使用一种新的贝叶斯公式进行数据增强，将新数据视为从给定注释数据点的分布中采样的缺失数据点。此外，该方法将发电机分配过程与分类模型联合训练，提高了分类效果。Lim S. ， 2019. [24] 在本文中，提出了一种名为 FastAutoAugment的算法Bayesian Data Augmentation，其动机是，Fast AutoAugment将增强数据视为缺失数据点，并通过开发和探索一族推理时间增强来恢复，该搜索由Bayesian算法优化在多个数据集上进行的实验表明，该算法比AutoAugment算法在搜索时间上有所加快，错误率也有所改善。Ho D.， 2019. [25]第二十五话这是数据增强领域的最新进展，因为它导致了图像生成的显着改进。GAN在生成的样本质量以及在许多不同应用中的有用性方面优于其他技术，例如将文本转换为图像[27]。3.1. 生成模型这类无监督学习问题涉及从已有数据中生成假样本，这类问题不仅仅是从训练样本中提取模式，而是学习它们的潜在分布，然后设计一个模型来生成与真实样本相同分布的假样本实际数据的分布记为P数据，模型学习到的分布记为P模型，生成模型的目标是使P模型尽可能地与P数据相似，因此，最优模型将学习等于P数据的P模型。生成模型可以通过使用密度估计来设计;其目的是重建给定样本的概率密度函数，或者使用样本生成;除了估计训练样本的密度之外，还生成新的基于用于评估生成样本质量的函数，生成模型可以分为两大类[28]表2数据增强相关工作。论文名称年份数据集结果（获得最佳结果）(PBA)通过生成最佳的增强策略时间表，每个训练时期的cies，使用PBAAutoAugment：从数据中学习增强策略[20]。2019SVHN，以及ImageNet准确度：83.5%，误差利率：1.0%算法不需要密集的计算能力，随机擦除数据扩充[21]第20段。2017CIFAR-10错误率：3.08%结果表明，训练PBA所需的时间明显少于其他算法。表2显示了在这一领域所做的一些工作，方法-无监督数据增强一致性训练[22]。2019CIF A R -10，和ImageNet准确度：79%，错误率：2.7%表后说明了每项工作的原理用于学习深度模型的贝叶斯数据增强方法[23]。2017C I F A R -10精确度：93%快速自动扩增[24]。2019CIFAR-10错误率：2.0%3. 生成对抗网络具有对抗网络的生成模型最近被认为是最有前途和最有趣的技术之一基于人口的增强：增强策略调度的有效学习[25]。2019SVHN错误率：1.1%A. Al-Qerem/ Egyptian Informatics Journal 21（2020）241245ð Þð Þð Þð Þð ð ÞÞð Þð ð ÞÞ1. 基于成本函数的模型：在这一类别中，模型使用成本函数来估计模型的好坏。生成对抗网络遵循这一类别。2. 基于能源的模型：在这一类别中，模型使用能量函数定义概率密度函数，该能量函数用作变量配置的指示器，能量函数产生的最低值越低，它越指示系统是合适的。图 2显示了生成模型的主要类型。生成模型已经存在了很长一段时间;即使生成模型有很多好处，但由于缺乏所需的计算能力以及实现这种模型结构的复杂性，它们并没有引起太多的关注[29]。生成模型的重要性超过了生成假样本的限制它们可以在各种应用中使用，例如处理丢失的数据，如[30]，它训练了一个图像补全网络来填充图像的丢失部分。另一种用途是提高数据质量，例如[31]，其中模糊图像已使用生成模型增强为清晰的高分辨率图像。3.2. Minimax算法基于决策规则的算法，最初用于博弈论，其中两个玩家正在玩回合制游戏，以最大化当前玩家的收益，同时最小化对方玩家的收益。在回合制游戏中，每个玩家都无法控制其他玩家的行动，这就需要使用对抗方法。对抗训练是一种机器学习的规则，当另一个模型或优化算法输入模型的最坏情况输入时使用在极大极小算法中，每个参与者的目标是为他的对手创造最坏的可能情况一个评估函数决定了每局游戏的收益，每个玩家做出最好的可能移动，其中他的评估得分最大化，而对手得分最小化。两个最优参与者的最优解决方案是找到一个点，使当前参与者的最大收益与图二. 生成模型的主要类型。对手3.3. 生成对抗网络（GANs）GANs由Goodfellow等人于2014年首次引入[32]，其基本思想是通过允许两个深度神经网络一起玩游戏来同时训练它们[33]。第一个网络叫做发电机G、负责生成假样品通过学习训练样本的分布。第二个网络是CNOD，它负责通过应用传统的监督学习来评估生成的样本的质量，以区分真实样本和虚假该生成器以随机噪声z作为输入以允许生成的样本的变化，然后将从训练样本中学习到的分布应用于z以生成伪样本G z，每个生成的样本将由鉴别器评估，该鉴别器使用真实样本来学习真实样本的区别特征，然后取真实样本和伪样本，并给每个样本一个真实的概率，概率1表示鉴别器确定样本是真实的，而0表示样本是假的。生成器的目标是混淆随机数，并使所有样本的概率为0： 5。图3示出了该过程的图示。在训练开始时，生成的样本将很容易被识别器区分，这允许生成器从之前的错误中学习并生成更好的样本，迫使识别器学习真实样本的更深层次特征，以便能够区分它们，随着时间的推移，生成器将产生更真实的样本，并且该生成器将在区分真实样本方面更智能。换句话说，两个网络将通过作为对手玩游戏来训练对方，每个网络都试图为另一个网络做出最坏的可能举动。用于评估它们的移动的目标函数如等式所示一曰：MinGMaxDVD;GEx~Pdata½logDx]EZ~Pzz½log1-Dx]1网络将继续训练，直到它们到达鞍点，在鞍点处，两个网络的增益相等。在训练期间，判别器的目标是最小化D G z的值并最大化Dx的值，而生成器的目标是最大化D G z的值。图图4示出了通过训练的生成器和鉴别器的演变。图 4 Goodfellow等人。[32]，显示了生成器和CPU在培训过程中的进展其中，黑色虚线是真实样本分布（P数据），绿线是模型估计的分布（P模型），蓝色虚线是判别分布。左边的第一张图表示训练的开始，如图所示，P数据和P模型之间的差异很明显，真实样本和假样本之间的在训练结束时，如最后一张图所示，P数据和P模型是相同的，其中的PSNR值是稳定的，这意味着PSNR不再能够区分真实样本和假样本。3.4. 生成式对抗网络训练GAN具有许多优点，并且可以用于许多不同的应用中，因为生成的样本质量良好，但它也有缺点，训练GAN可能非常困难，因为生成器和深度神经网络必须同时训练，而不允许一个网络压碎另一个，GAN学习过程中的不稳定行为限制了实验新变体的能力[34]。246A. Al-Qerem/ Egyptian Informatics Journal 21（2020）241ð Þ图三.发电机和整流器的图示。见图4。 Goodfellow等人[32]，通过培训过程对发生器和除颤器的进展。这里提到了训练过程中可能出现的一些并发症1. 消失梯度：这个问题通常出现在训练的开始，当生成器仍然很弱，并且判别器对真实样本很确定时，这导致生成器学习停止。2. 模式崩溃：GAN学习的大多数分布都是多峰的（有多个峰值），这限制了生成样本的变化。3. 纳什均衡：均衡点是不容易找到的，特别是在两个参与者的非合作博弈中，每个参与者的目标是使对方的收益最小化。此外，在某些情况下，其中一个参与者停止做出任何改变，而不管对手如何行动，这就产生了纳什均衡问题。4. 评价措施：已经引入了几种评估GAN性能的措施，这些措施中的每一种都有其弱点和局限性[35]，大多数措施都是针对特定类型的GAN开发的。因此，它们中没有一个可以用于所有GAN变体之间的公平比较5. 为了克服以前的复杂性，研究人员开始设计新的架构和程序，使训练过程更加稳定。[36]提出了一些解决方案，如特征匹配，其中生成器指定了一个新的目标，其中生成假样本以匹配真实数据统计量，然后生成器决定这些统计量是否值得匹配。3.5. 生成对抗网络变体深度卷积生成对抗网络（DCGANs）[37]提出了一类具有特定架构约束的CNN，以允许更稳定的GAN训练第一个约束是用跨步卷积替换所有卷积层，这允许网络学习自己的子采样。第二，消除所有完全连接的层，在卷积层之后，以增加模型的稳定性。第三，使用批量归一化，将输入归一化到每个单元，使其具有零均值和单位方差，以稳定学习。对除输入层和发生器输出层外的所有层进行批量归一化，以避免样本振荡和模型不稳定。至于生成器激活函数，ReLU激活用于除使用Tanh函数的输出层之外的所有层，并且对于RNN，使用LeakyReLU激活。图5示出了生成器架构的示例。在[38]中，作者介绍了GAN的条件版本，其中生成器和判别器都基于额外的输入y进行调节。y可以是任何数据;通常，它是训练数据的类标签。在generator中，y与联合隐藏表示中的先验输入噪声Pz z相结合，而在generator中，y与x一起作为输入。当量图2显示了条件GAN的目标函数。CGAN对于控制正在生成的数据的类别非常有用此外，CGAN可以用于生成不在训练数据标签中的描述性标签。图6示出了简单CGAN的可视化。最大值（M）;最大值（M）;最大值（M）;最大值（M）ð2Þ● 基于能量的生成对抗网络（EBGAN）[39]提出了一种将基于能量的GAN与自动编码器相结合的模型，其中将GAN视为能量函数。能量函数是每个输入点的映射函数，具有称为能量的标量值;能量值越低越好。由于良好的生成样本被赋予低能量值，与被赋予高能量值的不良样本相反，因此可将所生成的能量函数视为生成器成本函数。在基于能量的GAN中，识别器旨在为假样本提供高能量值，而生成器旨在在以下区域生成假样本：●A. Al-Qerem/ Egyptian Informatics Journal 21（2020）241247图五. DCGAN生成器架构[37].见图6。一个简单的CGAN的插图。则该能量值较低。发电机和逆变器的损失函数定义在方程中。（5）和（6）、该模型采用不同的损耗来获得更好的发电机质量梯度。[Dx;z¼Dx½m-DGz]3G传统上，自动编码器已被用于表示基于能量的模型，因为它们允许模型自己学习能量流形，这意味着判别器可以在没有监督的情况下学习数据流形。EBGAN表现出比原始GAN更好的可扩展性和收敛模式EBGAN的可视化显示在图中。第七章4. 我们所提出的方法本节描述了我们在这项研究中使用的方法，图。 8介绍了我们将遵循的一般步骤;本节后面将详细解释每个步骤。4.1. 数据增强在本节中，将解释用于增强人工数据的最小二乘生成对抗网络（LSGAN）。最小二乘生成对抗网络在这项工作中，我们决定使用最小二乘GAN（LSGAN）[40]因为它在生成的样本质量和学习稳定性方面都显示出非常好的结果。在LSGAN中，用最小二乘损失函数代替了GAN论文中提出的sigmoid交叉熵损失函数，这样做的目的是为了克服训练过程中梯度消失的问题。当使用决策边界右侧的增广数据更新生成器时，使用sigmoid交叉熵损失函数可能会导致梯度消失问题，但仍然远离真实数据。而使用最小二乘损失函数有能力向决策边界移动扩增样本，因为它的惩罚是基于从边界的距离的右侧样本，见图2。 9更多解释248A. Al-Qerem/ Egyptian Informatics Journal 21（2020）241图第七章EBGAN与见图8。我们提出的方法。图9sigmoid和least12 2的不同行为示意图平方损失函数(a)显示了二损失函数，如图所示，决策边界应该穿过真实数据。(b)显示了sig的决策边界。MinDVLSGAND2Ex~Pdata½Dx-b] EZ~Pzz½DGz-a]5模型损失函数，其中对sam-12给出非常小的误差与真实数据有很大距离的数据（二）决定最小二乘函数的边界，其中远增强样本被惩罚，这迫使生成器生成更接近真实数据点的样本。LSGAN的目标函数在等式中示出（5）和（6）。MinGVLSGANG2Ez~Ppzz½DGz-c]6其中：a：增强数据。b：真实数据。c：G希望D相信假数据的值见图9。 sigmoid和最小二乘损失函数的不同行为的说明[40]。A. Al-Qerem/ Egyptian Informatics Journal 21（2020）241249-4.2. 特征选择特征选择是从数据集中的完整特征集中选择最相关的特征子集而不丢失重要信息的过程，通过丢弃不相关或不太有用的特征来解决手头的问题[41]。相关特征为预测模型保留了最有用的信息，而不相关特征是冗余的、有噪声的或完全无用的特征。特征选择过程被认为是非常重要的，因为它减少了内存存储、训练时间、计算成本并提高了预测模型的性能[42]。特征选择分为三个主要类别：第一，包装方法，将特征选择视为搜索问题，尝试不同的特征组合，并使用预测算法评估每个组合的质量第二，过滤方法，其将特征选择处理为预处理步骤，其中其使用统计方法将每个特征与分数相关联，基于该分数对它们进行排名，然后在预测算法中使用具有最高分数的特征。最后，在嵌入式方法中，特征选择过程与预测算法集成为学习阶段的一部分，在每次迭代中，模型学习哪种特征组合提高了预测算法性能。在这项研究中，我们将使用其中一种包装方法，通过重复两个步骤[43]来工作，即创建一个特征子集，然后评估子集中的特征组合这两个步骤不断重复，直到满足停止标准;或者通过获得所需的性能，或者完成定义的迭代次数。穷举搜索（蛮力搜索）是包装器方法的一个例子，它通过尝试每个可能的特征组合来保证找到最佳的特征子集，但它并不常用，因为它需要昂贵的计算能力，这使得它对于具有大量特征的数据集不可行因此，已经开发了更智能的方法，以在计算能力方面获得更好的性能。在我们的研究中，我们通过去除线性依赖于其他特征的特征来开始特征选择阶段，然后应用称为boruta算法的特征选择算法首先，使用相关性度量来计算特征之间的线性关系的强度。如果相关性太高，则它们是相关的，并且必须消除其中一个特征，因此，我们消除相关性值大于0.75或小于0.75的特征之一。其次，我们应用了Boruta算法，该算法由Jankowski等人在2010年首次引入。[44]，它是使用随机搜索分类进行特征选择的改进。随机森林分类是通过组合多个决策树来构造的，其中每个决策树代表一个单独的分类器。每个树使用数据集中原始对象和特征的不同子集。根据每棵树的分类结果，为每个特征计算得分[45];在学习阶段的每次迭代boruta算法的主要思想是每个特征都是重复的，并且值是随机的，这些新的特征被称为阴影特征。将原始特征和阴影特征相结合，并馈送到随机森林算法。表2显示了原始特征及其复制的阴影特征。在每次迭代中，阴影特征值被混洗，并且为每个特征计算分数。如果原始特征分数高于阴影特征的最大分数，则将选择该特征，但是如果原始特征分数低于或等于其阴影特征分数，则认为该特征不重要。因此该特征将被其复制的混洗版本消除。当所有特征被分类为选择或未选择时，或者当完成预定义次数的迭代时，算法停止，图1B。 10给出了boruta算法（见表3）。boruta算法参数被指定为如下：随机森林分类器深度等于5，100次迭代，并且图11示出了所使用的特征选择步骤以及所选择的特征的数量。4.3. 分类分类是一类有监督的机器学习，其中实现的模型从标记的数据点学习，以近似数据集特征到离散标签之间的映射函数分类学习器分为两种类型：1. 懒惰的学习者：这种类型的分类存储训练数据，并比较输入的数据点，根据最相似的训练数据点对其进行分类。2. 求知者：这种类型的分类基于训练数据构建预测模型，并使用该模型来预测新数据点的标签。支持向量机（Support Vector Machine，SVM）是1995年由[46]首次提出的一种急切学习分类算法，它基于已有的标记数据集建立预测模型。数据集中的每个样本由其在n维空间中的特征表示，其中n是数据集中特征的数量SVM学习过程是通过找到具有最大可能边缘的最佳超平面来完成的，最大可能边缘是最近的数据点与超平面之间的距离选择的超平面作为分类问题的决策边界。线性和非线性分离都依赖于找到最佳超平面;只有非线性数据集必须使用核函数的帮助[48]。使用核函数将非线性数据集映射到高维空间，以简化寻找最优超平面的任务。必须根据现有的训练数据集分布选择最合适的核函数。SVM的另一个重要值是复杂性参数（C），其用于控制允许的误分类的数量以增加导致找到更好的超平面的裕度值。为了测试模型性能，我们使用见图10。 Boruta算法250A. Al-Qerem/ Egyptian Informatics Journal 21（2020）241XXY真-Y预测值221/1表3阴影特征。原始特征阴影特征标签F1F2F1F259.5878.9674.6782.52274.67142.6064.1578.96059.1982.5259.5880.38164.1580.3859.19142.603见图11。功能选择步骤。交叉验证技术通过将数据集分为两个子数据集，训练数据集和测试数据集来工作模型在训练数据集上进行训练;然后，使用未见过的测试数据集来评估模型的性能。4.4. LSGAN限制LSGAN使用最小二乘损失函数，主要集中在决策边界内生成数据，这意味着只要数据位于边界的右侧，即使它远离真实数据点，它也不会惩罚数据。在这种情况下，这种方法的问题在于我们的数据集分布的性质，如图10和11所示。13 - 17，数据方差非常大，并且异常值强烈存在，这很可能发生在医学数据集中，因为人体的行为并不相同，这意味着每个身体对痛苦当使用时，增强数据的预期分布比实际数据更接近正态分布。尽管增强的数据边界比真实数据点更有效地分离具有不同标签的数据点，但它会产生消除每个数据点值的唯一性的问题。最小二乘函数显示在方程。（7）对实际值和预测值之间的误差差进行平方，这会导致更大的误差，特别是对于离群值，因此我们需要修改损失函数以考虑离群值，我们不能用绝对值代替平方，因为它不能被区分。此外，我们不能从数据集中删除离群值，因为它们占数据集的一半以上nLS-损失函数：Y=真 -Y=预测值= 70001/1在这项研究中，我们的目标是对最小二乘损失函数进行修改，使其除了考虑到与边界的距离外，还考虑对数损失函数与最小二乘函数相反，基于生成的数据点与真实数据点之间的距离来惩罚生成的数据点提高最小二乘函数性能的另一种方法是取每个点误差的对数，因为对数损失函数考虑了与真实数据点的距离，我们的目标是在边界和真实数据点之间的距离之间取得图8显示了损失函数。nLS Lossfunction：logloglogYtrue-Y预测值为10000001/1我们还建议对每个数据点取误差的平方根，如等式中所示。9，因此误差会更小，这种方法将有助于提高损失函数的性能与离群值Xn q2最小二乘损失函数，这意味着增广数据的方差将小于真实数据的方差（见图18和19）。最后，我们建议取每个误差的平方根，通过尽可能减少误差来提高训练的稳定性，然后取结果值的对数，见图12。仅使用具有所有特征的真实数据进行分类所获得的准确度。LSLossfunction：ð9ÞA. Al-Qerem/ Egyptian Informatics Journal 21（2020）241251n图十三. “标签”列中每个唯一值的记录数提高生成的样本的质量，这样我们就利用了两个等式。（8）和（9），所提出的损失函数示于方程。（十）：Xq2皮肤成为更好的电导体，当受试者

下载后可阅读完整内容，剩余1页未读，立即下载