没有合适的资源?快使用搜索试试~ 我知道了~
工程科学与技术,国际期刊24(2021)310全文文章基于人工藻类学习算法AbdulkerimM. YibreEscheriche,Barnoun,sKoçer土耳其科尼亚技术大学工程学院计算机工程系阿提奇莱因福奥文章历史记录:2020年1月1日收到2020年8月10日修订2020年9月6日接受2020年9月28日在线发布保留字:人工藻类算法不平衡数据分类机器学习种子质量A B S T R A C T最近的科学研究指出,由于生活方式和环境因素,男性的精液质量正在显著下降。精子质量的临床诊断是确定精液妊娠潜力的一个重要方面。由于机器学习算法的进步,特别是神经网络在健康相关问题中的可靠和高分类精度,从生活方式数据预测精液质量变得可能。在这方面,在预测精液质量方面进行了这些研究是使用不平衡的数据集进行的其他研究实现了梯度下降技术来训练神经网络。梯度下降是一种局部训练技术,容易陷入局部最小值。相反,元启发式算法能够在局部和全局两个方面搜索解决方案。因此,在本研究中,人工藻类算法,这是改进的使用基于学习的适应度评价方法,提出了训练前馈神经网络(FFNN)。此外,还采用了SMOTE数据平衡方法对正常和异常情况进行平衡.实验分析进行评估的FFNN训练基于学习的人工藻类算法(FFNN-LBAAA)的预测精度。将结果与著名的机器学习算法进行比较,即:多层感知器神经网络(MLP),朴素贝叶斯(NB),支持向量机(SVM),K-最近邻(KNN)和随机森林(RF)算法。所提出的方法表现出优越的性能,在区分正常和异常的精液质量的情况下,其他比较算法。©2020 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍根据世界卫生组织(WHO)的定义,不孕症是指在无保护措施的性交中,至少在一年内未能发生临床妊娠[1]。精液质量对成功怀孕至关重要。然而,在过去二十年中,研究表明,男性生育率显著下降。虽然有几个原因导致男性不育,生活方式是其中的主要原因[2男性的生殖健康深受吸烟和饮酒的影响[2,3]。Künzel等人。[6]提到吸烟对精子密度、数量和活力的下降有非常重要的作用。他们得出结论,吸烟与精液质量下降密切相关。一些研究将老年与男性不育症联系起来[7老年男性的精子细胞运动能力较弱[10,11],并受到精子DNA片段的影响*通讯作者。电子邮件地址:abdukerimm@selcuk.edu.tr(A.M.Yibre)。由Karabuk大学负责进行同行审查[12].此外,性交过程中释放的精子量随着年龄的增长而减少[10]。Evenson等人[13]已经证明发烧会影响精液质量。此外,饮食、肥胖、咖啡因、压力和成瘾药物也是影响精液质量的生活方式因素[14]。通过不同的临床干预和精液实验室评估来诊断男性不育症[1]。在大多数情况下,对从捐献者收集的精液样本进行实验室分析,并补充捐 献 者 的 生 活 方 式 数 据 机 器 学 习 算 法 , 特 别 是 人 工 神 经 网 络(ANN),由于其高而可靠的精度,以及揭示输入和输出参数之间的非线性关系的能力,可以依赖于男性供体的生活方式数据来估计精液质量。ANN最有趣的特征是学习任务,这是通过不断更新权重来完成的[16]。在整个网络层中更新权重,以实现可接受的误差。找到一组可以最小化网络错误率的权重是一项基本任务。在以前的研究中,已经实现了基于梯度下降的优化,https://doi.org/10.1016/j.jestch.2020.09.0012215-0986/©2020 Karabuk University. 出版社:Elsevier B.V.这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页:www.elsevier.com/locate/jestchA.M. Yibre,B. 科切尔工程科学与技术,国际期刊24(2021)310311训练神经网络。然而,这种方法有其缺点,因为它容易陷入局部极小值,收敛速度相对较慢。另一方面,元启发式算法由于其随机特性,在优化神经网络权重方面一直吸引着研究人员的注意,这使得它们能够在解空间中探索更多,并且相对较少陷入局部极小值[17]。很少有研究在医学诊断精液质量使用人工神经网络和其他机器学习算法。Gil等人[15]的一项研究使用多层感知器神经网络(MLP)、决策树(DT)和支持向量机(SVM)算法来预测精液质量。Girela等人[18]使用MLP神经网络架构研究了精液运动和浓度Wang等人[19]提出了基于聚类的决策森林来处理数据不平衡问题和种子质量分类。此外,Mousavirad et al.[20]提出了遗传算法训练的MLP。在上述研究中,主要注意到两个问题,即不平衡数据(导致偏向多数类)和梯度下降局部优化算法(可能陷入局部极小值)。这两个缺点对人工神经网络的分类性能产生了负面影响。因此,为了解决这些缺点,我们提出了FFNN-LBAAA,这是由最近引入的人工藻类算法(AAA)与SMOTE实例平衡技术一起训练的FFNNAAA算法是模仿微藻的生存技能而建立的一种基于种群的算法.与一些元启发式算法相比,AAA在连续问题优化方面表现出了出色的性能[21]。不平衡样本的监督分类偏向于样本数量较多的类别。数据集的平衡不仅提高了监督学习算法的性能,而且还带来了泛化能力。因此,在本研究中,在预测精液质量之前,通过改进的AAA进化FFNN,并使用SMOTE方法平衡数据集。本文分为六个部分。第一部分介绍了男性不育问题的研究现状、研究方法及存在的不足。第二部分综述了进化神经网络在医学诊断中第三部分介绍了前馈神经网络的结构和信息处理方法,基于学习的人工藻类算法的权值优化,基于SMOTE的数据平衡以及性能评价指标。第四节介绍了实验装置,而性能的建议和竞争的算法在第五节进行了讨论。最后,第六部分是研究结论。2. 相关作品目前,人工神经网络由于其较高的预测精度,在医学诊断和疾病检测中得到了广泛的关注和应用。在医学诊断中,人工神经网络算法的准确性的优越性导致准确检测疾病的概率高得多。确定可以最小化ANN误差的网络权重集是一项优化任务[22]。由于其全局搜索能力,元启发式算法已被应用于搜索最佳权重的人工神经网络。一些研究与进化的权重人工神经网络已被应用于医疗诊断和疾病检测。在这方面,遗传算法是应用最广泛的进化算法. Arabasadi等人[23]提出了一种由GA训练的混合神经网络来检测心血管疾病。这项研究是根据303名患者的数据进行的,其中216人患有心血管疾病,其余健康状况良好。他们指出,神经网络与遗传算法的混合比标准神经网络更好Koçer和Canal[24]使用多层感知器网络和GA的混合,研究了从300名健康人和200名癫痫病患者收集的脑电图(EEG)信号中对癫痫病的分类他们使用了具有五种学习算法的多层神经网络,即Levenberg- Marquardt、Quickprop、Delta-bar、Momentum和Conjugate gra- dient,其中GA用于在神经网络中进化权重,旨在提高ANN的性能。遗传算法优化的神经网络也用于糖尿病诊断[25]。研究人员使用Pima Indians糖尿病数据库(UCI提供的公共数据集)对糖尿病和健康样本进行分类。采用遗传算法和人工神经网络相结合的方法,结合基于相关性的特征选择方法来减少属性的数目。他们使用了262名糖尿病患者和130名非糖尿病患者,总数据集的60%和40%分别用于训练和测试。用遗传算法训练的反向传播神经网络用于结核病的诊断[26]。本研究使用了150例正常人和50例肺结核患者的胸部资料,准确率为94.9%。此外,GA和ANN的混合应用于乳腺癌检测[27]。大多数采用GA的研究遵循二进制编码技术。但是,GA中权重的二进制表示可能会导致问题,特别是在大型ANN中,表示所需的位串数量也会变得更大。在这种情况下,用遗传算法训练人工神经网络可能会导致不可行的结果。提出了一种由粒子群优化算法进化的径向基函数神经网络(RBFNN)来分类心电图(ECG)心跳[28]。从MIT-BIH心律失常数据库中收集包括6个不同搏动的ECG搏动Qasem和Shamsuddin[29]的一项研究还提出,使用从UCI数据库收集的乳腺癌、糖尿病和肝炎数据集,通过时变多目标PSO训练径向基函数网络进行医疗诊断由三种流行的进化算法进化的RBFNN;即GA,ABC和PSO用于帕金森对比研究表明,ABC训练的RBF网络比GA和PSO训练的RBF网络此外,Beheshti et al.[31]介绍了PSO的改进版本,称为中央粒子群优化来训练ANN。他们通过将该算法应用于包括乳腺癌、肝脏疾病、帕金森病、肝炎、心脏病、larnge1、糖尿病和急性炎症在内的知名医疗数据集的医疗数据分类来评估该算法的效率。提出使用蚁群优化(ACO)训练的ANN用于从PROBEN1数据库中收集的癌症、糖尿病和心脏的模式分类[32]。然而,如表1所示,这些研究使用了不平衡的数据集。在应用他们提出的算法时,没有考虑正常(健康)和患者实例的平衡由于来自自动化医疗诊断系统的结果信息与人类健康直接相关,因此正常和患者实例的平衡是重要的,使得预测准确性反映了两个类别。在这项研究中,除了进化FFNN,正常和异常的例子的不平衡比。3. 材料和方法3.1. 前馈神经网络人工神经网络(ANN)是由称为神经元的处理元件不同层次的神经元A.M. Yibre,B. 科切尔工程科学与技术,国际期刊24(2021)310312BCC¼BXB1/1 Tc-ocm333CS4p表1不同疾病诊断研究中使用的显示正常和阳性病例之间比例失衡的实例数量。在特定时间保持的输出可能与目标不因此,误差被计算为目标输出和实际输出之间的差,如在等式中。(3)并且它被传播回来以更新权重。Pn .我MSE¼bi2002年它们以这样的方式彼此互连,即前一层的神经元的输出被转发到下一层的神经元。一个人工神经网络结构,其中信息处理的流程是在只有一个方向被称为前馈神经网络。它是一种用于分类任务的监督学习方法。FFNN是应用于各种问题的最常见的ANN结构类型,包括疾病诊断,功能近似,模式分类,故障识别和制造中。其中m表示数据集中的实例数,n是不同类别标签的数量,oi是第i个输入数据的预测类别,Ti是目标类别标签。3.2. 基于学习的人工藻类算法(LBAAA)优化神经网络权值受藻类生存技能的启发,AAA是最近开发的基于种群的优化算法之一[21]。三个基本过程,即:进化,适应和螺旋运动建立AAA。藻类的位置,它可以接收到足够的光被认为是一个全局最优点的问题正在考虑中。在进入主过程之前,该算法从初始解开始,然后评估它们的适应度然后,藻类的菌落大小如等式(1)中所示计算。(4)和(5)。CS0¼li×CS4mm图灵过程[35]。FFNN,如图所示。 1、是从输入、隐藏和输出中构建的-llmaxSKsSð5Þ把层次。输入层是输入到其中CS表示第i个藻类菌落的大小,m是生长速率,网络输入图层上的节点数等于分类数据集中的特征数加权lmax 是最大特定生长速率,S是营养素的量,基于等式1在隐藏层和输出层计算输入的总和My¼wij:Iibi 11/1其中w_ij是第i个输入与第j个隐藏神经元的连接权重,b是与输入相关联的偏置。在隐藏层和输出层的每个输入的加权和被映射到0和1之间的范围内的值,使用S形激活函数,如在等式2中。(二)、1ent为适应度值,Ks为代表种群底物半饱和度的常数。螺旋运动是藻类细胞从其当前位置到水面进行的运动,以吸收足够的光,这取决于摩擦表面和它们消耗的能量水平。摩擦力越大,螺旋运动的频率越高,从而改善了局部搜索。藻类细胞的能量水平取决于吸收营养的数量。因此,当藻类细胞接近表面时,这意味着它比其他细胞消耗了更多的能量。与上面的情况不同,当摩擦表面较小时,它们覆盖更长的距离并在全局上更好地探索的乙状结肠1个月e-byð2ÞAAA假设重力为零。特定藻类细胞的位置取决于在液体中拖曳其运动的力,其为剪切力,以及摩擦表面(如在等式10中)。(6))[21]。藻类的尺寸(CS0)越大,剪切力越大. 你这是什么意思!2sxi¼2pð6Þ图1. 具有输入、隐藏和输出节点的前馈神经网络结构在AAA中,通过模仿藻类细胞的螺旋运动(包括线性和角运动)来生成新的候选解(如在等式(1)中)。(7)邻居是使用锦标赛选拔方法。然后,将加权差应用于随机选择的三个参数。与当前位置的距离和摩擦力调节移动的速度。w ipt 1 w ip。wjp-wipD-swiqw iqt w iq。wjq-wiqD -sw icosa8我不知道我是谁。wjr-wirD-swisinb9作者疾病积极正常Arabasadi等人[23]心血管疾病21687科塞尔和运河[24]癫痫200300Karegowda等人[25日]糖尿病262130[26]第二十六话Korürek和DogGogan[33]结核心跳50100[29]第二十九话乳腺癌241458Ahmad等人[27]乳腺癌241458[34]第三十四话乳腺癌239444Gil等人[十五]精液质量1288Girela等人[18]精液质量1288Beheshti等人[31]糖尿病32123心脏120150帕金森14748肝脏疾病145200Delican等人[30]帕金森238A.M. Yibre,B. 科切尔工程科学与技术,国际期刊24(2021)310313-BN-我b我-是饥饿最多的,被选择为适应方程。(十三)、-p2f0;1g我IJ我f最小值¼m4@不1个月e-byA5系列15 吋其中wip、wiq;wir是随机选择的当前解,wj是通过锦标赛选择识别的相邻藻类群体;a、b∈[0,2p],D是剪切力;s∈wi∈是摩擦表面面积。第i个藻细胞和第q个藻细胞[1,1]。该算法首先对适应度进行评估,然后根据适应度值,采用贪婪选择算法在当前解和新解之间选择较优解。在进化过程中,只要有足够的营养和足够的光照,一个藻类会繁殖成两个新的藻类细胞。否则,藻类群体会在一段时间后死亡。不断增长的藻类群体不断变大,因为它继续提供良好的解决方案。另一方面,在非生长群体中的藻类细胞最大和最小的菌落使用等式鉴定。(10)(11).最大菌落数最大CS为10000最小殖民地<$minsCS 11级在最小的群体中随机选择的藻类细胞是所提出的方法,目标函数的评估基于上一代MSE更新的信息基于学习的方法与AAA集成,以最大限度地提高权重的潜力,成功的MSE更新。为了实现这一点,数据被自动创建以构建学习模型。对于预定的迭代,优化过程如在原始AAA中一样流动。同时,提供成功MSE更新的权重被分组为“好权重”,而不提供的权重被分组为“不好权重”。基于高斯的朴素贝叶斯可以用来从这个数据集建立学习模型。该模型与AAA集成,并预测即将到来的候选人权重。让(7)-(9). 因此,Wi表示描述具有维度D的网络的权重和偏置的向量。可以使用朴素贝叶斯预测模型[36]获得wi产生比前一个更小的MSE的条件概率,如等式2所示。(16).一个是繁殖的候选者进化过程在最大的群体取代最小群体的位置后结束(如等式2(12)他们的大小排序P. Cijwi1···jPCiPwi1···jjCiPwi1···jð16Þ最小的殖民地/最大的殖民地/120适应过程是一个没有充分生长的藻类群体试图生存的过程。在AAA中,每个人工藻类初始化为零饥饿值。具有较好溶液的菌落继续生长。但是没有结果更好的解决方案变得更加饥饿,因此它的明星-其中,PC i是类条件概率,Pw i1···jjC i是给定类的每个参数的概率,C i是它们的适应度质量的类标签,并且i = 1. . m,j = 1. D.权重在范围[-1,1]中是实值。因此,可以使用高斯方法来计算wij的概率,如在等式(1)中。十七岁2vation levelA递增,如Eq.(14). 藻类细胞,1-x-d1/4x jC/2e2ð17Þ伊季报ippr2R2startving1/4maximumAi13 minuteStarving其中Ai表示第i个藻类群体的饥饿值,饥饿表示具有最大饥饿水平的群体。的其中,x是连接第i个和第j节点的权重,r2和d分别是向量wi因此,wi为分配给具有最大高斯概率得分的类C自适应参数,Ap是0和1之间的常数,并确定决定是否进入适应过程。采用基于学习的AAA优化算法的目的是,Cb¼argmaxPCYPwjC18我算法是寻找可能的最优神经网络连接权值组合,使FFNN的均方误差尽可能小因此,目标函数被公式化为。换句话说,Eq。(18)可以表示为:Cb. 1;pwijci<$1>pwijci<$01912Xm 0。一 !2131/1我1/4其他其中T表示目标类,m是实例的总数,y是输入的加权和。图2示出了使用基于学习的AAA的FFNN权重优化的示意图在进化的同时,优化器算法使用等式[1,1]在范围[ 1,1]中生成新的权重和偏差集合。(7)- (9),然后它与输入一起传播到神经网络,然后网络生成输出。MSE基于Eq. (3)将新的均方误差与原均方误差进行比较。如果新的MSE小于前一个,则MSE更新完成。否则,生成一组新的权重。然而,并非所有的目标函数评估试验都提供成功的MSE更新。因此,不成功的目标函数评估应该被最小化,使得优化器找到可以从具有最小函数评估的神经网络生成最低MSE的权重的最佳组合。因此,在这项研究中,基于学习的目标函数评价与人工藻类算法相结合。而不是随机行为,3.3. 数据源和预处理用于预测精液质量的数据集来自Gil等人捐赠的UCI公共数据源[15]。这些数据是从100名年龄在18岁到36岁之间的志愿捐精者那里收集的。精子样本按照世界卫生组织的要求进行诊断[1]。此外,还收集了有关捐赠者生活方式和习惯的数据。数据集包含季节、年龄、儿童疾病、事故、手术干预、发烧、饮酒、吸烟习惯和每天坐着的小时数作为属性。供体对研究特征变量的响应在1至1之间的范围内进行归一化。其中88名捐献者被鉴定为正常,而其中12名被认为有异常或改变的精液。最大、最小和平均值分别为1、-1和0.4077。关于数据集和归一化过程的更多信息在[15,18]中讨论。2¼A.M. Yibre,B. 科切尔工程科学与技术,国际期刊24(2021)310314CC图2. FFNN权重优化过程的示意图。图3. FFNN-LBAAA、MLP、朴素贝叶斯、J 48、支持向量机、K-最近邻和随机森林算法的ROC曲线。3.4. 使用合成少数过采样的实例平衡在正常和改变的实例之间存在不平衡的情况下,不意味着准确性适用于少数和多数类。因此,我们不能说模型的精度对这两类都具有泛化能力。在医学数据预测任务中,例如,精液质量预测,未能预测改变的精液样本比预测正常样本改变的成本更高[38]。为了解决这个问题,我们使用了最广泛应用的SMOTE平衡技术。SMOTE是一种用于平衡数据的方法,通过合成数据集中实例数量最少的类的新实例[37,39]。在达到可接受的平衡之前,少数民族的人口会过度增长。从少数类中选择K个最近邻实例。然后基于随机选择的k个最近的实例来制造合成实例,直到达到所需的平衡[39]。设mc为多数类实例数,nc为少数类实例数,rc为mc与nc的不平衡比。因此,在过采样之后,总数据被计算为在等式2中。(20)和(21)技术(SMOTE)原始数据集由88%正常和12%异常总安装数:1/4mcncnð20Þ实例,表明正常实例的数量超过异常实例的七倍。从不平衡数据构建的预测模型偏向于数据集中实例比例更高的类别[37]。例如,预测模型具有95%的准确率,n0rc-1ωnc21其中n0 表示合成生成的实例的数量。CA.M. Yibre,B. 科切尔工程科学与技术,国际期刊24(2021)310315¼.Σ¼ ×ðÞ1¼¼¼¼ ð Þ3.5. 评估指标大多数时候,监督算法的效率是指-G-mean是另一种度量,用于通过利用TPR和TNR的几何平均值来理解分类器在少数和多数类别上的性能。确保基于其准确性,这是正确分类的情况下,如在方程。(22).G-平均值¼pTPR×TNRð28Þ精度TNTPTN�F�Pð22Þ此外,F-measure被用来衡量精度和召回率之间的权衡。它利用精度的调和平均值,然而,仅仅准确性不能充分衡量实例如何正确地分类到它们各自的类。因此,使用假阳性率(FPR)、真阳性率(TPR)、灵敏度、特异性、G均值、F测量、受试者操作特征(ROC)和曲线下面积(AUC)评价性能[40,41]。当属于正常类的实例被FFNN正确预测为正常时,会出现真阳性(TP)结果。假阳性(FP)是指异常实例被错误地预测为正常(见表2)。真阴性(TN)指示被正确地预测为异常的异常实例的数量,而假阴性(FN)是被错误地预测为正常的正常实例的数量。PPV是正确分类的正常实例与的实例分类为正常,而NPV是正确分类的异常实例与预测为异常的实例之和的商。特异性和敏感性是主要用于测量分类器算法如何正确识别正常和异常实例的度量。灵敏度(也称为真阳性率(TPR))表示分类器算法正确识别正常实例的条件概率。记得了F2精确·回忆29精确度和召回率4. 实验设置在完成第4.1 - 4.34.1. 用于训练FFNN的数据集准备实例数量较少的类的合成实例由SMOTE重新生成,并从其原始数量增加600%。因此,共172例,88例正常(N)84例异常(O),准备进行分类任务。我们将数据集划分为65%,20%和15%,分别用于训练,此外,为了评估模型的稳定性并避免过拟合,通过将数据集划分为k个相等的折叠来使用PPVTPTPFPFP净现值 TNTN灵敏度TPTPFFNð23Þð24Þð25Þ4.2. 用于预测模型的ANN架构该神经网络有9个输入节点,15个单隐层隐节点和一个输出节点。隐层处理单元的数目在这方面,在进行了几次实验后,我们发现有15个神经元提供了最好的结果。通过以下方式优化连接节点的权重:特异性,也称为真阴性率(TNR),表示将异常实例正确分类为其相应类别的条件概率[42]。专属性TN26公司简介在数据集的疾病诊断中,ROC被广泛用于衡量分类算法能够在正常和异常实例之间进行区分的准确性[40]。ROC曲线绘制在两个轴图上,TPR在Y轴上,FPR在X轴上[39]。曲线下面积是用于比较两种或更多种分类算法的效率的评估指标。它提出ROC曲线的整个位置的总结以及指定分类任务的基本有效性的灵敏度和特异性的测量。分类器的AUC越高,它在区分正常和异常实例方面越优越。AUC¼0: 5×10 -1TPR-FPR27 mg表2实际和预测实例的混淆矩阵实际正常(N)异常(O)预测正常值(N)TP FP异常(O)FN TN学习型AAA。LBAAA执行25次独立运行,然后选择最佳权重集用于预测模型。在训练、验证和测试步骤中使用优化的权重。网络的输入是研究变量的标准化值,即季节、年龄、儿童疾病、事故、手术干预、发烧、饮酒和吸烟习惯、每天坐着的时间。本研究不包括特征变量选择。因此,分类任务使用所有这些特征变量。FFNN-LBAAA的输出是标记为正常或改变的精子细胞浓度的4.3. 优化器算法的参数设置根据[21]设置群体数量、剪切力D的参数值和优化算法的自适应参数Ap。因此,群体大小= 50,Ap= 0.5,能量损失= 0.3,剪切力= 2,适应性评估总数a。选择= 500。Matlab® 2014和WEKA用于平衡数据集并 开 发 预 测 模 型 。 所 有 测 试 均 在 配 备 Intel® Core i7 6500 UCPU@2.5GZ(具有8 GB RAM,运行Windows 10操作系统)的HP笔记本电脑5. 结果和讨论通过将数据集分为训练/测试分区和k折交叉验证方案来评估所提出的方法的性能。A.M. Yibre,B. 科切尔工程科学与技术,国际期刊24(2021)310316表3混淆矩阵显示训练和测试分区的实际与预测结果。训练集测试集实际实际NONO预测N550280O1562305.1. 使用训练/测试划分进行在本节中,将平衡生育力数据集分为训练/测试集后进行性能评估。训练集由65%的数据集组成,其余部分用于测试和验证。FFNN-LBAAA和竞争者分类器(如表4所示)由训练集训练。然后使用测试和验证分区评估预测精度。正常和异常样本的比例在所有分区中是平衡的。表3显示了使用所提出的方法预测与实际示例的混淆矩阵。行表示模型预测的示例数,而列表示实际值。FFNN-LBAAA在训练和测试用例中都正确地将所有异常示例分类到它们各自的类。但是,训练集中的一个正常示例和测试中的两个示例被错误地预测为异常。表4描述了FFNN-LBAAA与NB、SVM、MLP、KNN和RF算法使用各种性能指标的性能比较。FFNN-LBAAA在分类精度方面优于NB、SVM、MLP、KNN和RF算法。然而,仅仅通过准确性来评估算法的性能是不够的。因此,我们还使用FPR、灵敏度、特异性、PPV、NPV、精确度、召回率、G均值、F测量和AUC比较了算法。以粗体表示的评估分数表明,所提出的方法优于比较的算法,并正确地将所有异常实例分类到它们各自的类。因此,所提出的方法的灵敏度(同时意味着TPR)是最高的,而FPR为零。与此相关,FFNN-LBAAA的PPV与其他算法相比是最高的。此外,预测异常情况的概率,即净现值,也是最好的5.2. 基于交叉验证的在这个实验中,我们采用了10倍交叉验证方案来进一步评估FFNN-LBAAA的性能。交叉验证方案允许验证亲的稳定性提出的方法将平衡生育力数据集分成相等大小的10个不同分区。然后,通过拟合用于训练模型的九个分区或折叠和用于测试的一个折叠来对于每次折叠评估,计算分数,并将用于测试的当前折叠手术继续进行,直至所有褶皱均得到处理。然后将平均得分报告为预测性能[43]。表5显示了10倍的预测值与实际值。该表描述了按FFNN-LBAAA分类的预测值和实际值的详细信息。在所有的褶皱中,所有异常的例子都被正确地预测到它们各自的类别。表6描述了所提出的方法和Python中的流行优化器的10倍交叉验证得分,即Adam、随机梯度下降(SGD)、Nadam、Adadelta和Adagrad。平均值和标准差得分表明,建议的优化器已经优于比较优化器。表7显示了不同研究人员使用相同生育力数据集预测精液质量的性能结果除Wang等人[19]采用5倍交叉验证外,表6中提到的其余作者均采用10倍交叉验证来评价其拟定方法。Gil等人[15]使用MLP预测精液质量,并达到86%的预测准确率。Girela等人[18]还使用MLP神经网络架构研究了精液运动和浓度,并获得了90%的预测准确率。Gil等人[15]和Girela等人[18]的缺点是正常和改变实例之间存在不平衡。由于该缺点,在这两项研究中观察到最低的特异性和Wang等人[19]试图解决数据不平衡问题,并实现了91.67%的准确率。此外,Mousavirad[20]使用遗传算法训练的MLP,预测准确率达到93.8%使用朴素贝叶斯算法,结合特征选择和SMOTE数据平衡技术,实现了90.6%的预测准确率[44]。图 3示出了所比较的算法的ROC曲线。ROC图允许快速理解和比较算法的预测性能。如图3所示,FFNN-LBAAA的ROC曲线更接近ROC区域的左侧边界和顶角。因此,我们可以说,FFNN-LBAAA可以更好地区分正常和异常的种子实例准确比其余的算法。总之,表3-此外,FFNN-LBAAA与其他研究相比表现出色[15,18建议的主要优势表4通过各种评估指标比较分类算法评估指标分类器算法附件1FPRSens2规格3PPVNPV P4 R5 G-平均F16AUCFFNN-LBAAA0.97500.93110.93810.9330.9660.9660.97NB0.8720.1540.900.850.8590.8880.8590.8980.8780.8780.87SVM0.720.2620.690.740.7350.6970.7350.6930.7130.7130.72MLP0.810.1310.750.870.8570.7680.8570.750.8020.80.81KNN0.8490.1070.810.890.8880.8150.8880.8070.8460.8450.85RF0.9130.090.920.90.910.9160.910.920.9150.9150.911准确度2灵敏度3特异性4精确度5召回率6F1-测量A.M. Yibre,B. 科切尔工程科学与技术,国际期刊24(2021)310317表5使用FFNN-LBAAA进行10倍交叉验证的预测值与实际值。折叠1Fold 2折片3折4折叠部5实际实际实际实际实际NONONONONO预测N1101501204090O15021411208折叠部6折叠7折叠8折痕9褶皱10实际实际实际实际实际NONONONONO预测N0070809070O0170101817012表6使用10倍交叉验证方案的不同优化器的预测精度结果优化器k-折叠亚当SGD那达慕AdadeltaAdagradLBAAA10.670.720.500.780.720.9420.720.560.780.780.561.0030.940.941.000.940.940.9440.650.650.590.710.650.9450.710.760.650.650.711.0060.760.710.760.760.761.0070.940.820.880.880.821.0080.820.940.880.941.000.9490.710.880.710.880.760.94100.820.820.760.710.651.00Avg.ACC0.770.780.750.800.760.97Std.dev0.100.120.140.100.130.02表7不同作者使用相同数据集和各种学习算法实现的预测值总结作者用方法性能以%Acc.AUCPPVNPVSens.规格Gil等人[十五]MLP86–––94.140Girela等人[18]MLP90–––95.550Wang等人[十九]决策森林91.6–––––穆萨维拉德[20]用遗传算法训练MLP93.893.394.493.193.494.4Karlık等人[四十四]朴素贝叶斯90.5–––92.289.3本研究FFNN-LBAAA97.0597.110093.294.3100方法的一个重要特点是能够正确识别全部异常实例。同样,它区分正常实例的能力也很优越。在这项研究中取得的改善结果归因于我们已经实施的两种方法。首先,基于学习的AAA优化算法找到用于训练FFNN的最优权重组合集。其次,用于平衡实例的SMOTE技术也有助于实现与不平衡数据集相比更好地表示和描述正常和异常实例的结果。因此,所提出的方法的性能结果是代表性的,描述性的,并具有较好的推广性的正常和异常的情况下。6. 结论在这项研究中,我们提出了基于学习的AAA训练的FFNN用于预测供精者的精液质量优化器算法有助于找到可能的最优连接权值,使神经网络的MSE尽可能最小。因为不平衡的例子比例,在正常和改变的例子之间,导致偏向多数类,我们使用流行的SMOTE方法来平衡通过重新生成少数类实例来更新类。因此,建议的FFNN训练基于学习的AAA取得了更好的结果比MLP,NB,SVM,KNN,和RF算法。该方法的预测精度为97.05%。正确鉴别正常与异常精液质量是精液医学诊断的关键。该方法的特异性、灵敏度、PPV和NPV、G-均值、F-测度和AUC结果也明显优于其他算法。此外,该方法在精液质量预测方面也取得了较好的效果。因此,在神经元之间具有一组最优的连接权重对于最小化从神经网络产生的均方误差至关重要。此外,在使用机器学习算法开发精液质量预测模型之前,平衡数据集的实例可以提高准确性。联合效应有助于更好的预测准确性,具有更好的泛化能力和正常和异常样本的代表性。因此,FFNN-LBAAA可以扩展到基于候选精子供体的生活方式来预测精子质量。A.M. Yibre,B. 科切尔工程科学与技术,国际期刊24(2021)310318这项研究没有收到任何来自公共,商业或非营利部门资助机构的具体资助。竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。引用[1] WHO,WHO人类精液检查和处理实验室手册(2010)。[2] K. Anderson,V. Nisenblat,R.诺曼,寻求不孕症治疗的人的生活方式因素-审查,奥斯特。新西兰。J. Obstet.妇科医生50(2010)8-20。[3] D.S. Gaur,M.S. Talekar,V.P. Pathak,酒精摄入量和吸烟:两个主要生活方式因素对男性生育力的影响,印度J. Pathol。M i c r o b i o l .第53(2010)号决定[4] C.M. Bishop,Machine Learning and Pattern Optimiton,2006。[5] R.K. Mishra,H.P. Verma,N. S.K.辛格辛格,男性不育:生活方式和东方补救措施,J。Sci. Res. 56(2012)93-101。[6] R. Künzle,医学博士Mueller,W. Hänggi,M.H. Birkhäuser,H. Drescher,N.A. Bersinger,男性吸烟者和非吸烟者不育夫妇的精液质量,生育。无菌79(2)(2003)287-291。[7] S.C. Esteves,A. Agarwal,男性不育的新概念,Int. Braz J. Urol。 37(1)(2011)5-15。[8] M.A.M. Hassan,S.R. Killick,男性年龄对生育力的影响:男性生育力随年龄增长而下降的证据。无菌79(2003)1520- 1527。[9] S.I.作者声明:J.马伦,男性不育患者精子脱氧核糖核酸完整性的评估,生育。无菌85(2)(2006)496-499。[10] S.A.基德湾Eskenazi,A.J. Wyrobek,男性年龄对精液质量和生育力的影响:文 献综述,生育。无菌 75(2)(2001)237-248。[11] E. Sloter,T. E. Schmid,F.马尔凯蒂湾Eskenazi,J. Nath,A.J. Wyrobek,男性年龄对精子运动的定量影响,2004年。Reprod. 21(2006)2868-2875。[12] K. Plastira,P. Msaouel,R. Angelopoulou,K. Zanioti,A. Plastiras,A. Pothos,S.Bolaris,N. Paparistesteidae,D. Mantas,年龄对寡弱畸形精子症患者精子中DNA片段化 、染色质 包装和常 规精液参 数的影 响,J. Assist 。Reprod. Genet. 24(10)(2007)437-443。[13] D.P. Evenson,L.K. Jost,M.科泽特河Balhorn,流行性感冒和高烧发作后人类精子染色质结构的特征:一项病例研究,J. Androl。21(2000)739-746。[14] D. Durairajanayagam,男性不育的生活方式原因,阿拉伯泌尿学杂志。16(1)(2018)10-20.[15] D. 吉尔,J.L. Girela,J. De Juan,M.J. Gomez-Torres,M.Johnsson,Predictingseminalquality with artificial intelligence methods,Expert Syst.A
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功