没有合适的资源?快使用搜索试试~ 我知道了~
乳腺癌风险评估与早期诊断的多预处理特征提取支持向量机技术
医学信息学解锁21(2020)100459使用Principal进行乳腺癌风险评估和早期诊断分量分析和支持向量机技术博卢瓦吉河 Akinnuwesi a,*,Babafemi O. 放大图片作者:Benjamin S. 阿里比萨拉ba斯威士兰夸卢塞尼M201,斯威士兰大学科学与工程学院计算机科学系b尼日利亚拉各斯,拉各斯州立大学理学院计算机科学系A R T I C L EI N FO保留字:乳腺癌风险评估早期诊断多预处理特征提取支持向量机主成分分析A B S T R A C T乳腺癌(BCa)是全球妇女癌症死亡的主要原因之一,其具体原因尚不清楚,但研究表明,有几个风险因素与这种疾病有关。乳腺癌风险评估和诊断可以通过医生的临床敏锐度、医学成像和计算技术来实现。早期诊断已被确定为降低BCa死亡率的方法之一。然而,由于人为错误,诊断的准确性并不总是得到保证;放射科医生因此,在本研究中,我们采用主成分分析(PCA)和支持向量机(SVM)的混合开发BCa风险评估和早期诊断模型(即BC-RAED),能够准确地建立BCa在早期阶段。在第一次预处理时采用主成分分析法提取特征,第二次预处理后进一步约简特征。使用SVM对多个预处理数据进行乳腺癌风险和诊断评估BC-RAED的准确率为97.62%,灵敏度为97.62%。BCa风险评估和诊断的敏感性为95.24%,特异性为100%。与文献中的记录值相比,新的准确度、灵敏度和特异性水平在5%的显著性水平下具有显著性(p<根据这一结果,得出结论,BC-RAED具有多预处理乳腺癌数据并基于风险因素将患者分类为可能和不可能的类别,以及基于文献中报道的建立的技术指标1. 介绍乳腺癌(BCa)管理的主要组成部分,定义患者在自动诊断系统应用于医学之前,诊断疾病完全是依靠医生的专业知识来完成的。然而,由于人性的不完美,加上医生的缺乏,一些晚期和严重的疾病有时会被误诊,从而导致可预防的死亡[1]。此外,文献[2,3]中也有这样的例子,医生们表达了不同的意见,导致对同一种疾病的不同诊断和不同的治疗,这同样导致了本可避免的死亡。缺乏医学专家(即肿瘤外科医生、乳腺外科医生、放射科医生、病理学家等)剥夺了患者在需要时快速接触医生的机会,因此导致延迟诊断,疾病有鉴于此,计算系统被视为有用的工具,以补充医疗从业者在疾病诊断方面的努力[3此外,研究表明,存在由于人为疏忽而发生的乳腺癌病例。在放射科医生必须阅读乳房X光片的情况下,由于疲劳,工作单调和许多其他人为因素,必然会发生一些遗漏。这是令人担忧的,因为许多乳腺癌病例的发生会导致误诊和治疗不当,从而导致一些乳腺癌患者死亡[6,7]。在这种情况下,医疗诊断中对机器学习分类器(MLC)的需求越来越大。 因此,一些学者开展了机器学习技术在BCa患者风险评估和诊断中的应用研究。其中一些研究工作包括:(1)使用人工智能预测感染艾滋病病毒的患者的生存能力。* 通讯作者。计算机科学系,斯威士兰大学,Kwaluseni校区,M201,斯威士兰。.电子邮件地址:bakinnuwesi@uniswa.sz(学士学位)Akinnuwesi)。https://doi.org/10.1016/j.imu.2020.100459接收日期:2020年7月10日;接收日期:2020年9月23日;接受日期:2020年2020年10月21日网上发售2352-9148/©2020的 作者。发表通过 Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表医学信息学期刊主页:http://www.elsevier.com/locate/imuB.A. Akinnuwesi等人医学信息学解锁21(2020)1004592乳腺癌,其中所提出的方法应用于有限的数据,并且结果与REPTreeRBF网络和Simple Logistic诊断和预测乳腺癌患者生存率的实际应用一致[8];(2)机器学习技术集成预测乳腺癌生存时间的效果,其中所提出的技术显示出更好的准确性,与以前的模型相比[9];(3)BCa的预测和诊断[10];(4)C4.5决策树和Bagged决策树在七个公开可用的数据集上的应用[11];(5)预测乳腺癌患者的生存率,乳腺癌患者使用朴素贝叶斯,决策树和反向传播神经网络技术,重点是准确的诊断和预后[12];(6)bagging算法在医疗数据库中的应用,使用分类器神经网络,SVM和决策树,结果显示bagging比没有bagging更好的准确性[12]。此外,准确,有效和高效的类的发展,BCa大型医学数据库的筛选是数据挖掘和机器学习技术的必要活动之一。乳腺癌分类是一个初步的数据分析步骤,用于评估一组数据并根据一些共同特征对其进行分组。乳腺癌风险评估和分类最终导致诊断。我们的文献回顾揭示了用于BCa风险评估和诊断的计算技术的一些缺点。在几乎所有回顾的研究中,诊断BCa的技术指标都是相同的,而学者们确定了不同的风险因素,这些因素随着技术的进步而不断变化。这些技术指标包括:团块厚度;边缘粘连;细胞大小均匀性;单个上皮组织;染色质淡染;细胞形状均匀性;细胞核正常;有丝分裂和裸核[13]。大多数计算技术的评估是使用并非完全没有错误的数据集进行的。对一个不干净、缺乏完整性和有缺失数据的数据集进行评估,不能真实地反映计算技术的性能。因此,在应用计算技术对BCa进行分类之前,应使用适当的数据预处理方法清理患者在不同的数据集上使用相同的预处理技术会导致不同的计算方法准确度更高[14,15]。在这项研究中,我们的重点是开发一个计算模型,使用PCA和SVM的混合用于乳腺癌风险评估和诊断,其中进行多个数据预处理,以充分清理BCa数据集,并确保良好的准确性。所需数据在位于尼日利亚拉各斯Ikeja的拉各斯州立大学教学医院(LASUTH)收集。所提出的模型(即BC-RAED)有助于在乳腺癌风险评估和诊断过程中实现更好的准确性,灵敏度和特异性结果。数据通常经过预处理,以去除冗余数据、误差、遗漏和噪声,从而获得良好的性能。如BC-RAED中所见,数据的多重预处理有助于消除几乎所有的错误,从而导致更好的准确性、灵敏度和特异性,这是风险评估和诊断中的理想壮举。BC-RAED使用Python和MATLAB实现。所获得的结果进行了比较,从综述文献中获得的性能指标。使用单因素ANOVA进行性能指标差异显著性检验,并得到称为Tukey Honestly Significant Difference(HSD)的事后方法的本文的其余部分安排如下:风险因素概述乳腺癌的发病率见第2节。第3节介绍了现有的计算技术BCa诊断的相关工作的审查材料和方法见第4节,结果和讨论见第5节。结论见第6节。2. 乳腺癌的危险因素和症状概述研究人员试图建立一个详尽的原因清单,医学及相关领域的知名学者。在参考文献[16]中报告的一项研究中,作者提出了以下风险因素:研究进一步指出,当乳房中的细胞开始失控生长时,乳腺癌就开始了。正常的身体细胞生长,分裂成新的细胞,并以有序的方式死亡。随着一个人年龄的增长,正常细胞分裂的速度更快。大多数细胞分裂只是为了在一个人达到成年时替换磨损、损坏和死亡的细胞。然而,老细胞死亡和被取代的失败导致癌症。在参考文献[ 8 ]中进行的另一项研究中,确定了乳腺癌的以下风险因素:“具有遗传性突变,是女性,有乳房,乳腺癌或卵巢癌个人史,年轻时频繁接受X射线检查,年龄增长,骨密度高,卵巢癌或前列腺癌,乳房X线照片上乳腺密度高,乳腺家族史,55岁后开始绝经,从未生育,35岁后生育第一个孩子,辐射暴露,原位小叶癌,绝经后超重或成年后体重增加,绝经后激素使用雌激素或雌激素加孕酮,先前活检显示非典型增生,”。在参考文献[13]中,作者将乳腺癌风险因素分为两种:“可改变的和不可改变的”。可修改的因素包括:第一次生育年龄、吸烟频率、口服避孕药和母乳喂养,而不可改变的风险因素包括:家族史、良性癌症疾病、内源性雌激素水平、饮酒、乳房X线摄影致密乳房、绝经年龄、体重指数、初潮年龄、职业危害、腰臀比、年龄和性别”。然而,这些危险因素决定乳腺癌存在的可能性大约是50:50。主要的风险因素是女性和有乳房。乳腺癌的早期症状有哪些早期无症状,血性乳房分泌物或任何其他乳头分泌物,乳房X光检查阳性,乳房或腋窝新肿块,乳房部分增厚或肿胀,乳房皮肤刺激或凹陷,乳房乳头区域发红或发红,乳头内陷或乳头区域疼痛,乳房大小或形状的变化,以及乳房任何区域的疼痛[17]。3. 乳腺癌分类、预后和诊断使用计算技术评估风险和诊断乳腺癌有着悠久的历史,可以追溯到人工智能及其应用领域(如机器学习和数据挖掘)的出现时期。在这些领域进行了许多研究。此外,用于诊断和治疗目的的BCa分类的计算技术有很多。分类、监测进展、治疗和预测BCa易感性、复发和生存概率的过程中使用的常见计算技术分类如下:支持向量机(SVM);决策树(C4.5);朴素贝叶斯(NB); K-最近邻(KNN); K -均值(KM);APRIORI; E- 期 望 最 大 化 ( EM ) ; PAGE BANK; 自 适 应 提 升 ( ADAPTIVEBOOSTING)。(AdaBoost);分类和回归树(CART);人工神经网络(ANN);多层感知神经网络(MLPNN);组合神经网络(CNN);概率神经网络(PNN);递归神经网络(RNN);线性规划判别法;卡方; COX回归;保序分离技术;学习向量量化;和多表面方法。除了上述计算技术外,以下成像方法同样用于BCa风险评估和诊断[18]:超声扫描(超声检查);乳腺X线摄影;磁共振成像(MRI);乳腺生物物理检查。乳腺癌人们提出了各种不同和相互矛盾的意见透射/透照法;B.A. Akinnuwesi等人医学信息学解锁21(2020)1004593闪烁照相术和遗传神经网络。计算机技术已被确定为有助于提高全球医疗保健服务质量的领先技术之一。医疗服务的质量是几个因素的函数,其中包括准确的诊断、疾病分类、预后、适当管理的决定、当前发病阶段的评估和治疗结果的科学预测。这些是乳腺癌管理所依赖的关键领域。根据参考文献[8],与乳腺癌密切相关的技术领域是:细胞团厚度;细胞大小均匀性;细胞形状均匀性;边缘粘附;单个上皮细胞大小;裸细胞核;无色染色质;正常细胞核;和有丝分裂。在[19,20]中,作者通过以下方式证明了模糊CoCo的有效性:将其用于两个复杂的问题:植物分类和乳腺癌诊断。作者重申了模糊CoCo的所有重要属性,即提供高数值精度,但语言描述能力略有损失。该研究使用威斯康星州乳腺癌诊断(WBCD)数据集。在研究中提到,以前的作者使用的方法提取布尔规则的神经网络。然而,从研究中得出的结论是,获得具有高性能、易于解释和确定置信度的度量的诊断系统是可行的。在[21]中,对人工智能(AI)技术在生物信息学中的应用进行了概述,重点是生物数据建模和知识发现。综述中涉及的三种技术是:k-最近邻、人工神经网络和遗传算法。从综述中发现,除了这些技术的灵活学习能力之外,它们在分类疾病状况以帮助诊断方面也是无价的。在另一项研究中提出的参考文献。[22],从组织分子水平的角度确定了生物科学家对癌症检测、癌症分类和基因功能区的三大关注点:基因选择、癌症分类和功能基因分类。进行基因表达数据的分析,目的是使用谱分析法鉴定在分类或诊断平台的能力中起作用的基因组。从研究中发现,支持向量机(SVM)是一种名副其实的工具,用于分析来自DNA微阵列数据的基因表达的广泛模式。在[23]中,使用等渗分离进行BCa预测法使用了两个不同的数据集。其中包括威斯康星州和卢布尔雅那乳腺癌数据集。数据集的相似性在于它们的二元类变量。然而,这些数据集的不同之处在于威斯康星州的数据集具有足够的特征来保证乳腺癌分类,而卢布尔雅那的数据集包含模糊的数据,这些数据被用来确定癌症复发。几种计算技术进行了评估,沿着他们的乳腺癌诊断和预后的充分性评估的技术包括等渗分离、SVM、线性规划判别、Ada-Boost和多表面分离。已确定等渗分离技术与其他一些已建立的技术相比取得了更好的结果作者在Ref。[24]第24话自动化乳腺癌诊断系统该系统作为一个平台,将指导其他研究人员开发乳腺癌检测的自动决策支持系统一项调查已经完成过程用于预处理数据集。该研究的数据包括从弗罗茨瓦夫医科大学病理学系收集的110张细针穿刺活检图像。使用SVM进行分类。SVM与其他技术,如多层感知器(MLP),自组织映射(SOM),和基于主因子的人工神经网络进行了比较。在四种分类器中,SVM的平均性能误差为5.76%在[26,27]中,有人指出,最近的数据挖掘研究集中在临床研究领域,涉及疾病诊断、预后确定和药物治疗决策这项研究的主旨是设计一个数据挖掘框架,其中包括学习模式和规则的活动,这将有助于在新案件中作出决定。这是通过从UCI机器学习库中为威斯康星州预后乳腺癌(WPBC)数据集构建一个有效的分类器来实现的。共涉及20种分类算法。这些算法及其性能基于作者所述的准确性:“Quinlan的C4.5决策树算法((C4.5),100%);用于分类的偏最小二乘((C-PLS),68.18%);分类树((C-RT),76.26%);成本敏感决策树算法((CS-MC 4),92.93%);用于分类的SVM((C-SVC),84.85%);迭代二分法((ID 3),76.26%); K-最近邻((K-NN),82.32%);线性判别分析((LDA),88.89);逻辑回归((LR),81.31%);多层感知器(MP),90.40);多项逻辑回归(MLR),87.37);朴素贝叶斯连续(NBC),70.71);原型最近邻(P-NN),76.77%);二元逻辑回归(BLR),87.37%);径向基函数(RBF),76.26%);成本敏感分类树(CS-CRT ),76.26% ) ;随机树(Rnd 树),100% ) ; SVM(79.29%);部分至少小二乘判别式/线性判别分析((PLS-DA/LDA),83.84%/84.34%)"。以下算法被确定用于检查特征选择对分类准确性和特征子集大小的减少的影响:在预处理前评价的计算技术中,选择了四种用于后特征选择评价,它们是KNN、朴素贝叶斯、Rnd树和C4. 5。所用的预处理方法有:Fisher滤波、后向Logistic、阶梯圆盘分析和ReliefF。结果示于表1中。从研究中得出结论,Fisher滤波、后向Logistic回归、逐步判别分析和ReliefF滤波算法能够提高Wisconsin Prognosis乳腺癌数据集的分类器准确性。还得出结论,Quinlan的C4.5和Rnd树在没有特征选择的情况下是100%准确的。决策树(DT)已被公认为是BCa分类和诊断的主要计算技术之一。使用决策树的分类和诊断过程使得多变量关系能够以比单变量更高的准确度 来 表 示 。 基 于 LP 的 树 算 法 在 文 献 [1] 中 被 称 为 多 表 面 方 法 树(MSMT)。[28].该研究涉及使用MSMT在几个真实世界的数据库之间进行比较:威斯康星州乳腺癌数据库;克利夫兰心脏病数据库;和银行故障数据库。具体而言,对这些数据集使用泛化是使用表1比较分类器精度与预处理[26]。更好的乳腺癌分类程序。分类器,如多层感知器神经网络(MLPNN),组合神经网络(CNN),概率神经网络(PNN),递归神经网络(RNN)和SVM的威斯康星州乳腺癌数据库的标准属性进行训练。结果表明,支持向量机具有最高的准确率的技术。在[25]中,介绍了精细组织抽吸物的自动恶性分级。在这项研究中,计算技术无特征选择有特征选择(%)Fisher后向阶梯圆盘ReliefF(%)滤波器Logistic分析KNN82.3283.0083.2683.2383.25朴素贝叶斯70.7177.2378.5679.1380.11Rnd树100100.00100.00100.00100.00C4.5100100.00100.00100.00100.00B.A. Akinnuwesi等人医学信息学解锁21(2020)1004594十重交叉验证法。该程序涉及将数据集划分为10个大致相等的部分。随后为九个部件构建决策树,而一个部件用作测试部件。为了进行评价,记录了DECStation 5000/125上的CPU时间,并将其用于创建和修改每10倍平均的一棵树。另一台机器被用于CART程序,因为它参与了附加计算的性能。因此,结果中未报告CART算法的时间。结果表明,与CART和C4.5相比,MSMT能够使用最少的节点创建树,具有更好的泛化能力。具体而言,MSMT在所有三个数据库上创建的树与C4.5相比交叉验证错误更少,但在心脏病数据库上仅优于CART。MSMT生成的树比CART和C4.5生成的树更小,因此更容易解释,尽管它比其他两种方法稍微复杂一些。表2总结了三种方法在三个数据库上的性能。该研究的结论是,MSMT与传统的决策树方法相比,在准确性,训练时间和树的大小方面非常好。类似的报告在Ref. [29].在参考文献报道的研究[30]三种数据挖掘技术对乳腺癌数据集生存率的预测进行了比较。这些算法是:代表树(C4.5),径向基函数(RBF)网络和简单的物流。数据集的以下使用WEKA(Waikato Envi-ronment for Knowledge Analysis)实现了机器学习算法,结果表明简单Logistic分类效果最好,有助于提高分类方法的性能。类似的研究报告在参考文献。[31 ]第30段。大多数分类器都有一个不足之处,他们的准确性水平。无法记录100%正确的分类仍然是使用计算技术进行乳腺癌风险评估和诊断的挑战。一旦分类错误,死亡率结果和对可预防或可避免的死亡零容忍的系统不会接受这种分类方法。在参考文献[8]中报告的工作中,来自所评估的计算技术之一的错误分类实例或离群值几乎为医学科学不允许使用这种技术,因为它对高质量的在数据挖掘和机器学习中,对误分类实例的定位和过滤是必不可少的,它影响着数据挖掘算法的性能研究了C-支持向量分类过滤器(C-SVCF),目的是识别和去除泰国Srinagarind医院生成的乳腺癌生存率样本中的错误分类实例(离群值)这样做是为了提高预测模型的准确性。它确保只有被C-SVCF正确分类的实例才被允许移动到正在评估的学习算法该滤波器与其他已知的集成滤波器,如Ada-Boost、Bagging以及SVM与AdaBoost和Bagging滤波器的集成用于比较的性能指标包括准确性和受试者工作特征(ROC)曲线。的调查结果表2乳腺癌的治疗[28]方法序列误差(%)CV误差(%)叶节点时间(秒)MSMTC4.52.42.83.03.82116.83.7推车5.35.33N/ATRAIN ERROR=整个数据集的误差百分比; CV ERROR=交叉验证误差百分比研究表明,C-SVCF在识别误分类实例方面是有效的。在[13]中,作者从拉各斯州立大学教学医院(Ikeja,Lagos,尼日利亚)收集了乳腺癌数据集。对收集的数据集进行预处理,以便:删除不一致的数据,解决数据缺失的问题,并将数据集转换为适合模拟环境的格式。在这项研究中,使用了两种有监督的机器学习算法:J48和朴素贝叶斯。使用WEKA进行模拟以预测乳腺癌风险预测。共涉及69个训练数据集。对于J48, 18例良性病例中,17例正确分类; 33例可能病例中,22例正确分类; 18例不太可能病例中,18例正确分类。对于朴素贝叶斯,在18例良性病例中,17例被正确分类;在33例可能病例中,31例被正确分类;在18例不太可能病例中,17例被正确分类。作者得出结论,J48是比朴素贝叶斯更好的分类器的 作者 在 参考文献 [七]《中国日报》 评价 的 性能 不同乳腺癌分类中的计算技术。该研究利用了威斯康星州乳腺癌子目录中UCIrvine机器学习库中的数据。在删除16个缺失值的实例后,在699个实例中共涉及683个实例。使用WEKA工具包比较了三种数据挖掘算法,以评估三种乳腺癌预测模型的性能和有效性。对所有分类器进行10倍交叉验证。分类器是:使用了已建立的9项乳腺癌分类技术指标。它们是:“团块厚度;细胞大小均匀;细胞形状均匀;边缘粘连;单个上皮细胞大小;裸核;染色质平淡;正常细胞核;和Mitoses”。结果表明,SMO是最有价值的分类器,最适合于乳腺癌的诊断,与IBK和BF树相比,因为它具有最好的准确率(96.19%),最低的错误率和最高的性能。在[29]中,作者旨在通过采用不同的智能技术来诊断乳腺癌,这些技术包括:决策树(DT),SVM和人工神经网络(ANN)。此外,还使用了这些方法的集成。用SPSS Clementine软件进行实验分析。Clementine中使用的具体模型有:SVM; C5.0和神经网络。采用特征选择算法对数据集进行降维。在威斯康星州诊断乳腺癌数据集上使用10倍交叉验证技术来确定性能。培训和测试比例为90%:10%。在参考文献[ 32 ]中提出的另一项研究中,证实了乳腺癌的准确诊断仍然是治疗疾病的重要措施。在这种情况下,决策过程需要医生通过使用数据挖掘技术的巨大支持。在这项研究中,使用了两个癌症数据集:威斯康星州乳腺癌数据集(WBCD)和威斯康星州乳腺癌诊断数据集(WBCDD)。采用遗传算法对采集的数据集进行预处理,提取信息量大、有意义的特征。根据准确度、受试者工作特征(ROC)下面积和F-测量评价性能。结果表明,轮作林模型的精度最高,百分之九十九点四八这一结果有改善乳腺癌诊断的趋势在医疗领域,从而为更好的医疗保健、降低死亡率和患者满意度提供了新的机会类似地,在参考文献[33]中,记录了用于识别癌症病例的几种方法,并且癌症的管理方法来自癌症的类型、患者被管理的阶段和癌细胞的遗传异质性。该研究的目的是提出一个系统,具有很强的预测算法,实现一个自学习协议。预计该协议将令人满意地连接疾病输出的过去输入,以可能确定癌症的未来预后。该算法分为数据集预处理和B.A. Akinnuwesi等人医学信息学解锁21(2020)1004595=身高2分类. 所考虑的计算算法有:SVM、随机森林、决策树和k-最近邻。结果表明,SVM分类的准确率最高,达到98%.其次是随机森林:96%; k3.1. 基于文献综述的以下是从审查的文献中得出的结论:a. 采用以下技术指标评价了乳腺癌诊断的电子计算机技术:团块厚度;细胞大小的均匀性;细胞形状的均匀性;边缘粘连;单个上皮组织;裸核;染色质淡;正常核和有丝分裂。b. 为了验证的目的,对Ex检验计算技术进行交叉验证技术的变体,其为:3评价过程通常使用WEKA软件工具完成。c. 用于计算技术评估的数据集中有一半以上并非没有缺失数据、噪声和冗余数据。因此,并非在所有情况下都进行了特征选择。d. 所做的评价均不包括对各种计算技术性能差异的显著性进行事后分析。所有评估均基于简单百分比,统计学显著性未知。e. 乳腺癌数据集的预处理成功地去除了错误、遗漏、噪声和冗余,并且还有助于提高BCa分类技术的准确性。计算技术的混合版本在预处理方面取得了更好的结果。这证实了计算技术可以相互补充。f. 所有文献均完全缺失多重预处理数据4. 材料和方法开展本研究的原因是需要确保对存在可能发生乳腺癌相关因素的患者进行适当的风险评估。对于乳腺癌的确切病因,学者们还没有达成共识。然而,有一个不断扩大的风险因素清单,使妇女容易患上乳腺癌。研究还表明,存在这些因素的患者可能永远不会患上乳腺癌,而一些从未表现出这些因素的患者最终会患上乳腺癌。除了围绕乳腺癌风险评估的争议之外,良性和恶性的分类是乳腺癌诊断的主要方法。诊断乳腺癌可以使用成像,放射科医生的专业知识和计算技术来完成。这项研究粗略地看了一下计算技术,以期促进乳腺癌诊断的改进。使用计算技术进行乳腺癌风险评估和诊断有几个方面。已确定的事实是,为乳腺癌诊断生成的数据并非完全没有错误和遗漏,这影响了计算技术能够准确诊断疾病的程度。这些数据以其原始形式使用,给出了低准确性,灵敏度和特异性,计算技术的诊断结果通过单预-加工后,准确度明显提高。 然而,这并没有给出计算技术的最佳解释。因此,在本研究中考虑了对数据进行多重预处理以完全消除任何形式的误差。本节介绍了拟议的乳腺癌风险评估和早期诊断(BC-RAED)模型的概念设计。4.1. BC-RAED的数据准备和表示格式设计了一种记录表,它是文献中现有记录表的改进版本,用于使用25个属性记录乳腺癌风险评估数据,其中大多数是布尔类型。它旨在表明患者是否可能或不可能患乳腺癌。由于人类受试者的间接参与,我们使用患者姓名首字母和序列号的组合我们得到了LASUTH(拉各斯州立大学教学医院)健康研究和伦理委员会的伦理批准,因此可以访问医院的患者第二份记录表的目的是收集乳腺癌诊断数据,其依据是九项既定的技术指标,这些指标的数值范围为1至10。使用内容有效性对两份记录表进行了验证,因为问题直接选自记录的风险因素和既定的技术指标。通过考虑过去的研究作为预测试来确保可靠性,并且结果与本研究获得的结果没有差异(相关系数0.78)。使用的数据集主要是布尔和数字表示,情感对一些问题进行布尔响应,同时使用以下方法进行计算以确定患者的体重指数(BMI)重量 按标准尺寸Kg/m2计算。 布尔使用的值为可能和不可能(良性)。根据数据记录表中每个问题对应的提取值,可能表明患者有发生乳腺癌的积极倾向。不太可能意味着患者没有发生乳腺癌的倾向。不太可能和可能分别被赋予布尔值0和1。在将患者分类为恶性(阳性)和良性(阴性)的过程中,对患者使用了相同的代码集。阴性指定为0,阳性指定为1。 将9项标准技术指标(即团块厚度、边缘粘附、细胞大小均匀性、细胞形状均匀性、单个上皮细胞大小、裸核、染色质淡、核仁正常和有丝分裂)的值按1-10的量表进行分级,并将其转换为0-1以便于计算。良性(阴性)和恶性(阳性)值的解释范围分别为0.00-0.49和0.50-1.00。原始值直接从2009年至2019年在LASUTH肿瘤诊所就诊的患者的放射学结果中提取。为了使诊断趋势操作化,计算了10个实值特征,这些特征指导我们提取风险评估和诊断乳腺癌所需的数据。其中包括:半径;质地;周长;面积;平滑度;紧凑性;(c)凹单位;对称性;和分形维数,代表前面提到的1-10级。4.2. 乳腺癌风险评估和早期诊断(BC-RAED)模型BC-RAED的开发过程包括:使用PCA进行乳腺癌特征选择,使用SVM进行乳腺癌分类、因此,图1呈现了使用PCA和SVM的混合的BC-RAED的概念框架,而图2呈现了使用PCA和SVM的混合的BC-RAED的概念框架。 2给出了模型流程图。BC-RAED的开发分为以下四个阶段:第一阶段:建立评估和分类乳腺癌的重要风险因素和诊断变量。第二阶段:开发匹配功能,将风险因素和诊断变量映射到可分类的实体中。第三阶段:开发多种预处理功能。第四阶段:模型模拟和评估。B.A. Akinnuwesi等人医学信息学解锁21(2020)1004596N== ×图1.一、 乳腺癌风险评估和早期诊断(BC-RAED)模型的概念框架。第一阶段:建立评估和分类乳腺癌的重要风险因素和诊断变量。在本研究中,进行乳腺癌风险评估和诊断所需的危险因素和诊断变量,建立在医生的意见评估和事实,从文献中使用的记录表作为工具的事实收集。记录表中定义的变量分别是预期有助于乳腺癌风险评估和诊断的风险因素和技术指标。这些变量是从文献中提取的。从LASUTH肿瘤科的患者记录中提取的数据证实了这一点。本研究的受试者为2009年至2019年在LASUTH肿瘤门诊就诊的患者,涵盖该科室的10年。使用了两张单独的记录纸。第一个用于获得乳腺癌风险评估变量的数据风险评估记录表分为两部分:第一部分集中在风险因素(可修改和不可修改):母亲诊断为乳腺癌,两个一级关系,可能或不可能。第二张记录表用于收集乳腺癌诊断数据,其集中在9个技术指标上。部分变量使用布尔值“是”或“否”进行测量,并将数字记录为可量化变量。 使用Cronbach公式(见下文)共选择了90名受试者,涵盖10年。对于风险评估和乳腺癌诊断,80例为阳性,10例为阴性。z2pqd21 .一、962x000534x 0.994570的情况。052因此,n= 8n1+n有癌症、良性乳腺疾病史、小叶癌史nf=188原位坏疽性口炎、导管原位癌病史、子宫癌、卵巢癌和结肠癌病史、乳房X线摄影致密乳腺、第一个孩子的出生年龄、初潮年龄、当前已满年龄、绝经期+1983年nf= 8的近似值。它荧光透视,雌激素水平,吸烟史,饮酒史,实际样本量8=0。9≈自然/人工流产、故意流产史、目前口服避孕药使用情况、母乳喂养史、职业危害、居住地区、定期锻炼、水果摄入量和杀虫剂使用情况。最后一部分指出了风险评估过程的结果,因此,对于10年期,所需的样本量为910 90。上述计算是基于尼日利亚目前的乳腺癌患病率,即每10万人中有54.3人[34]。因此n=n=NF=9B.A. Akinnuwesi等人医学信息学解锁21(2020)1004597--9j=j=1图二. BC-RAED流程图为了确定本研究的适当年度规模,使用CronbachLASUTH肿瘤科2010年至2018年男女数字)与它们有关的价值观有明显的不同。 平均值计算和分配用于将患者的评分划分或分类{0,Xi=负(无风险 乳腺癌的诊断)预期应答率为90%(0.9)。采用系统随机抽样的方法,从目标中每22个项目(198个,3 × 90个f(Xi)=1,Xi=阳性(风险 乳腺癌)宇宙采用内容效度检验数据收集的可行性,采用前后测检验量表的信度。乳腺癌的风险评估是通过为输入变量分配布尔值“是”或“否”来完成的,而在输出中可以看到相同的模式。基于10个实值特征的评分,9个技术指标的评分见表3:第二阶段:开发映射风险因素的匹配功能,对于乳腺癌诊断,恶性或其他的适应症是使用基于原始1-10级技术指标到0.00-1.00的转换的集中趋势计算来确定的。集中趋势计算程序如下:使用以下表达式计算集中趋势的测量值,即算术平均值x∑9XJ变量和诊断变量转化为可分类的实体。这是单独进行的风险评估和诊断,B.A. Akinnuwesi等人医学信息学解锁21(2020)1004598====TP+FNTN+FPTP+FPTN+FN表3根据技术指标值对乳腺癌进行分类技术指标状况/外观分类范围值肿块厚度单层良性1.0多层恶性0.5-1.00布尔值,以便于分析和解释。这是通过将风险因素随时间推移纳入分类来实现的。i. 为了准确评估患者的乳腺癌风险,使用了跨越一段时间的评估。这个模型是在参考文献[35]中开发的,它规定当前风险预测-细胞形状均匀性相同形状的细胞良性1. 0这是一个风险因素组合的函数适应风险评估是Gail模型,见参考文献10。[36]. 具体-边缘粘连粘连良性1.0在此基础上,提出了NCI-Gail模型边缘粘连丧失恶性0.5-1.00[37]被利用了。模型中的六个乳腺癌危险因素细胞大小均匀性细胞大小均匀良性1. 0本研究的数据收集中包括了所使用的数据,使其能够被采纳。单个上皮细胞相同良性1.0ii. 值被分配给与所有裸核分化恶性0.5-1.00记录表中提到的风险因素。布兰德染色质被细胞质包围不被细胞质良性1.0-0.49恶性0.5-1.00iii. 通过对所有选项进行编号,量化模型的iv. 受试者工作特性曲线(AUC;正常核仁均匀纹理良性1.0质地粗糙恶性0.5小,如果可见良性1.0大且可见恶性0.5也称为C统计)v. ROC确保灵敏度和特异性两者平衡,使得AUC为0.5指示差的区分性。有丝分裂正常分裂良性1. 0恶性0.5-1.00该计算仅针对乳腺癌诊断数据进行。对于每例患者,将9个标准属性(技术指标)的值加在一起,然后将总和除以9。该计算的实质是确定每位患者所有技术指标的平均值。将每例患者的所得平均值进一步除以10,以符合数值范围:0.00≤Xj≤ 1.00,其划分为:0的情况。0比0 四十九岁,xj=良性. 50比100,xj=恶性在进行乳腺癌诊断的过程中,分割值是训练支持向量机进行分类的基础使用以下表达式计算了五个性能指标:灵敏度= TP特异性= TN阳性预测值= TP阴性预测值= TNTP+TNTP+FP+FN+TN其中:TP真阳性,表示被分类为阳性的实际阳性数量的百分比;FN假阴性,表示被分类为阳性的实际阴性数量的百分比; TN真阴性,表示被分类为阴性的实际阴性数量的百分比; FP假阳性,表示被分类为阴性的实际阳性数量的百分比。第三阶段:开发多种预处理功能。使用BC-RAED进行乳腺癌风险评估和诊断4.2.1. 流程1:乳腺癌所有风险因素,包括记录表中包含的可修改和不可修改的风险因素,都是预先指定的值,然后将其转换为准确度和AUC为1.0表示完美的区分准确度。vi. 将患者分类为可能和不可能反映高风险和无风险。4.2.2. 流程2:乳腺癌数据集的多重预处理现有文献表明,乳腺癌数据的预处理最多只需要一次。然而,在这项研究中,乳腺癌的数据被预处理了两次,以确保完全消除错误。这有保证计算技术几乎绝对正确的趋势。流程如下:i. 建立一个5重分类平台,作为准确性估计的方法。ii. 开展培训集,以促进采用当前研究iii. 开发学习算法,以确保训练集和生成的数据集协调一致。iv. 采用主成分属性评价法(PCAE)对数据集v. 确定并记录了灵敏度、特异性和准确性等性能指标。vi. 开发新的学习子集,以促进数据集的进一步清理。vii. 开发另一种学习算法,以与新的学习子集保持一致。viii. 使用PCA属性评估进行进一步预处理,以进一步清理数据集ix. 经过第二次预处理后,获得了更好的结果x. 用于SVM乳腺癌风险评估和诊断的诊断结果的检索。xi. 验证结果以确认其与先前的研究一致。xii. 通过与文献中发现的结果进行第四阶段:模式实施和评估。从LASUTH肿瘤科获得的生命数据通过所提出的模型(BC-RAED)。随后将产生的结果与先前研究获得的结果进行了比较。实施BC-RAED所需的详细方法见第5.2节。4.3. BC-RAED的分析与评价在定性和定量评价BC-RAED的性能时,进行了比较,以证明新模型的必要性{f(xj)=0准确度=B.A. Akinnuwesi等人医学信息学解锁21(2020)1004599从审查的文献中可以清楚地看到,乳腺癌数据的预处理最多只能使用一个评估器完成,在大多数情况下,这无法完全清理数据。这反映在计算技术用于确定乳腺癌和BCa诊断风险时获得的准确度上。对于未预处理的数据,情况更糟,因为对这些数据采用的一些计算技术几乎无法获得60%至70%的准确度水平,从而使30%至40%的情况处于发展乳腺癌的风险中或使乳腺癌病例未被检测到。具体而言,使用参考文献[26]中进行的研究,SVM的准确度为96.99%; CART的准确度为69.23% [38]; ID 3的准确度为76.26 [11,27]; SVM的成功率为51.00% [39];使用朴素贝叶斯和J 48进行的乳腺癌风险评估的准确度为82.6%和94.2% [13]。相对于本研究,考虑到灵敏度和特异性是更可靠的性能指标,BC-RAED的灵敏度为95.24%,特异性为100%,准确性为97.62%。对于所有综述的文献,风险因素在21个实体中,但在本研究中增加到25个,以容纳四个当代和密切相关的乳腺癌风险因素。因此,本研究为评估乳腺癌风险提供了一个强大的平台,以确保正确的分类和启动适当的行动路线,以进一步诊断和治疗。5. 结果和讨论5.1. 描述性统计量本研究使用的数据收集工具类型不保证与人类受试者直接交互。相反,大量利用了病人记录表用于从患者的医疗记录中提取数据从回顾的文献中,收集了25个乳腺癌危险因素。布尔值用于使用诸如是/否、从未/曾经、过去/当前、城市/农村、很少/经常和可能/不可能的值对提取的事实进行分类。对使用这些数值提取的事实进行了分析。乳腺癌诊断的数据是以定量形式提取的,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功