没有合适的资源?快使用搜索试试~ 我知道了~
数据科学与管理6(2023)1研究文章支持向量机算法在前列腺癌早期鉴别诊断中的应用博卢瓦吉河Akinnuwesia,*,Kehinde A.放大图片作者:Benjamin S.放大图片作者:Stephen G.Fashotoa,Elliot Mbungea,Moses Okpekud,Patrick Owateca斯威士兰,夸卢塞尼,M201,斯威士兰大学,科学与工程学院,计算机科学系b尼日利亚拉各斯州阿科卡联邦教育学院(技术)计算机科学教育系,邮编100213。c拉各斯州立大学理学院计算机科学系,Ojo,拉各斯州,102101,尼日利亚d南非德班夸祖鲁-纳塔尔大学遗传学系,邮编4041A R T I C L E I N F O保留字:易混淆疾病计算智能早期鉴别诊断Logistic回归前列腺癌支持向量机A B S T R A C T前列腺癌(PCa)症状通常与良性前列腺增生(BPH)混淆,特别是在早期阶段,由于症状之间的相似性,在某些情况下,诊断不足。临床方法已被用于诊断PCa;然而,在成熟阶段,临床方法通常存在复杂副作用的高风险因此,我们提出使用支持向量机对前列腺癌进行早期鉴别诊断(SVM-PCa-EDD)。支持向量机被用来分类的人与非PCa。 我们使用KaggleHealthcare存储库中的PCa数据集来开发和验证SVM模型进行分类。PCa数据集由250个特征和一类特征组成。 在这项研究中考虑的属性包括年龄、体重指数(BMI)、种族、家族史、肥胖、排尿困难、尿流力、精液中的血液、骨痛和勃起功能障碍。SVM-PCa-EDD用于预处理PCa数据集,特别是处理类不平衡和降维。消除类别不平衡后,用下采样数据集训练的逻辑回归(LR)模型的受试者工作特征(ROC)曲线下面积(AUC)为58.4%,而用类别不平衡数据集训练的LR的AUC-ROC曲线下面积为54.3%。SVM-PCa-EDD达到了90%的准确性,80%的灵敏度和80%的特异性。随机森林和LR对SVM-PCa-EDD的验证表明,SVM-PCa-EDD在PCa的早期鉴别诊断中具有较好的诊断价值。所提出的模型可以帮助医学专家早期诊断PCa,特别是在资源有限的医疗环境中,并为PCa检测和治疗提供进一步的建议。1. 介绍癌症是一种慢性和非传染性疾病,仍然是一个重大的全球公共卫生问题。 预计到2030年,癌症死亡率将增加到每年1 100万人,其中大多数发生在世界上应对能力最弱的地区。2011年联合国大会特别会议对癌症预防和控制的关键方面进行了编码,其中包括通过诊断、治疗和护理加强初级预防(Cannon et al.,2012年)。然而,这一点受到社会、经济和环境健康决定因素的影响,如贫困、文盲、性别不平等、社会孤立、耻辱、社会经济地位、难以获得卫生设施和早期诊断等,特别是在发展中国家。在各种类型的癌症中,前列腺癌(PCa)是全球男性癌症相关死亡率的第三大原因(Brabletz等人,2018; Rahman和Chowdhury,2016; Steinestel等人,2019年)。它在世界范围内变得越来越普遍,估计2020年有超过140万新病例和超过370,000例死亡(Sung et al., 2021; WHO,2020)。前列腺是男性生殖系统的一个组成部分位于膀胱下方和直肠前方的骨盆中,如图1所示。它围绕尿道的一部分,并且在成年男性中通常测量约3cm长和20g重 人前列腺是一种锌积累和柠檬酸盐产生器官,有助于产生和储存精液(Cunha et al., 1987年)。前列* 通讯作者。电子邮件地址:bakinnuwesi@uniswa.sz(学士学位)Akinnuwesi)。同行评议由Xi交通大学负责https://doi.org/10.1016/j.dsm.2022.10.001接收日期:2022年5月17日;接收日期:2022年10月6日;接受日期:2022年10月7日2022年10月19日网上发售2666-7649/©2022 Xi'an Jiaotong University.出版社:Elsevier B.V.代表科爱通信有限公司公司这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表数据科学与管理杂志主页:www.keaipublishing.com/en/journals/data-science-and-managementB.A. Akinnuwesi等人数据科学与管理6(2023)12前列腺产生大约20%的精液,患病的前列腺影响排尿、射精和排便。PCa的症状通常与其他疾病相似,特别是在早期阶段。前列腺癌的体征和症状包括排尿困难、骨盆疼痛、血尿和由于红细胞缺乏引起的疲劳前列腺癌与风险因素有关,如老年、遗传和种族。 这意味着家族的直系成员感染PCa会增加风险,因为它是遗传性的(Brabletz et al.,2018; Hagiwara等人, 2018年)。此外,一些行为和饮食风险因素与PCa相关,包括乳制品、加工肉类的高消费或某些蔬菜含量低的饮食(Alexander等人,2010; Bylsma和Alexander,2015)。一些调查发现PCa和淋病之间存在不寻常的关联(Caini等人, 2014年)。PCa在男性中的流行已经成为全球关注的问题(Houston等人,2018年)。例如,在美国,2020年估计约有191,000例新病例,其中33,330例死于前列腺癌。老年男性是一个易感群体,根据美国癌症协会(ACS)的一份报告(American Cancer Society,2022),全世界每九名男性中就有一名在其一生中被诊断患有PCa此外,ACS的报告还指出,在65岁及以上的男性中,10例PCa病例中有6例被诊断出,而PCa在40岁以下的男性中很少见。这与Zhou et al. (2016)全球PCa发病率。此外,世界卫生组织(WHO)的一份报告显示,PCa导致尼日利亚超过1.2万名男性死亡(WHO,2020年)。同样,前列腺癌在尼日利亚的癌症疾病中排名第一,死亡率很高,世卫组织记录的死亡率为每10万人46.41人。这将尼日利亚的PCa列为全球男性癌症死亡率的第12大原因因此,需要开发可行的基于计算智能的工具来改善原发性PCa的预防、诊断、预后和治疗。本研究旨在开发一种可行的基于机器学习的PCa早期鉴别诊断模型,可用于资源有限的医疗环境中,用于PCa的早期检测和诊断,以降低死亡率。在此,我们提出了一种用于PCa早期鉴别诊断的支持向量机模型(SVM-PCa-EDD); SVM-PCa-EDD是一种基于SVM技术的计算方法,用于使用来自Kaggle医疗保健库的数据集对患有和不患有前列腺癌的人进行分类(Kaggle,2022)。SVM作为一种监督学习算法(Cortes和Vapnik,1995),在解决许多生物和医学领域的分类问题方面表现出了很高的性能,包括图1.一、前列腺生理学生物信息学(Ng和Mishra,2007; Rice等人, 2005年)。SVM算法通过生成超平面来区分两个类,该在输入数据已经被数学地变换到高维空间之后最佳地分离类它是数据驱动和无模型的;因此,它对分类具有重要的判别力,特别是在样本量较小且涉及许多变量的情况然而,深度学习模型,如卷积神经网络(CNN),多层感知器(MLP),径向基函数网络(RBFN),递归径向基函数(RRBF),递归神经网络(RNN),长短期记忆网络(LSTM),限制玻尔兹曼机(RBM),生成对抗网络(GAN)和深度信念网络(DBN)在本研究中没有考虑,因为我们的数据集与癌症图像数据,癌症图像识别,脑成像,模式识别和预测,时间序列或预测以及高维数据集的探索性数据分析无关我们利用具有PCa症状的数据集,因为我们的研究集中于PCa发展为需要图像处理技术的癌症肿块形成之前的早期诊断因此,我们感兴趣的是在形成PCa肿块之前患者中表现出的症状的数据集症状包括排尿困难(缓慢或微弱的水流)、尿频(或排尿困难),尤其是整夜、尿失禁(从轻微到完全失去膀胱控制)、血尿、勃起功能障碍、排尿疼痛以及臀部、下背部和胸部疼痛。我们采用SVM,因为它被广泛用于解决数据分类和离群检测问题,数据预处理,类不平衡和降维。我们的模型(SVM-PCa-EDD)用于对有和无PCa的患者进行我们使用来自Kaggle Healthcare数据库的PCa数据集开发并验证SVM模型,用于诊断的PCa与无前列腺癌。PCa数据集是由250个特征和一类特征组成的标记数据集考虑的患者数据包括一般背景信息、血清信息和表面增强激光解吸电离(SELDI)脂质谱。患者的背景信息包括年龄、体重指数(BMI)、种族、家族史、排尿困难、尿流弱、精液带血、骨痛和勃起功能障碍。对收集的数据进行预处理,以消除类不平衡、不完整性、噪声和其他不一致性。提出的SVM-PCa-EDD用于预处理PCa数据集,以消除类别不平衡并降低维数。评价了SVM-PCa-EDD的性能,以确定其准确性、特异性和灵敏度。2. 相关工作2.1. 前列腺癌前列腺癌(PCa)最早发现于1853年(Adams,1853)。这是一种罕见的疾病,在19世纪,它的检测方法很差.癌症出现于正在进行的达尔文进化过程,这通常导致单个原发性肿瘤内的多个亚克隆(Gerlinger etal.,2012年)。这一过程导致转移的形成,转移是癌症病例发病的主要原因转移酶是癌细胞从最初形成的地方扩散到身体的其他部位。在PCa中,前列腺细胞突变成癌细胞。 患有转移性前列腺癌的男性接受原发性雄激素剥夺疗法(ADT),他们自然地对ADT产生抗性(De Bono等人,2011年)。许多学者已经鉴定了原发性PCa中的复发性体细胞突变、拷贝数改变和致癌结构DNA重排(Kote-Jarai et al., 2011; Rahman和Chowdhury,2016; Zhang等人,2016),PCa与泌尿功能障碍有关,因为前列腺位于尿道近端部分(因此称为前列腺尿道)的正上方。精浆通过输精管沉积在前列腺尿道中,PCa与勃起失败有关,B.A. Akinnuwesi等人数据科学与管理6(2023)13射精疼痛(Zhang等, 2016年)。 其他症状包括骨头、椎骨、骨盆和肋骨疼痛。脊椎骨中的PCa会压迫脊髓,从而导致腿部无力、刺痛以及大小便失禁。最初的PCa治疗是基于手术来缓解尿路梗阻,包括根治性会阴直肠切除术和睾丸切除术,但成功率有限(Adams,1853)。 在20世纪,经尿道前列腺电切术(TURP)取代根治性前列腺切除术以缓解梗阻症状,因为它可以更好地保留勃起功能。1983年,开发了根治性耻骨后前列腺切除术(RP)来治疗PCa(Yaxley等人,2016年)。这种手术方法允许切除前列腺和淋巴结,同时保持阴茎功能完整。最近,已经开发了几种PCa临床治疗方法,包括使用雌激素减少转移性前列腺癌男性中睾酮的产生(Denmeade和Isaacs,2002)和放射治疗,如外束放射治疗和植入放射性金属粒子的PCa近距离治疗(Denmeade和Isaacs,2002)。可用于诊断PCa的一些形式的临床诊断方法如下所示。2.1.1. 前列腺成像超声和磁共振成像(MRI)是用于PCa诊断的成像方法。经直肠超声用于超声引导的前列腺穿刺活检,通过创建骨盆中器官的图像,并且最常揭示PCa条件下的低回声病变(Schoots等人,2015年)。然而,研究表明MRI具有比超声更好的软组织分辨率(Bonekamp等人, 2011年)。MRI的作用取决于PCa诊断的风险水平。在低风险PCa中,MRI可用于患者的主动监测,而在高风险PCa中,它有助于检测骨疾病(Barentsz等人, 2012年)。 MRI与超声的融合通常用于识别前列腺活检的目标(Natarajan等人, 2011年)。前列腺MRI用于为接受机器人前列腺切除术的患者制定手术计划 它帮助外科医生决定以下事项:切除或保留神经血管束,确定排尿困难的恢复,以及评估手术难度。2.1.2. 活检如果怀疑有癌症,可以进行活检。门诊患者常规接受前列腺活检程序,很少需要住院治疗。抗生素通常用于预防败血症、尿路感染和发热等并发症;然而,一些不适是不可避免的(Yaghi和Kehinde,2015)。活检可以是标准的或有针对性的,后者更常见。靶向MRI/超声被发现可以准确地检测出高危癌症的早期阶段,并显着提高低风险癌症的检测。然而,靶向活检可能具有临床意义(Siddiqui等人,2015年)。综合证据进一步显示,血尿和精子畸形在受试患者中很常见。由于前列腺活检后的并发症,经常需要住院治疗。因此,通常建议活检包括抗微生物和疼痛管理药物。影像学活检是诊断PCa的有效方法。然而,许多患者接受前列腺活检,伴随疼痛、压力、出血和高成本,但准确检测癌症的可能性很小(Taitt,2018)。这使得前列腺活检在PCa诊断的早期阶段不完美和无效。2.1.3. 直肠指诊(DRE)DRE是由医生对直肠下部、骨盆和下腹部进行的体检,用于检查健康问题,包括检查前列腺。 在初级卫生保健环境中,DRE被认为是PCa的常规筛查(Naji等人, 2018年)。医生建议进一步检查腺体的形状、质地和大小是否有异常。Naji et al. (2018)不建议在初级保健中使用DRE进行PCa的常规筛查,以尽量减少诊断测试,过度诊断和过度治疗。此外,没有足够的证据支持DRE的有效性。2.1.4. 前列腺特异性抗原(PSA)前列腺的细胞产生PSA,并且其在男性受试者的血液中的水平使用PSA测试来测量。血液中高于正常的PSA水平是前列腺感染、增生、增大或癌症的指标(美国国家癌症研究所,2018)。PSA测试已被公认为有助于检测PCa的早期阶段然而,它可能具有以下后果(国家癌症研究所,2018):它可能导致过度治疗,这可能使患者不必要地暴露于治疗的并发症和有害副作用(例如,手术和放射治疗),如尿失禁、肠功能障碍、勃起功能障碍和感染。PSA测试也可能产生不准确的结果,从而产生焦虑,如果它是假阳性或假保证没有PCa发生,如果它是假阴性。诊断PCa的临床方法对于其检测是部分足够的。然而,这些方法仅用于PCa的成熟阶段PCa不能通过成像检测到,也不能在早期阶段的活检提取物中发现,这同样适用于DRE的使用虽然PSA检测支持早期检测,但结果并不总是准确的。因此,一些医生反对使用它(国家癌症研究所,2018)。因此,当患者表现出可能被误认为其他疾病的PCA相关症状时,这些方法都不能用于在PCa肿块发展之前准确检测患者中PCa的可能性因此,我们需要开发一种使用机器学习技术的计算系统,可以在PCa开始生长之前帮助其早期鉴别诊断 这样的计算系统用作医生在早期筛查患者的PCa时的决策支持工具,而没有由使用活检、DRE和PSA测试引起的临床并发症。 鉴别诊断工具可以帮助健康专家区分具有相似症状的疾病并确定混合症状之间的重叠百分比(Akinnuwesi等人, 2020;Uzoka等人,2016年)。这有助于医生确保准确的诊断,从而为患者推荐正确的治疗方法。例如,PCa表现出与良性前列腺增生(BPH)的症状相似的症状(De Patientis等人, 2018; Taitt,2018)。 早期鉴别诊断工具对于分类检测重叠症状以实现早期检测和防止误诊已经变得至关重要(Li等人,2018; Pereira等人, 2020年)。男性前列腺癌死亡率正在成为一个严重关切;此外,前列腺癌的症状容易与前列腺增生等其他前列腺疾病相混淆,这使得使用现有的临床方法很难在早期诊断前列腺癌 早期症状不像后期那么明显。同时,延迟诊断可能导致并发症和转移,最终可能导致死亡(Smith et al., 2015年)。2.2. 与PCa前列腺癌主要与危险因素有关,如年龄,肥胖和家族史。然而,BPH 、 吸烟和饮 酒等风险因素可能 使低风险 患者易 患PCa (Gann,2002)。PCa的发病率在40岁以下的男性中很少见,但随着年龄的增长而变得更常见。对中国、以色列、德国、牙买加、瑞典和乌干达患病男性的尸检研究发现,50多岁男性中有30%患有 PCa,70多岁男性中有80%患有PCa(Tian和Osawa,2015)。遗传因素被认为是前列腺癌的危险因素,缺乏运动或久坐不动的生活方式也可能导致前列腺癌的发生。B.A. Akinnuwesi等人数据科学与管理6(2023)14范围(Marley and Nan,2016)。 肥胖和升高的血液睾酮水平也被确定 为 PCa 的 致 病 因 素 ( Kumagai et al. , 2015; Moyad , 2002;Parikesit等人, 2016年)。水果和某些蔬菜的消费已被公认为限制发展PCa的风险更高的肉类消费可能意味着更高的风险,正如Wolk(2017)所述。然而,较低的维生素D血液水平和使用降胆固醇药物可能增加发生PCa的风险(Murtola等人,2018; Platz等人,2009年)。同样,当存在可能导致前列腺增生的感染时,PCa的风险升高 研究还表明,环境因素可能有助于PCa的发生(Tse等人, 2017; Vaidyanathan等人, 2017年)。2.3. 鉴别诊断鉴别诊断是一个过程,有助于区分具有相似症状和风险因素的疾病它是对患者进行的系统诊断过程,以准确诊断与相关疾病具有相同症状并在相同条件下蓬勃发展的疾病(Mann,1990; Sand,2015; Uzoka等人, 2016年)。例如,艾滋病毒/艾滋病、疟疾、疟疾、结核病、COVID-19、埃博拉病毒病和霍乱等疾病都有类似的症状。因此,当患者表现出这些症状中的一种或多种时,医生需要使他们经历鉴别诊断过程,以在多种相关疾病中确定实际的一种。BPH的症状,如开始尿流困难或不止一滴、频繁排尿(尤其是在夜间)、感觉膀胱未完全排空、尿流微弱或缓慢,与PCa的症状相似,并且经历任何这些症状的患者预期经历鉴别诊断程序以确定确切的疾病(即, BPH或PCa),他们与之相关。因此,鉴别诊断过程涉及权衡疾病的概率与可能导致患者疾病的其他相关疾病的概率诸如软计算和机器学习的计算算法已经用于使用诸如症状、患者病史和医学知识的细节来指导过程并确保准确诊断的鉴别诊断(Liberman等人, 2016年)。鉴别诊断包括以下四个步骤(Federman和Chanko,2007):(1)收集有关患者的信息并创建症状列表;(2)列出症状的可能原因(3)通过将症状的最危险的可能原因放置在日志的顶部来对列表进行优先级排序;以及(4)从最危险的情况开始并沿着列表进行消除或确定可能的2.4. 计算智能技术在前列腺癌诊断中的应用在本节中,我们讨论了已开发用于PCa检测、诊断和预测的各种智能计算技术或模型智能计算技术试图将进化算法与机器学习算法相结合,以优化模型的预测性能(Mumford和Jain,2009)。机器学习算法在预测建模中是有效的,其中开发组件以从现有的患者历史数据中学习并对新的患者数据进行预测(Kakade等人, 2009年)。计算智能方法还有助于处理不精确和不确定的情况,通过这些情况,临床和生物学数据可能是模糊或不明确的(Cosma等人, 2017年)。例如,计算智能算法已经应用于乳腺癌的风险预测模型(Turner等人, 2007)、心血管疾病(Nair和Vijaya,2010)和肺癌。类似地,各种智能计算技术已被用于前列腺癌的预后和诊断。这些技术包括人工神经网络(ANN),遗传算法(GA),进化算法(EA),模糊系统和支持向量机(SVM)。Cosma et al.(2017)对已应用于PCa预测的计算智能方法进行了调查。研究中考虑的技术包括人工神经网络、基于模糊的技术、元启发式优化算法、深度学习、马尔可夫模型和基于贝叶斯的技术。人工免疫网络、蚁群优化和粒子群优化被作者确定为最常用于优化PCa预测模型性能的技术。类似地,Goldenberg et al. (2019)强调迫切需要应用人工智能及机器学习技术以妥善管理前列腺癌。计算智能技术也已应用于前列腺分割。 Tian等人(2018)提出了一种自动分割前列腺的深度CNN模型。类似地,如To et al. (2018),使用3D CNN模型分割磁共振(MR)图像中的前列腺。基于CNN的算法由Clark等人演示。(2017)在弥散加权成像(DWI)中描绘前列腺的移行区(TZ)。性能结果显示,检测有和没有前列腺的图像切片的平均精度为0.97。同样,Cheng使用深度CNN模型进行前列腺分割(2017 a,2017b)。Kwak和Hewitt(2017)提出了一种深度CNN模型来诊断PCa。用两种组织芯片(TMA)对模型进行评价,受试者工作特征(ROC)曲线下面积(AUC)为0.95,表明该模型可能改善PCa病理。然而,该模型不能用于PCa的早期鉴别诊断。类似地,Li等人提出的用于PCa诊断的基于区域的CNN(R-CNN)模型。(2018)帮助检测上皮细胞,准确率为99.07%,AUC为0.998,并执行Gleason分级任务,平均交叉联合(IoU)为79.56%,像素准确率为89.40%;然而,R-CNN模型不能用于PCa的早期鉴别诊断。Silva-Rodríguez等人(2020)提出,提出了一种基于深度CNN的自动化系统,以帮助病理学家分析前列腺全切片图像。分析如下:局部结构的Gleason分级、筛状模式的检测和整个活检的Gleason评分。这项工作没有考虑将低级别和高级别特征相结合进行分类,并且在PCa细胞中检测到筛状模式并没有作为深度CNN模型的端到端训练中的预测因素此外,该模型不适合PCa的早期鉴别诊断此外,Lokhande等人提出的自动化系统。(2020)使用深度Carcino-Net对前列腺活检进行分级也不能应用于PCa的早期鉴别诊断。Aldoj等人提出的深度CNN模型。(2020)应用于使用多参数MR对PCa进行半自动分类。该模型有助于检测具有临床意义的PCa,具有良好的AUC、灵敏度和高特异性;然而,它不适合PCa的早期鉴别诊断总之,各种学者已经开发和实施了不同的计算算法和方法以下列形式帮助病理学家管理PCa:(1)PCa诊断(Alkadi等, 2019; Alkhateeb等人, 2020; Kott等人, 2021);(2)临 床 显 著 的 PCa 预 测 ( Bernatz 等 人 , 2020 ) 、 格 里 森 模 式 预 测(Antonelli等人,2019)、PCa攻击性预测(Liu et al.,2019),和(3)PCa的自动Gleason分级(Bulten等人, 2020; Nir等人, 2019年)。2.5. 文献综述对PCa诊断进行的研究更多地依赖于基于活检的方法,而不是前列腺成像方法。此外,大多数依赖于基于活检的诊断方法的研究仅限于手动诊断,而少数研究推荐ANN作为计算技术。此外,诸如深度CNN之类的技术已经用于MR图像中的前列腺的自动分割、PCa的检测、PCa的诊断、PCa的分级的格里森系统、PCa的诊断、PCa的诊断、PCa的诊断、PCa的诊断、PCa的分级的格里森系统、以及PCa的诊断。B.A. Akinnuwesi等人数据科学与管理6(2023)15≥组织学图像、前列腺活检的自动每日分析、前列腺活检的自动分级和半自动PCa分类。没有一项研究通过考虑其他疾病中也存在的PCa的早期症状来关注PCa的早期鉴别诊断。从文献综述中得出以下结论:i. 老年人患前列腺癌的可能性比其他任何年龄组都高ii. 早期诊断可更有效地预防其影响和转移iii. 前列腺癌表现出与其他疾病相似的特征,特别是BPH。iv. 用于开发预测模型的特征包括年龄、PSA、体重、BMI、吸烟习惯、收缩压和舒张压以及格里森评分(即,基于前列腺中癌细胞的排列给予PCa的等级;从两个不同位置以3-5的尺度3. 材料和方法3.1. 临床医师对前列腺癌诊断和治疗我们进行了一项研究,以确定临床医生(泌尿科医生、肿瘤科医生、普通外科医生、产科医生、妇科医生、儿科医生和非专科医生)对尼日利亚成人和儿童PCa早期诊断和治疗此外,我们还收集了他们对采用和使用计算智能系统的看法,以补充他们在PCa诊断方面的努力。 我们在尼日利亚拉各斯州六个地方政府区域的二十家不同医院设计并随机分发问卷。我们对医生进行了物理采访(即,专科医生和非专科医生)进行问卷调查。60份问卷被管理到医生48份问卷(80%)成功完成并由医生返回(即,专科医生和非专科医生)。我们与各医院的10名专科医生和38名非专科医生进行了互动。在医院里发现缺乏专科医生我们根据收集的数据进行了必要的描述性3.1.1. 措施问卷分为两部分。第一部分集中于医生的人口统计、工作描述、使用医疗相关应用软件的知识及经验,以及彼等在其医院参与医疗软件开发的情况。问卷的第二部分集中在以下主要结构:医生的计算机素养水平,他们的采用和使用基于智能的应用程序的诊断和治疗,参与医疗计算系统和应用程序的开发,患者对使用计算系统进行诊断的反应,以及医院管理层对采用计算设备和应用程序的承诺,可以帮助补充医生的努力。使用5分制Likert量表,使医生能够表达他们对问卷中大多数问题的同意或不同意程度。采用Microsoft E X cel软件进行数据分析。3.1.2. 受访者特征的描述性统计表1列出了基于医生答复的描述性统计数据40岁以上的医生占66.7%,这反映了11年以上工作经验的医生占64.6%。他们还诊断和治疗了感染PCa的患者,他们说这在50岁的成年男性中很常见这一发现意味着PCa是成年男性的常见疾病。 在专科医生和顾问中,50%是泌尿科医生和肿瘤科医生,20%是表1受访者特征的描述性统计专科医生(n=10)(n=38)号变量描述频率百分比(%)频率百分比(%)1年龄组低于25岁0000251101539.540岁9902360.52性别男性7703181.6女性330718.43专业化泌尿科医生和肿瘤科医生550普通外科医生220妇产科医生220儿科医生1104最高资质博士55000MMed440821.1MBBS1103078.95医院管理高层管理88000中级管理2201026.3业务002873.76年工作经验5岁001026.36110615.8113301026.320年6601231.67计算机技术素养水平高于平均6602771.1平均4401128.9不识字00008疾病诊断方法使用电脑医疗app2201334.2使用常规临床方法8802565.89PCa诊断的智能应用程序的采用和使用强烈同意8802873.7同意2201026.3无动于衷0000不同意000010参与PCa诊断涉及0000没有参与1010038100注:n=样本人群;医学硕士(MMed);医学学士(MBBS)。B.A. Akinnuwesi等人数据科学与管理6(2023)16ð Þ¼×其中10%是产科医生和妇科医生,10%是儿科医生,20%是普通外科医生; 40%的人将患者转诊给泌尿科医生和肿瘤科医生顾问,并了解与PCa相关 的 风 险 因 素 和 症 状 。 此 外 , 10. 4% 的 受 访 者 拥 有 博 士 学 位(Ph.D.)。25%的医生拥有硕士学位(MMeds)作为最高学历,64.6%的医生拥有学士学位(MBBS)作为最高学历; 58.3%的医生在医院从事非管理层工作,41.7%的医生在医院从事高层和中层管理工作。减少每个PCa功能中可能存在的差异数量这个过程将填充缺失值。它还加速和简化了机器学习任务。四.最小-最大归一化确保了PCa数据集特征在距离度量方面不会被其他特征压倒。 在此过程中,值被调整到通常在0和1之间的范围。在这项研究中,最(一).医院的这项研究的结果表明,医生是计算机/数字识字。他们使用计算机(例如,笔记本电脑、笔记本电脑或台式机f xx-minx最大值x-最小值x(一)计算机)、计算机应用、互联网、智能电话、用于各种目的的电子 他们的计算机素养意味着他们可以很容易地理解,采用和使用任何智能计算机系统用于PCa诊断。尽管有良好的计算机知识水平,但只有31.3%的医生使用应用程序(app)进行诊断,其他人(68.7%)遵循传统(临床)诊断方法。所有的医生(100%)都认为智能应用程序对PCa的早期诊断有帮助,并期待着这样的应用程序。没有一位医生参与了PCa诊断的智能应用程序的开发医生表示,他们在诊断和管理PCa患者时遇到问题因此,如果开发PCa诊断应用程序,则可以减轻它们的一些挑战。95%的医生认为PCa在早期诊断不足;因此,智能计算系统对早期检测的重要性不能被高估。3.2. PCa数据预处理环境3.2.1. PCa数据集描述数据集从Kaggle Healthcare存储库(Kaggle,2022)中获得,作为逗号分隔值(.csv)文件。该数据库包含PCa患者的治疗前信息;三类数据合并为一类:一般背景信息、血清信息和SELDI脂质特征。该数据集包含可能患有前列腺癌的患者的10,000个医学检查记录;它是由250个特征和一类特征组成的标记数据集。患者的背景信息包括年龄、BMI、种族、家族史、排尿困难、尿流力、精液中带血、骨痛和勃起功能障碍。对数据集进行了预处理,以消除类别不平衡、不完整性、噪声和其他不一致性。预处理包括按以下顺序进行的数据清理、重排序、离散化和归一化:i. 进行数据清理以填充缺失值并丢弃稀疏分布的记录和列。数据清理有助于从数据集中删除噪声数据,例如缺失、不一致和不完整的值。ii. 在处理类不平衡时,使用Rescue来解决过采样和欠采样问题 如果阶级特征的表现或分布不平等,就会出现阶级不平衡。 在本研究中,考虑的目标分类特征为PCa和非PCa。这可以通过对少数类进行上采样或对多数类进行下采样来实现本研究采用了这两种方法在消除类别不平衡之前,通过将值从2更改为1和从1更改为0来转换不平衡的类别数据,然后从数据集中读取以确认类别是否不平衡。表2给出了使用上采样和下采样方法处理类不平衡所遵循的步骤。当数据集用于机器学习时,类不平衡使得结果不可靠且质量差。iii. 通过将标称值与数值等效值交换,对数据集进行离散化这有助于减少数据大小,其中,min和max分别为变量(特征)x,给出其范围。这被称为特征缩放,其中数据集的数值范围的值被减小到0和1之间的预处理的最终输出是干净的、无噪声的、一致的和标准化的。预处理的数据集包含9,897,236个特征和一个目标类。然而,这些维度对于模型来说太大了。因此,需要将预处理的数据集修剪为仅相关的特征。 这是通过对特征进行排名来预测目标类来实现的。 这种特征选择和提取过程被称为特征工程。3.2.2. 特征选择和提取特征选择和提取是两种不同的技术,它们具有减少数据集维数的相似目标降维是一个重要的步骤,特别是对于具有许多特征的数据。随机性减少是为了获得一组主变量而考虑的随机变量的减少(Roweis和Saul,2000; Tenenbaum等人, 2000年)。在对PCa 临床数据集进行清理、重建、离散化和标准化后,使用SelectKBest和卡方方法识别相关特征。这些用于将我们的特征集的维度减少到相关特征。此外,为了避免 丢 失 数 据, 使用 主 成 分分析(PCA)进行特征提取。 输出是一个维度减少的数据集,目标类被保留。 特征选择对我们的PCa数据集进行了排名,并选择了12个最相关的特征。提取优于选择的优点是,特征提取比特征选择更有效地利用了特征集,特征选择只对特征进行排名,并要求研究人员谨慎地选择它们3.2.2.1. 选择KBest技术。图2示出了使用SelectKBest算法对PCa数据集执行的特征提取过程。使用的特征选择方法是单变量选择,它使用PythonScikit-learn库中的SelectKBest类 SelectKBest类使用分类器函数帮助对PCa特征进行评分,然后删除除k个得分最高的特征之外的所有特征。 这递归地移除每个特征并基于新特征对它们重新排序,使得存在包含s 2 η个元素的新集合r,使得算法重新运行表2数据集类平衡程序.类不平衡类观察16,43503,565上采样少数类16,43506,435下采样多数类的新类13,56503,565B.A. Akinnuwesi等人数据科学与管理6(2023)17¼¼¼¼]¼XXEi.×A-图二. SelectKBest算法。剩余的特征集k 使用方差分析F值方法,因为数据集包含数值和分类值。显示每个属性的得分,并根据指定的k值选择得分最高的属性。3.2.2.2. 卡方特征选择技术。卡方检验通过检验特征与类之间的关系来帮助选择最佳特征给定每个特征集和相应的目标类,可以获得观察计数O和预期计数E卡方度量期望计数E和观测计数O如何彼此偏离该过程由Eq表示(二):2X2的值越高,特征集中的特征越相关3.2.2.3. PCA。PCA是一种基于实特征向量的多元分析方法 它使用正交变换来变换一组可能具有相关特征的观测。 它们被转换为一组具有线性不相关变量的值,称为主成分。 变换是第一个主成分具有最高可能的方差,并且每个后续成分在与前面的成分正交的约束下依次具有最高可能的方差。PCA值越高,特征越相关。3.2.2.4. 数据分割。 将数据集以70:30的比例划分为训练数据集和测试数据集进行交叉验证。该比率是通过实验选择的,因为我们在该比率下实现了最佳预测精度这意味着训练集包含7,000个实例,测试集包含3,000个实例。我们基于这个比例(70:30)实现了最佳预测精度,因为它在本研究中进行的实验中优于其他比例(如90:10,80:20和67:33)的预测精度3.3. SVM-PCa-EDD的概念设计SVM模型设计如下:i. 给定训练数据集θ包含特征向量x i和它们各自的类别标签y i,其形式为θ[(x i,...,x n)] |x iεmn,其中m是特征向量的维数,n是数据集中的实例数,ii. 最优边际分类是通过在m维空间中找到一个超平面来实现的,iii. 线性分类器基于fxPwi×xib,其中,向量wi是权重向量,b是超平面偏置,并且f(x)0称为超平面。SVM是一种有监督的机器学习算法,其主要功能是从已知分类数据点中找到未知数据点的二进制分类的最大边缘超平面。无论域中训练集的大小如何,新的输入集都可以比其他预测模型预测得更快当提供X2¼XOi-Ei我(二)一个未知的PCa元组,没有其相关的输出类,SVM模型在模式空间中搜索最接近于非PCa特征集f的χ2由等式(3)给出。m0B.Ri× cj21C×已知的元组。SVM使用经典的统计学习理论,并通过易于解释的模型实现新数据的良好泛化最接近的点被称为支持向量,因为它们X2fXXkAi;j-NB C(三)支持分离超平面的位置。这意味着其中:1/1j1RiCJN移动非支持向量不会改变超平面,反之亦然。亦然对于我们的PCa数据集,给定训练数据集θ包含特征向量xi和它们各自的类标签yi,i的形式为θ1/2π x1;x2;m250,预处理后的PCa数据库中的属性数k2,数据库中的类别数(六个大洲);N10,000,数据库中的样本数量Ri,第i个属性中的模式数cj,第j类中的模式数Ai,j,第i个区间和第j个类中的模式数由以上得到的等式被提供为Eq.(4)、.; x n|其中m是特征向量的维数,n是数据集中的实例数在SVM技术中,通过识别m维空间中的超平面来实现分类线性分类器基于Eq. (五):fxXwi×xib( 5)我其中向量wi是超平面系数的向量,b是偏置,2512RiCJ2Bi;jC×当f(x)为1/4时,x在超平面上X2mm10000R(四)1/1j1我CJ100003.4. 所提出的用于早期诊断的SVM程序的概念图前列腺癌鉴别诊断(SVM-PCa-EDD)具有较大X2的属性被选择用于分类模型。该过程的输出是具有排名值的所有PCa特征集的图 3给出了SVM-PCa-EDD的概念图。的步骤我@一BC@一B.A. Akinnuwe
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功