没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁18(2020)100265乳腺癌分类技术Jafar Tanhaa,Hassan Salarabadi b,Mozaffar Aznabc,*,Ahmad Farahi b,Mehdi Zoberi ca伊朗大不里士,巴曼29街,邮政信箱19395-4697,大不里士大学,电气和计算机工程系b信息技术系,Payame Noor大学,Nakhl街,伊朗德黑兰c伊朗克尔曼沙阿医学科学和卫生服务大学医学系A R T I C L EI N FO关键词:乳腺癌决策树RIPPER数据挖掘A B S T R A C T本文的主要重点是确定不同的乳腺癌组的预后指标之间的关系,使用数据挖掘领域的分类算法。通常,数据挖掘算法用于发现数据的隐藏结构。这项研究使用了伊朗624名乳腺癌患者的数据。作为特征的信息包括年龄、受累淋巴结数目、肿瘤位置、血管受累、神经周围受累、孕激素受体状态、雌激素受体状态、HER 2/neu受体状态、P53和不同乳腺癌组因素。我们的目标是建立不同的分类模型,以便从所使用的数据集中发现模式。这些模式反映了不同因素之间的主要规律和关系。我们主要采用了两种不同的学习算法,决策树学习和基于规则的算法。我们准备了几个实验来评估不同因素对乳腺癌诊断的影响。我们的实验结果表明,在所使用的乳腺癌数据集的1. 介绍癌症是指体内细胞的异常生长和增殖。当癌症发展时,细胞继续不受控制地生长和分裂而不死亡。事实上,细胞已经失去了它们的位点特异性和正常生长。在这种情况下,它们有能力扩散到不同的组织,并侵入和破坏周围组织。它们可以通过血液或淋巴系统到达身体的其他部位[1]。乳腺癌的异质性很高,因为有许多基因负责引起这种疾病,尽管在这一范围内取得了许多进展,但我们对这种疾病的理解仍在进行中。乳腺癌是女性最常见的癌症之一,据世界癌症统计,其发病率呈上升趋势。全球每年有超过800万人被诊断患有癌症,其中约有100万例是乳腺癌病例[2,3]。2015年,约有231,000名美国女性被诊断患有乳腺癌,其中约有40,000人死于这种疾病[4]。早期发现、及时诊断和早期治疗可以降低乳腺癌的死亡率。如前所述,乳腺癌的临床和分子异质性很高;因此,我们对该疾病的了解仍在进行中。为了更好、更全面地评估预后因素,在评估过程中存在许多方法学挑战。尽管在该领域已经进行了许多研究,并且已经确定了许多有影响力的变量,但是这些变量在患者预后中的作用在很大程度上是未知的。准确地获得这些预后因素是非常重要的,因为它们可以在疾病的早期阶段用于识别患者的复发和死亡风险。化疗的广泛使用有助于降低乳腺癌死亡率。然而,有些患者可能过度治疗或治疗不足;因此,使用可靠的预后因素不仅对初始治疗很重要,而且对确定治疗类型、组织浸润和转移以及预测生存或死亡也很重要。预后因素可能包括临床标准,可用于以确定每个病人复发的风险。乳腺癌的病理和临床特征是反映乳腺癌患者病情的重要资料之一。它们可用于将患者分类为不同的组,以确定患者的预后。这些特征中的一些包括肿瘤大小、组织学分级、淋巴结受累、雌激素受体(ER)状态、孕激素受体(PR)状态、HER 2/neu受体状态和一些其他特征。* 通讯作者。电子邮件地址:tanha@tabrizu.ac.ir(J. Tanha),tanha@tabrizu.ac.ir(M.Aznab)。https://doi.org/10.1016/j.imu.2019.100265接收日期:2019年10月23日;接收日期:2019年11月3日;接受日期:2019年11月11日在线发售2019年2352-9148/© 2019由Elsevier Ltd.发布这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表医学信息学期刊主页:http://www.elsevier.com/locate/imuJ. Tanha等人医学信息学解锁18(2020)1002652þþþ重要的标志。使用分子方面是最重要的分类方法,以评估乳腺癌患者的预后因素。使用乳腺癌的分子分类将乳腺癌患者分为4组:管腔A(PR、ER、HER 2/ neu-)、管腔B(ER、可变状态PR和HER 2/neu以及Ki-67增殖基因的高表达)、TNBC(ER-、PR-、HER 2/neu-)和HER 2富集亚型(HER 2/neu相关基因的高表达)[5,6]。对预后因素的研究可以回答与患者结局相关的重要问题为了获得准确的结果,必须仔细识别和使用预后因素。在过去的十年中,进行了许多研究以增加其他重要的预后因素[6,7]。因此,考虑的因素必须与淋巴结、分级和分期无关[5]。为了预测乳腺癌患者的预后,可能需要预后模型和两个变量组的组合这些预测模型必须整合。有一些已知的增殖基因表达可能优于临床病理标准[1]。如今,医疗保健中各种疾病的数据收集确实是至关重要的。基本上,数据挖掘技术可以用来提取模式,因为收集的数据量是巨大的,传统的数据处理应用程序,如统计方法,不足以处理它们。特别是,使用人工智能技术,特别是数据挖掘方法,可以显着改善乳腺癌治疗的诊断和成本例如,根据传统方法,每年约有160万美国妇女应接受乳房活检[8]。为了分析所收集的数据,数据挖掘方法已经被最近用于构建预测或描述模型,以发现医学数据集的潜在隐藏结构[9]。近年来,数据挖掘和机器学习技术已广泛应用于许多领域和领域,如临床医学[10这些技术是基于统计和数学模型开发的,目的是开发医学诊断模型。Krishna等人(2013)使用各种数据挖掘技术进行乳腺癌的预后和诊断。使用分类算法,他们对乳腺癌患者进行了高准确率和低错误率的分类[14]。在参考文献[15]中,使用多变量回归技术和数据挖掘技术来表明肿瘤特征与HER2阳性因子之间的相关性。 Ravi Bharat,Parikh等人[16]提出了一种使用机器学习方法预测化疗前180天内死亡率的模型。这些数据与癌症患者及其治疗前的状态有关。该模型将患者分为有效组以及预测的风险百分比[16]。在这篇文章中,我们的目的是探讨乳腺癌的分类使用数据挖掘技术的患者。然后,我们构建了几个分类模型,并从乳腺癌的数据和影响因素的学习模型进行评估。本研究中使用的数据集包含2007年至2016年期间来自伊朗Kermanshah Mahdieh诊所的623名乳腺癌患者的影响因素。为了对患者进行分类,在数据挖掘中选择一些因素作为特征,然后将分类算法应用于它们。两种分类算法-决策树和重复的增量剪枝以减少错误(RIPPER)用于学习和分类[17,18]。决策树算法是许多领域中最快和最常用的学习算法之一,包括医疗领域[19]。通常,该算法生成规则,并且在医学领域具有良好的准确性[19]。这些规则经常被领域专家用来评估发现的模式。RIPPER算法是一种广泛使用的算法,也可以从数据中生成规则[17]。该算法实现了一个命题规则学习器。我们使用这两个算法从收集的数据中生成规则。然后,我们根据领域专家的知识评估所产生的规则。我们的实验结果证实了一些先前研究中的统计和实验结果[20]。还有其他一些发现可以作为新的假设提出本文的其余部分组织如下:第2节介绍了使用的方法。实验在第3节中讨论。第4节给出了结果,最后在第6节中给出了结论。2. 方法在所提出的方法中,我们应用数据挖掘分类技术的数据集,其中包括乳腺癌的危险因素。我们的主要目标是使用数据挖掘方法发现乳腺癌的主要因素,并将其与临床医生得出的结果进行比较(见表1)。在这篇文章中,使用数据挖掘分类算法,我们可以找到有意义的乳腺癌的危险因素之间的关系。我们的一些发现已经在以前的研究中通过实验得到了证实,见参考文献。[5,21,22] [23,24],以及其他可以作为新的假设提供。本分析研究是对数据集进行的,该数据集包括2007年至2016年伊朗克尔曼沙阿Mahdieh诊所的乳腺癌患者记录。这些患者的乳腺癌诊断通过病理学检查确认,并通过患者记录以及由乳腺癌预后风险因素组成的数据集收集和分析所需信息。本文采用决策树和RIPPER分类算法两种数据挖掘算法来提取规则。这两个算法是医学领域中最流行和最广泛使用的算法,可用于发现规则,参见参考文献。[9、16、25]。此外,每个算法都有评估表,可用于比较它们的性能。在以下部分中,详细介绍了所提出的方法和算法。2.1. 知识发现数据挖掘是从存储在数据库、数据仓库或其他存储库中的大量数据中发现知识的过程。数据挖掘过程的一般步骤是:选择、预处理、转换、数据挖掘和解释.噪声和不相关的数据首先从数据集中删除。在下一步中,可以将多个异构数据源集成为一个。然后,选择相关的数据样本用于数据预处理。在预处理步骤中,执行两个操作,特征选择和降维。此后,采用机器学习和数据挖掘技术来发现数据中的隐藏模式。最后,挖掘出的知识通过可视化和表示技术呈现给用户。2.2. 分类问题数据库是隐藏信息的丰富来源,可用于做出明智的决策。数据分类和预测是一种数据分析,它可以用来提取一个预测模型来描述数据。这些模型可以应用于许多领域,例如医学和动物行为识别[26,27]。监督学习方法通常用于数据分类问题,并帮助发现输入特征(也称为自变量)与一个或多个特定目标特征(也称为因变量)之间的关系。最后,这种关系是作为一个模型的结构的形式。换句话说,该模型用于对数据样本进行分类并将其分配给给定的类之一[28]。表1使用的乳腺癌数据集概述。数据集示例数特征乳腺癌624 42J. Tanha等人医学信息学解锁18(2020)1002653为了解决分类问题,有两个步骤。在第一步中,使用基本学习器对训练数据集构造分类模型。在训练集中,指定所有样本的类标签。这个阶段被称为机器学习步骤。在第二步中,所得到的模型是使用测试集,其中包含的样本没有类标签进行验证。事实上,模型的准确性是根据其类别标签准确预测的样本数量计算的。在这项研究中,我们使用两个常用的基本学习器,决策树(C4.5)和RIPPER,建立分类模型。我们进一步从构建的模型中提取规则,以比较乳腺癌危险因素之间2.3. 决策树归纳由于决策树的简单性和可理解性,决策树在许多领域都是一种流行的数据挖掘技术,例如医学领域,参见参考文献。[9、14、29、30]。换句话说,它可以通过从数据中提取规则来发现隐藏的模式。该算法还通过提供从模型导出的树来图形化地表示模式。树中的叶子代表类,每个非叶子节点都是一个特征。在决策树中,从根到叶的路径(if-then语句)表示分类规则。ID3算法是针对已在不同领域使用的决策树提出的第一个算法[9]。人们对决策树算法的改进做了大量的研究. C4.5是这些改进算法之一,我们在本研究中采用了它[9]。2.4. 重复增量剪枝以减少错误(RIPPER)RIPPER(JRIP,RIPPER的Java实现)是本研究中使用的基于规则的分类算法[31]。换句话说,条件和规则可以直接从训练数据集中提取。例如,一般规则如下:如果(A1OP V1)和(A2OP V2)和.... 那么类1/4 C i(1)其中,Ai表示属性,Vi表示值,Ci表示类变量。OP是比较运算符之一:OP<<<,(二)FP:被错误分类为阳性、错误分类示例的阴性样本数量。FN:被错误分类为阴性、错误分类示例的阳性样本数量。我们进一步采用了几个评估指标,如精度,召回率和F-措施,以提供更多的洞察力所取得的结果在实验中。所使用的度量描述如下:精密度:真阳性(TP)数除以归类为阳性的样本数。此定义仅适用于具有正和负两个类其计算方法如下:精密度¼ TP/(TP <$FP)。回想一下:真阳性(TP)数除以数据集中的真阳性样本数,计算公式为调用¼ TP/(TP FN)。● F-measure:结合精度和召回率的度量F-测量值¼2*(召回率 *精度)/(召回率 *精度)我们在实验中使用这些指标。2.6. 所提出的方法在本节中,我们将介绍从所用数据集中构建分类模型和提取规则我们首先收集了2007年至2016年伊朗克尔曼沙阿Mahdieh诊所的数据。然后,我们选择一些功能的重要性,根据以前的研究。接下来,使用训练数据集(70%的数据)上的分类算法构建模型。该模型是通过对所使用的数据集应用两种分类算法JRIP和J48(也称为C4.5)获得的。然后利用所构建的模型从数据中提取模式和规则。然后基于测试数据集评估分类样本和因素(特征)之间的关系。在下一步骤中,基于测试集计算并比较两种使用的算法的评估指标。算法1提出了所提出的方法。每个算法的结果在单独的表格中列出每个规则的左侧由一个或多个条件项定义这是对功能执行的一组测试,规则(右侧)始终是原始标签中所有标签中的类标签数据集。如果规则左侧的所有条件对于数据样本都成立,则规则覆盖这些样本。JRIP分类算法是数据挖掘中最常用的算法之一.在这项研究中,我们的目标是在训练数据集中找到覆盖更多数据样本的规则,因此使用JRIP分类算法该算法适用于许多领域,如文献[1]中的算法。[32].2.5. 分类模型为了评估分类模型的性能,可以使用几种方法我们采用混淆矩阵X为分类模型的评价。根据混淆矩阵X,分类模型的准确度计算如下:准确度<$TP<$TN/TP<$FN<$FP <$TN(3)其中TN:准确分类为阴性、正确分类样本的阴性样本数量。TP:准确分类为阳性、正确分类样本的阳性样本数量。3. 实验在本节中,我们进行了几个实验来比较收集的癌症数据集的分类性能。然后,我们从构建的分类模型中提取规则并进行比较。本实验的目的是评估从数据中提取的规则是否有意义。为了实现这一点,我们在收集的数据集中的不同数据集上设置了六个不同的实验������J. Tanha等人医学信息学解锁18(2020)1002654-3.1. 收集的数据集表3使用的乳腺癌数据集概述。在这项研究中,我们收集了2007年至2016年伊朗克尔曼沙阿Mahdieh诊所乳腺癌患者的记录。诊断-数据集示例数特性#of类这些患者的乳腺癌诊断通过病理检查得到证实,并通过患者记录收集和分析所需信息。该数据集由乳腺癌的风险因素组成Dataset–I156involved-node,肿瘤大小,ER、PR、P53、Ki67、HER2、转移,预后数据包含以下特征:实验的选定特征见表2。Dataset–IIDataset–III阶段ER PR P53HER2 2Her2、ER、PR 23.2. 不同的实验我们进行了六个不同的实验,基于六个数据集。表3显示了所用数据集的规格。我们从收集到的数据集中获得这些数据集,以便在所选特征之间建立有意义的关系。在表3中所述数据集上进行实验的目的是利用诊断乳腺癌的有用特征(因素)之间的关系。在结果部分,我们提供了有关实验的更多细节。3.3. 实验装置对于本研究中收集的数据集,保留30%的数据作为测试集,其余的作为训练集。我们使用不同的训练集和测试集子集运行每个实验10次。然后,我们提出了10次重复实验的平均分类精度。在实验中,我们采用WEKA实现的基本分类器,默认参数设置[33]用于所有使用的方法,决策树(J48)和RIPPER(JRIP)基本分类器。4. 结果在这项研究中提出的方法,调查后获得的功能,一些相关的功能被选中,并将分类算法应用于他们。在第一步中,机器开始随机考虑训练集进行学习,在第二步中,将测试集提供给机器,以根据它所学习的内容进行决定。考虑到评估表中所示的每种算法的性能,可以比较分类算法。此外,通过研究基于不同因素之间的关系获得的决策树,可以呈现通过临床实验证明的规则和作为新假设提出的其他一些规则4.1. 数据集-I上的结果在本实验中,考虑到受累淋巴结的性质、神经前和血管受累、肿瘤大小、ER、PR、P53、Ki 67、HER 2/neu和STAGE,在数据集中区分具有受累淋巴结和较高Ki 67表达的患者,称为数据集I。然后,我们将数据分为训练集和测试集。然后,使用J48和JRIP算法在训练集上建立分类模型。然后基于测试集对构建的模型进行评估。表4可以看出,根据两个基础分类器的分类性能,患者的最大数量分别在管腔B和管腔A中,这在先前的研究中已经获得为表2乳腺癌数据集的选定特征概述所选要素淋巴结,受累淋巴结,神经周围,血管,肿瘤大小,ER,PR,P53,Ki67,HER2,转移,分期,年龄Dataset–IV445vascular, PR,Dataset–V444involved-node,Dataset–VI623ER, PR, P53, HER2,表4J 48的混淆矩阵X基于使用的测试数据集Dataset-I的学习器。分类为a b c d e a¼LuminalB 28 0 0 00b/HER 2富集0 7 0 0 0c/4亮度A为0 0 19 0 0d¼TGBC 0 0 0 5 0e ¼LuminalD为0 0 0 0 1表5基于测试数据集Dataset-I的JRIP基学习器的混淆矩阵.分类为a b c d e a¼LuminalB 28 0 0 00b/HER 2富集0 7 0 0 0c/4亮度A为0 0 19 0 0d¼TGBC 0 0 0 5 0e ¼LuminalD为0 0 0 0 1表6JRIP和J 48基学习器的分类精度在使用的测试数据集上,数据集-I。TP FP精确召回F-Measure ROC-面积类110011111111LuminalBHER2富集101111LuminalA101111TGBC101111LuminalD好的[5]。在表6中,报告了J48基础学习器的分类性能我们对JRIP也得到了同样的结果。如图所示,所使用的基本学习在本实验中给出了最佳的分类性能。我们进一步展示了从J48算法获得的决策树,见图1. 如图 1,树的叶子处的最大患者数量分别属于LuminalB和LuminalA组,这与其他研究一致[5]。考虑到两种算法的性能,可以看出,两种算法得到的结果是相同的。考虑到先前研究中获得的实验室和临床病理学结果,Ki67表达较高的患者有更大的淋巴结受累概率,LuminalB组的淋巴结受累概率更高。如图 1、我们的结果也验证了临床病理结果。4.2. 数据集-II上的结果在第二个实验中,将具有淋巴结受累和P53、ER、PR和HER 2/neu的患者收集在一个数据集中,数据集-J. Tanha等人医学信息学解锁18(2020)1002655þFig. 1. 从数据集-I生成的决策树。二.然后,我们将数据随机分为训练集和测试集。接下来,我们采用J48和JRIP算法对数据进行建模。J48和JRIP的测试集实验结果见表7。可以看出,根据分类性能,受累淋巴结与P53表达之间存在正相关关系,这在以前的临床病理研究中也得到了[34]。结果进一步表明,所构建的模型对阳性病例的诊断准确率为95%。表8更详细地显示了J48和JRIP算法在测试集上的准确度评估现在我们从模型中提取构造的规则。图2示出了从J48算法获得的决策树。如树叶所示,可以看出,有较高比例的淋巴结受累的患者有P53阳性表达。综合考虑两种算法的分类性能,可以看出两种算法得到的结果是相同的。根据先前研究中获得的实验室和临床病理结果[35],阳性P53因子与淋巴结受累之间存在正相关 如图 2、本研究结果也验证了临床病理结果。4.3. 数据集上的结果在本实验中,我们研究了雌激素受体(ER)和孕激素受体(PR)状态之间的关系。在以前的研究中,观察到这两个因素之间存在正相关关系[22]。本实验中收集的数据集包括:ER,表7J48和JRIP的混淆矩阵X基于使用的测试数据集的学习器数据集-II。分类为a ba¼负12 72b¼阳性5 91表8JRIP和J 48的分类精度基于使用的测试数据集Dataset -II。TP FP精确召回F测量ROC面积类0.14 0.05 0.71 0.14 0.24 0.54阴性0.95 0.86 0.55 0.94 0.7 0.54阳性PR和HER 2/neu。与其他实验一样,我们将数据随机然后,我们采用J48和JRIP算法对数据进行建模。最后,在测试集上从J48和JRIP算法获得的结果分别在表9和表10中示出。可以看出,根据分类性能,ER和PR之间存在正相关关系,这在以前的研究中也得到了[22]。我们的研究结果表明,PR阳性的患者具有阳性EP,置信度为94%。表10更详细地显示了测试中J48和JRIP算法的性能评估。此外,图3示出了构造的决策树模型。如图所示,PR和ER之间存在正相关关系;准确率为94%。我们用JRIP取得了同样的结果4.4. 数据集结果根据临床病理学结果,大约五分之一的乳腺癌含有大量称为HER2/neu的生长蛋白基因HER 2/neu通过命令细胞来构建蛋白质。增加HER 2/neu的肿瘤被称为HER 2肿瘤。已知血管和神经前受累对乳腺癌预后不良在这个实验中,我们的目标是找到血管受累和HER 2/neu之间的正相关关系。本实验中收集的数据集包括:血管、HER2、P53和PR。与其他实验一样,我们将数据随机分为测试集和训练集。然后我们J. Tanha等人医学信息学解锁18(2020)1002656表9图二、 从数据集-II生成的决策树。血管阳性者HER/2阳性,准确率为74%Ta-J48和JRIP的混淆矩阵X基于使用的测试数据集,数据集-III.分类为a ba正1/4 113 7b¼阴性14 45表10J 48和JRIP基学习器在使用的测试数据集上的分类精度,数据集-III。TP FP精确召回F测量ROC面积类别0.94 0.23 0.89 0.94 0.92 0.85阳性0.76 0.06 0.86 0.81 0.85阴性图3.第三章。从数据集产生的决策树-III。采用J48和JRIP算法对数据进行建模。最后,表11和表12显示了J48和JRIP算法在测试集上获得的结果。可以看出,根据分类性能,血管受累与HER/2之间存在正相关关系,这往往导致预后更差。我们的研究结果还表明,表11和表12显示了J48和 关于JRIP算法的测试比较详细.此外,图4示出了构造的决策树模型。如图所示,血管受累与HER2/neu之间存在正相关关系;该模型的准确性为74%。我们用JRIP取得了同样的结果。这表明具有阳性血管受累的患者的较高百分比也具有阳性HER/24.5. 数据集-V上的结果乳腺癌患者的寿命受到不同因素的影响,包括淋巴结受累、肿瘤大小或激素受体缺失,以及治疗类型,确定每一个因素,特别是在伊朗,非常重要。因此,如果在没有淋巴结受累的初始阶段进行适当的治疗,可以大大增加寿命可能导致乳腺癌预后不良的因素之一是淋巴结与激素受体的关系,这在本节中进行了研究在这个实验中,我们的目标是找到淋巴结和HER/2之间的正相关关系。本实验中收集的数据集包括:受累淋巴结、HER/2、P53和神经周围。与其他实验一样,我们将数据随机分为测试集和训练集。然后,我们采用J48和JRIP算法来建模的数据。最后给出了J48和JRIP算法在测试集分别示于表13和14可以看出,根据分类性能,淋巴结受累与HER/2之间存在正相关关系我们的研究结果还表明,阳性淋巴结受累的患者具有阳性HER/2,置信度为73%。表15和16更详细地显示了J48和JRIP算法在测试中的性能评估。可以看出,根据机器的分类表现,淋巴结受累与淋巴结转移之间存在正相关关系。表11J 48和JRIP的混淆矩阵X基于使用的测试数据集Dataset-IV。分类为a ba正1/4 87 18b/4负56 19J. Tanha等人医学信息学解锁18(2020)1002657þþþþ þþ表12JRIP基学习器在测试数据集上的分类精度数据集-IV。TP FP精确召回F-测量ROC-面积类别0.82 0.75 0.61 0.83 0.70 0.57阳性0.25 0.17 0.51 0.25 0.34她/2 HER/2阳性者预后较差。图5示出了构造的决策树模型。如图所示,淋巴结受累与HER/2之间存在正相关,该模型的准确性为73%。这表明淋巴结受累阳性的患者中HER/2阳性的比例较高。4.6. 数据集上的结果年龄是增加乳腺癌风险的最重要因素之一。随着年龄的增长,患者患这种疾病的概率也会增加。因此,在本实验中,我们研究了年龄与数据集中收集的其他因素之间的关系。我们在这里收集了一系列在疾病中起有效作用的特征以及年龄特征的数据然后,我们采用J48算法来建立分类模型。图6示出了所得到的决策树。可以看出,在图6的决策树的一个叶中,110名42岁的患者具有ER/PR /P53-/HER 2。这种情况下的准确率为54%在另一个叶子中,可以看到103名患者具有ER /PR / P53 /HER 2-,因此可以得出结论,在42岁以下的患者中,HER 2阳性的概率大于48岁以上的患者。5. 讨论本研究的主要目标是研究数据挖掘技术和分类算法如何从真实的乳腺癌数据中挖掘知识。在以前的研究中,这些统计数据是通过实验和临床获得的,其中一些已经在这里进行了研究,其中可以提到以下内容本 研 究 探 讨 了 Ki67 与 淋 巴 结 转 移 的 关 系 及 其 与 LuminalA 、LuminalB组的关系。Ki67因子阳性的患者更可能有淋巴结受累,并且更可能位于LuminalB组。从分类算法获得的结果可以与临床病理状态方面的许多类似研究进行比较。参考文献[5]显示,淋巴结受累和Ki67表达较高的患者位于LuminalB组。在一些临床病理学研究中,P53与表13J 48的混淆矩阵X基于使用的测试数据集Dataset-V。分类为a ba正1/4 106 11b/4阴性45 11表14JRIP的混淆矩阵X基于使用的测试数据集,数据集V。分类为a ba正1/4 112 5b/4负49 7表15J 48基学习器在使用的测试数据集Dataset-V上的分类精度。TP FP精确召回F测量ROC面积类别0.69 0.53 0.14 0.79 0.9 0.8阳性0.38 0.53 0.14 0.28表16JRIP基学习器在使用的测试数据集Dataset-V上的分类精度。TP FP精确召回F测量ROC面积类别0.96 0.88 0.70 0.96 0.8 0.54阳性0.13 0.04 0.58 0.13 0.20 0.54阴性见图4。 从数据集-IV生成的决策树。-J. Tanha等人医学信息学解锁18(2020)1002658þþ图五、 从数据集-V生成的决策树。图六、从数据集产生的决策树-VI.显示淋巴结受累,参见参考文献[23]。P53蛋白的表达与乳腺癌患者的预后有关,因为乳腺癌患者的淋巴结转移和神经前浸润的可能性较高,两者均与患者的预后有关。本研究发现P53与淋巴结转移呈正相关,而大多数研究认为ER与PR呈正相关。与ER阴性相比,ER阳性的乳腺癌患者具有更好的预后,并且大多数ER阳性的患者具有阳性PR。在Vinita Trivedi et al.(2015)[36],研究了ER和PR之间的关系在本研究中,这两个因素之间的正相关关系。这一结果与本文所得到的结果一致肿瘤血管和神经前病变与患者预后不良相关,降低了患者的生存率在这项研究中,我们发现血管受累与HER/2之间存在正相关关系,这一发现在临床病理研究中也已明确提及。HER 2-neu在某些情况下可能伴随HER2表达与淋巴结转移呈正相关.在一些先前的临床病理学研究中,HER2表达已被证明与淋巴结受累一起,在我们在本研究中显示结果的患者中预后不良。在确定患者复发和死亡风险的最佳预后因素的风险评估中存在许多方法学挑战这方面的研究仍在继续。最近,已经使用了混合方法,例如使用临床病理学标准和患者遗传特征的组合。在这项研究中,使用混合方法从患者获得的数据的检查表明,所提出的方法的预后值与使用通常的临床病理方法获得的值相似。然而,新的研究结果表明,预后价值的基础上,这些患者的临床护理建议的方法可以推荐用于其他乳腺癌患者以及其他类型的癌症。基于这项研究,可以立即确定患者的预后,而无需任何费用,然后在必要时可以使用适当的治疗和靶向治疗。根据乳腺癌涉及70个基因并且这些基因在不同种族中不同的事实,建议将所提出的方法应用于不同国家以具有兼容的6. 结论分类算法主要是数据挖掘中用来对数据进行分类的重要工具。为了对数据进行分类,J. Tanha等人医学信息学解锁18(2020)1002659通常用作训练集和测试集。为了验证结果,我们使用了两组数据来训练和测试模型。在这项研究中,有两个主要目的。首先,利用分类算法对已有的实验结果进行了验证,并由机器设计了一个可用于未来决策的模型。在第二步骤中,作为在数据集上执行算法的结果,在乳腺癌的诊断中验证的乳腺癌的不同因素之间获得显著关系。在文献回顾中,没有发现类似的研究,因此这些结果可能是未来工作的兴趣。竞合利益作者声明,他们没有已知的可能影响本文所报告工作确认我们感谢Mahdieh诊所,Kermanshah,帮助我们收集这个数据集。引用[1] Codella NC,Gutman D,Celebi ME,Helba B,Marchetti MA,Dusza SW,Kalloo A,Liopyris K,Mishra N,Kittler H,et al. Skin lesion analysis towardsmelanomadetection. 2018年IEEE第15届生物医学成像国际研讨会。ISBI 2018;2018. p. 168比72[2] Parkin DM,Bray F,FerlayJ,Pisani P.2002年全球癌症CAA癌症临床杂志2005;55(2):74-108。[3] WilsonC,Tobin S,Young R. 全球癌症负担的爆炸性 国际妇科肿瘤杂志2004;14(1):1-11.[4] 放大图片SiegelRL,Miller KD,Jemal A. 癌症统计,2015年。 CAA癌症临床杂志2015;65(1):5-29。[5] Inic Z,Zegarac M,Inic M,Markovic I,Kozomara Z,Djurisic I,Inic I,Pupic G,Jancic S. 根据ki-67、肿瘤大小和孕酮受体阴性提供的预后信息,管腔a型和管腔b型亚型之间的差异。临床医学洞察肿瘤学2014;8. CMO - S1 8 0 06 。[6] 杨文伟,王文伟,王文伟,王文伟. 65岁及以上乳腺癌患者的管腔a和管腔b亚型。 2013年。[7] Fragomeni SM,Sciallis A,JerussJ.乳腺癌的分子亚型和局部区域控制。 SurgOncol Clin N Am 2018;27(1):95-120。[8] Elmore JG,Longton GM,Carney PA,Geller BM,Onega T,Tosteson AN,Nelson HD,Pepe MS,Allison KH,Schnitt SJ,et al. Di-agnostic concordanceamongpathologists interpreting breast biopsy specimens. JAMA2015;313(11):1122-32。[9] 李文,李文,李文.数据挖掘:概念与技术。Elsevier; 2011.[10] Chaurasia V,Pastoris,Tiwari B.利用数据挖掘技术预测乳腺癌的良恶性。 JAlgorithms Comput Technol 2018;12(2):119-26.[11] 杨伟,王志,陈宏,刘晓.机器学习在乳腺癌诊断和预后中的应用。设计2018;2(2).[12] Xiao C,Choi E,SunJ.利用电子健康记录数据开发深度学习模型的机遇和挑战:系统综述。美国医学信息杂志2018;25(10):1419-28。[13] Mamatha Bai BG,Nalini BM,MajumdarJ.使用数据挖掘技术分析和检测糖尿病-医疗保健中的大数据应用。在:新兴计算机、信息、通信和应用方面的研究。SpringerSingapore; 2019. p. 443- 55[14] [10] Jianghua KR,Jianghua M,Jianghua S.预测和诊断乳腺癌疾病生存率的数据挖掘技术的性能比较。 2013年。[15] Chenard M-P,Anger E,Bizollon M-H,ChetrittJ,Cutuli FB,Kapfer J,Lacroi X M,Lefebvre C,Lefort E,mac Grogan G,et al. Factors affectingher2 positivity inbreast cancer according to statistical modeling and datamining techniques basedon a real-world national database:her-France. 2016年。[16] Elfiky A,Pany M,Parikh R,Obermeyer Z.机器学习方法预测开始化疗患者的短期死亡风险bioR X iv;2017. p. 204081[17] 科恩WW。快速有效的规则归纳。1995年,《Machine Learning Proceedings》。Elsevier; 1995年。p. 115比23[18] 小昆兰决策树的归纳 Mach Learn 1986;1(1):81-106.[19] Alickovic E,Subasi A. 基于离散小波变换和随机森林分类器的心律失常诊断医疗决策支持系统。 医学系统杂志2016;40(4):108.[20] 乔拉西亚五世 数据挖掘技术:预测和解决乳腺癌生存率。 Int JComput Sci Mob Comput 2014;3. 第10页[21] Abdollahi A,Sheikhbahaei S,Safinejad S,Jahanzad I.乳腺癌er,pr,her- 2和p53免疫反应与临床病理特征的关系。 国际病理学杂志2013;8(3):147-52。[22] R. Sheikhpour,F. a. Poorhosseini,乳腺癌患者雌激素和孕激素受体状态与p53,ki 67和her-2标记物之间的关系,伊朗血液癌症杂志8(4)。[23] Abdollahi A,Sheikhbahaei S,Safinejad S,Jahanzad I.乳腺癌er,pr,her-2和p53免疫反应与临床病理特征的关系。 国际病理学杂志2013;8(3):147-52。[24] [10]杨文军,陈文军,陈文军,陈文军,陈文军.乳腺良恶性肿瘤激素受体表达与组织学参数的相关性。国际病理学杂志2015;10(1):23-34。[25] 张伟杰,张伟杰,陈晓华,陈晓华. 基于彩色小波特征的乳腺癌诊断专家支持系统。J Med Syst 2012;36(5):3091-102.[26] TanhaJ,Someren MV,Bakker Md,Bouteny W,Shamoun- Baranesy J,Afsarmanesh H.基于加速度计数据的动物行为识别的多类半监督学习。2012年IEEE第24届人工智能工具国际会议。卷1; 2012年。p. 690- 7[27] TanhaJ. 一个多类的提升算法,以标记和未标记的数据。 Int J MachLearnCybern 2019 Dec;10(12):3647-65.[28] TanhaJ.England的半监督学习方法。博士论文。阿姆斯特丹大学信息学研究所; 2013年。[29] 明格斯·J 决策树归纳剪枝方法的实证比较。Mach Learn1989;4(2):227-43.[30] 放大图片作者TanhaJ,van Someren M,Afsarmanesh H.决策树分类器的半监督自训练。IntJ Mach Learn Cybern 2017;8(1):355-70.[31]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功