结肠癌机器学习与基因检测

97 浏览量更新于2024-01-09 收藏 2.05MB PDF 举报

医学信息学

机器学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁24（2021）100605结肠癌中有效基因的检测：一种机器学习方法Mohammad Amin Fahamia，*，Mohamad Roshanzamirb，Navid Hoseini Izadi a，Vahideh Keyvanic，Roohallah Alizadehsani da伊斯法罕理工大学电气和计算机工程系，伊斯法罕，84156-83111，伊朗b伊朗法萨大学工程学院计算机工程系，地址：74617-81189c伊朗阿瓦士Shahid Chamran大学理学院生物系d澳大利亚迪肯大学智能系统研究与创新研究所A R T I C L EI N FO保留字：结肠癌机器学习无监督学习降维统计假设检验A B S T R A C T如今，各种癌症在人类中变得普遍，不幸的是，这些癌症是许多人死亡的原因。癌症的早期发现和诊断可以对患者的生存和治疗成本的降低产生重大影响。结肠癌是全世界妇女和男子死亡的第三大和第二大癌症原因。因此，许多研究人员一直在努力为结肠癌的早期诊断提供新的方法。在这项研究中，我们应用统计假设检验，如t检验和Man-n- W h i t n e y - W i l c o x o n 和机器学习方法，如神经网络， K N N 和决策树，以检测结肠癌患者生命状态中最有效的基因。我们使用一种新的两步法对数据集进行归一化.在第一步中，每个样本（患者）内的基因被归一化为具有零均值和单位方差。在第二步中，对整个数据集的每个基因进行归一化。分析结果表明，这种归一化方法比其他方法更有效，提高了研究的整体性能。然后，我们应用无监督学习方法来寻找结肠癌基因表达中有意义的结构。在这方面，通过采用主成分分析（PCA）来降低数据集的维度。然后，我们根据PCA提取的特征对患者进行聚类。然后，我们使用不同的监督学习算法检查无监督学习方法的标记结果。最后，我们确定在每个聚类中对结肠癌死亡率有主要影响的基因。我们进行的研究是第一个表明结肠癌患者可以分为两类的研究。在每个聚类中，提取了20个对结肠癌早期诊断有重要意义的有效基因。其中许多基因是首次发现的。1. 介绍结肠癌是致命的，可以被认为是世界上癌症相关死亡的第二大原因[1，2]。结直肠癌是2019年的第二大死因，而2012年至2016年则排在第四位[3]。这种高死亡率表明，结肠癌的早期和及时诊断非常关键。在过去的几十年里，医生们提出了不同的结肠癌治疗建议。然而，研究人员仍然面临着一些需要解决的挑战。为此，应研究更准确和更快的方法，以提出最佳预测/检测解决方案。Borkowski等人[2]研究了250例良性结肠组织图像，250 结肠癌图像通过使用机学习最高所提出的方法实现的准确性为66%。Chen等人[4]进行了研究，以回答以下问题：不同的人工智能（AI）技术是否可以提供更准确的治疗决策，以改善结肠癌的护理。他们的结果表明，AI方法可以帮助多学科肿瘤委员会（MDT）的临床决策过程。Tan和Gilbert [5]应用集成机器学习方法使用基因表达记录对癌症数据进行分类。为此，C4.5算法和提升和袋装决策树应用于七个著名的癌症微阵列数据集。在参考文献[6]中，使用双层方法来识别组织学组织分类中的小对象，该方法通过结肠癌组织映射进行实验。Nakaya等人[7]提到了组织的形态学模式，它可以帮助病理学家找出非癌症和* 通讯作者。电子邮件地址：mafahami@gmail.com（硕士）Fahami）。https://doi.org/10.1016/j.imu.2021.100605接收日期：2021年2月4日;接收日期：2021年4月27日;接受日期：2021年5月16日2021年5月23日网上发售2352-9148/© 2021作者。出版社：Elsevier Ltd这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuM.A. Fahami等人医学信息学解锁24（2021）1006052=图1.一、所提出的方法的流程图。癌细胞准确率为98.9%。嵌套遗传算法（Nested-GA）是Sayed等人提出的一种新的遗传算法。Zhao等人[8]应用机器学习算法来处理结直肠癌（CRC）数据中的不平衡样本和维数灾难。采用鲸鱼优化算法（WOA）和基于混合核函数（MKF）的支持向量机（SVM）对未知样本中的CRC患者和健康个体进行分类。在另一项研究中[9]，深度学习细胞识别方法被应用于从癌症基因组图谱（TCGA）的结肠癌储存库收集的不同诊断图像。他们的发现表明临床变量和预测特征之间存在有意义的联系。深度学习也被用于对常规结肠癌组织学图像中的细胞核进行分类[10]。在这方面，使用空间约束卷积神经网络（SC-CNN）方法。此外，一种新的邻近增强预测器（NEP）方法与CNN方法相结合，以更好地对检测到的细胞核的不同类别标签进行分类。在Gessert等人的另一项研究中。[11]，CNN是用于增强共聚焦激光显微镜图像中的结肠癌诊断。准确率为89.1%。在[12]中，一种有监督的机器学习方法被用于结肠使用高维基因数据的癌症检测本研究使用了浅层神经网络（SNN）方法，包括SNN的创新算法。Cho等人。[13]在DNA微阵列分析中应用机器学习方法对癌症数据集进行分类，如结肠癌，淋巴瘤和白血病。此外，Sundaram和Santhiyakumari[14]提出了一种新的方法，以提高无线胶囊内窥镜（WCE）图像中结肠癌诊断的计算机辅助诊断（CAD）模型的性能。该方法采用了基于感兴趣区的颜色直方图和支持向量机算法。在此基础上，采用K均值聚类方法和空间灰度依赖矩阵（SGLDM）对图像进行特征提取。谭和吉尔伯特[5]综述了人工神经网络（ANN）用于预测结肠癌的方法该综述指出，与其他病理或统计方法相比，ANN在结肠癌分类中表现出可接受的性能Liu [15]将SVM算法应用于前列腺、肺癌和结肠癌数据集的三种基因表达谱，包括主动学习。最佳值的ROC曲线下的面积（当m1）分别为0.90，0.91和0.85前列腺癌，肺癌和结肠癌的数据。研究[16]提出将衰减全反射-傅里叶变换红外（ATR-FTIR）显微光谱与化学计量方法相结合，用于诊断结肠组织。为了评估ATR-FTIR显微光谱方法的预测准确性，在参考文献[16]中使用了类类比软独立建模（SIMCA）。FTIR显微镜用于癌症诊断的重要性正在增加。例如，参考文献[17]中的方法基于FTIR 并使用主成分分析（PCA）执行降维。所提出的方法已达到85%的准确率。一[18]选择特征。所提出的方法包括t检验和遗传算法（GA），并将其应用于结肠癌和肺癌数据集。结肠癌和肺癌数据集的最高准确率分别为99.9%和98.4%。上述论文的最大优点是预测结肠癌患者的准确率高。然而，他们没有调查这种疾病的有效基因。据我们所知，没有一个研究者将相似的特征患者聚类。我们试图弥补以前论文的这些缺点。本研究的主要贡献如下：提出了一种新的归一化方法，并应用于数据。我们首次从结肠癌数据集中提取了两个聚类，这对数据集的未来分析非常有用。这两个聚类表明，结肠癌患者可以分为两组，具有相似的特征。此外，首次在每个聚类中，根据患者的生命状态提取最有效的基因。一个类别中提取的基因不同于另一个类别中的基因。这样的观察表明，所发现的类别确实彼此不同首次发现了VPS16、DPH7、PCED1A、APTR、POLM、ZNF 362等对结肠癌有重要影响的基因。这一发现对今后的研究有一定的启示作用.最后，我们在讨论部分讨论了一些最有效的基因（基于p值的前20个），以提供它们对结肠癌患者生命状态影响的一些医学证据。本研究的其余部分结构如下。第2节讨论了所提出的方法，其计算复杂性在第3节中给出。实验结果见第4节。第5节讨论了使用我们提出的方法获得的结果。最后，我们在第6节结束了本文。2. 该方法在这项研究中，我们分析了癌症基因组图谱结肠腺癌（TCGA-COAD）的HTSeq-FPKM-UQ（每千碱基的转录片段-每百万映射读取的上四分位数）数据集[19]。TCGA-COAD数据收集是一项努力，旨在通过提供与TCGA受试者匹配的临床图像，形成一个致力于将癌症表型与基因型联系起来的研究社区。匹配的TCGA患者标识符使研究人员能够探索TCGA/TCIA数据库，以了解组织基因型、放射学·····M.A. Fahami等人医学信息学解锁24（2021）1006053σ（（）））--=（×（）下一页（（+）的情况）（（）+（））（（）+（））表型和患者结局。通过从世界各地的研究中心收集组织用于TCGA，可以提供15338份文件中组织的461例病例[20]。在这项研究中，我们只使用TCGA-COAD数据集中的原发性肿瘤患者。目前研究的主要步骤如下：首先，我们使用一种新的归一化方法对数据集进行归一化[21]。其次，使用PCA减少原始数据集中的大量维度（即基因）。第三，我们使用肘方法来确定适当的聚类数。第四，我们对癌症患者进行聚类，以确定其基因表达中的隐藏结构。之后，我们使用分类算法来检查提取的聚类的可靠性。最后，我们通过考虑每个聚类中存活和死亡患者之间的基因表达的p值来确定有效基因（对患者死亡有主要影响的基因所提出的方法的步骤如图1所示。以下各节描述图1的每个步骤。 1更详细2.1. 正常化在机器学习问题中，通常会面对不同规模的各种数据类型。直接使用数据而不进行预处理会导致学习方法的性能不佳。数据规范化可以防止上述问题。最有用和最通用的规范化方法之一称为标准化。在标准化数据集之后，数据集样本的每个特征在整个数据集中将具有零均值和单位标准差。任何特征x被归一化为：z=x-μ，（1）其中μ和σ是在数据集中的所有样本上计算的特征x的平均值和标准差。X的归一化值表示为z。在这项研究中，我们评估了三种不同的归一化方法。首先，我们使用等式（1）对所有患者的每个特征（基因）进行了单独标准化。每个标准化的基因具有零平均值和单位标准偏差。由于各种基因表达值的尺度显著不同，在第二种方法中，我们分别对每个患者对应的特征进行归一化[21]。在第二次归一化之后，每个患者的特征向量具有零均值和单位标准差。第三种归一化方法是第一种和第二种方法的组合，使用基于其基因表达的聚类提取。肘方法[24]用于确定最佳聚类数。在肘形法中，最佳聚类数是根据聚类数与称为平方误差和（SSE）的参数的关系图确定的[25]。图中观察到的尖弯头点表示数据的最佳聚类数。有时，在肘形方法中使用EX平坦方差（EV）代替SSE。为了证明聚类的有效性，我们根据患者的聚类对其进行标记，然后使用不同的分类算法对其进行分类。朴素贝叶斯[26，27]，二次判别分析（QDA）[28]，SVM线性核[29]，线性判别分析（LDA）[30]，逻辑回归[31，32]，AdaBoost [33]，神经网络[34-分类算法的性能进行了研究，使用不同的指标，如准确率，精度和召回率，以显示聚类步骤的有效性2.4. 每个聚类基因治疗是治疗各种癌症的主要方法之一。找到特定癌症的最有效基因并对其进行修饰被认为是一种有希望的癌症治疗方法，可能会挽救癌症患者。因此，我们寻找它们的值在活的和死的类之间显著不同的基因。为此，对于每个基因，我们计算了每个聚类内两个类别（存活和死亡患者）之间的p值。随着p值降低，统计学显著性增加。因此，在每个簇内，基因基于它们的p值以升序排序。最后，选择具有最低p值的前20个基因作为最有效的基因。3. 计算复杂性分析基于图1，我们的方法的主要步骤是归一化，降维，肘方法，聚类，分类和p值计算。假设数据集中的样本数为D，则归一化阶段的计算复杂度为O （ D ）阶。使用 PCA 进行降维，计算复杂度为OminP3，D3 [40]，其中P是样本维度，D是样本数量。Elbow方法简单地对可能聚类数的特定值范围执行K均值在我们的实验中，簇的范围是[1，2，此外，委员会认为，K-means的计算复杂度为O（DKPIKmeans）[41]这是第一次用于这项研究在这种方法中，我们首先应用的二正常化技术到数据集（归一化基因-其中，K是聚类的数量，IK-均值是K-均值的数量每个患者的表达分别），然后我们使用第一种方法对新数据集进行归一化。分析结果表明，第三种方法比其他方法更有效，提高了整体性能。在论文的重置中，我们使用了第三种归一化方法。2.2. 降维在本节中，必须提取规范化数据的隐藏结构然而，HTSeq-FPKM-UQ数据被认为是高维的（每个患者60483个基因）。处理高维数据是不实际的，因为它需要很长的执行时间和大量的内存。通常情况下，大多数特征是不相关的，并对最终结果产生负面影响[22]。因此，我们对数据应用了著名的称为PCA的降维算法[23]。降维算法的性能是通过一个称为保留方差的指标来衡量的，保留方差表示输出数据与输入数据相同的2.3. 聚类后维数减持隐藏结构数据迭代因此，肘形方法的复杂度为O20DKPIK均值.我们已经尝试了不同的方法进行分类阶段，但决策树产生了最好的性能。因此，我们考虑决策树（即O DP2[42]）作为分类器的计算复杂度。在每个聚类内使用t检验和对于60483个基因中的每一个，已经进行了p值计算。t检验需要每个聚类内因此，t检验的计算复杂度为O G C1C2其中C1和C2是两个聚类的样本大小，G60483是每个样本中的基因数量。为了对每个基因gi进行MWW测试，每个聚类的样本必须基于它们的gi值从最小到最大进行排序（排序），g i值具有OC1logC1C2logC2的复杂度。由于已经对每个基因进行了MWW测试，因此所有基因和聚类的MWW测试的总体复杂度为O GC1log C1C2logC2，其中G是数据集中基因的总数。4. 实验结果在本节中，将所提出的方法应用于HTSeq-FPKM-UQ数据集。降维、聚类和有效性的结果M.A. Fahami等人医学信息学解锁24（2021）1006054表1对数据应用PCA的结果，以保留方差百分比表示。保留方差百分比80% 85% 90% 95% 99%尺寸2 5 18 75 273根据它们的聚类被标记。利用这些标记数据，对几种传统的分类算法进行了训练。使用10倍交叉验证的训练分类器的性能如表2所示。显然，分类器取得了良好的性能这表明他们的训练是成功的。的存在训练数据中有意义的模式是成功的必要条件本节介绍了每个聚类中的基因提取。首先，将我们提出的归一化方法（第2.1节）应用于数据集。然后，主成分分析用于降维。表1以保留方差百分比的形式显示了对数据应用PCA如表1所示，数据的维数可以减少到273，同时保留99%的方差。将数据维数减少到273使得在合理的运行时间内从数据中提取高质量的聚类成为可能。基于肘形法确定最佳聚类数图图2a和2b显示了训练考虑到训练数据已经基于通过上面执行的聚类，我们可以得出结论，表2聚类数据的分类结果（聚类索引已被用作类标签）。分类器方法准确度（%）精确度（%）召回率（%）朴素贝叶斯83.26± 4.58 89.91±5.88 75.29 ± 8.30分别基于SSE和解释方差的肘形图。的肘点标记在图。2a和2.b表明，最佳数量二次判别分析（QDA）90.99± 2.86 89.76±4.49 92.88 ± 4.20数据集的聚类是2，因此结肠癌患者可以SVM线性核94.77± 3.16 95.89±3.95 93.71 ± 5.37分为两大类。为此，数据集已被线性判别分析94.97± 3.31 96.20±3.49 93.70 ± 4.73使用K均值进行聚类，K= 2 [43]。4.1. 聚类结果评价Logistic回归96.03± 2.17 99.57±1.30 92.46 ± 4.09AdaBoost 96.66± 2.67 98.31±2.07 94.98 ± 4.86神经网络97.08± 3.38 98.23±2.87 96.13 ± 6.07KNN（K= 2）97.49± 2.92 100.0±0.00 95.00 ± 5.83为了证明提取的聚类的可靠性，数据样本决策树100.00±0.00100.00±0.00100.00 ±0.00图二. 肘形法，a）SSE图和b）方差解释图。M.A. Fahami等人医学信息学解锁24（2021）1006055表3基于两个聚类之间的p值，将两个聚类之间具有最大差异的基因以升序排序。基因编号Gen名称1ENSG00000222019.6URAHP2ENSG00000278867.1AC090616.63ENSG00000273356.1LINC020194ENSG00000214783.8POLR2J45ENSG00000214827.8MTCP16ENSG00000110025.11SNX157ENSG00000257529.4RPL36A-HNRNPH28ENSG00000279357.1AC007224.29ENSG00000231154.1MORF4L2-AS110ENSG00000163666.7HESX111ENSG00000255152.7MSH5-SAPCD 112ENSG00000245146.5MALINC113ENSG00000254995.4STX16-NPEPL114ENSG00000110169.9HPX15ENSG00000278947.1AC011385.116ENSG00000243667.5WDR 9217ENSG00000175003.11SLC22a118ENSG00000163126.13ANKRD 2319ENSG00000273069.1AC211433.220ENSG00000234769.7WASH4P集群确实有意义。鉴于决策树分类器具有100%的准确性（表2），它可以用于对新患者进行分类。基于分类结果，可以确定对患者4.2. 两个簇之间的差异基因两个簇之间最具特色的基因列于表3中。事实上，这些基因是结肠癌可以分为两大类的主要原因。表3中的基因基于它们在两个聚类之间的p值以升序排序。两个簇之间的归一化数据上的有效基因表达水平的密度图显示在补充图S1和S2中。从这些图中可以看出，根据t检验，所有这20个基因的p值都小于1.38397e-111，这表明这些基因的值在两个簇的样品之间显著不同。表44.3. 每个簇聚类后，我们通过计算每个聚类中存活和死亡患者之间的p值来检测有效基因。表4显示了每个聚类的前20个有效基因（具有最低的p值）。我们建议生物学研究人员和结肠癌专家进一步研究列出的20个基因，以了解它们对结肠癌患者的可能影响。为了更清楚起见，每个簇中前20个基因的散点图（表3）已经在图2A和图2B中示出。三比六这些基因的名称比较存活和死亡患者的BOX图，揭示了每个基因的值分布与结肠癌患者死亡率之间的相互作用。仔细观察BOX图可以发现每个基因的有趣特征。例如，在聚类1中，对于大多数基因（例如基因4-7、12、13和15），存活患者的box图比死亡患者的box图短。这样的观察结果表明，具有接近存活患者的box图的中值的基因值的样品更可能在结肠癌中存活。相反，对于某些基因，例如簇1的基因9和簇2的基因2，存活患者的BOX图比死亡患者的box图长这意味着基因值接近来自聚类1的基因9和来自聚类2的基因2的死亡盒X图的中值的患者这种分析可能有助于研究人员更多地关注高效基因。根据图1所示的结果，如图3-6所示，很明显，两个先前提到的簇中的有效基因是不同的。同时，通过t检验和Mann-Whitney-Wilco× on（MWW）检验计算的p值其密度图见补充材料（见图S3-S6）。4.4. 在每个簇在本节中，我们评估了多个基因在区分每个聚类中死亡和存活患者方面的能力。评估分为两个阶段。首先，使用该特定簇的20个有效基因将MANOVA应用于每个簇中的患者。之后，使用40个基因（簇1的20个基因和簇2的20个基因）将MANOVA应用于每个簇中的患者。结果如下：• p值c1 g20=7.012702e-17• p值c2 g20=4.974626e-8• p值c1 g40=1.909495e-12每个聚类中最有效的基因基于存活和死亡患者之间的p值以升序排序基因编号第1第2Gen名称基因名称1ENSG00000277203.1F8A1ENSG00000174446.11SNAPC52ENSG00000213401.7MAGEA12ENSG00000237441.8RGL23ENSG00000198930.1CSAG1ENSG00000121671.10CRY24ENSG00000151224.11MAT1aENSG00000236104.2ZBTB225ENSG00000244509.3APOBEC3CENSG00000089820.14ARHGAP 46ENSG00000088836.11SLC4A11ENSG00000232533.1AC093673.17ENSG00000228437.4LINC02474ENSG00000122378.12PRXL2A8ENSG00000165802.18NSMFENSG00000184508.9HDDC39ENSG00000119401.10TRIM32ENSG00000178826.9TMEM13910ENSG00000233223.2AC016876.1ENSG00000165171.9L27胃管11ENSG00000254605.1AP003555.2ENSG00000149182.13ARFGAP 212ENSG00000129654.7FOXJ1ENSG00000108219.13TSPAN 1413ENSG00000256546.1AC156455.1ENSG00000160094.13ZNF36214ENSG00000196839.11ADAENSG00000169105.7CHST 1415ENSG00000152061.20RABGAP1LENSG00000169231.12THBS316ENSG00000132635.15PCED1AENSG00000122678.13POLM17ENSG00000148399.10DPH7ENSG00000214293.7APTR18ENSG00000163568.12AIM2ENSG00000138326.17RPS2419ENSG00000215305.8VPS16ENSG00000149016.14TUT120ENSG00000258053.1AC025575.2ENSG00000143303.10RRNAD1M.A. Fahami等人医学信息学解锁24（2021）1006056图3.第三章。聚类1中标准化数据的有效基因表达水平（基因#1至#10）的 Box 图。• p值c2 g40=5.785453e-7。p值c1 g20远小于簇1中基因（基因F8 A1）的最低p值（6.19e- 5）的事实显示考虑多个基因而不是仅单个基因的优越性。p-vlauec1g20小于p值C1G40，这表明使用来自聚类2的20个基因来加强聚类1中样品的代表性是没有益处的。这是因为两个簇中的影响基因彼此不同。对于使用20和40个基因的聚类2上的p值，类似的论点也成立。5. 讨论遗传性综合征，如Lynch、家族性腺瘤性息肉病、MUTYH相关息肉病[44]，以及某些疾病，如某些错构瘤性息肉病[45]可能导致2%至5%的结肠癌，因此大量基因可能有助于结肠癌发生的过程[46]。遗传性疾病在形成结肠癌中的作用在参考文献[47]中得到明确证实。在我们的研究中，使用数据挖掘算法分析了数千个与结肠癌相关的基因，这些数据的相似性可以被认为是基因核苷酸序列的相似性。患者被分为两个同质组。在每组中提取20个具有特定基因表达跨度的有效基因。本研究的目的是确定参与结直肠癌患者生存/死亡的分子标志物。大多数已鉴定的基因参与人类肿瘤发生过程，特别是结肠癌。MAGEA12是已鉴定的基因之一，其属于在恶性肿瘤中表达的癌抗原家族，称为MAGEA。致瘤M.A. Fahami等人医学信息学解锁24（2021）1006057图四、聚类1中标准化数据的有效基因表达水平（基因#11至#20）的 Box 图。MAGEA12的功能尚不清楚，并且已经显示该基因的沉默导致细胞凋亡、癌细胞死亡，并且可以用作有效的治疗靶标[48]。MAT 1A是编码甲硫氨酸腺苷转移酶的另一个基因，其是S-腺苷甲硫氨酸（SAMe）生物合成所必需的酶。该基因的表达减少与氧化应激增加、祖细胞发育和基因组不稳定性以及其他癌症相关机制相关。了解该基因的作用可能有助于发现其对癌症发展的贡献程度并找到靶向治疗[49]。APOBEC3G也是一种与结直肠肿瘤和肝转移有关的基因。APO-BEC 3G阳性表达与结肠癌患者预后不良有关。该基因可以被认为是一个新的预测因子结肠癌的诊断[50]。TRIM32基因也在多种人类癌症中过表达。该基因的表达增加会增加人类肿瘤中的细胞致癌性和致瘤性变化，并已显示在癌症中具有潜在的诊断价值[51]。在另一项研究中，研究了FOXJ1基因对结直肠癌进展的影响。研究发现，该基因的表达增加与结肠癌的临床分期、淋巴结转移和浸润深度显著相关，表明FOXJ1是肿瘤促进剂。其表达增加会增加癌细胞的增殖、迁移和侵袭，而沉默该基因具有相反的效果[52]。 RGL2基因及其与SAMD9基因的相互作用在肿瘤发生过程中具有重要的生物学意义E_ x降低M.A. Fahami等人医学信息学解锁24（2021）1006058图五、聚类2中标准化数据的有效基因表达水平（基因#1至#10）的 Box 图。在这些蛋白质中的任何一种中，导致EGR1表达增加，EGR1是一种在炎症和细胞迁移中起着众所周知的作用的转录因子[53]。在研究中已经显示，通过增加处于细胞周期S期的细胞群体来沉默EST2基因这种沉默也降低了p53的表达，并且该基因增强了一些致瘤信号通路[54]。2018年的一项研究表明，ARHGAP 24基因与结直肠癌的发生有关。ARHGAP 24的表达增加会抑制细胞的能力并增加细胞凋亡。本研究的所有结果表明，该基因在结直肠癌中作为肿瘤抑制因子，并具有与p53、p21和bax基因相关的功能[55]。另一项研究发现，抑制结肠癌中的RPS24基因显著抑制细胞增殖、集落形成、细胞迁移和细胞周期S期的这项研究的结果表明，这是第一次发现这种基因在结肠癌中起关键作用，并且可以成为结肠癌治疗的重要生物标志物[56]。AIM 2基因可以抑制结肠癌细胞的增殖。该基因的不同突变在结肠癌患者中广泛存在。该基因的表达将抑制结肠癌细胞的活力并增加其凋亡。细胞周期分析表明，该基因阻断G1至S细胞周期的通道，可能是结肠癌的潜在治疗靶点[57]。THBS3也是骨肉瘤患者活检组织中高表达的基因之一，可能是骨肉瘤的预测因子。据报道，该基因是肿瘤进展的刺激因子，其高表达水平维持了血管生成的能力[58]。然而，许多影响其中VPS 16、DPH 7、PCED 1A、APTR、POLM、ZNF 362等基因在本研究中尚未发现。因此，研究这些基因是至关重要的，M.A. Fahami等人医学信息学解锁24（2021）1006059图六、聚类2中标准化数据的有效基因表达水平（基因#11至#20）的 Box 图。努力发现它们与结肠癌的关系6. 结论据统计，结肠癌可以被认为是全世界妇女的第三大死因和男子的第二大死因。由于高死亡率和患者，他们的家人和政府的成本，研究人员正在研究这种癌症。在这项研究中，我们采用机器学习方法来找出这种癌症的肿瘤特征。结肠癌诊断的重要任务之一是发现恶性基因。为此，不同的机器学习算法已被广泛应用于结肠癌数据。本研究应用无监督和监督机器学习方法找出最有效的基因结肠癌患者的生命状态。我们将患者分为两大类，并在每个聚类中找到了生命状态的前20个有效基因。这些基因中的大多数对结肠癌生存状态的影响在现有文献中尚未研究。考虑到提取的基因与患者的死亡率有关作为未来的研究方向，研究这40个基因对结肠癌诊断的影响将是有趣的。此外，不同类型的深度学习方法可以应用于结肠癌数据。最后，可以使用不同的归一化技术和模糊聚类方法来分析数据。竞合利益一个也没有。M.A. Fahami等人医学信息学解锁24（2021）10060510确认一个也没有。附录A. 补充数据本文的补充数据可在https：//doi网站上找到。org/10.1016/j.imu.2021.100605。引用[1] O'Brien CA，Pollett A，Gallinger S，Dick JE.一种能够在免疫缺陷小鼠中引发肿瘤生长的人结肠癌细胞。Nature 2006;445：106-10.https://doi.org/10.1038/nature05372。11/19/online，https://www.nature.com/articles/nature 05372 #隐私信息。[2] BorkowskiAA，Wilson CP，Borkowski SA，Thomas LB，Deland LA，Mastorides SM. Apple机器学习算法成功检测结肠癌，但无法预测KRAS突变状态。2018.第1-9页。arXiv预印本arXiv：.04660。[3] 美国癌症协会癌症统计中心。https：//canceraparticscenter. cancer.org/#!/ 。[2019年2月26日访问]。[4] Chen P-j，et al.AI技术可以增强肿瘤委员会对II期结肠癌治疗的决策JClinOncol 2018;36（15_suppl）。https://doi.org/10.1200/www.example.com_suppl.e18582 JCO.2018.36.15。e18582-e18582。[5] 谭AC，吉尔伯特D.基于基因表达数据的机器学习用于癌症分类。应用生物信息学2003;2：1-9.[6] 孙春英，刘伟，杜义良.用于在组织学组织分类中识别小对象的双层分类器：结肠癌组织映射实验（SPIE医学成像）。SPIE;2019.[7] Nakaya D等人，结肠癌和卵巢癌的高光谱成像数字病理学（SPIE医学成像）。SPIE; 2019.[8] 赵东，刘宏，郑勇，何勇，陆东，吕春。优化混合核函数的支持向量机用于结直肠癌诊断。JBiomedInf2019;92：1-11.https://doi.org/10.1016/j.jbi.2019.103124。2019年1月4日。[9] 李晓梅，李晓梅，李晓梅.结肠癌组织学中的深度学习与采样。前面Bioeng.生物技术，原始研究2019;7（52）：1-9。doi.org/10.3389/fbioe.2019.00052（英文）。[10] Sirinukunwattana K，Ahmed Raza SE，Yee-Wah T，Snead DRJ，Cree IA，Rajpoot NM.局部敏感深度学习用于常规结肠癌组织学图像中细胞核的检测和分类。IEEE Trans Med Imag 2016;35（5）：1196-206。https://doi.org/10.1109/tmi.2016.2525803（英文）。[11] GessertN，WittigL，D r？mannD，KeckT，SchlaeferA，EllebrechtDB. 利用卷积神经网络在共聚焦激光显微镜图像中检测结肠癌的可行性。威斯巴登：施普林格威斯巴登高等教育出版社; 2019年。第327- 332页。Bildverarbeitung für dieMedizin 2019.[12] 陈红，赵红，沈军，周荣，周勤.结肠癌检测中高维基因数据的监督机器学习模型。IEEE International Congress on Big Data（2015）第134- 141页。https://doi.org/10.1109/BigDataCongress.2015.28. 2015年6月27日至7月2日[13] 赵S-B，元H-H。DNA微阵列分析中的机器学习用于癌症分类载于：2003年在澳大利亚阿德莱德举行的第一届亚太生物信息学会议上发表。[14] Shanmuga Sundaram P，Santhiyakumari N.基于ROI的彩色直方图和支持向量机的WCE图像结肠癌计算机辅助检测方法的改进。医学系统杂志，期刊文章2019;43（2）：1-8。https://doi.org/10.1007/s10916-018-1153-9。[15] 刘毅支持向量机主动学习应用于癌症基因表达数据分类。JChem Inf Comput Sci2004;44（6）：1936-41. 网址：//doi. org/10.1021/ci049810a。[16] [10] Khanmohammadi M，Garmarudi AB，Ghasemi K，Jaliseh HK，Kaviani A.用衰减全反射傅立叶变换红外显微光谱和类类比软独立建模诊断结肠癌，”医学肿瘤学。 Journal article 2009;26（3）：292-7. https://doi.org/10.1007/s12032-008-9118-3.[17] Zwielly A，Mordechai S，Sinielnikov I，Salman A，Bogomolny E，Argov S.先进的统计技术应用于人体结肠组织的综合FTIR光谱。医学物理2010;37（3）：1047-55。https://doi.org/10.1118/1.3298013网站。[18] Sayed S，Nassef M，Badr A，Farag I.用于高维癌症微阵列数据集特征选择的嵌套遗传算法。E X pert Syst Appl 2019;121：233-43.https://doi.org/10.1016/j.eswa.2018.12.022网站。[19] 美国国家癌症研究所. https://portal.gdc.cancer.gov/projects/TCGA-COAD网站。[2019年4月26日访问]。[20] Kirk S，et al.放射学数据来自癌症基因组图谱结肠腺癌[TCGA-COAD]收集。癌症影像档案2016。https://doi.org/10.7937/K9/TCIA.2016.HJJHBOXZ.[21] 沙赫里亚里湖归一化方法对应用于HTSeq-FPKM-UQ数据集的监督学习算法性能的影响：7SK RNA表达作为结肠腺癌患者生存的预测因子。简报Bioinf2017：1-10.https://doi.org/10.1093/bib/bbx153（英文）。[22] GuyonI，Elisseeff A. 介绍变量和特征选择。 J MachLearn Res 2003;3（Mar）：1157-82.[23] Cao LJ，Chua KS，Chong WK，Lee HP，Gu QM.支持向量机中PCA、KPCA和ICA降维方法的比较。神经计算 2003;55 （ 1 ）： 321-36. https ：//doi.org/10.1016/S0925-2312（03）00433-8.M.A. Fahami等人医学信息学解锁24（2021）10060510[24] 杨文，王文. K-均值聚类中聚类数的确定.北京：科学出版社，1997.International Journal of Advance Research in Computer Scienceand ManagementStudies 2013;1（6）：90-5.[25] Syakur MA，Kh

下载后可阅读完整内容，剩余1页未读，立即下载