乳腺癌表观遗传数据模式识别的荟萃分析和机器学习方法

144 浏览量更新于2024-01-09 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁24（2021）100629整合荟萃分析和监督机器学习用于使用表观遗传数据的乳腺癌模式识别Reza Panahia，*，Esmaeil Ebrahimiea，b，c，Ali Niazi a，Alireza Afsharifar da伊朗设拉子设拉子大学生物技术研究所b基因组学研究平台，生命科学学院，科学，健康和工程学院，拉筹伯大学，墨尔本，维多利亚3086，澳大利亚c阿德莱德大学动物和兽医学院，南澳大利亚5371，澳大利亚d伊朗设拉子设拉子大学农学院植物保护系A R T I C L EI N FO关键词：机器学习Meta分析系统生物学乳腺癌ChIP-seqA B S T R A C T乳腺癌是女性发病率和死亡率最高的疾病之一。发现准确的生物标志物以早期发现易患乳腺癌的患者在乳腺癌的治疗和诊断中至关重要。目前的研究采用了一种综合方法，使用荟萃分析和机器学习方法检测乳腺癌的表观基因组数据模式。荟萃分析是一种结合多个实验结果的精确方法。另一方面，通过机器学习算法集成和组合测试结果可以处理数据的复杂性和异构性。本研究的主要目的是发现表观基因组变化在乳腺癌治疗和预后中的模式。在NCBI和EBI数据库中搜索关于药物对乳腺癌影响的ChIP-Seq数据。共进行了10项研究，其中4项是适当的荟萃分析。NOV、JUN和ZBTB7A转录因子被鉴定为乳腺癌的生物标志物。最后，使用九种不同的属性加权算法进行模式识别。通过大多数属性加权算法选择14个基因作为最具信息性的基因，包括KIP、TCF 12、ABCC 5、HDAC 11、IPP、HIST 1H2AM、ZNF 33 B、PHF 2、ELAVL 3、TBC1D9B、TMEM 217、CD 34、ARHGEF 26和CENPL。所选基因在肿瘤和乳腺癌的发生中起重要作用在这项研究中，使用Meta-分析和数据挖掘，更全面和可靠的信息相比，个人的研究。1. 介绍乳腺癌是最常见的恶性肿瘤之一[1]，女性患病率和死亡率最高[2全球范围内越来越多的人关注患者数量的增加及其对药物的耐药性[5]。尽管在早期检测和临床治疗方面取得了相当大的进展，但仍然存在各种限制，包括分子异质性、对内分泌学的抗性、疾病进展的诊断和疾病复发的风险。这些限制导致许多研究人员在疾病进展和信号通路中识别新的生物标志物，以促进诊断和治疗程序的改进。需要更好地了解乳腺癌的细胞和分子途径，以改善治疗选择，临床结果，从而预防疾病[6，7]。早期诊断和为了在转移阶段之前消除疾病，治疗具有显著的重要性;因此，高度需要在早期阶段检测它[1]。为了及时预测和治疗乳腺癌，实施风险预测模型以识别处于疾病风险中的妇女。先进的预防性治疗和筛查也可用于识别合格的个体并预防疾病[8]。此外，临床结局的改善需要发现治疗和预后生物标志物[9]。表观遗传学的改变可以通过改变染色质的组分来改变染色质的结构最重要的表观遗传机制包括染色质修饰因子、组蛋白修饰剂、组蛋白变异和DNA甲基化。这些机制能够调节转录机制[10]。基因的功能修饰可以通过改变调控基因的数量来实现。* 通讯作者。电子邮件地址：rezapanahi222@gmail.com（R. Panahi）。https://doi.org/10.1016/j.imu.2021.100629接收日期：2021年2月1日;接收日期：2021年5月30日;接受日期：2021年5月30日2021年6月3日在线发布2352-9148/©2021的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuR. Panahi等人医学信息学解锁24（2021）1006292染色质的蛋白质，目的是到达目标位置，以及将它们连接到这些位置[11]。这证明了早期阶段的表观遗传修饰（如DNA甲基化和染色质重塑）在乳腺癌中起着至关重要的作用[12]。染色质免疫沉淀法是一种用于鉴定启动子基序（结合位点）、转录因子和调控事件的关键技术。了解蛋白质与DNA的相互作用和调控基因表达也可以帮助研究人员认识关键的生物过程[13，14]。荟萃分析是一种统计分析，目的是整合从独立进行的研究中收集的数据[15，16]。此外，它是一个精确的过程，结合各种实验的结果，得出更准确和全面的结论[17]。数据挖掘是另一种相对新颖的方法，被认为是数据中有效模式发现的最关键技术[18]。术语数据挖掘指的是提取隐藏的知识，大量数据中的模式和关系[19]。目前研究的目的是确定乳腺癌相关的生物标志物。结果表明，由于结合了元分析和机器学习这两种数据挖掘技术，2. 材料和方法目前的研究是基于以下步骤进行的：首先，从EBI和NCBI数据库中收集有关药物对乳腺癌影响的ChIP-Seq数据。然后，从Ensembl储存库中检索人类基因组参考和人类基因型注释序列引线。使用FASTQC软件，在LinuX命令行环境中检查质量控制。结果发现，多种因素可能导致质量控制问题。随后，使用Trimmomatic，Trimmate软件去除低质量测序读数。还通过FASTQC软件再次进行质量控制，以确认图1.一、正在开发的步骤概述。R. Panahi等人医学信息学解锁24（2021）1006293执行步骤。然后，使用Bowtie2软件将读数映射到人类参考基因组。应用峰识别来识别在ChIP-Seq实验中通过比对的读数富集的基因组的那些区域。使用MACS 2软件检测峰调用。然后，将通过应用PeakAnnotator软件从上一步获得的峰添加到注释文件中。在R环境中也使用了BCRANK软件包，以便从排序的DNA序列和基序预测结合位点共有序列，并鉴定下游基因。在R环境中通过MetaSeq包使用Fisher检验对来自峰调用和结合位点步骤的基因输出进行荟萃分析。最后，使用RapidMiner软件和九种加权算法进行数据挖掘，以确定生物标志物和关键基因（图1B）。①的人）。2.1. 数据收集在NCBI和EBI数据库中检索与药物对乳腺癌影响相关的ChIP-Seq数据。检索实验的原始数据2.2. 数据质量控制数据质量控制是ChIP-Seq检测的重要步骤。使用FASTQC软件对采集的样品进行质量控制[20]。2.3. 数据修整基于数据质量控制结果，修剪低质量序列读数，并使用Trimmo-matic软件评价校正的数据，以准备用于后续分析的清洁数据[21]。2.4. 用参考基因组当前研究中使用了人hg19基因组（ftp://ftp.ensembl.org/pub/grch37/release-90/fasta/homo_sapiens/dna）。为了进行作图过程，首先通过Bowtie 2软件开发基因组的索引参考。然后，使用具有基因组参考索引的Bowtie2对每个样品进行作图[22]。2.5. 峰识别在该步骤中，使用MACS 2软件鉴定了映射到参考基因组的序列读数（峰）的高密度区域（富集）[23]。此外，使用PeakAnnotator软件鉴定峰附近的基因[24]。2.6. 模体发现为了更好地理解峰，进行了寻找基序的过程[25]。在此阶段，在R环境中使用BCRANK软件包进行基序的鉴定，这可能导致预测应用的结合位点[26]。2.7. 预测结合位点使用R环境中的BCRANK软件包[26]和基序发现的输出，鉴定结合位点的位置2.8. 荟萃分析在进行ChIP-Seq分析以鉴定由于治疗效应而增加或减少的必需基因后，所有研究的输出均用于荟萃分析procedure.通过在R环境中应用MetaSeq软件包对结合位点和峰调用输出进行荟萃分析程序。Fisher检验用于上述包装中的峰识别和结合位点[27]。荟萃分析技术被广泛应用，以结合众多临床或基因组研究的结果，从而提高获得准确结论的统计能力[28]。Fisher方法可用于一般荟萃分析，因为这是一种有效的方法，可以合并独立研究得出的P值[29，30]。在随机试验中，特别是在样本量较小的研究中，最好使用Fisher P值[31]，因为Fisher方法对最小P值非常敏感[32]。2.9. 数据挖掘中的加权算法为了执行数据挖掘过程，通过应用RapidMiner软件[33]和九种不同的加权算法（包括信息增益、基尼指数、增益比、救济、规则、SVM、不确定性、卡方统计和偏差）来分析峰值呼叫输出，以确定最显著重要基因[21，34信息增益（IG）是一种基于熵的特征评价方法，广泛应用于机器学习和决策树构造过程中。它定义为属性项提供给文本组的信息量，用于属性选择。此外，它是通过可以实现信息分类的术语的值来计算的，以衡量相关词汇项的重要性[3，21，37]。基尼指数可以识别具有相同熵度量的配对模式。对于每个特定属性，所有状态都在Pairs中考虑[21，38]。实现增益比是为了克服IG算法的问题，因为尽管性能较差，但IG选择具有不同值的变量[39]。Relief被认为是机器学习算法中最重要的家族之一，它实现了最近邻和不同的类，以便选择相同的特征或测量相互作用[40，41]。规则是一个数据科学过程，从数据集或决策树中导出规则。此外，它是无监督学习过程的一部分，以易于识别的规则的形式识别数据的隐藏模式[42]。支持向量机（SVM）是一组相关的管理学习方法，用于分析数据并识别计算生物学中的模式，用于分类和回归分析[34，41]。不确定性是通过评价属性相对于类的对称不确定性来每一个属性都是根据它所在的组与其他属性进行比较[41]。卡方是一种特征选择算法，输入数据的每个属性的卡方统计值设置为类属性。卡方在每个属性和目标变量之间，选择具有最佳χ2得分的所需数量的属性[43]。标准差是离散性指标之一，它表示平均数据与平均值的差异。低标准差表示数据接近平均值并且几乎没有分散，而高标准差表示更多数据与平均值间隔开[42]。将元分析和数据挖掘的结果输入到基因本体和基因网络中，以确定关键基因和生物标志物。基因本体和基因网络分析通过Pathway Studio2017进行。利用该软件绘制了两种类型的基因网络，即共同靶基因网络和共同调节基因网络。通用调节器是R. Panahi等人医学信息学解锁24（2021）1006294≥实施该战略的目的是确定可以监管2个选定实体的上游监管机构。应用共同目标的目的是识别至少由两个选定实体设定的下游目标[44]。3. 结果发现了10项相关研究（见S1表）;然而，其中只有4项足以用于荟萃分析过程。选定研究的信息见表1。Ensembl库用作人hgl9基因组的主要参考（ Homo_sapiens.GRCh37. dna ）和人类基因组（ http ：ensembl.org/pub/grch37/release-90/fasta/homo_sapiens/dna/ ）上提供。3.1. 基因本体和基因调控网络的元分析输出基因的结合位点将从结合位点的荟萃分析得到的输出基因引入基因本体（参见S3表）。从共同调节子分析发现，JUN转录因子和CCNG1、NOV和EDN2基因是肿瘤和乳腺癌、肿瘤和癌症、乳腺癌和癌症和肿瘤的生物标志物。乳腺癌可能对JUN、CCN 1、NOV、USP 9 Y、SMC 5和PDE 5A基因产生积极影响，而癌症和肿瘤可能对PDE 4D产生积极影响（图2-a）。共同靶点网络分析发现，PDE4D和PDE5A对肿瘤调控有负效应，而PDE5A对肿瘤调控有正效应。JUN因子的转录在癌症、肿瘤和转移的调节中也起着未知的作用。此外，CCVG1对癌症和转移具有未知的作用（图1）。 2-b）。3.2. 基因本体论与峰呼Meta分析将元分析输出的元基因分为以下组：1）处理后峰数增加的基因，和2）峰数减少的基因引入基因本体中的具有增加的峰的元基因（参见S4表）。从共同调节子分析中发现，CCND1是癌症和肿瘤的生物标志物，而IER3是肿瘤的生物标志物。癌症和肿瘤对CCND1和RSF1转录因子有正向影响。此外，肿瘤可能对MSH3、IER3和MZF1转录因子产生负面影响。癌症对MSH 3和IER 3有负面影响;此外，它对FRAS 1有未知的影响（图3-a）。共同靶点网络分析显示了MSH3对肿瘤、癌发生和转移的负面影响。MZF1转录因子对肿瘤和凋亡有负性作用，对转移有正性作用。CCND1和IER3在调节转移、肿瘤、癌发生、癌症和细胞凋亡方面具有未知的作用。RNF114对细胞凋亡有促进作用，对肿瘤有抑制作用。RSF1转录因子对细胞凋亡、癌发生和转移的调节也有未知的作用。最后，发现AUTS2对转移具有积极作用（图1B）。 3-b）。表1本研究荟萃分析采用的ChIP-Seq研究总结对具有降低的峰的荟萃分析输出基因进行基因本体分析（参见S5表）。共同调节子分析发现AIFM1、CLU、RCHY 1、GUN基因以及RFX1转录因子是肿瘤的生物标志物。癌症对FOXK 1转录因子和POLQ、CLU和EFNA 1基因有积极影响;此外，它对RFX 1转录因子和GUN、RAPH 1、CEP 76、GSTZ 1、TP 53 BP 2、EIF 1AX和AIMP 2基因有未知影响。此外，TP53BP2、AIFM1、CLU、DEND2D和PZP基因被认为是肿瘤的生物标志物。肿瘤对TP53BP2和ALFM 1的调节具有负效应，对POLQ、RCHY 1、CLU、EFNA 1和MAT 1A具有正效应。此外，它对NR2E1转录因子和SH3GL1、EIF1AX和GSTZ1基因有未知的影响（图1B）。 4-a）。共同目标网络显示，BARX2，FAM172A，DEND2D，RCHY 1、AIMP 2、MAT 1A、CLU、AIFM 1、SH 3GL 1、TP 53 BP2和RAB 7ASH3GLI和NR2E1基因对肿瘤的发生有负作用，而对肿瘤的发生有正作用。此外，GAN和FAM49B，以及FOXK1转录因子对肿瘤的影响尚不清楚。结果表明，MAT1A、CLU、NR2E1、ARHGEF3、STRADB基因和FOXK1转录因子对细胞凋亡有负效应，FAM172A、AIMP2、RAB7A、TP53BP2、AIFM1、GSPT1基因和RFX1转录因子对细胞凋亡有正效应。DEND2D、RCHY 1、CCDC 88 A、GSTA5和PZP基因对细胞凋亡的影响尚不清楚。将荟萃分析衍生的基因与峰调用阶段中这些基因的峰数的输出相结合。绘制基因是为了实现更好的结果确认和热图可视化[45]。在本研究中，呈现了在峰召唤阶段药物处理的峰数量增加的必需基因的热图。纵轴表示基因。在研究的横轴中，字母S、T和C分别代表研究、治疗和对照。从上述热图可以发现，来自处理的荟萃分析的基因比对照因子具有更多的峰调用。这可以在红色中看到，这意味着峰的数量增加。此外，绿色显示峰的数量减少（图1）。 5）。还表示了在峰调用阶段用药物处理具有减少的峰数目的必需基因的热图。在热图中可以观察到，源自对照因子的荟萃分析的基因具有比处理更多的峰调用，这可以在红色中观察到（图1B）。 6）。3.3. 基因本体与峰值呼叫数据挖掘采用 Gain 、 Gini Index 、 Gain Ratio 、 Relief 、 Rule 、 SVM 、Uncertainty、Chi Squares和Deviation准则等9种不同的属性权重算法（AWs）识别重要基因。预计所有权重都将在0和1.0之间。接近1的值表明特定基因是重要属性。大多数人检测到14个基因，属性权重算法，其中具有> 0。7个权重，作为信息量最大的基因包括KIP、TCF 12、ABCC 5、HDAC 11、IPP、HIST1H2AM 、ZNF33B 、PHF2 、ELAVL3、TBC1D9B 、 TMEM217、CD34、受体ERα阳性乳腺癌通过原发性胆固醇内分泌抵抗进展研究编号登录号标题数量的样本细胞系孕激素受体雌激素参考1EGEOD605药物特异性表观遗传重编程导致细胞内3MCF7++[26日]23EGEOD54027EGEOD28987生物合成LY 2乳腺癌细胞系的HoX C11 ChIP-seqSRC-1靶向ADAM 22：一种ER非依赖性肿瘤机制35LY2LY2++++[27日][28日]4EGEOD26083TamoX ifen抗性MCF 7细胞系5MCF7++[29日]R. Panahi等人医学信息学解锁24（2021）1006295图二. 将元分析输出的元基因分为以下两组：1）处理后峰数增加的基因，和2）峰数减少a-元基因的通用调节器网络分析b-共同目标网络荟萃分析输出基因。图三. a-共同调控网络基于荟萃分析结果和药物治疗增加的峰数。b-共同目标网络基于荟萃分析结果和药物治疗增加的峰数ARHGEF26和CENPL（表2）。该步骤得到的关键基因进入基因本体和网络图。将关键基因从数据挖掘输入到基因本体中（参见S6表）。共同调节因子（Common Regulator）显示ZBTB7A转录因子是乳腺癌的生物标志物。乳腺癌对CD34的调节有负效应，对EIF3A和ZBTB7A转录因子有正效应。乳腺癌对PLAGL 1和PHF 2的转录因子具有未知的影响（图11）。 7-a）。共同靶点网络分析表明，PAPD5基因及转录因子TCF12、ZBTB7A、PLAGL1对肿瘤具有负调控作用，而PHF2转录因子对肿瘤具有正调控作用。CD34基因和TOP2B因子转录对肿瘤的影响尚不清楚。PLAG1和ZBTB7A转录因子对细胞凋亡分别具有正性和负性调节作用。CD 34和EIF 3A基因以及TOP 2B和PHF 2的转录因子对细胞凋亡具有未知的影响（图7- b）。将数据挖掘得到的关键基因与峰值调用阶段的基因峰值数的输出相结合。图8显示了与对照相比，处理的峰数变化最大的数据挖掘衍生的关键基因。红色表示峰数增加，而绿色表示峰数减少的高峰。4. 讨论本研究的主要目的是发现乳腺癌治疗和预后中表观基因组变化的模式。ChIP-Seq数据在预测和预防乳腺癌方面具有很高的潜力。ChIP-Seq数据是识别基因调控区域、乳腺癌相关基因的通路以及癌症易感人群的重要资源。两个重要的统计工具，包括荟萃分析和机器学习，以确定生物标志物和关键基因，从几个独立的研究。发现适当的生物标志物以早期检测易患乳腺癌的患者并适当识别高风险患者是疾病治疗和诊断的经认证的方法[3]。应用生物标志物以鉴定潜在预后的主要分子和肿瘤[46]。目前的研究旨在确定乳腺癌治疗的潜在生物标志物。适当的生物标志物必须对疾病具有特异性;而且，它必须在不相关的疾病中保持恒定。此外，生物标志物必须是可靠和可重复的[21]。我们能够确定NOV基因和转录因子JUN和ZBTB7A作为乳腺癌的生物标志物这是R. Panahi等人医学信息学解锁24（2021）1006296+见图4。a-共同调控网络基于荟萃分析结果，药物治疗减少的峰数。b-共同目标网络基于荟萃分析结果，药物治疗减少的峰数图五. 在峰识别阶段用药物处理增加峰数的必需基因的热图。红色表示峰数增加，绿色表示峰数减少。(For对本图中颜色图例的解释，读者可参考本文的网络版发现NOV（overexpressed nephroblastoma，CCN 3）是由基质细胞蛋白分泌的CCN家族成员。此外，CCN 3基因在增加乳腺癌骨转移中起重要作用，可用作前列腺癌的生物标志物[47，48]，c-Jun是由JUN编码的蛋白质，在癌发生和癌症进展中起重要作用。此外，c-Jun过表达降低了ER乳腺癌细胞中的他莫昔芬敏感性，并且可以用作乳腺癌中的生物标志物[49，50]。ZBTB7A转录因子参与乳腺癌、细胞凋亡和肿瘤的发生。在包括肺癌和乳腺癌在内的许多肿瘤中已经观察到ZBTB7A的过表达[51]。ZBTB7A可以直接在ER阳性乳腺肿瘤中与ERα启动子结合见图6。已用药物处理以减少峰调用阶段的峰数的必需基因的热图。抑制剂[52，53]。结合位点的荟萃分析显示（图2），重要基因如PDE5A、PDE4D、CCNG1、SMC 5和EDN 2在乳腺癌的表达模式中变化最大。Catalano etal.（2019）报告称，在各种人类癌症（如乳腺癌）中经常观察到PDE5A过表达[9]。目前的研究结果表明，PDE4D对癌症有负面影响。另一项研究表明，PDE4D是抗癌治疗的适当靶点，PDE4D抑制可能是克服乳腺癌ER阳性模型中他莫昔芬耐药性的一种方法[54]。SMC5基因在大肠癌和神经母细胞瘤中表达增加[55]。此外，结果表明，CCNG1和EDN2分别是癌症和肿瘤的生物标志物。CCNG1参与异常细胞分裂和肿瘤发生，其过表达也见于乳腺癌和结肠癌[56]。EDN2可以作为一种潜在的R. Panahi等人医学信息学解锁24（2021）1006297表2从9种加权算法中筛选出关键基因。属性权重SVM减重重量不确定性体重基尼系数卡方权重重量偏差重量规则权重信息增益比体重信息增益硖111110.9111TCF 12111110.9111ABCC5111110.9111HDAC110.710.70.90.9100.70.8IPP111110.9111历史1H2AM111110.9111ZNF33B0.710.70.90.9100.70.8PHF2111110.9111ELAVL3111110.9111TBC1D9B0.710.70.90.9100.70.8TMEM2170.710.70.90.9100.70.8CD340.710.70.90.9100.70.8ARHGEF260.710.70.90.9100.70.8CENPL0.710.70.90.9100.70.8见图7。 a-对从数据挖掘中获得的关键基因进行共同调控网络分析。b-从共同目标网络中的数据挖掘得出的关键基因。见图8。热图的关键输出基因的数据挖掘，已受到影响的药物引起的变化的峰的数量乳腺癌预后中的有效生物标志物，并提供新的视角，以更好地了解乳腺癌进展中的分子网络[57]。峰识别阶段的荟萃分析结果见图1A和1B。3和4RFX1可用作癌症和乳腺癌的预后标志物[58，59]。目前的研究结果表明，FOXK1具有对细胞凋亡的负调节作用和对癌症的未知作用，而先前的研究在癌症中起着至关重要的作用[60，61]。AIMP2对肿瘤有抑制作用，可增加肿瘤坏死诱导的信号凋亡。AIMP2通过特定的作用机制具有抗增殖活性，并且可以作为针对各种癌症的有效肿瘤抑制剂[62]。NR2E1在抑制细胞凋亡中起一定作用，对肿瘤有积极的治疗作用。另一项研究发现，NR2E1可用于预测乳腺癌的转移风险[63]。各种研究表明，CLU参与癌症，抑制细胞死亡途径，并调节存活信号以增强细胞生长[64]。另一份报告也表明CLU在乳腺癌中会上调[65]。CCN 1可能参与许多细胞生物学功能，如介导细胞粘附、迁移、增殖、凋亡和血管生成。此外，它通常在乳腺癌中表达[66]。IER3参与细胞凋亡和细胞周期停滞[67]。目前的研究结果表明，癌症和肿瘤对RSF1的调节有积极的影响。另一项研究表明，干扰RSF 1基因表达可有效抑制MCF-7和SKBR-3细胞的增殖，从而增加凋亡。此外，干扰RSF1表达可可作为乳腺癌治疗的新靶点[68].研究结果还表明，MZF1参与了侵袭性乳腺癌和转移的发展[69]。在当前研究中应用机器学习来优先考虑R. Panahi等人医学信息学解锁24（2021）1006298=元基因和检测关键分化基因在乳腺癌的反应排在前几位的基因包括KIP、TCF 12、ABCC 5、HDAC 11、IPP、HIST 1H2AM、ZNF 33B、PHF 2、ELAVL 3、TBC1D9B、TMEM 217、CD 34、ARHGEF26和CENPL的结果见表2。抑制性蛋白激酶（KIP）家族是一种哺乳动物细胞周期蛋白激酶（CDK）抑制剂，参与转录、凋亡和细胞骨架的调节。CDK的异常表达会导致癌症的发生[70]。TCF 12可能在乳腺癌肿瘤中起调节作用;此外，据报道，它可能与肿瘤转移和侵袭密切相关[71，72]。ABCC5是一种ATP依赖性递质，与原发性乳腺肿瘤相比，在乳腺癌的骨骼转移中过表达[73]。在另一项研究中，发现ABCC 5与乳腺癌骨转移形成功能相关[74]。组蛋白乙酰化在染色质组织中的作用已完全确立，并且发现高水平的组蛋白脱乙酰酶11（HDAC11）可介导乳腺癌细胞转移[75]。在另一项研究中，HDAC11的抑制导致肝细胞癌细胞中p53依赖性细胞凋亡[76]。PHF2在乳腺癌中的作用仍不清楚[77]。PHF2可以通过p53表观遗传调控作为肿瘤抑制因子[78]。结果表明，CD34是癌症的生物标志物，另一项研究表明，它是一种有用的血管生成标志物，可以帮助识别更具侵袭性的乳腺肿瘤[79]。研究证实，EIF3A是一种原癌基因，许多其他的基因，研究还报道，它与癌症、转移、预后有关诊断、治疗反应[80]和乳腺癌[81]（图7）。PLAGL1编码可引起细胞凋亡和细胞周期停滞的锌指核转录因子[82]。5. 结论目前的研究结果表明，在同时分析多个实验中，机器学习和荟萃分析的结合有助于理解和识别乳腺癌进展中的关键基因。所获得的结果可用于鉴定适当的生物标志物，并预测或找到用于乳腺癌治疗的更特异性药物竞合利益下面列出的作者证明，他们与任何组织或实体没有任何联系或参与任何经济利益（如酬金;教育补助;参加发言人在本文中讨论的主题或材料中，非经济利益（如个人或专业关系、从属关系、知识或信仰）。确认作者感谢伊朗设拉子大学为这项工作提供附录A. 补充数据本文的补充数据可在 https ： //doi 网站上找到。org/10.1016/j.imu.2021.100629。引用[1] [1]何志，陈志，谭明，艾林加拉米，刘毅，李泰，李伟. 乳腺癌细胞和组织诊断方法的研究进展。 Cell Prolif 2020;53（7）：e12822。[2] 徐勇，张明，陈荣，夏晓.下一代测序（NGS）早期乳腺癌的遗传改变。 AnnOncol 2018;29：viii67.[3] Gentile M，Centonza A，Lovero D，Palmirotta R，Porta C，Silvestris F，D'Oronzo S. 应用组学科学预测乳腺癌骨转移：最新技术水平。骨肿瘤学杂志2020：100337。[4] 放大图片SiegelRL，Miller KD，Jemal A. 癌症统计，2016年。 CA A Cancer JClin 2016;66（1）：7-30.[5] Velaga R，Sugimoto M.乳腺癌耐药和治疗的未来范例。乳腺癌靶向治疗的耐药性。Cham：Springer; 2017.p. 155比78[6] Liedtke C，Mazouni C，Hess KR，Andre F，Tordai A，Mejia JA，et al.三阴性乳腺癌癌临床肿瘤学杂志2008;26：1275-81。https://doi.org/10.1200/JCO.2007.14.4147网站。[7] vonMinckwitz G，Untch M，Ju Blohmer，Costa SD，Eidtmann H，FaschingPA，et al. Definition and impact of pathological complete response onprognosis after neoadjuvant chemotherapy in various intrinsic breast cancersubtypes. J Clin Oncol2012;30：1796-804. https://doi.org/10.1200/JCO.2011.38.8595网站。[8] Choudhury PP，Brook MN，Hurson AN，Lee A，Mulder CV，Coulson P，Garcia-Closas M. BOADICEA和Tyrer-Cuzick乳腺癌风险模型在人群中纳入经典风险因素和多基因风险的比较验证-基于欧洲血统女性的前瞻性队列研究。乳腺癌研究2021;23（1）：1-5。[9] Catalano S，Panza S，Augimeri G，Giordano C，Malivindi R，Gelsomino L，Barone I. 磷酸二酯酶5（PDE5）在癌症相关的成纤维细胞中高度表达，并促进乳腺肿瘤的进展。癌症2019;11（11）：1740。[10] 杨伟杰，王伟杰，王伟杰.核区室化和基因活性。 Nat Rev Mol Cell Biol 2000;1（2）：137-43.[11] Gagliano T，Brancolini C.超越肿瘤-间质串扰的表观遗传机制。癌症2021;13（4）：914。[12] 杨伟杰，王伟杰，王伟杰.乳腺癌的表观遗传学：生物学和精准医疗时代的临床意义。癌症生物学研讨会，卷。51. ：Academic Press;2018.p. 22比35[13] Holmes KA，Brown GD，Carroll JS.染色质免疫沉淀测序（ChIP-seq）用于乳腺中雌激素受体-染色质相互作用的定位癌雌激素受体。New York，NY：Humana Press; 2016.p. 79比98[14] Bailey T，Kraubrski P，Ladunga I，Lefebvre C，Li Q，Liu T，ZhangJ.ChIP-seq数据综合分析的实践指南。 PLoS Comput Biol2013;9（11）：e1003326.[15] 玻璃GV。研究的主要、次要和荟萃分析1。Educ Res 1976;5（10）：3-8.[16] 李国平，李国平，李国平.一项大规模的荟萃分析，将Hare精神病指标与反社会行为联系起来。法律行为2008;32（1）：28[17] StrubeMJ，Hartmann DP. 荟萃分析：技术、应用与功能。《临床心理咨询杂志》1983;51（1）：14.[18] [10] Zhuang M，Zhuang E，Zhuang S，Zhuang G. 机器学习模型预测亚临床乳腺炎的综合分析：深度学习和免疫增强树优于其他模型。Comput Biol Med2019;114：103456.[19] Fayyad U，Piatetsky-Shapiro G，Smyth P.从数据挖掘到数据库中的知识发现。AIMag1996;17（3）：37.[20] 生物信息学湾FastQC：用于高通量序列数据的质量控制工具。英国：剑桥; 2011年[巴布拉罕研究所]。[21] 作者：Michael M.Trimmomatic：Illumina的灵活微调器序列数据Bioinformatics 2014;30（15）：2114-20.，http://www.usadellab.org/cms/index.php？页面微调。[22] Langmead B，Salzberg SL.使用Bowtie 2进行快速空位读段比对。NatMethods2012;9（4）：357-9.[23] Zhang Y，Liu T，Meyer CA，EeckhouteJ，Johnson DS，Bernstein BE，Li W.基于模型的ChIP-seq分析（MACS）。Genome Biol2008;9（9）：R137.[24] [10]杨晓，王晓刚.PeakAnalyzer：全基因组染色质结合和修饰基因座的注释。BMC Bioinf 2010;11（1）：1-12.[25] [10]杨文，杨文. RSAT peak-motifs：全尺寸ChIP-seq数据集中的基序分析。Nucleic Acids Res2011;40（4）. e31-e31。[26] AmeurA，Ameur MA，Biostrings I，biocViews MotifDiscovery G. 包'BCRANK'。2010年;。[27] Tsuyuzaki K，Nikaido I.多项研究中RNA-Seq计数数据的荟萃分析。2013年。[28] Sharifi S，Pakdel A，Ebrahimi M，Rewendy JM，Fazeli Farsani S，EbrahimieE. 机器学习和荟萃分析的整合识别了牛乳腺炎疾病的转录生物特征。PloSOne2018;13（2）：e0191227。[29] 费希尔岭研究工作者的统计方法。London：Oliver andBoyd; 1932.[30] Huo Z，Tang S，Park Y，Tseng G.组学应用中自适应加权Fisher荟萃分析方法的P值评估、变异性指数和生物标志物分类。生物信息学2020;36（2）：524-32。[31] Heard NA，Rubin-Delanchy P.选择组合值的方法。Biometrika2018;105（1）：239[32] BindMA，Rubin DB.如果可能，报告Fisher精确P值并显示其基本的空随机化分布。Proc Natl Acad Sci Unit States Am2020;117（32）：19151-8.[33] 米尔斯瓦一世RapidMiner Studio（9.2. 2019.数据科学、机器学习、预测分析。[34] 作者：JL.组蛋白交换、染色质结构与转录调控。 Nat Rev Mol Cell Biol2015;16（3）：178-89.[35] [10]李文辉，李文辉.神经网络和SVM分类器准确地预测脂质结合蛋白，而不考虑序列同源性。J Theor Biol 2014;356：213-22. pmid：24819464。R. Panahi等人医学信息学解锁24（2021）1006299[36] Ebrahimi M，Ebrahimie E，Ebrahimi M.通过筛选、聚类和决策树算法搜索蛋白质中的热稳定性模式，并定义有助于酶热稳定性的主要特征。 EXCLI J 2009;8：218[37] 雷S. 3月）。一种基于信息增益和遗传算法的特征选择方法。计算机科学与电子学国际会议工程，第2卷。 IEEE; 2012年。第355- 358页。 2012年。[38] 作者：LiuY，Gasthouth JL.关于基尼指数代表收入的能力分配。Metron; 2020年。p. 一比九[39] 作者：KoseU，Alzubi J. 深度学习用于癌症诊断。：Springer; 2020.[40] Le TT，Urbanowicz RJ，Moore JH，McKinney BA.统计推断救济（STIR）特征选择。生物信息学2019;35（8）：1358-65。[41] 艾卜拉希米E，艾卜拉希米M，萨维斯塔尼NR，艾卜拉希米M.蛋白质属性有助于晕稳定性，生物信息学方法。生理盐水系统2011;7（1）：1-14。[42] 德什潘德·科图五世数据科学：概念与实践。摩根·考夫曼2018年[43] Ul Haq A，LiJ，Memon MH，KhanJ， Ud Din S. 一种新的乳腺癌综合诊断方法。J Intell Fuzzy Syst 2020;38（2）：2383-98.[44] Nikitin A，Egorov S，Daraselia N，Mazo I.分子网络的分析与导航。生物信息学2003;19（16）：2155-7.[45] Babicki S，Arndt D，Marcu A，Liang Y，Grant JR，Maciefenski A，Wishart DS.Heatmapper：面向所有人的网络热映射。核酸研究2016;44（W1）：W147[46] 放大图片作者：D'OronzoS，BrownJ，ColemanR. 生物标志物在骨转移中的价值EurJCancCare 2017;26（6）：e12725。[47] DanknerM，Ouellet V，Communal L，Sch

下载后可阅读完整内容，剩余1页未读，立即下载