没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁18(2020)100277应用集成方法筛选食管鳞状细胞癌的关键基因PallabiPatowary a,Dhruba K. Bhattacharyya a,*,Pankaj Barah ba印度阿萨姆邦Tezpur大学计算机科学与工程系b印度阿萨姆邦Tezpur大学分子生物学和生物技术系A R T I C L EI N FO保留字:ESCC微阵列RNA-seq差异表达基因模块保存差异表达分析共表达网络A B S T R A C T食管鳞状细胞癌(ESCC)被认为是一种致命的疾病,特别是在印度东北部。一系列的差异表达基因(DEG)被怀疑参与了食管鳞癌的发展。要搜索DEG,有许多工具可用。为了消除所有这些工具给出的DEG结果的偏差,需要一个共识函数,用户可以依赖于应用于多个数据源的差异表达分析方法生成的输出。在这项研究中,我们考虑了两个微阵列(分别为34和106个样本)和一个RNA-seq数据(29个样本),以进行无偏的整合分析,以鉴定ESCC的关键基因。首先,使用six差异表达基因鉴定工具对每种类型的数据进行独立的下游分析,然后进行inte-进行由有效的一致性函数支持的梯度分析,以鉴定一组无偏倚的不同表达基因。鉴定的基因集包括从工具获得的常见基因(对于P值截止值0.01)以及一些不常见的顶级基因(对于P值截止值0.001)。<<接下来,执行进一步的保留分析并识别出一组低保留模块。最后,确定了枢纽基因从选择的低保存模块和验证拓扑学和生物学。一组枢纽基因被鉴定为如SOX 11、COL27A1、TOP 3A、BAG6、CDC 6、EZH2、COL7A1、G6PD和AKR1C2,它们已被确定为对ESCC至关重要。1. 介绍食管鳞状细胞癌(ESCC)是侵袭性的,也是最常见的食管癌类型。它被列为癌症死亡的第六大原因,在世界各地都有发现,特别是在中国和印度。它是由于吸烟和饮酒而发生的[1],这种疾病的死亡率也很高。为了通过ESCC疾病的基因表达谱研究疾病的进展由于成本低廉,测序技术得到了迅速发展,因此计数数据也在测序数据的分析由于其庞大的维度而难以与微阵列数据相比。有各种技术可以帮助分析计数数据。从这些大量的基因中寻找差异表达的基因(DEG)是一项具有挑战性的任务,并且同样地,找到参与引起特定致命疾病的最重要的基因也具有挑战性。虽然有很多有用的差分表达式,已经开发了数据包络分析(DEA)工具来识别DEG,然而,这些工具中没有一个可以被认为对所有情况都有效。因此,集成方法已被选择,以帮助提高性能的显着DEG识别。此外,由于测序技术的不断进步,有可能获得然而,每种类型的数据集都有其自身的特殊性和局限性。因此,用单一类型的数据集进行实验以最终鉴定给定疾病的许多责任基因可能是不合理的为了确定一个给定的疾病的生物标志物的公正的集合,它是必不可少的进行综合研究,使用由不同的技术支持的有效的共识功能生成的数据集。迄今为止,使用RNA-seq数据对ESCC的关键基因尚未进行过多探索在这项工作中,首先,我们进行了一个独立的微分对微阵列和RNA-seq基因表达数据进行表达分析,以鉴定每种类型数据的一组显著DE基因如果所观察到的差异* 通讯作者。电子邮件地址:ppallabi@tezu.ernet.in(P. Patowary),dkb@tezu.ernet.in(D.K.Bhattacharyya),barah@tezu.ernet.in(P. Barah).https://doi.org/10.1016/j.imu.2019.100277接收日期:2019年7月26日;接收日期:2019年11月19日;接受日期:2019年在线预订2019年2352-9148/© 2019由Elsevier Ltd.发布这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表医学信息学期刊主页:http://www.elsevier.com/locate/imuP. Patowary等人医学信息学解锁18(2020)1002772表1Fig. 1. 从ESCC数据集中找到关键基因的概念框架。或两个实验之间的读段计数或表达水平的变化使用的数据集统计学上的意义[2]。相应基因在正常和疾病中表达值使用的数据集类型链接大小肿瘤样本正常样品状态表示选择一些感兴趣的基因用于随后的下游分析背后隐藏的真相。最近,许多SRP064894RNA-seq Recount2a58000�14 15已经引入了使用微阵列进行DE基因鉴定的工具GSE20347微阵列GEOb2922278�171734或RNA-seq数据。然而,我们的观察结果是:(i)为微阵列数据开发的工具通常不适用于RNA-seq数据,以及(ii)GSE23400微阵列GEOc22287�106ahttps://www.ncbi.nlm.nih.gov。53 53在任何一对这样的工具之间都存在基因数量的变化因此,为了识别DE基因,我们对每个数据集类型使用多个DEA工具,例如DESeq 2[3],edgeR [4],limma-voom [5],limma [6],Bhttps://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?参见GSE20347。Chttps://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?参见GSE23400。表2GSE20347的DEA统计数据SAM [7]、EBAM [8],并使用适当的一致性函数来产生差异表达基因的无偏集合。基于所选择的DE基因,使用WGCNA(一种免费可用的R工具)构建共表达网络,然后进行保存分析以识别一组跨状态的低保存模块模块保存统计信息量化了0.00121252288 41861084状态,而不是疾病状态。Zsummary统计数据为高度DEG0:001-1471(EX包括一式两份9773024 1129小行星3108保留的模块大于10,并且它们的中位数得分为基因)相对较低[10];对于适度保存的模块Zsummary得分在2和10之间,并且对于低保存的Zsummary得分为SAM EBAM Common DEG参考网络和测试网络之间的内部模块[9]。 一WGCNA R软件包,Zsummary统计评分计算确定0.0129163594 73861471在正常情况P. Patowary等人医学信息学解锁18(2020)1002773低于2. The ‘hubP. Patowary等人医学信息学解锁18(2020)1002774图二. Venn图,用于证明(a)GSE 20347(b)GSE 23400。P. Patowary等人医学信息学解锁18(2020)1002775表3GSE23400的DEA统计数据SAM EBAM Common DEG0.0166557613 992746070.00150448916 67543950DEG0:001-2272(EX包括重复基因)5914309 2955小行星4755(Union)表4SRP 064894的DEA统计数据p值6GeneAnalytics sup>7和STRING sup>8 sup>数据库,我们可以破译低保存模块背后的生物学解释,并确定感兴趣的基因。<百分比表8中报告了每个模块的生物学过程、细胞组分和分子功能的富集。在DAVID中对选定的四个低保存模块进行的GO富集分析见表9-14,在GeneAnalytics中对每个模块进行的途径分析见表15-20。4. 讨论我们确定了十二个关键基因主要负责ESCC。其中,9个突出的基因 , 如 COL27A1 , SOX 11 , BAG6 , TOP3A , CDC 6 , EZH2 ,COL7A1,G6PD和AKR1C2突出显示如下。(a) SOX 11:SRY-BoX11基因是一种转录因子,参与调控发育、分化和细胞命运决定等重要生物学功能。因此,SOX 11基因表达的任何失调都会导致癌症的发生[13]。发现SOX 11基因的表达在几种癌症中下调,即神经胶质瘤、卵巢癌、血液癌和鼻咽癌[14]。发现S0X11与ESCC细胞生长相关[15],并且其分别在食管鳞状细胞癌、造血系统恶性肿瘤以及胃癌和肝癌中充当肿瘤抑制剂[16,17]。有趣的是,最近的证据表明,SOX 11的基因表达在ESCC中上调[18]。但确切地说,该基因与ESCC的关系尚不清楚。在我们的研究中,使用模块内连接,我们将SOX 11确定为枢纽基因,该基因在我们的ESCC数据集中上调。然而,在KEGG和反应组通路数据库中均未发现与SOX 11基因相关的通路。因此,从基因卡,它基因和调节 基因 在 我们 ESCC 数据集。 从 的 网站 的5https://www.cbioportal.org/。6https://david.ncifcrf.gov。7https://ga.genecards.org。8https://string-db.org/。P. Patowary等人医学信息学解锁18(2020)10027713图十一岁在STRING 中 构建 的低保留模块的PPI网络。P. Patowary等人医学信息学解锁18(2020)10027714图12个。在STRING 中 构建 的低保留模块的PPI网络。表7通过STRING工具从PPI网络中在每个未保留的模块中鉴定顶部枢纽基因。表8微阵列和RNAseq数据的低保留模块的富集分析结果(有序)。缩略语:MF-分子功能,BP-生物学过程,CC-细胞组分。模块血压(%)CC(%)MF(%)白色89.797.497.4深绿色84.884.884.8钢蓝色65.26373.9暗红色63.368.468.4紫色92.796.992.7绿黄色92.496.893.7已经发现SOX 11基因参与的主要途径是ERK/MAPK信号通路。ERK信号通路在包括细胞发育、细胞增殖、分化和存活的各种细胞过程中起着至关重要的作用。通常发现这种调节信号通路在许多类型的人类癌症中上调[19]。最近的证据表明ERK信号在ESCC中高度上调,其表达与STAT1转录因子呈负相关[20]。然而,SOX11和ERK通路之间的分子联系尚不清楚。由于SOX11在细胞增殖、存活和发育中具有重要作用,因此SOX11与ERK信号通路相关的可能性很高。从字符串数据库,我们发现另一KEGG 途径 - -一种GSE20347白色深绿色中央程度信心中央程度信心基因评分基因评分Cdc632.115EZH274.21LIG121.552CCNE252.802ADRM121.024SMARCA252.602SRP064894钢蓝色暗红色中央程度信心中央程度信心基因评分基因评分COL7A132.502ALB52.633COL5A321.852RBBP443.307COL27A121.847CD4442.793GSE23400紫色绿黄色中央程度信心中央程度信心基因评分基因评分PTH1r43.136G6PD106.578GPR2043.121TXNRD195.567ADRB132.712GCLC85.348P. Patowary等人表9医学信息学解锁18(2020)10027715eeeeeeeeeeeeeee白色模块的GO富集分析。GO:0030574胶原蛋白分解代谢过程GO:0006974细胞对DNA损伤刺激的反应表10暗绿模块的GO富集分析GO:0006351转录,DNA模板化GO:0045893转录的正调控,DNA模板化GO:0008284细胞增殖表11Steelblue模块的GO富集分析GO:0030154细胞分化GO:0045087先天免疫应答GO:0016477细胞迁移表12Darkred模块的GO浓缩分析GO:0051453细胞内pH调节GO:0015701碳酸氢盐转运GO:0002331前B细胞等位基因排斥表13紫色模块的GO富集分析GO:0043547 GT3活性的正调控GO:0007050细胞周期停滞与SOX 11相关的癌症(hsa05202)中的转录失调。(b) COL27A1:胶原蛋白XXVII型α 1链是一种纤维状胶原蛋白和细胞外基质(ECM)的组分。然而,其在细胞过程中的意义却知之甚少[21]。在我们的数据集中,我们确定COL27A1是ESCC中上调的枢纽基因之一ECM通过调节细胞增殖、降解和重塑发挥重要因此,ECM成分基因表达的异常变化将导致恶性转化[22]。已鉴定的与COL27A1相关的KEGG途径是蛋白质消化和吸收,这证明了COL27A1在ESCC中的作用。此外,已经发现COL27A1在ESCC中显著上调,并且在细胞外基质组织中起主要作用[23]。Term计数p值BenjaminiFDRGO:0051301细胞分裂40.0333588760.94715671235.8198119730.0074163660.8556394319.271735471GO:0006464细胞蛋白质修饰过程30.0190753460.91822237322.2556511830.0661396230.97151204159.1160656GO:0007067有丝分裂30.0895569650.98284909570.66477686Term计数p值BenjaminiFDRGO:0045944RNA聚合酶II启动子90.0019037360.3136352952.61812381290.0867103660.8633605771.71401757GO:0000122RNA聚合酶II启动子80.001401190.4252718861.93324671250.0334654410.77550454737.74292552GO:0007399神经系统发育40.0306600750.82746957435.17937986Term计数p值BenjaminiFDRGO:0045944 RNA聚合酶II启动子60.0889135640.91764475573.0727706750.0256795910.84433940230.68813707GO:0030198细胞外基质组织40.0120550850.9258398515.7084968540.0870738410.93867531572.29644071GO:0030334 细胞迁移30.0140601870.7809940918.087201530.0659535670.96131313461.76248877Term计数p值BenjaminiFDRGO:0006260 DNA复制40.0240359910.8536912228.7324459730.009053130.97246429211.89284408GO:0042157脂蛋白代谢过程30.0100505730.86399050713.1195611930.0133188340.73395029317.02889228GO:0051726 细胞周期30.0877408830.97341299772.1551534520.0119229960.7938796315.37967875Term计数p值BenjaminiFDRGO:0007165信号转导140.0072659470.57881319710.63857129100.0027945560.5389472044.224599616GO:0008285细胞增殖90.0011066750.6011015951.6934076160.01220130.63902145617.25061942GO:0007155细胞粘附60.0932222880.86873698777.89545793P. Patowary等人表14医学信息学解锁18(2020)10027716转录调控绿黄色模块的GO富集分析。GO:0000122转录RNA聚合酶GO:0045892表15White模块的通路分析。(R:Reactome; N:NCBI Biosystem; K:KEGG; C:Cell signaling technology)。名称匹配的基因来源Wnt信号通路Netpath TCF 3,DVL 3N Wnt/Hedgehog/Notch BAG 6,CELSR2,DVL 3 C表16深绿模块的通路分析。(R:Reactome; N:NCBI Biosystem; K:KEGG; G:GeneGo; Q:Qiagen)。名称匹配的基因来源E2F转录因子网络E2F3,RRM1,SMARCA2,NCCNE2CDK介导的磷酸化和Cdc6ADRM 1、LIG1、RPN 1、CDC 6、UBA 1、DVL 3K、R、B癌症中的视网膜母细胞瘤(RB)E2F3、RRM1、SMARCA 2、BCCNE2蛋白质ACADVL、ADRM 1、POGNT 1、RPN 1、缬氨酸、亮氨酸和异亮氨酸降解ACAD8、ALDH7A1、PCCA K、N、RPRKCSH、DDX 11、RABGGTA、UBA 1 R未折叠蛋白应答(UPR)ACADVL,DDX11 RGP 1b-IX-V激活信号转导GP 1BB,YWHAZ R细胞周期E2 F3,RAD 21,YWHAZ,CCNE 2 K,N核黄素代谢FLAD1 K DNA损伤HIPK2、RAD21、RRM1、CCNE2、C细胞外基质MMP 10、COL10A1、RCOL11A1Wnt/B-catenin的调控YWHAZWNT介导的DVL DVL 3 R信号转导晚期糖基化终产物受体信号PRKCSH R通过小分子化合物TCF 4、SFRP 4 N小细胞肺癌E2F3、PTK2、CCNE2 K有丝分裂前中期SKA1、DVL 3 R多形性胶质母细胞瘤E2F3、TCF 4、CCNE2 Q调控干细胞TCF 3、DVL 3 K整合素α IIb β 3信号转导GP1BB、PTK2 R代谢性疾病MTR、PCCA R细胞周期,有丝分裂LIG1,CDC6,SKA1,ACTR1A R外胚层分化CELSR2,TCF3 NMTR缺陷导致甲基丙二酸MAPKAP激酶介导的p38信号转导TCF 3 N酸尿和同型胱氨酸尿症型cblGMTR R尿素循环与氨基代谢内质网蛋白质加工PYCR3 NRPN 1,PRKCSH KHIPK2,E2F3,CCNE2K转录配体依赖性激活ESR 1/SP通路SMARCA 2、CCNE 2 GNotch信号通路(KEGG)EHMT 2,DVL 3 K,N细胞周期细胞周期E2F3,CCNE2 R,G线粒体脂肪酸β-ACADVL R赖氨酸降解ALDH7A1、EZH2 K氧氧化PRL RABGGTA N介导的甘露糖型O-聚糖生物合成POMGNT 1 K癌症中的转录失调人胚胎干细胞胚胎干细胞HOXA 9、HOXA 10、PTK 2 KE2F3、TCF 4、CCNE2 Q(c) TOP3A:拓扑异构酶主要存在于两种前体中,TP53活性的调节HIPK2、CCNE2、YWHAZ、TAF2 R色氨酸代谢ALDH7A1、UBR5 K、N核生物和真核生物。它在DNA拓扑和构象变化中起着重要的生物学作用。TOP3A属于1A型拓扑异构酶家族,主要与DNA结合。植入前胚胎,ERK信号转导SOX11基因卡与调节细胞周期检查点、DNA修复机制和维持基因组稳定有关[24]。 研究报道了TOP3A基因与膀胱癌[25]、肺癌和鼻咽鳞状细胞癌[25]的关系。但TOP3A与食管鳞癌的关系尚未见报道。这是我们首次通过模块保存分析确定TOP3A为食管鳞癌的重要基因。(d) BAG6:BCL 2相关的Athanogene 6与离散主动脉瓣下狭窄和急性腹泻疾病相关。与该基因相关的GO注释包括泛素蛋白连接酶结合和Hsp70蛋白结合、Ubl缀合、磷蛋白、细胞质、乙酰化、细胞质和联会复合体组装。910。Wnt/Hedgehog/Notch途径是9https://www.genecards.org/cgi-bin/。10 https://david.ncifcrf.gov/conversion2.jsp。BAG6在胚胎发生和癌发生中起关键作用。该途径在食管鳞状细胞癌中作为表皮生长因子受体的激活剂[26]。BAG6基因被发现与肺癌相关[27]。(e) CDC6:Cdc6癌症致癌转化或疾病进展,Cdc6为抑制细胞增殖的生物技术策略提供了良好的靶点[28]。已在恶性前列腺癌细胞中观察到改变的Cdc6表达,但半定量PCR、微阵列分析和蛋白质印迹均显示相对于正常前列腺组织,CDC6转录和蛋白质表达降低[29]。CDC 6在癌细胞中受YB-1的控制,我们提供的证据表明,CDC 6表达在YB-1诱导的细胞增殖和细胞周期G1/S中起着重要作用。发现CDC6是癌症放射增敏的新型治疗靶点[30]。在ESCC疾病中,Term计数p值BenjaminiFDRGO:0045944RNA聚合酶II启动子
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功