没有合适的资源?快使用搜索试试~ 我知道了~
差异共表达分析工具比较研究及其在RNA-Seq数据中的应用.
医学信息学解锁26(2021)100740RNA-Seq数据差异共表达分析工具的研究Tonmoya Sarmah,Dhruba K.巴塔查里亚Tezpur University,Tezpur,Assam,784028,IndiaA R T I C L E I N F O保留字:RNA-seq数据共表达网络差异共表达分析GO富集分析途径富集分析A B S T R A C T许多方法正在开发并用于分析基因表达数据,如RNA-Seq数据。这些工具中的大多数集中在寻找导致疾病的基因。共表达网络生成、模块检测和差异共表达分析等方法用于研究不同条件下基因表达数据的特异性变化。本文对WGCNA、DiffCorr、MODA和CEMiTool四种差异共表达分析工具进行了比较研究,用于RNA-Seq数据。这些工具所使用的不同方法进行了研究和测试精神分裂症和双相情感障碍数据集和他们的有效性,寻找相关的差异共表达基因和途径正在讨论。所得到的基因和途径的相关性取决于这些基因和途径是否与给定的疾病状况相关1. 介绍共表达网络正越来越多地用于发现基因之间的相关性,并发现模块和模块内的枢纽基因。随着下一代测序(NGS)技术(如微阵列和RNA-Seq技术)的使用,基因表达的研究得到了快速发展。基因表达分析有助于确定疾病进展过程中受影响的基因。计算方法用于识别那些受影响的基因,这些基因作为生物标志物,并有助于确定疾病的潜在药物靶点。基因共表达网络(CEN)是基因表达分析中广泛使用的计算方法之一。 它可以被可视化为一个无向图,其中一个节点代表一个基因,如果它们之间存在相关性,则一对节点与一条边相连。这种共表达网络有助于识别与生物过程或途径相关的相关基因[1]。然而,CEN只能提供一种情况的相关基因。在基因表达模式在不同条件下发生变化的情况下,例如疾病和控制,我们需要找到CEN模块之间表达模式的差异。差异表达分析将每个基因视为一个单独的实体,并提供在不同条件下差异表达的单个基因。但这对于共表达模块网络不起作用,其中基因是网络的一部分,并且它们彼此相互作用[2]。因此,这需要使用差异共表达分析。差异共表达(DCE)分析有助于了解共表达网络的条件特异性变化。换句话说,如果一组共表达的基因以某种方式表现,以一种特殊的方式对生物学变化作出反应;它被称为差异共表达。差异共表达网络分析有助于研究疾病状况和网络中相关模块的表型变异,其中共表达模式在不同条件下变化[1]。研究了共表达网络构建和共表达模块差异共表达分析的随着DCE网络分析应用的增加,寻找DC网络中差异共表达基因的工具也在不断发展在这项研究中,我们研究了四种用于差异共表达网络分析的工具,即WGCNA [3],DiffCorr [4],MODA [5],CEMiTool [6]。本文介绍了这四种工具的实证分析结果,并对工具中使用的方法进行了比较。第2节包括DCE分析工具中使用的不同常用方法的文献综述。第3节介绍了本研究中使用的工具,并对它们的方法进行了比较。第4节介绍了结果的分析,包括GO(基因本体)富集分析,途径富集分析和枢纽基因鉴定,第5节介绍了所用方法的最后讨论 DCE分析工具。2. 背景在本研究中,我们专注于差异共表达分析RNA-Seq数据RNA测序是下一代测序(NGS)技术,可以以更便宜的成本∗ 通讯作者。电子邮件地址: dkb@tezu.ernet.in(D.K. Bhattacharyya)。https://doi.org/10.1016/j.imu.2021.100740接收日期:2021年5月13日;接收日期:2021年9月14日;接受日期:2021年9月15日2021年9月22日在线提供2352-9148/©2021的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuT. Sarmah和D.K.Bhattacharyya医学信息学解锁26(2021)1007402并且它可以为共表达分析提供更好的结构变化[7]。Dam等人[8]提供了用于构建和分析从基因表达数据构建的共表达网络(CEN)的工具和方法的概述。该研究还提供了用于差异共表达(DCE)分析的工具的详细信息和简要比较。Hussain等人[1]对RNA-Seq和微阵列数据的共表达、差异共表达、差异Liu等人[2]提出了差异共表达网络分析的三个方面的研究,包括网络的拓扑比较、差异共表达模块和差异共表达基因的鉴定以及基因对的鉴定该研究提供了现有工具的审查,并讨论了它们在癌症研究中的应用。正在研究正确构建共表达网络的措施,以找到定义共表达网络中节点或基因之间的连接的方法。而不是分配二进制信息,如1相关和0不相关,张等人。描述了一个软阈值的框架,为基因对的相关性连接分配权重[9]。这个概念已经在用于构建共表达网络的DCE分析工具WGCNA中实现[3]。与RNA-Seq数据相比,微阵列数据的共表达网络构建已经做了很多工作。近年来,已经研究了不同的概念用于构建RNA-Seq数据的共表达网络[10-12 ],例如关联内疚,Spearman或Pearson相关系数,基于组分的大多数DCE分析工具使用Spearman或Pearson相关系数来构建共表达网络。这些网络用于研究遗传变化和疾病状况的差异共表达模式不同的聚类技术也被用来探索和发现模式的基因之间的共表达网络。聚类技术,如双聚类和三聚类的共表达网络上找到模块,将进一步分析差异共表达基因。正在研究不同的聚类方法,并开发新的方法来使用不同的数据集[13- 15 ]找到DICER [16]、DifCoNet [17]、DiffCoEx [18]、MODA [5]、DiffCorr[4]、DCGL [19]、CEMiTool [6]等工具使用不同的统计数据进行DCE分析,例如概率得分、主成分分析、在这项研究中,我们比较了四种工具所使用的技术,WGCNA,DiffCorr,MODA,CEMiTool,它们具有不同的差异共表达分析方法,并研究了在RNA-Seq数据上使用时所获得的结果2.1. 差异共表达分析图1显示了本研究的差异共表达网络分析所遵循的试验性工作流程。在这项研究中,我们使用RNA-Seq读取计数数据作为输入。此输入需要在任何下游分析之前进行预处理。采用归一化、缺失值估计、基因选择和批量效应归一化等预处理方法。这个阶段去除任何低表达或NaN基因。然后将该预处理的数据用于寻找差异共表达模块的工具中。这些工具首先使用Pearson/ Spearman相关方法进行相关性分析。这用于创建共表达网络,从中可以识别模块。下一步是找到差异共表达的网络模块。然后将这些模块用于GO富集分析和途径分析,以进行生物学解释,并找到模块中心基因或差异共表达基因。这些枢纽基因被进一步分析,以发现其与正在研究的疾病的相关性。然后,这些结果与现有的既定结果进行验证图1.一、 差异共表达(DCE)网络分析的工作流程。3. 方法3.1. WGCNA加权基因共表达网络分析(WGCNA)是检测和分析共表达模块最常用的工具之一。它使用分块模块检测来检测高度相关基因的簇或模块。在这里,数据集被划分为块,并且每次检测一个块的模块。使用模块特征基因或模块内枢纽基因来概括模块之间的模块,以使模块彼此相关。使用层次聚类和树切割阈值来识别来自共表达网络的模块。它使用Pearson相关性来计算不同条件下基因之间的相关性。WGCNA软件包包括网络构建、模块检测、基因选择、拓扑性质计算、数据模拟、可视化和与外部软件接口的功能[3]。3.2. DiffCorrDiffCorr使用Pearson相关系数来构建相关网络并识别相关网络之间的模式变化 这两个条件。 该方法对每个条件下的数据集计算相关矩阵,建立相关网络,并根据第一主成分识别网络中的特征分子。然后使用Fisher z检验确定两种条件之间的差异相关性3.3. ModaMODA或模块差异分析将基因共表达网络表示为模块的集合,并将不同共表达的子网络鉴定为保守或条件特异性模块。它基于WGCNA的概念,其中边权重作为相关系数的基因对和层次聚类方法进行检测网络中的模块。基于不同条件下加权网络的平均模块度来确定聚类的最佳树切割阈值[5]。T. Sarmah和D.K.Bhattacharyya表1医学信息学解锁26(2021)1007403DCE分析工具的比较。方法CEN构造模块检测DCE分析WGCNA Pearson相关性,软阈值功效分块方法,层次聚类,动态树割方法拓扑重叠法DiffCorr Pearson相关性分层聚类,特征基因FisherMODA Pearson相关性分层聚类,密度或模块化基于Jaccard指数的相似矩阵CEMiTool Pearson相关性,软阈值功率层次聚类,动态树割法,聚类分析���分数 标准化表达表2DCE分析工具的输入、输出和可用性。方法输入输出在线/离线参考(URL)WGCNA(样品×基因)表达谱DiffCorr(基因×样本)表达谱MODA(基因×样品)表达谱CEMiTool(基因×样本)表达式配置文件,示例注释文件gene list离线https://cran.r-project.org/web/packages/WGCNA/index.html文本文件离线https://cran.r-project.org/web/packages/DiffCorr/index.htmlheatmap,gene list离线https://bioconductor.org/packages/release/bioc/html/MODA.htmlHTML报告在线,离线https://cemitool.sysbio.tools/analysis,https://bioconductor.org/packages/release/bioc/html/CEMiTool.html表3使用脑组织nACC的不同DCE工具针对精神分裂症和双相情感障碍富集的GO术语列表。 方法GO-项-���值���-值精神分裂症WGCNA G0:0030054细胞结0.011GO:0046628胰岛素受体信号通路0.02 1G0:0019901蛋白激酶结合0.04 1DiffCorr GO:0005829细胞溶质0.004 0.51GO:0042059表皮生长因子受体信号通路0.009 1GO:0003924 GTdR活性0.01 1MODA GO:0005654核质1.06E−08 1.10E−06 GO:0044822多聚(A)RNA结合1.27E−05 0.001GO:0005515蛋白结合5.34E−04 0.01GO:0006364 rRNA加工9.92E−04 0.22CEMiTool GO:0043195端子扣0.001 0.08GO:0006890逆行囊泡介导的转运,高尔基体至ER0.003 0.28双相情感障碍GO:0005829细胞溶质0.003 0.08GO:0019904蛋白质结构域特异性结合WGCNA GO:0005576胞外区0.004 0.39GO:0003682染色质结合0.008 0.77GO:0006312有丝分裂重组0.02 1DiffCorr GO:0006997核心组织1.76E-04 0.08GO:0030529细胞内核糖核蛋白复合物0.002 0.19GO:0044822聚腺苷酸RNA结合0.006 0.52GO:0005515蛋白结合0.007 0.52MODA GO:0004864蛋白磷酸酶抑制剂活性0.001 0.12GO:0044822聚腺苷酸RNA结合0.009 0.29G0:0030659细胞质囊泡膜0.02 1GO:2001243内源性凋亡信号通路0.03 1CEMiTool GO:0030054细胞结6.48E−05 0.001GO:0005829细胞溶质4.10E−04 0.009GO:0032403蛋白复合物结合0.001 0.03GO:0006890逆行囊泡介导的转运,高尔基体至ER0.003 0.57T. Sarmah和D.K.Bhattacharyya表4医学信息学解锁26(2021)1007404使用脑组织AnCg的不同DCE工具针对精神分裂症和双相情感障碍富集的GO术语列表。 方法GO-项-���值���-值精神分裂症WGCNA GO:0030054细胞结0.002 0.23G0:0005524 ATP结合0.011GO:0046628胰岛素受体信号通路0.02 1G0:0019901蛋白激酶结合0.031DiffCorr GO:0005515蛋白结合5.87E−04 0.09G0:0044822聚(A)RNA结合0.011GO:0071204组蛋白前mRNA 3 '末端加工复合物0.02 0.94GO:0017148翻译的MODA GO:0043968组蛋白H2A乙酰化0.001 0.54GO:0005654核质0.003 0.2GO:0005829细胞溶质0.005 0.22G0:0008565蛋白转运蛋白活性0.03 1CEMiTool GO:0043195端子扣0.001 0.08GO:0006890逆行囊泡介导的转运,高尔基体至ER0.003 0.28双相情感障碍GO:0005829细胞溶质0.003 0.08GO:0019904蛋白质结构域特异性结合WGCNA GO:0005031肿瘤坏死因子激活受体活性8.36E−04 0.01mRNA加工的调节GO:0005524 ATP结合0.05 1DiffCorr GO:0044822 poly(A)RNA结合6.65E−04 0.11GO:0005524 ATP结合0.007 0.46GO:0005654核质0.01 0.91GO:0045454细胞氧化还原稳态0.03 1MODA GO:0045026质膜融合0.011GO:0000220液泡质子转运V型ATP酶,V0结构域0.0113.4. CEMiToolG0:0015232血红素转运蛋白活性0.02 1CEMiTool GO:0043195终末终扣4.53E−074.53E−05 GO:0005829细胞溶质1.81E−056.05E−04GO:0005515蛋白结合7.49E−05 0.005所有这些工具都使用层次聚类来进行模块检测,使用R函数进行检测。层次聚类是一种无监督的CEMiTool或CoExpression Modules identification Tool将共表达模块的发现和分析结合到单个功能中。 它提供了一个完全自动化的过程,该工具选择参数,并执行结果的功能分析。采用一种新的基于逆伽玛分布的无监督基因滤波方法对由基因和样本组成的输入数据进行滤波。参数,如软阈值功率(SNR)是由工具来决定,用于执行模块检测。在提供样品注释文件时,该工具可以使用R包fgsea(快速基因集富集分析)执行基因集富集分析(GSEA),并且在提供基因途径列表时,其使用R包clusterProfiler执行过代表性分析(ORA)。所有这些结果(包括功能分析的模块和图表)都在一份HTML报告中提供[6](见表1)。3.5. 工具比较在WGCNA、DiffCorr和CEMiTool中使用的相关性测量,对于本研究,是Pearson对于共表达网络的构建,WGCNA使用无标度拓扑标准来挑选用于网络构建的软阈值功率。���为了构建无标度网络,用户必须通过考虑线性回归拟合(R2)和连通性来手动选择较低的R2值。软阈值化影响网络拓扑,其中较高的阈值会影响网络拓扑。 值将降低平均连通性的网络。CEMiTool使用柯西序列的概念来自动选择无标度网络构建的最小值方法来识别基因模块,其中它不需要预定义的基因集。它会产生一个树状图,其中每个分支对应一个模块。WGCNA和CEMiTool使用动态树切割方法选择模块。尽管针对该方法的最佳切削参数选择的研究正在进行中,但WGCNA使用的默认值已被证明适用于多种应用[3]。对于大型数据集,WGCNA提供了一种分块模块检测方法。使用k均值聚类技术将数据集划分为聚类或块,并将分层聚类应用于这些块中的每一个以找到块内的模块为了总结跨块的模块,计算模块的加权平均表达谱具有高度相关特征基因的模块被合并成单个模块。在DiffCorr中,该特征基因或特征分子用于确定网络中的任何两个相关模块是否显著不同。本征分子基于模块的数据矩阵的第一主成分来确定,并且它表示模块内的相关模式[4]。使用R软件包pcaMethods进行主成分分析(PCA),找到前10个主成分,然后用于测试分子之间的差异相关性。在MODA中,层次聚类树的切割高度是使用工具中提供的两种方法之一来确定的,即,密度和模块化。模块的密度基于任何两个基因之间的相似性模块性是基于网络中的边的数量和基因的程度。用户必须指定用于选择分层树的高度的方法。T. Sarmah和D.K.Bhattacharyya医学信息学解锁26(2021)1007405=. 的∑表5使用脑组织DLPFC的不同DCE工具针对精神分裂症和双相情感障碍富集的GO术语列表。方法 GO-项-���值���-值精神分裂症WGCNA GO:0005524 ATP结合0.01 0.76GO:0046628胰岛素受体信号通路0.011GO:0030054细胞连接0.04 1DiffCorr GO:0045893转录的正调控,DNA模板化0.004 1GO:0005743线粒体内膜0.005 0.39GO:0005515蛋白结合0.02 1MODA GO:0006810运输0.003 1GO:0030117膜涂层0.005 0.7GO:0016757转移酶活性,转移糖基0.02 0.1CEMiTool GO:0019904蛋白质结构域特异性结合4.70E−05 0.002GO:0044325离子通道结合1.85E−04 0.004GO:0005829细胞溶质7.24E−04 0.03双相情感障碍GO:0007223 Wnt信号通路,钙调节通路7.86E−04 0.06WGCNA GO:0030054细胞连接0.01 0.96GO:0046628胰岛素受体信号通路0.011G0:0019901蛋白激酶结合0.02 1GO:0005524 ATP结合0.04 1DiffCorr G0:0005829细胞溶质0.011G0:0006470蛋白质去磷酸化0.02 1GO:0005102受体结合0.02 1GO:0005515蛋白结合0.04 1MODA GO:0008066谷氨酸受体活性1.24E−04 0.007GO:0016021膜的GO:0005886质膜5.81E−04 0.01GO:0051966突触传递调节,突触能7.12E−04 0.05CEMiTool GO:0043195端子扣3.50E−05 0.001GO:0002576血小板脱粒2.02E−04 0.04GO:0005829细胞溶质7.24E−04 0.02G0:0019904蛋白质结构域特异性结合WGCNA使用拓扑重叠矩阵(TOM)来发现模块之间的差分相关性。DiffCorr使用前10个主成分来找到模块之间的差异相关性,并使用Fisherz检验在分子之间进行成对差异相关性分析。使用Fisher变换对两种条件的相关系数进行变换,并计算表示相关性之间的差异的值。在MODA中,对模块进行成对比较,以创建共表达网络中模块的相似性矩阵。相似性采用Jaccard指数进行评价。相似性矩阵表示为,其中,表示网络1的第k个模块之间的相似性,��� 也就是说,1(A)和网络2的第1个模块,即,��� ���其中1是由来自所有条件的样品组成的基因的背景集合,2是包含除了属于以下的样品之外的所有样品的集合:4. 结果用于本研究的数据集是用于精神障碍的人类死后脑组织的RNA-Seq数据集,GSE 80655,由57905个基因的281个样品组成。它具有双相情感障碍、精神分裂症和对照条件的基因表达,对应于三种类型的脑组织-nAcc(丘脑核)、AnCg(前扣带皮层)、DLPFC(背外侧前额叶皮层)[20]。分析从四种差异共表达网络分析工具获得的所得模块的功能注释工具DAVID(用于注释、可视化和集成发现的数据库)已用于共表达模块的验证它是一个基于网络的工具,提供GO富集分析和批量注释,以找到与给定基因列表相关的最相关GO术语。还一个条件。因此,在本发明中, 计算方法如下─������1(A)2(A)1(A)2(A)DAVID Pathway Viewer使用KEGG和BioCarta路径显示基因路径图上的基因列表[21]。中的行之和计算为:其中,表示条件对网络1的第n个模块的影响。������������������考虑了两个阈值,分别为101和102。如果模块的频率小于如 果 它 是 一 个 条 件 特 定 的 模 , 如 果 它 是 一 个 条 件 特 定 的 模 。���������������������CEMiTool需要一个样本注释文件来使用R包进行基因集富集分析,以找到数据集中的共表达模块。���������������一个分数标准化的表达式 为每个条件的样本计算,以确定在不同的条件下改变模块(见图1)。表2)。4.1. GO富集分析对一组基因的GO富集分析将找到使用基因组的注释表示的GO项。测试其意义在于,使用基于超几何检验的方法来找到统计值,如用于定义GO富集度的α和β值的模块。它测试零假设,以检查注释的丰富是否纯粹是偶然的。该值是从注释到特定GO术语的基因的总数量中获得至少1/2个基因的概率,并且该值是���T. Sarmah和D.K.Bhattacharyya医学信息学解锁26(2021)1007406图二. 工具实证研究的工作流程表6与精神分裂症和双相情感障碍相关的脑组织nAcc通路的α值和β值工具途径n-值n-值精神分裂WGCNAhsa04727:GABA能突触0.050.111DiffCorrhsa04722:神经营养因子信号通路hsa04668:TNF信号通路0.0010.060.091Modahsa03008:真核生物2.66E−040.030.0060.41CEMiToolhsa04721:突触囊泡周期0.0010.02双相情感障碍WGCNAhsa04910:胰岛素信号通路0.028.0.030.990.99DiffCorrMODACEMiToolhsa04144:内吞作用hsa04071:鞘脂信号通路hsa04721:突触囊泡周期0.0030.20.0060.1810.41hsa04727:GABA能突触0.01 0.41hsa04114:卵母细胞减数分裂0.02 0.46错误发现率(FDR)。值越低,则模块的显著性越高������使用不同工具获得的重要GO项及其各自的Δ和Δ值如表3- 5所示从结果中发现,根据各自的λ值,MODA和CEMiTool获得的模块更显著4.2. 途径富集分析途径富集分析识别基因组中的生物途径,其可能不仅仅是偶然发生的。途径分析基于这样的假设,即参与相同生物过程或功能的基因在表达水平方面4.2.1. 脑组织-nAcc1. 精神分裂症中发现的WGCNA富集途径是光传导和GABA能突触,双相情感障碍中发现的WGCNA富集途径是神经营养因子信号传导途径、Ras信号传导途径和胰岛素信号传导途径。2. 针对精神分裂症发现的DiffCorr富集的途径是:神经营养因子信号传导途径和TNF信号传导途径,并且针对双相情感障碍发现的是内吞作用。3. 在精神分裂症中发现的MODA富集途径是:真核生物中的RNA转运和核糖体生物合成,而在双相情感障碍中发现的是鞘脂信号传导途径。4. CEMiTool -发现精神分裂症的丰富途径是突触囊泡周期,双相情感障碍的丰富途径是突触囊泡周期、GABA能突触和卵母细胞减数分裂。T. Sarmah和D.K.Bhattacharyya医学信息学解锁26(2021)1007407表7���与精神分裂症和双相情感障碍相关的脑组织AnCg通路的α值和β值。工具路径���-价值���-价值精神分裂症WGCNA hsa04744:光转导0.05 0.97hsa04727:GABA能突触0.11DiffCorr hsa03013:RNA转运0.031MODA h_igf1mTOR途径:骨骼肌肥大通过AKT/mTOR途径0.03 0.54CEMiTool hsa04721:突触囊泡循环0.001 0.02双相情感障碍WGCNA hsa 04060:DiffCorr hsa 05140:利什曼病0.03 1MODA hsa05110:霍乱弧菌感染0.01 0.61CEMiTool h_ndkDynaminPathway:NDK、磷蛋白和发动蛋白0.001 0.03hsa04721:突触囊泡周期0.003 0.19表8脑组织DLPFC中与精神分裂症和双相情感障碍相关的通路的α值和β值工具途径n-值n-值精神分裂WGCNAhsa04727:GABA能突触0.040.111DiffCorrhsa05169:EB病毒感染hsa04146:过氧化物酶体0.020.0711ModaCEMiToolhsa04142:溶酶体hsa04713:昼夜节律夹带hsa04114:卵母细胞减数分裂0.12.02E−043.20E-045.25E−0410.0070.0070.008双相情感障碍WGCNAhsa04744:光转导0.041DiffCorrmap00062:脂肪酸延伸0.16.2E−3Modahsa 04080:神经活性6.78E−040.010.010.14CEMiToolh_gpcrPathway:来自G蛋白家族的0.0080.25hsa04713:昼夜节律夹带0.009 0.23hsa04114:卵母细胞减数分裂0.01 0.23表6显示了精神分裂症和双相情感障碍的上述通路的脑组织nAcc的相关α-值和β4.2.2. 脑组织-AnCg1. 两种精神分裂症的WGCNA富集途径是光传导和GABA能突触,双相情感障碍的WGCNA富集途径是2. 在精神分裂症中发现的DiffCorr -富集途径是RNA转运,在双相情感障碍中发现的是利什曼病。3. 精神分裂症的MODA富集途径是骨骼肌肥大,通过AKT/mTOR途径调节,双相情感障碍的MODA富集途径是霍乱弧菌感染。4. CEMiTool -发现精神分裂症的丰富途径是突触囊泡循环,双相情感障碍的丰富途径是NDK、磷酸酶和发动蛋白的内吞作用以及:突触囊泡循环。表7显示了精神分裂症和双相情感障碍的脑组织AnCg的上述途径的相关Δ-值和Δ4.2.3. 脑组织-DLPFC1. WGCNA富集的途径在精神分裂症中发现为光传导和GABA能突触,在双相情感障碍中发现为光传导。2. 发现用于精神分裂症的DiffCorr -富集途径是爱泼斯坦-巴尔病毒感染和过氧化物酶,并且用于双相情感障碍的是脂肪酸延长。3. 精神分裂症中发现的MODA富集途径是溶酶体,双相情感障碍中发现的是神经活性4. CEMiTool -针对精神分裂症发现的富集途径是昼夜节律夹带、卵母细胞减数分裂和光转导,并且针对双相情感障碍发现的富集途径是来自G蛋白家族的、昼夜节律夹带和卵母细胞减数分裂。表8显示了精神分裂症和双相情感障碍的脑组织DLPFC的上述通路的相关的Δ-值和Δ-值。光传导和GABA能突触被发现是 与神经退行性疾病如精神分裂症[22Cytokine–cytokine receptor interaction神经营养因子信号传导途径是与两种病症相关的另一种途径[28- 已经发现,与精神分裂症相关的途径如TNF信号传导途径、RNA转运和过氧化物酶体[22,31,32]使用T. Sarmah和D.K.Bhattacharyya医学信息学解锁26(2021)1007408图3.第三章。精 神 分 裂 症 数 据 集 中 用于脑组织nAcc的不同工具的ROC曲线。AUC-(a)0.67(b)0.64(c)0.63(d)0.63。图四、脑 组 织 n A c c 双相情感障碍数据集中使用的不同工具的ROC曲线。AUC-(a)0.6(b)0.62(c)0.6(d)0.6。nAcc、AnCg和DLPFC的DiffCorr。EB病毒感染已被发现感染中枢神经系统,在精神分裂症风险增加[33]中,使用DLPFC的DiffCorr进行富集。发现使用MODA富集的途径,如真核生物中nAcc的核糖体生物发生、AnCg的AKT/mTOR途径和DLPFC的溶酶体与精神分裂症相关[22,26,34],并且发现鞘脂信号传导途径和谷氨酸能突触与双相情感障碍相关[35使用nAcc和AnCg的CEMiTool富集发现与精神分裂症和双相情感障碍[38]相关的突触囊泡周期。在精神分裂症的DLPFC中使用CEMiTool也发现了光转导,并且在DLPFC中使用CEMiTool发现了与双相情感障碍相关的昼夜节律夹带[39]。在图图3至图8示出了使用四种工具进行差异共表达分析所的AUCROC曲线高于0.6,这表明诊断不是偶然发生的。4.3. Hub基因鉴定在共表达网络中具有最高连接度的基因被称为特定共表达模块的枢纽基因。枢纽基因的集合充当信息基因。共表达分析已被扩展到寻找每种疾病的枢纽基因。在nAcc中,中枢基因PPHLN 1 [40]和EIF2 A [41]与精神分裂症相关。参与线粒体呼吸链[42]的集线器基因C0X15、参与Wnt信号通路[43]的KDM1A、EIF4ENIF1 [44]和MCCC 1 [45]与双相情感障碍相关。T. Sarmah和D.K.Bhattacharyya医学信息学解锁26(2021)1007409图五、 用于精神分裂症 数据集中脑组织AnCg的不同工具的ROC曲线。AUC-(a)0.68(b)0.71(c)0.74(d)0.74。图六、脑 组 织 An C g 双相情感障碍数据集中使用的不同工具的ROC曲线。AUC-(a)0.7(b)0.74(c)0.67(d)0.76。在AnCg中,枢纽基因TLK2, 关联 与 知识 失能[46]、参与细胞溶质铁硫簇蛋白合成途径的CIAO1 [47]、参与神经发育的RAB 18 [48]、EIF4ENIF1 [44]和NRDC [49]与精神分裂症相关。参与氧化应激途径[50]和ACK [51]的Hub基因EIF2AK1与双相情感障碍相关在DLPFC中,参与蛋白质-DNA相互作用[ 52 ]的中枢基因RNF34 、 参 与 应 激 相 关 途 径 [50] 的 EIF 2B 1 、 参 与 RNA 代 谢 [53] 的MTREX、TFCP 2 [54]、WDR 33 [55]和CHCHD 3 [56]与精神分裂症相关Hub基因RAB7 A[57]和MICU1 [58]与双相情感障碍有关。1. 讨论基于分析,这四种工具产生了统计学显著的差异共表达基因,这些基因也富含功能注释。根据GO富集分析模块发现,使用MODA和CEMiTool发现,在大多数情况下,与其他人相比,在α值方面更显着在途径富集分析中,通过使用的工具发现已经发现,在大多数情况下,DiffCorr和随着RNA-Seq数据使用的增加,需要能够专门针对RNA-Seq数据的工具,以找到精确且功能丰富的差异共表达基因。较新的工具还注重提供方便用户的输出,如CEMiTool,其中的模块及其分析在一份报告中列出T. Sarmah和D.K.Bhattacharyya医学信息学解锁26(2021)10074010图7.第一次会议。精 神 分 裂 症 数 据 集 中 用于脑组织DLPFC的不同工具的ROC曲线。AUC-(a)0.62(b)0.63(c)0.63(d)0.6。图8.第八条。脑 组 织 DL P F C 双相情感障碍数据集中使用的不同工具的ROC曲线。AUC-(a)0.68(b)0.68(c)0.7(d)0.67。大多数工具使用Pearson相关性来构建相关网络,使用层次聚类来检测模块。采用了动态伐树法和密度法等其他方法 来改善结果。本研究中使用的所有工具使用不同的方法进行差异共表达分析。 重点是寻找精确和更具体的差异共表达基因。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1]Ahmed Chowdhury Hussain,Bhattacharyya Dhruba Kumar,Kalita Jugal Kumar.基因表达的(差异)共表达分析:最佳实践调查。IEEE/ACM Trans Comput BiolBiofinform2019;17(4):1154-73.[2]刘宝红基因表达数据的差异共表达网络分析。在:计算系统生物学。 NewYork,NY:Humana Press; 2018,p. 155比65[3]彼得·朗菲尔德霍瓦特·史蒂夫WGCNA:一个用于加权相关网络分析的R软件包。BMC Bioinformatics2008;9(1):1-13.[4]福岛敦。DiffCorr:一个R包,用于分析和可视化生物网络中的差分相关性。Gene2013;518(1):209-14.[5]李东,等. MODA:加权基因共表达网络的模块差异分析。2016年,arXiv预印本arXiv:1605.04739。[6]Russo Pedro ST,et al. CEMiTool: 一 Bioconductor 包 为 每- 形成全面的模块共表达分析。BMC Bioinformatics2018;19(1):1-13.T. Sarmah和D.K.Bhattacharyya医学信息学解锁26(2021)10074011[7]Tulika Kakati等人,疾病生物标志物预测的差异共表达分析方法的比较。ComputBiol Med 2019;113:103380.[8]Van Dam Sipko等人,Gene co-expression analysis for functional classificationandgene-disease predictions。Brief Biofinform2018;19(4):575-92。[9]张斌,霍瓦特·史蒂夫。加权基因共表达网络分析的一般框架。Stat Appl GenetMol Biol2005;4(1).[10] 莎拉·巴鲁兹,维莱恩·维姆,吉利斯·杰西. RNA-seq指南 共- 表达网络构建与分析:数字安全。Bioinformatics2015;31(13):2123-30.[11] Iancu Ovidiu D , et al. Utilizing RNA-seq data for de novo coexpressionnetworkinference. Bioinformatics2012;28(12):1592-7.[12] ShengjunHong , etal.CanonicalcorrelationanalysisforRNA-seqco-expressionnetworks. Nucleic Acids Res2013;41(8):e95.[13] 吴伟杰,李伟杰,李伟杰.基因表达数据的有效聚类算法。2012年,arXiv预印本arXiv:1201.4914。[14] Mahanta P等人,基因表达数据分析中的三聚类:一项选定的调查。2011年第二届全国新兴趋势和应用会议在计算机科学中。IEEE;2011年。[15] Sauravjoyti Sarmah,Bhattacharyya Dhruba K.一种有效的聚类增量基因表达数据的技术。IJCSI IntJ Comput Sci Issues2010;7(3):31-41.[16] 大卫·阿马尔,安全赫谢尔,沙米尔·罗恩。 通过差异共表达在疾病中改变的调控网络的剖析。PLoS Compu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 基于单片机的瓦斯监控系统硬件设计.doc
- 基于单片机的流量检测系统的设计_机电一体化毕业设计.doc
- 基于单片机的继电器设计.doc
- 基于单片机的湿度计设计.doc
- 基于单片机的流量控制系统设计.doc
- 基于单片机的火灾自动报警系统毕业设计.docx
- 基于单片机的铁路道口报警系统设计毕业设计.doc
- 基于单片机的铁路道口报警研究与设计.doc
- 基于单片机的流水灯设计.doc
- 基于单片机的时钟系统设计.doc
- 基于单片机的录音器的设计.doc
- 基于单片机的万能铣床设计设计.doc
- 基于单片机的简易安防声光报警器设计.doc
- 基于单片机的脉搏测量器设计.doc
- 基于单片机的家用防盗报警系统设计.doc
- 基于单片机的简易电子钟设计.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功