关于测序和微阵列数据的相关性分析的R软件包

187 浏览量更新于2024-01-25 收藏 846KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响10（2021）100144原始软件出版物ApplureCorr：一个R软件包，用于研究测序和微阵列数据Deepali Kundnani，Francesca Storici美利坚合众国佐治亚州亚特兰大佐治亚理工学院生物科学学院A R T I C L E I N F O关键词：相关性成对相关数据转换聚类微阵列下一代测序A B标准CorpureCorr是一个R软件包，有助于对从下一代测序（NGS）或微阵列实验的初步生物信息学分析中获得的数据进行关联和网络分析。这些实验被广泛用于各种应用，如突变和表达谱，检测表观遗传变化， AtomureCorr使用户能够在清洗和预处理数据，以尽量减少批量效应和背景噪声去除。CorpureCorr可以通过不同的方式帮助分析特征相关性：一个特征与多个特征的相关性，多个特征与多个特征的成对相关性，以及两个特征的深度相关性和分布代码元数据当前代码版本提交 398abdc562227fa55cef64f096b0a37c5e0d2b11此代码版本使用的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-110可再生胶囊的永久链接https://codeocean.com/capsule/0816751/tree/v1法律代码许可证GNU GPL 3使用的代码版本控制系统无软件代码语言R编译要求，操作环境依赖R（>= 4.0.2）如果可用，链接到开发人员文档/手册https://github.com/DKundnani/FeatureCorr/blob/main/README.md问题支持电子邮件Deepali. gmail.com，Dkundnani3@gatech.edu软件元数据当前软件版本v0.99.0此版本可执行文件的永久链接https://github.com/DKundnani/FeatureCorr/releases/tag/v0.99.0可再生胶囊的永久链接https://codeocean.com/capsule/0816751/tree/v1法律软件许可证GNU GPL 3计算平台/操作系统Linux，Mac OS，Microsoft Windows，类Unix安装要求依赖关系R（>= 4.0.2）GeneNet，ggExtra，MASS，ggpubr（>= 0.4.0），corrplot（>= 0.90），Hmisc，ggplot2，rlang，daprocessCore，BiocManager如果可用，用户手册链接-如果正式发布，包括参考文献列表中对出版物的参考https://github.com/DKundnani/FeatureCorr/blob/main/README.md问题支持电子邮件deepali. gmail.comdkundnani3@gatech.edu1. 介绍人类基因组项目和新方法不断被商业化[1]。有各种数据库，如癌症基因组图谱（TCGA）数据集，分析了超过30种人类肿瘤的大型队列本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址：dkundnani3@gatech.edu（D. Kundnani），francesca. biology.gatech.edu（F.Storici）。https://doi.org/10.1016/j.simpa.2021.100144接收日期：2021年8月27日;接收日期：2021年9月14日;接受日期：2021年9月14日2665-9638/©2021作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsD. Kundnani和F. Storici软件影响10（2021）1001442��=∑相同生物样本之间的差异，使其符合-��对特定基因组位置进行计数，然后进行log2转换。的（′−′）2（−′）2��通过收集来自不同研究小组的测序和微阵列数据，并利用自动化生物信息学管道为NGS实验（如DNA和RNA测序）生成初步定量数据[2]。Encyclopedia of DNA Elements Portal数据库不仅为DNA-seq和RNA-seq提供了可量化的测序数据，还为表观基因组测序实验提供了可量化的测序数据，如用于甲基化位点检测的亚硫酸氢盐-seq和用于各种调控蛋白的DNA结合位点的ChIP-seq（染色质免疫沉淀测序）[3]。初步数据针对与基因组位置或基因组性质（诸如基因、转录因子结合位点等）相关联的特征（标识符）进行量化。R包，其与二维R数据帧一起工作，该二维R数据帧包含来自NGS实验的初步生物信息学分析的量化值或信号，以使用Spearman相关性进行非参数分析和Pearson相关性进行参数相关性分析来生成特征之间的关联。如果从不同的测序和微阵列平台或在不同批次中进行的实验收集数据，则可能需要归一化以减少批次效应。AnchoreCorr提供了适合测序和微阵列数据的不同类型的转换，这些转换也可以用于非生物数据。 ApplureCorr可以执行一个特征到多个特征的相关性和成对相关性，同时为用户提供即时可视化。对于多个成对相关性，QuestionureCorr使用层次聚类作为默认排序，根据关联程度对特征进行分组。用户还可以使用QuestionureCorr可视化特定特征对之间的分布，以便更深入地理解。2. Corr软件包函数2.1. 数据转换（DataCorr：：data_transform函数）下一代测序实验使用聚合酶链式反应（PCR）扩增提取DNA的特定序列。理论上，PCR的过程在DNA测序之前的每个循环都将DNA模板加倍。测序读数与生物体的参考基因组比对后获得的结果可以基于许多因素而变化，如所使用的平台、起始DNA材料的量、DNA的处理、在将样品提交给测序仪之前所使用的试剂的差异等。这可以生成一批2.1.3. 分位数变换当数据为非正态或多模态时，特别需要使用这种转换。例如，微阵列实验和单细胞RNA-seq实验经常显示非正态或双峰分布[6]，其中四分位数的归一化比平均值归一化更重要，如果不适当归一化，可能会改变结果。分位数归一化也可以用于在需要组合的高度变化的数据集上产生同义分布。这种转换将对样本中的特征值进行排名，并使用相同排名的平均值来替换相应的值，从而在所有样本中均匀分布，这使得它适用于Pearson相关分析[7]。可以对一个数据集使用多个转换。Log2转换最常用于测序数据以减少PCR伪影和异方差性，即，具有高信号或读取计数的特征的高变化。Z分数[8]和分位数转换用作log2转换数据的二次归一化，以最大限度地减少批次效应[9，10]。此函数中使用的过滤标准是针对特征值的中值。用户可以为给定样本集的特征中值提供阈值。中值低于此阈值的特征将被丢弃，有助于降噪和部分缺失信息的特征（见图10）。①的人。2.2. 相关分析细胞中基因和蛋白质之间的不同类型的相互作用产生复杂的网络。在这样一个复杂的网络中观察基因表达等特征之间的关系的一种简单方法可以通过观察相似和不相似的特征来完成。这是生物特征的相关系数可以帮助评估特征之间的相似性或不相似性程度的地方。CorpureCorr软件包为用户提供了两种不同类型的相关性分析，Pearson相关性，这是一种参数检验，它取决于特征的分布和斯皮尔曼相关性，这是一种独立于分布的非参数检验[11]。Pearson相关性（Pearson correlation，简写为PERC）是两个特征之间的线性相关性。Pearson相关系数确定如下：和是长度n的两个特征��and�� correspond to the means of x and y,respectively.（−）（−）��∑（−）2（−）2��用于分析不同批次中测序的不同样品。因此，我们为用户提供了三种不同的转换，以帮助数据的预处理和规范化。2.1.1. Log2变换这种变换最常用作主要的归一化方法斯皮尔曼相关性（Spearman correlation，简称斯皮尔曼相关性）衡量等级之间的相关性的两个特征。因此，斯皮尔曼相关可以使用从不同方法获得的并且具有不同分布的特征。Spear-man和是长度n的两个特征，其中，��′和测序实验数据来解释DNA的加倍��（′−′）（′−′）��PCR过程中的分子[4]。中找到的读取数零的对数值是无穷大，所以计数值先增加��ℎ��=√∑��在转换之前乘以1，这导致1的log2为零。2.1.2. Z分数变换该归一化方法可用作二次变换，主要用于微阵列实验数据[5]。在Z分数转换中，为每个值计算z分数，以使样本中所有特征的均值等于零，标准差等于1。因此它可以成功地用于批量校正以及比较来自不同技术的数据。此转换通过以下公式��=x−��其中x是可量化的特征值，��是样本中所有特征值的平均值，是标准差Pearson相关性可以成功地用于寻找关联。相同类型的特征之间的关系，即，两个基因组位点的甲基化状态之间的相关性。但数据应适当标准化，以发现甲基化信号与相同基因表达值之间的Pearson相关性[12]。斯皮尔曼算法在后一种情况下非常有用，因为它将对要比较的值进行排序，并且特征的分布不影响相关结果。虽然如果特征值接近检测范围，则应小心，但它们可能具有高变化，在这种情况下，应使用数据变换来获得数据集的均匀ApplureCorr提供了以下方法来利用R数据帧执行相关性分析，其中每行对应于单个特征，每列对应于单个样本或实例。它还采用特征标识符，例如，对于基因，它将是基因名称。��D. Kundnani和F. Storici软件影响10（2021）1001443Fig. 1. 使用Log 2转换进行人体组织中基因-组织表达（GTEx）的数据转换，中值过滤标准为1。(A)原始数据分布为接近指数分布，可能不适合相关分析。(B)转换后的数据具有较小的特征中值范围，并降低了高变异性离群值，使特征值在可比范围内，特别是对于皮尔逊相关分析。2.2.1. 主要特征相关性（Primefeature_corr函数）此方法或函数允许用户观察相关性通过提供一个要观察的主要特征，将一个特征与许多特征结合起来。该函数计算相关系数并返回原始数据帧，其中系数和p值在附加列中，直方图分布供用户观察所提供的特定样本集中的相关趋势，并选择适当的过滤标准用于相关特征的网络分析。它还为相关系数分布的范围和用户指定的范围提供汇总统计，这有助于用户基于主要特征的相关系数的行为进行特征选择，并用于预测机器学习模型的下游应用。2.2.2. 多个成对相关性（PairureCorr：：pairwise_corr函数）最好利用ApplureCorr函数来回答特定的生物学问题。例如，所观察的基因是否与特定的细胞周期调控基因相关？在观察成对相关性时，默认输出为用户提供了一种聚类方法来可视化相关性热图[14]。如果用户偏好不同的可视化，则该函数输出一个分解系数矩阵和分解值矩阵[11]。用户可以选择转置输入矩阵以从观察特征或基因切换到观察实例或样本，这可能需要观察基于特征值针对不同实例观察聚类此外，用户可以分离特征，以观察不同类型特征之间的成对相关性（见图1）。 2）的情况。2.2.3. 单对（QuarterCorr：：pair_scatter函数）CorpureCorr还有一个成对分散函数，用于深入分析每对特征。用户可以输入R数据帧，如上面提到的主要特征相关性，特征列表，以及两个特征的标识符，以获得线性回归和相关系数值与两个特征的直方图。此功能还为用户提供平滑散点图，以观察散点图中的分布密度。3. 结论具有原始数据和变换数据的分布可视化的测序数据的不同变换可以帮助感兴趣的特征之间的更准确的相关性。数据的过滤可以帮助去除背景噪声或未被量化的特征，再次帮助增强关联。主要特征相关性增强了我们对单个特征和与之相关的其他特征的理解，而不管其相关方向如何。多个成对相关性可以帮助基于关联程度对特征进行聚类。通过成对散点函数的单个成对相关性提供了数据分布和两个感兴趣特征之间4. 影响研究人员通常利用生物元素如基因及其在两种不同条件下表达的相关性，观察差异表达基因之间的相关性[15]。与其他提供共表达分析或成对相关性分析的工具相比，ApplureCorr更全面，具有数据转换和三种不同类型的相关性分析，专注于网络或关联分析[15，16]。它使用户能够在运行时在中间步骤中做出决策在描述性统计和可视化的帮助下，而不是使用其他来源定义的预设截止值。使用主要特征相关性，可以在同一集合中执行分析不需要获得不同的特征。主要特征相关函数显示相关系数分布并提供统计摘要，使用户能够决定用于成对相关或任何进一步分析的截止值。此外，通过相关系数分布及其偏度，可以得到用户的贡献度和参与度两个不同的特征与同一数据集中的其他特征。数据转换功能的增加减少了用户端的预处理时间，因为该包立即提供了可视化和描述性统计数据。数据转换并不限制用户仅使用单一类型的数据，例如构建大多数工具的表达数据，而且具有不同范围和分布的数据，如与相同特征相关联的甲基化和表达，也可以通过使用z变换用于相关性在我们最近的研究“人类RNASEH 2A的基因共表达分析揭示与DNA复制相关的功能网络”中，开发了RNASECorr R软件包来进行相关性分析，其中在包含56，202个转录本的基因型-组织表达（GTEx）数据集上使用了主要相关性特征，并且在包含10，071个样本，40个基因[17]。我们成功地验证了癌细胞系百科全书（CCLE）数据集中的发现，该数据集包含同一组基因的1019个细胞系数据。 CorpureCorr目前正被用于研究核苷酸含量与核糖核苷酸掺入人类基因组DNA的相关性，利用多个成对相关函数的特征分离方面的转换和过滤。为不同目的广泛利用这套办法可能导致进一步扩大或加强这套办法。有了这个软件包，研究人员可以预测多个感兴趣的特征之间的特定关联，并在他们选择的数据集中可视化相关性的方向对测序技术的需求不断增加，需要建立能够处理来自许多样本以及不同类型和分布的数据的工具，如ApproximureCorr。单细胞实验数据可能包含大型数据结构和复杂的特征分布。虽然技术已经进步，但仍然存在局限性由于非活细胞和低丰度基因需要读取计数过滤，因此单细胞实验[18]。在给定所需计算资源的情况下，QuestureCorr能够处理大型数据集，如D. Kundnani和F. Storici软件影响10（2021）1001444图二. 使用TCGA Pan Cancer表达数据的子集，通过pairwise_corr函数从ApriureCorr获得成对相关性。 (A)默认输出是所有特征与使用层次聚类排序的所有特征的热图，以确定紧密关联。(B)修改了输出，以将感兴趣的功能与提供的数据帧。这些数据来自单细胞数据分析，因为它是建立在GTEx数据集上的。除了在转换中使用之外，MatureCorr的data_transform函数还可以非常有用地过滤掉低丰度基因或非活细胞，因为它们可能会降低下游单细胞分析的准确性。此外，单细胞数据的特征空间可以包含15000个维度，并且对于成对相关性或更高级的算法（如专门为单细胞测序数据构建的t分布随机邻居嵌入（t-SNE））来说，可能是计算耗时的。使用ApriureCorr的primefeature_corr函数删除高度相关的特征，保留感兴趣的主要特征，用户可以降低数据的维度，进一步减少下游应用程序的时间。还可以使用由IterationCorr提供的多个成对特征相关性来支持t-SNE中的发现，因为t-SNE使得可以看到聚类，而成对相关性使得更容易可视化聚类以及聚类在一起的特征。在这种情况下，特征指的是单细胞标识符。在每一个函数中，CorpureCorr还提供了选项选择斯皮尔曼相关性，这是单细胞数据分析的理想选择[19]。统计学的应用越来越多，不仅在生物医学领域[20]，而且在环境或大气科学等领域，研究人员仍然使用散点图或回归来确定一个主要特征与一个或多个其他特征之间的相关性[21]。寻找混淆因素可能是一个挑战，这些混淆因素似乎与一个主要特征高度相关，作为与另一个与主要特征高度相关的特征相关联的原因或影响。ApproximureCorr可以帮助基于关联度对这些变量进行聚类，以阐明密切的关联。需要Pearson和Spearman相关性的研究可以使用此软件包来更好更深入地了解其数据中的关联信用作者身份贡献声明DeepaliKundnani：概念化，方法论，软件，验证-形式化，形式分析，调查，资源，数据管理，写作 FrancescaStorici：监督，项目管理，撰写D. Kundnani和F. Storici软件影响10（2021）1001445竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢我们感谢佐治亚理工学院的高级计算环境合作伙伴关系（PACE）提供的研究网络基础设施资源和服务。本研究由美国国立卫生研究院国家卫生研究所资助， NIGMS R 01 GM 115927 （ F.S. ） ;NIH NIEHSR01ES026243（F.S.）;的国家科学基金会，NSF，美利坚合众国，MCB- 1615335（F.S.），霍华德休斯医学研究所教师奖学金55108574（F.S.），共和党Harold和Leila Y.美利坚合众国马瑟斯基金会赠款AWD-002589（F.S.）和W.M.凯克基金会赠款，美利坚合众国。引用[1]E.L.范迪克，H. Auger，Y.亚什奇申角Thermes， Ten years of next-generationsequencingtechnology，TrendsGenet30（2014）http://dx.doi.org/10.1016/j.tig. 2014年7月1日。[2]K. Tomczak，P. Wiznerowicz，癌症基因组图谱（TCGA）：不可估量的知识来源，ContempOncol（Pozn）19（1A）（2015）A68http://dx.doi.org/10.5114/wo.2014.47136[3]C.A. Davis ， B.C. Hitz ， C.A. Sloan 等人， The Encyclopedia of DNA elements（ ENCODE ）： Data portal update ， Nucleic Acids Res. 46 （ D1 ）（ 2018 ）D794http://dx.doi.org/10.1093/nar/gkx1081[4]C.格拉索河Butler，K. Rhodes等人，评估靶向的、基于扩增子的下一代测序数据中的拷贝数改变，J.Mol.17（2015）53http://dx.doi.org/10.1016/j.jmoldx.2014.09.008[5]C.放大图片作者：M. P. Becker，使用Z评分转换的微阵列数据分析，J.Mol. 5（2003）73-http://dx.doi.org/[6]K.D. Korthauer， L.F. Chu， M.A.牛顿等人，一种统计方法，用于识别 -ingdifferential distributions in single-cell RNA-seq experiments ， Genome Biol.17（1）（2016）222，http://dx.doi.org/10.1186/s13059-016-1077-y，Published2016 Oct 25.[7]B.M. Bolstad，R.A. Irizarry，M. Astrand，T.P. Speed，基于方差的高密度寡核苷酸阵列数据归一化方法的比较和偏差，生物信息学 19 （ 2 ）（ 2003 ）185http://dx.doi.org/10.1093/[8]西蒙 ·M放大图片作者： Lin， Pan Du， Wolfgang Huber， Warren A. Kibbe，Illumina微阵列数据的基于模型的方差稳定化变换，Nucleic Acids Res.36（2）（2008）http://dx.doi.org/10.1093/nar/gkm1075，e11.[9]Y.赵湖，加-地黄伟宝Goh，如何正确进行分位数归一化，基因表达数据分析，Sci. 10（2020）15534，http://dx.doi.org/10。1038/s41598-020-72664-6。[10] N. To u l e i m a t ，J. Tost ，Infinium（®）人类甲基化的完整管线450K BeadChip data processing using subset quantile normalization for accurateDNA methylation estimation，Epigenomics 4（3）（2012）325 http://dx.doi.org/10.2217/epi.12.21。[11] Frank E.小哈雷尔，与查尔斯杜邦和许多其他人的贡献，Hmisc：哈雷尔杂项。R软件包版本4.5-0，2021，https://CRAN.R-project.org/package=Hmisc。[12] 放大图片作者：Patrick Schober，Christa Boer，Lothar A. Schwarte，相关系数：适当使用和解释， Anesth 。模拟量 126 （ 5 ）（ 2018 ）1763http://dx.doi.org/10.1213/ANE.0000000000002864[13] M.M.Mukaka ，StatisticsCorner ： AguidetoappropriateuseofCorrelationcoefficient in medical research，Malawi Med.J. 24（3）（2012）69-71.[14] 魏太云，Viliam Simko，R包https://github.com/taiyun/corrplot[15] P. Langfelder ， S. Horvath ， WGCNA ： An R package for weighted correlationnetworkanalysis，BMCBioinformatics9（2008）559，http://dx.doi.org/10.1186/1471-2105-9-559.[16] D. Amar ， H.萨费尔河Shamir ， Dissection of regulatory networks that arealtered in disease via differential co-expression，PLoS Comput. 9（3）（2013）e1002955，http://dx.doi.org/10.1371/JOURNAL.PCBI.1002955。[17] S. Marsili，A. Tichon，D. Kundnani，F. Storici，人类RNASEH2A的基因共表达分析揭示了与DNA复制，DNA损伤反应和细胞周期调控相关的功能网络，生物学10（3）（2021）221，http://dx.doi.org/10.3390/biology10030221。[18] M.D. Luecken，F. J. Theis，单细胞RNA-seq分析的当前最佳实践：一个教程，摩尔。系统生物学 15 （ 6 ）（ 2019 ） http://dx.doi.org/10.15252/MSB 。20188746，e8746。[19] N.K. Wilson，D.G.Kent，F.Buettner，M.Shehata，I.C.Macaulay，F.J.卡莱罗-涅托M. Sánchez Castillo，C.A. Oedekoven，E.迪亚曼蒂河Schulte，C.P. Ponting，T.沃特角 Caldas ， J.Stingl ， A.R. Green ， F.J. Theis ， B. Göttgens ， Combinedsingle-cell functional and gene expression analysis resolves heterogeneitywithin stem cell populations ， Cell Stem Cell 16 （ 6 ）（ 2015 ） 712 ，http://dx.doi.org/10.1016/J.STEM.2015.04.004.[20] H. Liu，S. Chen，M. Liu，H. Nie，H. Lu，Comorbid chronic diseases are stronglycorrelated with disease severity among COVID-19 patients：A systematic reviewand meta-analysis ， Aging Dis. 11 （ 3 ）（ 2020 ） 668 http://dx.doi.org/10.14336/AD.2020.0502，2020年5月9日发布。（COVID-相关性）。[21] P. Majumder，P. P. Ray，天气与COVID-19相关性的系统综述和荟萃分析，Sci. 11（2021）10746，http://dx.doi.org/10.1038/s41598-021-90300-9。

下载后可阅读完整内容，剩余1页未读，立即下载