没有合适的资源?快使用搜索试试~ 我知道了~
≥软件X 12(2020)100569原始软件出版物MiRNA-QC-and-Diagnosis:一个基于MiRNA表达的诊断R软件包Michele Castelluzzoa,Alessio Perinellia,Simone Detelub,Michela Alessandra Dentib,李奥纳多·利玛窦a,c,a意大利特伦托38123特伦托大学物理系b意大利特伦托大学细胞、计算和综合生物学系(CIBIO),38123特伦托c意大利罗韦雷托大学心智/脑科学中心CIMeC, 38068ar t i cl e i nf o文章历史记录:收到2020年2020年6月30日收到修订版2020年保留字:miRNA生物标志物诊断统计分析a b st ra ct使用microRNA(miRNA)水平作为诊断和预后工具来检测不同病理的可能在这项工作中,我们提出了MiRNA-QC-and- Diagnosis包。该包为R环境提供了一组函数,所需的质量控制步骤允许训练、使用和优化贝叶斯分类器,用于基于测量的miRNA表达进行诊断。因此,该软件包构成了一个完整的和专用的基于miRNA的诊断分析工具箱©2020作者由爱思唯尔公司出版这是CC BY-NC-ND下的开放获取文章许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。代码元数据当前代码版本v1.1用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2020_197Code Ocean compute capsule法律代码许可证GNU GPL v3使用的代码版本控制系统软件代码语言、工具和服务使用R编译要求、操作环境依赖性Linux、Windows和MacOS。需要R(四、0)如果可用,链接到开发人员文档/手册支持电子邮件问题leonardo. unitn.it1. 介绍已知微RNA(miRNA)表达构成合适的生物标志物以检测和分类不同种类的病理[1因此,许多研究致力于研究依赖于测量的miRNA表达的分类器[6-一种可能的分类方法是从测量的miRNA表达中计算样本通讯作者:Department of Physics,University of Trento,38123 Trento,Italy。电子邮件地址:leonardo. unitn.it(L. Ricci)。https://doi.org/10.1016/j.softx.2020.100569在这项工作中,我们提出了MiRNA-QC-and-Diagnosis包,实现了基于miRNA的诊断的二元分类器。分类器训练,即诊断阈值的确定,按照贝叶斯方法进行[5,11]。 一旦训练好的分类器可用,该软件包就提供了一个对新数据进行分类的功能。数据集的质量控制(QC)是训练和诊断中至关重要的初步步骤,也通过允许识别和删除离群值的函数在包中实现。 此外,该软件包提供了一个工具来进行miRNA表达的统计分析,包括评估miRNA表达之间的交叉相关性,这可以深入了解提高分类器性能的该软件包中实现的算法首先在对样本进行分类的原型情况下设计和测试,2352-7110/©2020作者。由爱思唯尔公司出版。这是一篇开放获取的文章,使用CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softx2M. 卡斯泰卢佐角Perinelli,S.Dettleman等人粤公网安备44010802000019号¯**Max关于我们¯=腺癌或鳞状细胞癌。该算法的数学方面以及临床病例在Ricci等人[5]的题为“基于miRNA表达的贝叶斯分类器的统计分析”的著作中进行了全面描述,该著作构成了本著作的主要参考文献。2. 基于miRNA表达多重体的贝叶斯分类器该软件包中描述的方法在图中以图形方式进行了总结。1 .一、该算法所需的输入数据是miRNA表达的通常,对于每个受试者,一组在基于miRNA的诊断框架中,miRNA表达通常一式三份提供[5]。用于训练分类器的数据集必须包含针对每个受试者的先验分类,即,通常通过免疫组织化学分析和基因分析来推断。在QC步骤中,首先通过将每个多重峰中包含的信息浓缩成由下式给出的一对来准备数据:多重峰原始值的样本平均值x和样本标准差s。为此目的,多重组的大小m必须由用户设置与所选多重峰大小不同的多重峰将被丢弃。该算法的QC步骤的核心在于去除从数据集中剔除离群值。该操作通过考虑每个多重峰的方差来进行:给定miRNA,并且假设多重峰方差以χ2分布,只要多重峰的方差超过对应于给定显著性水平α的阈值σ2,就可以将其鉴定为离群值。相应的标准差σmax,在软件包中称为该算法的第二步包括训练贝叶斯分类器以区分两组类别,此后称为两T和V是类别的集合-分类器所依赖的关键量被认为是适当选择的miRNA的样本平均值的线性组合[5];线性组合的数值构成受试者相关评分。miRNA的选择和相关系数的选择,即提供评分的线性组合的定义,是算法的关键步骤除非给出先验知识,否则该步骤需要对每个miRNA单独进行初步统计分析根据受试者的先验分类将受试者分组到两个T和V组中,并且因此计算两个组的miRNA值的样本平均值和样本标准偏差该分析提供了Shapiro-Wilk检验的正态性p结果用于确定miRNA是否适当地区分两组。此外,计算包含所有可用miRNA对之间的线性相关系数的矩阵以及相应的p值矩阵。原因是相关性可用于通过将区分性miRNA与第二种(不一定是区分性miRNA)组合来提高分类器的准确性[5]。除了线性相关系数矩阵和p值矩阵之外,还产生每个miRNA对的最佳系数矩阵。该方法还允许在测量miRNA表达时考虑可能的实验偏差。例如,在不同时间和/或通过使用不同设置进行的测量可导致多重峰的样本平均值的不同值。一种可能的解决方案(参见例如参考文献[12])是使用特定的miRNA作为“标准化物”。因此,不是考虑单个miRNA值,而是对该值与相应的归一化值之间的差异进行分析。当通过指定miRNA集合Fi和系数ci来鉴定合适的线性组合时,训练阶段在于评估诊断阈值X,使得如果得分确实(不)克服它,则将相应的受试者分类到T(V)集合中。χ的值按顺序进行评估以获得最大的准确度(正确响应率)。 评估两个额外阈值,即χ9010和χ1090,分别对应于受试者属于目标集的90%和10%可能性。一旦给出诊断阈值,就可以根据完全相同的规则对任何新受试者3. 软件框架3.1. 软件构架该软件包包含一组用于R环境的函数[13]。每个函数的文档都包含在包中,可以通过help()命令从R环境直接访问。软件包中提供了一份关于下载、设置和使用这些功能的3.2. 质量控制:预处理和离群值去除miRNA_expressionPreprocessing、miRNA_assessQualityThreshold 、 miRNA_loadQualityThreshold 、miRNA_removeOutliers四个函数涉及QC阶段,从而从输入数据集中去除离群值。图2中的图表显示了使用这些函数的典型工作流程。输入数据必须格式化为数据框对象,列标记为训练数据集必须包含与先验诊断相对应的标记为“类”的附加列预处理通过函数miRNA_ expressionPreprocessing进行。第一个动作包括移除在“值”列中包含非数字条目的行。如果给定受试者和miRNA的结果行数与多重峰大小m一致,计算该多重峰的样本平均值x和样本标准偏差s。预处理的数据框包含“Subject”、“miRNA”、“Mean”、“StdDev' 、 ”SampleSize“ 列, 在训练数据集的情况下, 还包含”Class“列。给定预处理数据帧和用户设置的显著性水平α(例如α0 的情况。05),功能-tionmiRNA_assessQualityThreshold评估每个miRNA的质量阈值σmax输出为数据帧其列“miRNA”和“QualityThreshold”包含数据集中可用的miR-NA和 相 应 的 质 量 阈 值 。 或 者 , 可 以 通 过 函 数miRNA_loadQualityThreshold加载预定文件。异常值 是 过滤 出来 通过 的 函数miRNA_remove-离群值。被馈送有预处理的数据帧和质量阈值数据帧的函数返回预处理的数据帧没有异常值。M. 卡斯泰卢佐角Perinelli,S.Dettleman等人粤公网安备44010802000019号3图1.一、分 类 管 道 的 图形摘要。图二、 关于QC阶段的管道,即预处理和离群值去除。4M. 卡斯泰卢佐角Perinelli,S.Dettleman等人粤公网安备44010802000019号::图3.第三章。 关于贝叶斯分类器的 训 练 及其使用的流水线。3.3. 贝叶斯分类器函数miRNA_classifierSetup、miRNA_loadDiag-nosticallyholds、miRNA_diagnosis涉及miRNA统计分析、贝叶斯分类器的训练以及分类器用于诊断和测试的使用。 图 3显示关于这三个功能的典型工作流程。函数miRNA_classifierSetup执行miRNA分析和分类器训练。该函数接受一个预处理的数据帧、两个用作目标集和对比集的类列表、一个miRNA列表和一个系数列表最后两个列表描述了得分,即分类器所依赖的线性组合。根据函数的输入,可以调用两种不同的函数模式预处理数据帧和目标集在所有情况下都是强制性的。如果未提供Versus集,则该函数自动假定数据集中所有剩余的类都属于Versus集。或者,Versus集合可以作为附加输入列表显式提供。在分析模式下,即当必须对可用的miRNA进行统计分析然而,如果在输入中给出单个miRNA,则将其用作归一化器。在分析模式下,函数miRNA_classifierSetup在输出中产生包含分析结果的数据帧以及关于靶集和对比集的miRNA表达分布的直方图。在训练模式中,miRNA列表和相应的列表的系数被馈送到函数。这两个列表再次描述了分类器所依赖的线性组合,即分数。分类器的主要输出参数是诊断阈值χ,其与阈值χ9010、χ10 90一起产生。此外,函数miRNA_classifierSetup生成一组参数来表达分类器标准化矩阵;准确度(正确响应率);特异性和灵敏度; F1评分;目标和验证的评分分布之间的分离度d′SUS集;受试者工作特征(ROC)曲线的曲线下面积[14]。该函数还生成分数分布的直方图、分数值与阈值的散点图以及ROC曲线图。3.4. 通过贝叶斯分类器进行诊断如 果 已 经 可 用 , 则 可 以 使 用 函 数miRNA_loadDiagnosticholds加载诊断阈值。最后,通过函数miRNA_diagnosis进行诊断,即将数据集中的受试者分类为属于将预处理数据集和诊断阈值数据框作为输入,该函数产生包含列“受试者”、“诊断”、“评分”的数据集为了测试分类器4. 说明性实例在本节中,将介绍三个依赖于MiRNA-QC-and-Diagnosis功能的分析管道示例。包含相关函数调用的数据集和脚本存储在包中的/examples/目录• 合成数据– synthetic_dataset_alpha.dat– synthetic_dataset_beta.dat– example_synthetic_dataset.R• 实际数据1(见参考文献[5])– real_dataset_1_training.dat– real_dataset_1_testing.dat– real_dataset_1_additional.dat– example_real_soft_1.R• 实际数据2(参见参考文献[3])– real_dataset_2_training.dat– real_dataset_2_testing.dat– example_real_data_2.R在第一个例子中,数据是模拟的:虽然它们模拟真实的实验数据,但它们不对应于任何真实的对象。另一方面,第二和第三示例中使用的数据是真实的。这些数据集的分析是参考文献的主题。[5]和[3]。第二个例子的数据也可作为参考文献[15]的补充材料。[5]的第10段。在下文中,仅描述第一示例。示例管道的详细信息在MiRNA-QC-and- Diagnosis用户手册(/docs/manual.pdf)中讨论。关于其他两个例子,数据来源,分析在相应的参考文献中详细描述了过程和结果包中包含的两个脚本允许再现原始作品中的数值结果和图形M. 卡斯泰卢佐角Perinelli,S.Dettleman等人粤公网安备44010802000019号5=−=±= − =−·+ −·图四、 对于每种分析的 miRNA, 在靶(蓝色)和对比(红色)组的情况下的表达值的直方图。(a)外汇。(b)前南斯拉夫的马其顿共和国。(c)FZ。(d)ZEFX=FX− FZ。(e)FY= FY- FZ。 (有关本图例中颜色的解释,请参阅本文的网络版本4.1. 数据格式、加载和预处理本例中使用的原始数据集存储在文件syn-thetic_alpha.dat中,并包含对应于120个受试者的数据,这些受试者用整数标记。对于每个受试者,对应于标记为FX,FY,FZ,出席。除了最后一个受试者之外,对于每个miRNA,提供了三个值(一式三份,即大小为3的多重峰)。最后一个受试者具有大小为2的多重峰(双重峰)。由于第一步是加载数据集文件。因为列名写在第一行,所以调用R函数read.table并将预处理 是 执行 通过 miRNA表达-预处理函数,“multipletSize”设置为3。因此,受试者#120被排除在所得预处理数据帧之外。4.2. 异常值去除为了去除离群值,必须首先为每个miRNA设定质量阈值。该评 估 通 过 将 预 处 理 的 数 据 帧 馈 送 到 函 数 miRNA_assess-QualityThreshold来进行。在本例中,显著性水平α设置为0.05;结果质量阈值为对于miRNAs FX、FY、FZ分别为0.51、0.50、0.53一旦质量阈值可用,通过函数miRNA_removeOutliers去除可能的离群值来纯化预处理的数据帧。结果,经纯化的数据帧(345个条目)比经预处理的数据帧(357个条目)小4.3. 特征分析净化的数据帧包含类“A”、“B”、“C”。在本例中,第一个类单独构成Target集,而其余两个类被假定属于对阵设定。由于分类器要使用的miRNA和相关系数的最佳选择是未知的,因此函数miRNA_classifierSetup首先在分析模式下运行。所得直方图示于图4(a)-(c)中,对应于miRNA FX、FY、FZ的分布。这三种miRNA似乎都不能区分靶组和对照组。另一方面,Fig. 图4(d)、(e)示出了在FZ被用作归一化子的情况下的直方图,即,对于线性组合 FXFZ和FYFY FZ。根据Student产生了积极的结果),差异FXFX FZ有效地区分了目标集和对比集。然后可以使用线性组合1 FX(1)FZ作为分类器4.4. 贝叶斯分类器一旦建立了线性组合,则通过在训练模式中设置的函数miRNA_classifier-Setup来训练贝叶斯分类器。对于本示例中使用的数据集,分类器诊断阈值结果为X4。60的情况。1. 函数miRNA_classifierSetup还生成了图1所示的三个图形文件。 五、4.5. 数据集的分类/examples/ 目 录 存 储 第 二 个 数 据 集 , 即synthetic_dataset_beta.dat,其中包括200个受试者的模拟数据。在这种情况下,不存在“Class”列。加载和预处理与上述数据集syn-thetic_alpha.dat的情况相同。QC后,数据集减少到183名受试者。通过函数miRNA_diagnosis对数据集进行分类。miRNA和系数的列表与训练步骤中使用的相同。此外,由训练过程产生的诊断阈值被馈送到函数。该分类将93名受试者分配到目标集,将90名受试者分配到对比集。6M. 卡斯泰卢佐角Perinelli,S.Dettleman等人粤公网安备44010802000019号图五. 分类器训练结果。(a)目标集(蓝色)和对比集(红色)的分数分布直方图。绿线对应于诊断阈值(实线)和相应的不确定性(点划线)。(b)ROC曲线。(c)评分值与诊断阈值的散点图。黑色、蓝色和红色实线分别对应于诊断阈值χ、χ90: 10和χ10: 90,而点划线对应于相关的不确定性。(有关本图例中颜色的解释,请参阅本文的网络版本5. 结论在这项工作中,MiRNA-QC-and-Diagnosis软件包。该软件包在R环境中实现了一套完整的功能,这些功能对与miRNA表达的测量值相对应的输入数据执行质量控制任务,并允许训练和使用贝叶斯分类器进行诊断。存在许多强大的算法来建立分类器,如支持向量机[16,17],C4.5 [18,19],线性和二次判别分析[20,21],k-最近邻算法[22,23]。对于每种方法,都有一个R实现。尽管这些方法在优化训练集上的决策参数方面非常通用,但概率方法更适合于提供分类器性能可靠性的即时量化。使用MiRNA-QC-and- Diagnosis包中实施的贝叶斯方法这个优点允许即使在可用数据集的大小有限的情况下也对分类器的可靠性进行估计除了提供基于贝叶斯方法的二元分类器外,MiRNA-QC-and-Diagnosis包还解决了两个方面,这对建立可靠的分类器至关重要:用于识别和去除离群值的质量控制阶段;对输入数据进行适当的统计分析,以通过利用相关性来提高分类器的性能。因此,MiRNA-QC-and- Diagnosis包构成了一个专用工具箱,用于开发基于测量的miRNA表达的诊断本文提出的方法的未来发展可以考虑自动化的程序,导致最佳选择的miRNA内使用的分类器和修剪的相关系数。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1]Grasso M,Piscopo P,Confaloni A,Denti MA.循环miRNA作为神经退行性疾病的生物标志物。Molecules2014;19:6891-910.http://dx.doi.org/10.3390/molecules19056891网站。[2]Grasso M , Piscopo P , Talarico G , Ricci L , Crestini A , Tosto G ,Gasparini M,Bruno G,Denti MA,Confaloni A.血浆microRNA谱将额颞叶 痴 呆 患 者 与 健 康 受 试 者 区 分 开 来 。84. 第 八 十 四 章 : 你 是 谁http://dx.doi.org/10.1016/j.neurobiolaging.2019.01.024,240.e1-240.e12。[3]Determination S,Del Vescovo V,Grasso M,Masella S,Cantaloni C,Cima L , Cavazza A , Graziano P , Rossi G , Barbareschi M , Ricci L ,Denti MA. MiR 375 - 3 p区分FFPE样品中的低级神经内分泌与非神经内分泌肺肿 瘤 。 前 分 子 生 物 科 学 2020;7 : 86 。 http://dx.doi.org/10 的 网 站 。3389/fmolb.2020.00086。[4]Del Vescovo V,Grasso M,Barbareschi M,Denti MA. microRNA作为肺癌生物标志物。WorldJClinOncol2014;5:604-20.http://dx.doi.org/10.5306/wjco.v5.i4.604。[5]Ricci L,del Vescovo V,Cantaloni C,Grasso M,Barbareschi M,DentiMA.基于miR- NAs表达的贝叶斯分类器的统计分析。BMC Bioinformatics2015;16:287. http://dx.doi.org/10.1186/s12859-015-0715-9.[6][10] Scholony D,Benjamin H,Gilad S,Ezagouri M,Dov A,AshkenaziK,Gefen N,Izraeli S,Rechavi G,Pass H,Nonaka D,Li J,Spector Y,Rosenfeld N,Chajut A,Cohen D,Aharonov R,Mansukhani M.基于hsa-miR- 205表达的诊断测定区分鳞状和非鳞状非小细胞肺癌临床肿瘤学杂志2009;27:2030-7. http://dx.doi.org/10.1200/JCO.2008.19.4134天啊[7]Tan X,Qin W,Zhang L,Hang J,Li B,Zhang C,Wan J,Zhou F,ShaoK,Sun Y,Wu J,Zhang X,Qiu B,Li N,Shi S,Feng X,Zhao S,Wang Z,Zhao X,Chen Z,Mitchelson K,Cheng J,Guo Y,He J. A 5-microRNA signature for lung squamous cell carcinoma diagnosis and hsa-miR-31forprognosis.临床癌症研究2011;17:6802-11。http://dx.doi.org/10.1158/1078-0432.CCR-11-0419。[8]Lee HW,Lee EH,Ha SY,Lee CH,Chang HK,Chang S,Kwon KY,Hwang IS,Roh MS,Seo JW. microRNA miR-21、miR-155和let-7a的表达改变 及 其 在 肺 神 经 内 分 泌 肿 瘤 中 的 作 用 Pathol Int 2012;62 : 583-91.http://dx.doi.org/10.1111/j.1440-1827.2012.02845.x网站。[9]Huang W,Hu J,Yang DW,Fan XT,Jin Y,Hou YY,Wang JP,YuanYF,谭宇生,朱晓忠,白晓春,吴宇,朱宏华,陆世华。两个microRNA样本组在支气管刷检标本中鉴别肺癌的三种亚型。Am J Respir Crit CareMed 2012;186:1160-7. http://dx.doi.org/10.1164/rccm.201203-0534OC。[10] 贝奈斯五世使用实时定量PCR进行microRNA的表达谱分析,如何使用它以及有什么可用的。方法2010;50:244-9.http://dx.doi.org/10.1016/j.ymeth.2010.01.026网站。[11] Gorunescu F,Belciug S.智能决策支持系统在自动医疗诊断中的应用。在:生物医学信息学的进展Springer International Publishing; 2018,p.161-86. http://dx.doi.org/10.1007/978-3-319-67513-8_8.[12]Peltier HJ,Latham GJ.定量RT-PCR测定中microRNA表达水平的标准化:在正常和癌性人体实体组织中鉴定合适的参考RNA靶点。RNA 2008;14:844网址://dx.doi.org/10.1261/rna.939908网站。[13] R项目网页:https://www.r-project.org/(12月访问)。2019年)。[14]Robin X , Turck N , Hainard A , Tiberti N , Lisacek F , Sanchez J-C ,Müller M. PROC : R 和 S+ 分 析 和 比 较 ROC 曲 线 的 开 源 软 件 包 。 BMCBioinformatics 2011;12:77. http://dx.doi.org/10.1186/1471-2105-12-77.[15] 数据可在www.example.com查阅https://static-content.springer.com/esm/art%3A10。1186%2Fs12859-015-0715-9/MediaObjects/12859_2015_715_MOESM1_ESM.txt。[16]Cristianini N,Shawe-Taylor J.支持向量机和其他基于内核的学习方法介绍。剑桥,英国:剑桥大学出版社;2000年。[17]支 持 向 量 机 在 R 中 通 过 e1071 包 的 svm函 数 实 现 :https://www.rdocumentation.org/packages/e1071。[18]小昆兰C4.5:机器学习程序。加利福尼亚,美国:摩根考夫曼出版社,1993年。M. 卡斯泰卢佐角Perinelli,S.Dettleman等人粤公网安备44010802000019号7[19]C4.5算法在R中通过RWeka包的J48函数实现:https://www.rdocumentation.org/packages/RWeka/。[20] Ripley BD. 模式识别和神经网络。剑桥,英国:剑桥大学出版社; 1996,http://dx.doi.org/10.1017/CBO 9780511812651。[21]线 性 和 二 次 判 别 分 析 在 R 中 通 过 MASS 包 的 lda 和 qda 函 数 实 现 :https://www.rdocumentation。org/packages/MASS/.[22]杜达RO,哈特PE,鹳DG。模式分类。New York,USA:JohnWiley& Sons.[23]k- 最 近 邻 分 类 在 R 中 通 过 类 包 的knn 函 数 实 现 :https://www.rdocumentation.org/packages/class/。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功