没有合适的资源?快使用搜索试试~ 我知道了~
ORFhunteR:一种精确的mRNA分子识别和注释软件
软件影响12(2022)100268原始软件出版物ORFhunteR:一种精确的自动识别和注释人类mRNA分子瓦西里五世 Grineva,1999,1,MikalaiM. Yatskoub,1,VictorV. 放大图片创作者:MarynaK. Chepelevab,c,彼得五世纳扎罗夫角a白俄罗斯国立大学遗传学系,4 Nezavisimosti Avenue,Minsk 220030,白俄罗斯白俄罗斯国立大学系统分析与计算机建模系,地址:4 Nezavisimosti Avenue,Minsk 220030,Belarusc卢森堡卫生研究所癌症研究部,1AB rue Thomas Edison,L-1445 Strassen,LuxembourgA R T I C L E I N F O保留字:开放阅读框分类基因预测转录组A B标准RNA分子的编码潜力可以使用找到开放阅读框(ORF)的算法来估计。然而,以前开发的算法表现出有限的性能。我们开发了一种计算方法,致力于自动识别的ORF在一个大的人类mRNA分子。它基于核苷酸序列的矢量化,然后使用随机森林进行分类。预测模型在来自NCBI RefSeq和Ensembl数据库的人mRNA分子上进行了验证, 并在检 测真实ORF时显 示出几乎 95% 的准 确性。 我们的 方法被实 现到一 个强大的 R/Bioconductor包ORFhunteR。代码元数据当前代码版本v1.0.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-6可再生胶囊的永久链接https://codeocean.com/capsule/9151601/tree/v1法律代码许可证MIT使用git的代码版本控制系统软件代码语言、工具和服务使用C++、R编译要求、操作环境和依赖关系R 4.0.2或更高版本、rtools40或更高版本。附件(所有附件都在软件包安装过程中自动安装):Biostrings、rtracklayer、Peptides、BSgenome.Hsapiens.UCSC.hg38、data.table、stringr、randomForest、xfun、XML、Rcpp。如果可用,请链接到开发人员文档/手册http://bioconductor.org/packages/release/bioc/manuals/ORFhunteR/man/ORFhunteR.pdf问题支持电子邮件grinev_vv@bsu.by1. 介绍高通量技术允许以合理的成本和时间捕获关于整个转录组的序列信息。已经开发了几种高性能计算方法,从短RNA-Seq读数恢复全长RNA分子(或转录物)的结构,并获得这些分子的定性和定量特征[1,2]。转录本最重要的特性之一许多方法,包括一个在ORFfinder中实现的缩略语:CPF,类别-位置-频率; ECDF,频率的经验累积分布(概率); lncRNA,长链非编码RNA; mRNA,信使RNA(蛋白质编码RNA); ORF,开放阅读框本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址:grinev_vv@bsu.by(V.V. Grinev),petr. lih.lu(P.V. Nazarov)。1 同等贡献。https://doi.org/10.1016/j.simpa.2022.100268接收日期:2022年1月21日;接收日期:2022年2月17日;接受日期:2022年3月1日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsV.V. Grinev,M.M.Yatskou,V.V.Skakun等人软件影响12(2022)1002682图1.一、 在线工具(https://orfhunter.bsu.by/)的界面,实现ORFhunteR。这里使用了来自相应GitHub存储库的示例数据集在NCBI [3]中,基于从可能的候选物中选择最长的开放阅读框(ORF)例如,用于元基因组学分析的其他计算技术[4,5]提出了ORF候选物的序列特征的向量化,这是核苷酸序列到特征向量的有效转换。然而,这些算法方法具有若干限制。首先,它们不允许在呈现多个候选者的情况下在ORF之间做出合理的选择。其次,它们不为高通量分析管道和大型数据集提供自动计算工具。第三,它们在预测ORF时显示出低准确性,并且需要显著的计算能力。最后,它们缺乏与用于分析RNA分子的结构和功能特征的软件的集成在这里,我们提出了一种计算方法和它的实现,ORFhunteR-R所提出的方法是基于随机森林分类的核苷酸序列的矢量化我们的软件包还提供了已识别的ORF的自动注释此外,基于预先训练的模型的ORFhunteR的用户友好版本被实现为web应用(https://orfhunter.bsu.by/,Fig. ①的人。该方法在两个大型公共数据集(NCBI RefSeq,Ensembl)上进行了验证,并与包一起提供了预训练模型2. 方法所提出的用于自动识别真实ORF的计算方法集成了用于矢量化[6,7]和基于随机森林的分类[8]的算法。 我们的管道包括以下五个步骤:(i)构建一组参考ORF,(ii)将参考ORF向量化为序列特征,(iii)训练分类模型,(iv)鉴定一组mRNA分子中的真实ORF,以及(v,可选)注释鉴定的ORF(图11)。2a)。2.1. 特征提取:序列将核苷酸序列向量化为104个特征。前84个特征表示单、二和三核苷酸的频率。频率是通过标准算法计算的,R/Bioconductor包Biostrings。接下来,包括基于核苷酸相关因子的6个特征[7]。候选ORF的长度及其对数都被使用,以保持对短ORF和长ORF中的可变性的敏感性(2个特征)。 最后,类别-位置-频率(CPF)模型[6]的12个特征表示序列的基于局部频率的熵值(参见[9]中的方法)。矢量化是使用R/Bioconductor和CRAN包在C++和R编程语言中实现的。与纯R相比,这提供了显着的性能改进(带有Rpp包的C++将分析性能提高了近100倍)。2.2. 序列分类和ORF鉴定序列的分类通过来自R-packagerandomForest(500棵树)的经典随机森林来完成与此同时,它通过基尼指数评估了这些特征的重要性。发现数据分为75%的训练和25%的验证子集,后者用于估计分类器的准确性2.3. ORFhunteR管道使用分析管道包括几个主要步骤,每个步骤都有特定的功能(图1)。2b)。它首先从fasta加载序列、gtf-或gff-file使用loadTrExper 。在上传的转录本中,使用函数codonStartStop 和find-ORF 识别ORF 候选者。这些ORF候选者通过vectorizeORF结合基于C的函数getBaoclave和getCorrelationFactors被矢量化为序列特征。通过函数predictORF将候选ORF分为真ORF和伪ORF。如果需要,可以使用函数getSeqORF获得真实ORF的核苷酸序列。最后,可以通过函数annotateORF以及函数findPTC和findateORF(提供转录本ID、5'UTR的长度在这里,功能findPTC识别目标转录物中的提前终止密码子,而功能findORF将ORF翻译为蛋白质。V.V. Grinev,M.M.Yatskou,V.V.Skakun等人软件影响12(2022)1002683图二. ORFhunteR管道概述(a)和主要函数的依赖关系(b)。2.4. 数据和方法验证设置该方法被应用到两个大型数据集。发现数据集包括来自手动管理的NCBI RefSeq数据库的蛋白质编码基因的128161个良好注释的mRNA分子和4235个长非编码RNA(lncRNA)分子(发布109,人类基因组的GRCh38.p12参考组装)。收集mRNA分子中高度可信的真实ORF的坐标和提取的序列,总共得到113085条记录。此外,我们计算了坐标,并从lncRNA分子中提取了108800个伪ORF序列。与真正的ORF类似,假ORF以ATG起始密码子开始,并以终止密码子之一结束,但不翻译成蛋白质。将这两组ORF组合成真ORF和假ORF的单个良好平衡的参考或训练组(不平衡指数为1.04),并用于随机森林分类以构建训练模型,以进一步应用于在发现和测试数据集中的ORF识别。作为测试数据集,使用 来 自 Ensembl 的 mRNA 和 lncRNA 序 列 ( 版 本 97 , 人 类 基 因 组 的GRCh38.p12参考组装)。为了避免人为因素,我们排除了:(i)线粒体转录物,(ii)5'不完全转录物,含有典型终止密码子但在序列内缺少起始密码子,(iii)3'不完全转录物,含有典型起始密码子ATG但在序列内缺少终止密码子,(iv)5'和3'不完全转录物,在序列内缺少起始和终止密码子,(V)和具有非规范起始密码子CTG、GTG或TTG的转录物。我们将过滤的Ensembl mRNA(总共56765个记录)和lncRNA(总共74980个记录)组合成RNA分子的单个测试集。3. 确认结果我们首先将该方法应用于发现数据集(NCBI RefSeq),其中在有效数据集上检测真实ORF的准确性为:图三. 在不同的人RNA分子中鉴定假ORF和真ORF的概率值分布。(a)在蛋白质编码mRNA和各种非编码RNA中鉴定的ORF的经验累积频率分布(ECDF)值。(b)在由lncRNA基因编码的mRNA和lncRNA中鉴定的ORF的概率值的频率。(c)箱形图显示了在mRNA和lncRNA不同基因生物型中鉴定的ORF的概率值分布。4. 潜在和现有影响我们的软件包自动检测开放阅读框在人类mRNA分子的大集合具有高精度。它提供一种系统化、自动化和高通量的测序数据分析方法。此外,它自动注释识别的开放阅读框。这些属性将我们的工具与其他解决方案区分开来。我们的软件适用于解决与癌症基因组畸变相关的基本任务,如最近在高影响力期刊中报道的那样[10它还可以应用于更实际的任务:人类疾病的鉴别诊断和疾病进展和临床结果的预测模型的开发。该工具的另一项资产与其对个性化医疗相关研究5. 局限性和未来发展ORFhunteR软件包有几个局限性:它依赖于第三方R库,初始化速度慢,对大型数据文件的处理效果不佳。还应实现模型文件的自动更新。这些缺点将通过构建专门的C/C++库,优化处理大数据的代码[13]以及实现预测的自动更新阳性率达98.3%。我们确定了一些CPF(CPSS,CPMK,CPKK,模型 在 的 未来, 我们 是 规划 到 实施分类识别从替代起始开始的开放阅读框的模型参见[6])和长度作为确定ORF的最重要特征。为了防止过度拟合,我们在独立的Ensembl RNA数据上测试了训练模型。在该数据集上,该方法可以以94.9%的准确率识别真正的ORF。 事实上,在Ensembl人类mRNA分子中鉴定的91.9%的ORF显示出0.9或更高的编码概率。同时,来自各种lncRNA的ORF的概率值(编码ORF)强烈不同(图1B)。3)。所有的mRNA都被正确分类,而只有一小部分lncRNA可能由于进化引起的结构相似性而被错误分类。密 码 子 CTG 、 GTG 和 TTG 。 此 外 , 计 划 基 于 NCBI RefSeq 和 En-sembl/GENCODE数据库的混合数据开发预测模型。此外,注释清单将大大扩展。6. 结论开发了识别mRNA分子中未知ORF的有效计算方法,并将其集成到相应的R/Bioconductor包ORFhunteR中。 它基于ORF候选序列特征的矢量化,V.V. Grinev,M.M.Yatskou,V.V.Skakun等人软件影响12(2022)1002684通过随机森林分类器预测最明显的我们的数值测试结果在验证和验证数据集上最后,值得一提的是,与竞争性的现代策略相比,开发的方法有三个优势[4,14]:(i) 它需要更少的计算资源,工作速度比神经网络快得多;(ii)它不太容易过拟合,并使用有限的一组矢量化特征(与利用数千个特征的统计方法不同);(iii)与深度学习或提升模型相比,竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢VVG、MMY、VVS和MKC得到白俄罗斯共和国教育部的支持,授予GPSR“Convergenciya-2020”N3.08.3(注册号20190531)。PVN和MKC得到卢森堡国家研究基金(C17/BM/ 11664971/DEMICS)的支持。引用[1]急诊室Mardis,DNA测序技术:2006-2016,国家方案。 12(2)(2017)213-218。[2]J.A. Spacek,M.P. Snyder,High-throughput sequencing technologies,Mol. Cell58(4)(2015)586-597.[3]E.W. Sayers等人, 国家生物技术信息中心数据库资源,核酸研究47(D1)(2019)D23-D28。[4]A. Al-Ajlan,A. El Allali,CNN-MGP:用于宏基因组学基因预测的卷积神经网络,Interpropherp。Sci. 11(4)(2019)628[5]K.J. Hoff等 人 , 宏 基 因 组 片 段 中 的 基 因 预 测 : 大 规 模 机 器 学 习 方 法 , BMCBioinformatics 9(2008)217。[6] 鲍 河 Yuan 、 Z. Bao , DNA 序 列 相 似 性 度 量 的 改 进 的 无 干 扰 模 型 , BMCBioinformatics 15(2014)321。[7]R. Mao等人,使用随机森林和支持向量机对拟南芥中的保留内含子和组成型剪接内含子进行比较分析,PLoS One 9(8)(2014)e104049。[8]L. 布莱曼,随机森林,马赫。学习. 45(1)(2001)第5[9]V.V. Grinev 等 人 , ORFhunteR : an accurate approach for the automaticidentificationand annotation of open reading frames in human mRNA molecules,2021,bioRxiv.[10] A. Radzisheuskaya等人,KAT8的复合物依赖性组蛋白乙酰转移酶活性决定其在转录和细胞稳态中的作用,Mol.细胞81(8)(2021)1749[11] V.V.Grinev 等 人 , RUNX1/RUNX1T1mediatesalternativesplicingandreorganisesthe transcriptional landscape in leukemia,Nature Commun. 12(1)(2021)520.[12] R. Tirtakusuma等人,表观遗传调节基因指导谱系转换MLL/AF 4白血病起源的多能祖细胞的命运,2021,bioRxiv。[13] M.M. Yatskou,V.V. Apanasovich,使用模拟建模和数据挖掘算法处理荧光衰减动力学曲线的计算平台FluorSimStudio,J. Appl. Spectrosc. 88(3)(2021)571[14] J.Wen等人, 基于k-ε的lncRNA和mRNA分类模型mers和卷积神经网络,BMC Bioinformatics 20(1)(2019)469。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功