JCAST：基于质谱的蛋白质组学实验的样品特异性蛋白质异构体数据库

82 浏览量更新于2024-01-25 收藏 548KB PDF 举报

蛋白质数据库

代码版本控制

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响10（2021）100163原始软件出版物JCAST：用于基于质谱的蛋白质组学实验的样品特异性蛋白质异构体数据库R.W. Ludwig，Edward Lau刘德华美国科罗拉多大学医学院纤维化研究翻译联盟医学系自动清洁装置保留字：Proteomics质谱RNA测序选择性剪接蛋白质异构体蛋白质型蛋白质基因组学A B标准JCAST是一个开源的Python软件工具，允许用户轻松创建用于蛋白质基因组学应用的自定义蛋白质序列数据库。JCAST将含有可变剪接点的RNA测序数据作为输入，对特定样品中可能的可翻译蛋白质亚型序列进行建模，使用注释的开放阅读框进行计算机翻译，并以FASTA格式输出样品特异性蛋白质序列数据库，以支持蛋白质亚型的下游质谱数据分析。本文描述了JCAST软件的功能和用法，并记录了一个供用户访问的稳定代码存储库代码元数据当前代码版本v.0.3.3此代码版本所用代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-131可复制胶囊的永久链接https://codeocean.com/capsule/6293191/tree/v1法律代码许可证MIT代码版本控制系统使用git软件代码语言使用Python编译要求，操作环境依赖biopython，gtfparse，pandas，requests，tqdm，scipy，scikit-learn，matplotlib，石榴如果可用，链接到开发人员文档/手册https://github.com/ed-lau/jcast问题支持电子邮件edward. cuanschutz.edu1. 导言（背景和问题）生物医学研究中的一项常见任务是确定样品中蛋白质种类的丰度，从中可以发现蛋白质水平与生理状态之间的具有不同氨基酸序列的多种其方式不同于含有组成型剪接外显子的原始典型基因产物。基于质谱的蛋白质组学通常用于大规模地鉴定和定量蛋白质，但是部分由于信息学的挑战，非典型蛋白质同种型的发现目前仍然具有挑战性分析质谱数据的典型计算工作流程涉及使用数据库搜索引擎将获得的实验光谱与从已知蛋白质序列的编译生成的理论光谱进行匹配。已知的蛋白质序列通常从序列数据库中检索，包括UniProt [1]和RefSeq[2]。由于不完整的注释，这些数据库通常仅包含样品中所有真实蛋白质同种型序列的子集，导致本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。*通讯作者。电子邮件地址：edward. cuanschutz.edu（E. Lau）。https://doi.org/10.1016/j.simpa.2021.100163接收日期：2021年10月5日;接收日期：2021年10月22日;接受日期：2021年10月24日2665-9638/©2021作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsR.W. Ludwig和E. 刘软件影响10（2021）1001632未识别遗漏的同种型序列。这个问题在具有特定时空表达模式（仅出现在特定组织或细胞状态中）的蛋白质同种型和注释不佳的非人类生物体中进一步加剧，从而对在生理和疾病环境中表征蛋白质同种型功能形成显著障碍。蛋白质基因组学方法试图通过创建样品特异性蛋白质序列数据库来克服这个问题，例如通过将样品特异性转录组从RNA测序数据计算机翻译成定制蛋白质序列。这已经成为在蛋白质水平上鉴定非典型基因产物的替代解决方案。然而，尽管取得了进展，但产生样品特异性蛋白质异构体数据库的挑战仍然存在。并非所有的同种型转录物都携带相等的蛋白质编码潜力，因此，需要识别和优先考虑更有可能产生稳定蛋白质的同种型。翻译的数据库还可以包含物理上不存在于特定样品中的序列，在某些情况下，过大的数据库可能会夸大假阳性鉴定。JCAST为基础和临床研究人员提供了一个软件工具通过允许在用于质谱数据分析的样品特异性蛋白质序列数据库中容易地创建蛋白质同种型序列来支持蛋白质同种型鉴定任务。JCAST实现了若干方法上的进步，例如：(i)JCAST实施混合物模型来预测来自剪接点读段分布的可翻译同种型转录物;（ii）JCAST严格避免过早终止密码子以减小数据库大小;以及（iii）JCAST通过基于框架和与全长规范序列的比对的置信度层对输出序列进行分类。2. 功能和使用概述JCAST v.0.3.3作为开源Python模块提供，可以直接在GitHub或通过pip从PyPI获取JCAST可以在命令行中独立运行。JCAST的基本架构如图所示。1.一、主要功能- 它以FASTA格式输出定制的蛋白质同种型序列，需要三个输入。第一种是样本特异性RNA测序数据，通过上游比对和连接计数管道进行预处理，该管道由现有的第三方工具STAR [3]和随后的rMATS [4]组成。第二个输入是来自Ensembl或GENCODE的基因组注释gtf文件，其包含开放阅读框信息，包括转录本翻译开始、结束和阶段。基因组FASTA文件中的第三个输入，用于将外显子坐标与遗传序列相匹配。JCAST v.0.3.3采用以下选项：指定输出文件夹的路径;该标志控制JCAST是否输出规范序列，即使备选剪接点不转换;指定要考虑转换的连接的最小跳过连接读取计数总和[默认值：1]，并且可以由-m标志覆盖（见下文）;指定FDR的下限和上限范围-两个生物重复之间的调整P值，用于考虑转换的连接[默认值：0 1]。自第一个版本以来， JCAST 最近进行了几次改进，包括改进了与GENCODE gtf文件的兼容性，更详细的日志记录，以及直接在Pythonmod中实现读取计数模型穿过国旗。如果设置，该模型将取代先前用户定义的最小读取计数值，这些值必须手动识别每个数据集。JCAST首先读取RNA-seq数据，并找到属于五种rMATS选择性剪接类型之一的然后它执行基于连接点的过滤、，和/或选项. JCAST对跳过的连接的总和应用幂变换Fig. 1. JCAST的功能和用法。JCAST接收RNA测序数据、基因组注释和基因组序列，并输出定制的蛋白质序列数据库。所有生物和技术复制品中剪接事件的读段计数。然后，它拟合伽马/高斯双组分混合模型，以确定要预测为属于高读段、可能可翻译的同种型转录物群体的连接的最小读段计数（图1B）。2）的情况。每一个合格的连接都表示为上游外显子、替代外显子和下游外显子的一个片段。这里，切片是对应于一个或多个可变剪接点的部分DNA或蛋白质序列，其可以组合以恢复透视同种型序列。通过GTF文件中的翻译开始和结束来修剪连接，并且检索来自上游外显子的翻译相。然后，JCAST读取内存中的基因组文件并检索核苷酸序列，并使用检索到的相位进行计算机翻译。JCAST执行单帧翻译，并将所有从剪接点翻译的非规范序列分组为单独FASTA输出文件中的四个置信层。第1层连接点根据注释帧在帧内平移，不会导致移码或提前终止密码子。根据注释的翻译框架，第2层连接在框架中翻译，并且不遇到前置终止密码子，但是遇到了可能的移码（替代切片中的长度差异不是3的倍数）。第3层连接在检索的翻译框下遇到提前终止密码子，但可以完全翻译而不遇到另一个框中最后，在任何阅读框中，第4层连接在两个交替连接切片中的至少一个中遇到如果可以使用三个帧中的一个将它们翻译成至少与成功翻译的切片（默认）0.33，可以改变。提供第4层低置信度序列供参考，但应从数据库检索中排除或谨慎解释对于每个置信层，JCAST进一步尝试通过连接翻译的切片并判断它们与数据库中的规范序列的序列比对质量来恢复假设的全长交替切片的蛋白质序列。为此，JCAST使根据需要调用UniProt Web API，并在本地缓存任何检索到的规范序列。注意，由于短读段测序的性质，连接的序列可能代表或可能不代表生物学全长蛋白质同种型，因为实际的同种型可能含有多个同源异构体。R.W. Ludwig和E. 刘软件影响10（2021）1001633图二. 结数模型。大多数选择性剪接异构体转录物可能是未翻译的。JCAST假设高丰度转录物群体在质谱实验中更可能是可翻译的或可检测的，并使用伽马/高斯混合模型来自动选择用于翻译的读段计数阈值。显示了ENCODE人类（a）睾丸和（b）肺数据集的最佳拟合模型选择性剪接位点或选择性翻译开始和结束于结合。不与规范蛋白质比对的序列被指定为孤儿序列并输出到单独的文件。总共创建多达9个FASTA文件（T1-T4全长蛋白、T1-T4孤儿蛋白和与UniProt SwissProt条目相同的规范序列）。输出的FASTA文件可以组合使用或单独用于下游分析。蛋白质序列数据库与通常用于分析基于质谱的蛋白质组学实验以鉴定蛋白质的主要数据库搜索算法兼容，例如Comet [5]、MSFragger[6]和MaxQuant [7]。JCAST目前有几个限制。它不模拟新的开放阅读框（ORF）或含有编码单核苷酸/氨基酸变体（SNV/SAAV）的转录本。其他现有的软件工具解决了这些用途其次，JCAST目前仅限于短读段测序数据，因此全长转录物同种型未明确建模。第三，需要连接到UniProt以检索规范序列。3. 影响概述一些软件工具和软件包允许翻译自定义蛋白质数据库，包括ProteomeGenerator [8]，customProDB [9]和Galaxy-P [10]。这些现有的工具主要集中在翻译不同于参考基因组的单个氨基酸变体或寻找新的开放阅读框。JCAST通过提供靶向选择性剪接衍生的同种型序列的工具而区别于它还强制执行单框翻译和提前终止密码子避免，以避免可能导致假阳性蛋白质鉴定的数据库大小膨胀自其发布以来，JCAST已被我们和其他人用于检查替代剪接衍生蛋白质同种型的生物学。我们的团队和合作者应用了JCAST支持的实验工作流程来检查蛋白质亚型丰度的变化，将人诱导多能干细胞（hiPSC）分化为心肌细胞[11]，以及进行潜在的可变剪接产物的计算机翻译，以开发靶向质谱测定[12]。JCAST已被其他研究人员用于分析预测的可翻译异构体的序列特征。Kelly等人分析了hiPSC衍生的心肌细胞转录组中的亚型，发现了数千个推定的N-糖基化位点，这些位点可能在典型亚型和替代亚型之间获得、丢失或转移，这表明替代剪接的潜在生物学功能可能是调节发育和疾病期间N-糖基化底物的可用性[13]。JCAST通过剪接点读取计数判定蛋白质亚型可检测性的逻辑也已被其他小组成功采用和引用[14]。4. 结论蛋白质基因组学是一个发展中的领域，其中创建定制的、样品特异性蛋白质序列数据库以询问新颖的或非典型蛋白质基因产物。JCAST结合了几个当代概念来创建定制的序列数据库，包括通过RNA-seq连接读取计数对蛋白质同种型的可能可检测性进行建模，以及对翻译框架和预终止密码子的约束。该软件和工作流程与选择性剪接感兴趣的任何组织或生物体中的短读RNA测序和蛋白质组学数据兼容。正在进行的工作目标R.W. Ludwig和E. 刘软件影响10（2021）1001634结合长读序测序和核糖体足迹分析的联合建模，以提高数据库的准确性。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢这项工作得到了NHLBI奖R 00-HL 144829和NIH主任办公室奖R03-OD 032666的部分支持，和科罗拉多大学纤维化研究和转化联盟（CFReT）资助。引用[1]UniProtConsortium ， UniProt ： Theuniversalproteinknowledgebasein（2021），Nucleic Acids Res. 49（2021）D480-D489。[2] N.A. O'Leary等人，NCBI的参考序列（RefSeq）数据库：当前状态、分类学扩展和功能注释，核酸研究44（2016）D 733 -745。[3] A. Dobin 等人， STAR ： Ultrafast universal RNA-seq aligner ， Bioinforma.Oxf.E n g l . 29（2013）15-21。[4] S. Shen等人，rMATS：从重复RNA-seq数据中稳健而灵活地检测差异可变剪接，Proc.Natl. Acad. Sci. USA 111（2014）E5593-5601。[5] J.K. Eng等人，更深入地研究彗星的实现和功能，J。Soc.质谱仪（2015）1865-1874。[6] A.T. Kong，F.V. Leprevost，D.M. Avtonomov，D. Mellacheruvu，A.I. Nesvizh-skii ， MSFragger ： Ultrafastandcomprehensivepeptideidentificationinmassspectrometry based proteomics，Nature Methods 14（2017）513-520.[7] S. Tyanova，T. Temu，J. Cox，基于质谱的鸟枪蛋白质组学的MaxQuant计算平台，Nat. 协议11（2016）2301[8] P.Cifani 等人， ProteomeGenerator ： Aframeworkforcomprehensiveproteomicsbased on de novo transcriptome assembly and high-accuracy peptidemassspectrummatching，J. 蛋白质组研究17（2018）3681[9] X.王湾，澳-地Zhang，customProDB：一个R软件包，用于从RNA-seq数据生成定制的蛋白质数据库，用于蛋白质组学搜索，Bioinforma。牛津英语29（2013）3235-3237。[10] 通用汽车Sheynkman等人，使用Galaxy-P利用RNA-Seq进行发现新的蛋白质变异，BMC Genomics 15（2014）703。[11]E. Lau等人，人类蛋白质组中替代亚型的基于剪接连接的映射， Cell Rep. 29（2019）3751-3765.e5。[12] Y. Han等人，计算辅助靶向蛋白质组学的选择性剪接蛋白异构体在人类心脏，J。摩尔Cell. Cardiol. 154（2021）92[13] M.I. Kelly等人，评估多能干细胞衍生的心肌细胞中蛋白质糖基化对研究和临床应用的重要性，PflugersArch.473（2021）1041-1059。[14] B. Salovska等人，mRNA丰度调节和蛋白质水平降解之间的异构体分辨相关性分析，Mol. 16（2020）e9170。

下载后可阅读完整内容，剩余1页未读，立即下载