PeptideMind-鸟枪蛋白质组学数据重复质量评估算法

19 浏览量更新于2024-01-25 收藏 897KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件X 13（2021）100644原始软件出版物PeptideMind -应用机器学习算法评估鸟枪蛋白质组学数据的重复质量大卫·C·L·Paul A.海恩斯麦考瑞大学分子科学系，悉尼，新南威尔士州2109，澳大利亚ar t i cl e i nf o文章历史记录：收到2020年2020年12月1日收到修订版2020年12月4日接受关键词：分类数据质量数据验证错误发现Kotlin无标记鸟枪蛋白质组学机器学习蛋白质定量光谱计数统计a b st ra ct重复质量的评估是任何鸟枪蛋白质组学实验的重要过程。蛋白质组学数据分析中的一个基本问题是，在一个集合中是否有任何特定的复制的分析偏置下游比较定量。在本文中，我们提出了一个实验方法来解决这样的问题。PeptideMind使用一系列聚类机器学习算法，在比较来自两个州的蛋白质组学数据时评估离群值，每个州有六个重复。该程序是一个用Kotlin语言编写的JVM原生应用程序，使用Python子进程调用scikit-learn。通过将提供的六个数据重复排列成四百个三重非冗余成对比较，PeptideMind确定是否有任何一个重复偏倚下游状态的定量。此外，PeptideMind还生成了重要性度量传播的有用视觉表示，使研究人员能够快速有效地监测那些在样品状态之间差异表达的已识别蛋白质的©2020作者由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本V1.0.1指向此代码版本所用代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-20-00024Code Ocean compute capsuleN/A法律代码许可证MIT使用git的代码版本控制系统使用Kotlin、Gradle、Python的软件代码语言、工具和服务编译要求，操作环境依赖Gradle，python包列在requirements.txt如果可用，链接到开发人员文档/手册www.bitbucket.org/peptidewitch/peptidemind问题支持电子邮件david. students.mq.edu.au1. 动机和意义蛋白质组学是对生物系统中表达的蛋白质的大规模研究，研究人员对支撑细胞过程的生物网络此外，还有一个大型的数据科学组件，在下游分析之前，来自质谱仪的原始数据必须与已知的蛋白质和肽序列相匹配。理解蛋白质组学实验的所有要求可能是一个挑战;其中一个挑战是确保电子邮件收件人：部的分子科学，麦考瑞大学，北莱德，新南威尔士州2109，澳大利亚。电子邮件地址：paul. mq.edu.au（Paul A. Haynes）。https://doi.org/10.1016/j.softx.2020.100644从测试状态之间的蛋白质表达的定量比较中提取的生物信息。例如，如果我们有一种新的合成药物给药的癌细胞系，我们如何能有效地说，从我们处理的细胞状态产生的蛋白质表达谱不同于我们对照细胞状态的蛋白质表达谱？有几个因素需要考虑，包括实验设计，蛋白质的鉴定过程，以及这两种状态之间蛋白质的定量。生物学验证的下游形式受到了很大关注，例如蛋白质印迹法（使用抗体显示特定蛋白质之间的定性差异）和平行反应监测（基于正交靶向质谱法的方法），作为确认状态之间蛋白质表达增加或减少的手段[1]。然而，从应用更多2352-7110/©2020作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softx大卫·C·L· 和Paul A. 海恩斯软件X 13（2021）1006442在实验室后续实验之前使用一套严格的统计或分析工具。正如Kall及其同事在他们关于Percolator软件的开创性论文中所描述的那样，应用智能方法来区分优质数据和劣质数据可以大大提高数据集的质量，这可以澄清使用有问题的数据进行的任何下游定量在过去的二十年里，研究人员利用机器学习算法（MLAs）的力量来协助鸟枪蛋白质组学数据分析。分类算法是从状态比较实验中确定生物标志物身份的天然适合[3]，而支持向量机已被以半训练的方式用于帮助确定肽与光谱匹配中的错误发现[2]。机器学习算法也已用于帮助肽与光谱匹配，例如在决策树的应用中利用离子断裂模式进行肽鉴定[4]。最近，随着通过Python软件包（如Python的scikit-learn）更容易实现MLAs当涉及到它们的应用时，MLAs绝不是一个银弹，允许研究人员专门针对关键的见解。并不是每个问题都可以通过支持向量机或广义线性模型来解决，也不是每个数据集都适合，例如，EST分类。有时候一个简单的决策树就足够了。还有训练样本大小的考虑-经常引用的格言因此，Shotgun蛋白质组学数据集是一个有趣的数据集，因为与转录组学和基因组学相比，它们的大小相对较小，并且它们相对于噪声水平或垃圾数据的有价值生物信息的比例也很小。与二元情感/自然语言分析（如仅通过单词选择来理解电影评论是正面还是负面）或定性分类（如电影评级）不同，蛋白质组学数据是噪声和重叠信号的混合物。对两个状态的六次重复的深度学习方法可能无法提供对这两个状态之间的关系的清晰洞察，而更简单的基于分类器的方法可能提供关于所进行的比较的质量的洞察。在这份报告中，我们介绍了 PeptideMind ，这是一个Kotlin/Python混合程序，它利用一组分类器MLA来分析从蛋白质组肽到光谱匹配搜索引擎输出的重复质量。根据我们实验室团队开发的相同PeptideMind过程的输出是一系列图形，通过这些图形，研究人员可以评估整体重复质量并检查离群值，以及专注于感兴趣的特定蛋白质鉴定并分析表达水平差异的传播，从而帮助研究人员提供可靠的统计验证措施。2. 软件描述PeptideMind有两个组件。第一个是Kotlin/Java环境，可以通过使用存储库中包含使用开发环境（如Jetbrain的IntelliJ）应该自动处理安装无论如何，Gradle都是强制性的。第二、PeptideMind 需要在用户系统上安装 python 版本。目前，PeptideMind默认为安装在Path上的特定Python版本（未来的更新将允许用户指向虚拟环境，如pipenv）。这个python环境应该从PeptideMind源目录中的requirements.txt文件安装包该软件由一个由TornadoFX制作的GUI页面组成，如图所示。1.一、用户按照从页面左侧到右侧的控制流，选择以下元素：1. 控件状态数据2. 治疗状态数据3. 肽的类型与使用的搜索引擎进行光谱匹配4. 用于分析的MLA类型（必须至少选择1个）5. 对整个数据集进行分析的范围6. 是否应靶向任何感兴趣的蛋白质。如果用户输入特定的文本标识符（格式相同作为其PSM引擎，从步骤3）得到的分析将仅集中于这些标识符而排除所有其它标识符。7. 输出数据的文件夹位置，以及8. 一个结果输出将包含在步骤7中指定的文件夹中。用户必须将其对照和治疗状态数据分离到单独的文件夹中，并根据以下结构命名其复制品：%name-R%replicate_number。例如，他汀类药物R1、他汀类药物R2等用于对照状态。两个州必须各有六个重复。PeptideMind输出四大类结果。1. 一系列excel文件，包含两个州所有六次重复测定中发现的常见蛋白质2. 每个公共ID的隔离森林沿着X和Y轴显示3. 多标签偏差图，其中每个重复样本相对于中间线值0.5显示。该图旨在让用户一目了然地了解哪些复制在哪些状态下有助于显著蛋白质的上调或下调。4. 一个“超级隔离”森林，包括沿着所有四百种组合的蛋白质显著性测量的聚集分布。下面将更深入地解释PeptideMind的过程以及它如何达到最终结果结果类别1：.csv输出PeptideMind从蛋白质组学肽到光谱匹配搜索引擎的两组六元组结果开始，目前包括 Proteome Discoverer [10] ， MetaMorpheus [11]和X！Tandem [12].广义上讲，PeptideMind程序的目的是产生重复间变异性的内部测量，并显示蛋白质表达水平方差的分布，以供用户确定后续差异分析是否为了实现这一目标，该程序首先将对照的六个重复和处理状态的六个重复分类到子实验中进行分析，如图11所示。二、一对各有六个重复的状态可以分成两组，每组三个，分为四百个非冗余对。这两组三乘三的比较各自构成了自己的分析。这种成对组合经历了一轮大卫·C·L· 和Paul A. 海恩斯软件X 13（2021）1006443图1.一、允许与PeptideMind软件交互的图形用户界面。在进行两种不同类型的学生T检验之前，通过最小光谱计数[13，14]进行数据过滤-一种基于每种蛋白质的光谱计数，另一种基于自然对数NSAF值。记录被认为显著差异表达的任何蛋白质标识符然后，通过在状态1和状态2之间重排成对的三元组的新组合来重复该分析。接下来，产生所有四百个三联体比较共有的蛋白质列表，并且将来自两种类型的T检验的显著性值与蛋白质标识符匹配。然后，我们将这些数据视为机器学习算法的训练集。来自此过程的数据存储在.csv输出中，供用户根据自己的兴趣进行检查。结果类别2：各州接下来，来自400个测试的每个公共ID都要经过单独的隔离森林算法。将学生对lnNSAF和光谱计数数据的T检验结果绘制成二维图，背景颜色梯度编码对应于由隔离森林算法确定的数据内显著性结果的分布。所有400个测试组合的结果显示为黑点，而单个黄点对应于来自进行的原始6 × 6重复测试的蛋白质的显著性测量。这可以作为结果的锚点：大多数研究人员只能看到这一单一的显著性度量，但现在，我们有了一种直观和视觉信息的方式来确定显著性度量结果类别3：重复对显著性指标贡献的多重MLA分析。重复间变异性的另一个有用的测量来自蛋白质标识符的盲分配，所述蛋白质标识符关于其来自重复值的相应分化水平，所述重复值由用户在先前描述的工作流程的步骤4结果显示为直方图，其指示每个重复对状态之间共享的所有蛋白质标识符的定量差异的相对每个数据点是从所选MLA中找到的平均值。机器学习共识网络在这里实现的是将蛋白质标识符盲分配给复制品，从而允许研究人员查看是否有任何一个特定的复制品始终为差异分析贡献更多的权重。3. 说明性实例为了提供说明性的例子，我们分析了我们实验室正在进行的两项研究的数据。第一项研究涉及Eucalytpus grandis叶组织的蛋白质组学分析，其中6个重复对应于年轻健康叶组织，6个重复来自衰老叶组织。蛋白质组数据是由我们-在X！肽谱匹配的串联算法。第二项研究涉及命名为CCC和CCB的两种不同实验室酵母菌株的蛋白质组学分析，使用Meta Morpheus算法进行肽谱匹配获得蛋白质组学数据。由程序为每个共享蛋白质标识符生成的数据的单独隔离森林如图所示。3对于来自桉树实验的两种选择的蛋白质：K1 C9是由于样品处理污染而以可变水平存在的人角蛋白; XP_010027978.1是丝氨酸羟甲基转移酶代谢蛋白。图图3a蛋白质ID显著性显示K1C9蛋白质在不同比较中结果的广泛分布，而图3b显示K1C9蛋白质在不同比较中结果的广泛分布。图3b显示了代谢蛋白的蛋白质ID显著性的非常紧密相关的扩展。这可以被看作是一种统计验证的形式;如果感兴趣的蛋白质ID显示出类似于图1的显著性分布。 3B，而不是图。3a，那么我们可以有信心地说，这个结果更有可能是显著的，并且受重复间噪声的影响更小。尽管图中突出显示的蛋白质。 3b在标题中包括术语“预测”，这似乎是由于E. Grandis是最近完成的，其蛋白质功能基于与其他物种中已知蛋白质的相似性，并被注释为“预测”。我们用PeptideMind检查了许多已发表和未发表的数据集，没有观察到对预测或假设蛋白质的偏见。图4显示了平均输出值对于桉树数据集和酵母数据集，从所选MLA中找到。图4a，对于桉树数据，重复之间存在明显的显著变化。在来自幼叶组织（重复R1-R6）的数据中，重复1和4对差异调节的蛋白质标识符的贡献相对较小，而重复2和6被过度代表。在来自老叶组织的数据中（重复R7至R12），重复8比复制品10和12对蛋白质分化贡献更大的权重。特别是重复4，可能不是真正大卫·C·L· 和Paul A. 海恩斯软件X 13（2021）1006444图二、说明P e p t i d e M i n d 采用的复制品置换处理的示意图。图三. PeptideMind为两种选定的蛋白质生成的森林，这些蛋白质来自一项比较年轻和年老桉树叶片蛋白质组的实验。（一）K1C9，一种以可变水平存在的人角蛋白，（B）XP_010027978.1，一种丝氨酸羟甲基转移酶代谢蛋白。考虑到观察到的相对差异，这是蛋白质组状态的代表。相比之下，图中所示的直方图。酵母数据的4b表明所有12个重复都是内部一致的，并且所有重复都相对相等地贡献了所观察到的蛋白质表达差异。直方图中的红色虚线表示理想结果- 如果我们假设在实验过程中所有的重复样品都具有相同的分析重量，那么每个重复样品都应该落在虚线上，并且对于400个三重组合中的每一个都报告相同的结果事实上并非如此，因为一些重复相对于其状态队列具有更高数量的特定蛋白质。这个图表是我们的结果有多偏差的一个直观指标，就其对蛋白质显著性差异的贡献而言，哪些重复是过度或不足的更均匀的直方图表示高质量的重复和低水平的可变噪声，而更清晰的城市天际线的直方图可能表示数据再现性4. 影响PeptideMind通过突出显示整个系统中每个蛋白质标识符和每个重复样品的方差分布，为用户提供了关于其下游定量曲线有效性蛋白质组学家一眼就能看出他们的哪些重复（如果有的话）会影响下游结果。因此，我们认为Peptide-Mind是后续实验之前数据验证过程中有用的第一步。考虑来自图1B的XP_010027979.1代谢蛋白。 3 B. 如果额外的分析或实验确定该蛋白质在我们的系统中具有生物学意义相反，我们将考虑图1B中的K1C9蛋白。 3a显示了太多的差异，无法实际应用显著性的统计测量。在进行进一步的正交验证实验之前，依赖于这种蛋白质的生物学结论将被认为是目前，PeptideMind不打算作为正交蛋白质验证实验的替代品，例如Western blot。大卫·C·L· 和Paul A. 海恩斯软件X 13（2021）1006445见图4。从PeptideMind使用的MLA中找到的平均输出值的直方图。(A)来自比较年轻（复制品R1-R6）和年老（复制品R7-R12）桉树叶的蛋白质组的实验的数据印迹、平行反应监测或其它正交质谱实验。相反，PeptideMind应该作为蛋白质组学工具箱中的另一个工具，可以用来为结果提供额外的严格性，并证明其有效性。而不需要额外的实验。然而，设计这一计划的最大障碍是要求两个州各有六个副本。由于复制成本可能是沉重的负担，PeptideMind被推荐用于发现阶段的实验，其中组织可以相对便宜地获得。通过这样做，研究人员可以积累一组由PeptideMind备份的可靠数据以及其他统计措施的司法使用，以缩小他们的蛋白质标识符列表，以供进一步分析。可以获得更多重复的领域的一个实例是在临床应用中，例如在癌症研究中的组织样品的蛋白质组学分析中。这种研究通常包含一种样本类型的数百个重复样本，并与类似数量的对照样本进行比较。在这种情况下，PeptideMind可以很容易地进行调整，将分析范围从6个重复扩大到n个重复，并且可以纳入进一步的数据处理步骤，例如数据横向和合并。大卫·C·L· 和Paul A. 海恩斯软件X 13（2021）1006446PeptideMind仍处于开发阶段，还有很大的改进空间。未来可能增加的内容包括：1. 当每个状态指定7、8、9或更多重复时，额外的置换潜力2. 纳入重复偏倚分析的其他MLA3. 整合Python虚拟环境以实现更清洁的代码生成4. 更好地实时反馈给用户，以更新程序已达到的阶段。我们希望PeptideMind可以作为未来实验和软件开发的灵感，这些实验和软件开发利用MLAs的排列能力，以便在蛋白质组学实验中更好地、更具体地分析差异表达的蛋白质。5. 结论在这份报告中，我们已经证明了PeptideMind软件的能力，为鸟枪蛋白质组学实验中的数据分析管道提供了一个有价值的统计验证工具。PeptideMind利用MLA的排列分析功能，能够生成简单而强大的图形指标，用户可以借此评估其重复的质量、差异表达谱和所得定量。在未来，我们希望扩展该平台的功能，以纳入进一步的改进和额外的功能。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作确认PAH感谢Mike De Iuliis的持续支持和鼓励。这项工作得到了澳大利亚麦考瑞大学和澳大利亚生物分子发现研究中心的支持引用[1]2006 年 10 月 20 日， J. D. ， Pascovici D ， Mirzaei M ， Gupta V ， SalekdehGH ，Haynes PA. 验证定量蛋白质组学数据的艺术。蛋白质组学2018;18（23）：e1800222。[2]Kall L，Canterbury JD，Weston J，Noble WS，MacCoss MJ.从鸟枪蛋白质组学数据集进行肽识别的半监督学习。NatMethods2007;4（11）：923-5.[3][10] 刘晓波，王晓波 . 用于预测蛋白质组学的机器学习方法。 BriefBiofinform2008;9（2）：119-28.[4]Elias JE，Gibbons FD，King OD，Roth FP，Gygi SP.通过串联质谱库的机器学习进行基于强度的蛋白质鉴定。Nat Biotechnol2004;22（2）：214-9.[5]Pedregosa F ， Varoquaux G， Gramfort A， Michel V， Thirion B， GriselO，et al. Scikit-learn：Machine learning in Python. J Mach Learn Res2011;12（Oct）：2825-30.[6]Batista GE，Prati RC，Monard MC.对平衡机器学习训练数据的几种方法的行为的研究。ACM SIGKDDExplorations Newslett2004;6（1）：20-9.[7]宾夕法尼亚州海恩斯，华盛顿特区。参考样品中重复间变异的实验衍生测量：相同-相同排列方法。2019，797217，bioRxiv.[8]Neilson KA ， Ali NA ， Muralidharan S ， Mirzaei M ， Mariani M ，Assadourian G ， et al. Less label ， more free ： approaches in label-freequantitative massspectrometry. Proteomics2011;11（4）：535-53.[9]张文辉，张文辉 .酿酒酵母细胞膜蛋白质组表达变化的统计分析。蛋白质组研究杂志2006;5（9）：2339-47.[10]Colaert N，Barsnes H，Vaudel M，Helsens K，Timmerman E，SickmannA ， etal. Thermo-msf-parser ： an open source Java library to parse andvisualizeThermoProteome Discoverer msf files. J Proteome Res 2011;10（8）：3840[11]Solntsev SK，Shortreed MR，Frey BL，Smith LM.用变形虫增强了对翻译后修饰的整体发现。J Proteome Res2018;17（5）：1844-51.[12]Craig R，Beavis RC. TANDEM：用串联质谱匹配蛋白质。生物信息学2004;20（9）：1466-7.[13]杨伟，刘伟. PeptideWitch-一个软件包，用于从无标记的鸟枪蛋白质组学数据中生成高严格度的蛋白质组学数据可视化。蛋白质组2020。[inpress].[14]Neilson KA，Keighley T，Pascovici D，Cooke B，Haynes PA.使用标准化光谱丰度因子的无标记定量鸟枪蛋白质组学。方法Mol Biol2013;1002：205-22。

下载后可阅读完整内容，剩余1页未读，立即下载